CN117876914A

CN117876914A - 一种基于视频提取特征以进行多目标筛查的方法及系统

Info

Publication number: CN117876914A
Application number: CN202310503026.7A
Authority: CN
Inventors: 刘雷; 喻为栋; 唐万
Original assignee: Shanghai Tenghe Intelligent Technology Co ltd
Current assignee: Shanghai Tenghe Intelligent Technology Co ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2024-04-12

Abstract

本发明提供一种基于视频提取特征以进行多目标筛查的方法为多目标异常筛查提供准确有效信息。包括步骤：S1、获取视频数据，对视频数据进行分帧处理以得到多张分帧图片；S2、对多张分帧图片进行人脸识别以得到各分帧图片对应的多个人脸边界范围，并在各人脸边界范围内进行特征提取以得到各人脸边界范围内所有人脸特征，并基于各人脸边界范围内的所有人脸特征计算得到各人脸边界范围内对应的人脸特征向量；S3、基于人脸特征向量之间的相似度判断人脸特征向量是否属于同一人，并将属于同一人的人脸特征向量对应的所有人脸特征归纳为一组特征组以得到若干特征组，并将多个特征组存储到筛查信息库；S4、基于筛查信息库对视频中的多个目标进行异常筛查。

Description

一种基于视频提取特征以进行多目标筛查的方法及系统

技术领域

本发明属于异常筛查技术领域，更具体地涉及一种基于视频提取特征以进行多目标筛查的方法及系统。

背景技术

在目前已知的近7000多种儿童罕见病种中，近50％儿童罕见病与特殊面容存在关联。通常脸部的特征又称面部表型，它包括约100多种，例如眼距过宽、低位耳、小下颌、蓝眼睛、眼睑异常、高鼻梁、张嘴、斜视、连眉等。通过检测面部表型，与罕见病数据库里的内容匹配，就可以为筛查罕见病提供辅助支持。

传统的面部异常筛查主要是选取一张包含待筛查者脸部的图片进行的，其过程包括人脸识别、定位、表型识别或者机器学习识别罕见病。大多待筛查者为儿童，儿童比较好动，他们的身体和面部姿态一般处于不断变动的状态，若是机器抓拍可能容易出现所得照片没有明显表现出特征，最终可能导致筛查结果出现错误；若是人工操作拍照，工作者需要进行大量重复繁杂的工作，存在工作效率低的问题。并且不同的拍摄角度也可能导致不同的筛查结果，若只选取单张照片作为检测样本存在偶然性。因此，有必要考虑通过患者的多张图片或者视频来进行分析，这可以有效提高检测的准确率以及工作效率。

实际场景中，往往因为大多待异常筛查者为儿童，他们年龄尚小无法独自完成图像采集需要家长陪同，或者因为等待区域的人数众多，可能出现正对在摄像机器，从而使得最后抓取的照片会出现无关人员。这些都容易造成捕捉到符合要求的动态目标的难度增加，若是手动确定每个目标，不但工作效率低，还可能出现因为人工的错误而引起的目标的错误锁定造成误差的情况。因此，有必要提出一种基于视频提取特征以进行多目标筛查的方法，为多目标的异常筛查提供更准确有效的信息。

发明内容

针对现有多目标筛查的方法存在工作效率低、目标定位不准确、目标信息不全面的问题，本发明提供一种基于视频提取特征以进行多目标筛查的方法，以达到高效、准确定位到目标，将无关人员筛除，为多目标的异常筛查提供更准确有效的信息的目的。

为了达到上述发明目的，本发明采用以下技术方案：

第一方面，本发明提供了一种基于视频提取特征以进行多目标筛查的方法，包括步骤：

S1、获取视频数据，对所述视频数据进行分帧处理以得到多张分帧图片；

S2、对所述多张分帧图片进行人脸识别以得到各分帧图片对应的多个人脸边界范围，并在各人脸边界范围内进行特征提取以得到各人脸边界范围内所有人脸特征，并基于所述各人脸边界范围内的所有人脸特征计算得到各人脸边界范围内对应的人脸特征向量；

S3、基于所述人脸特征向量之间的相似度判断所述人脸特征向量是否属于同一人，并将属于同一人的所述人脸特征向量对应的所有人脸特征归纳为一组特征组以得到若干特征组，并将所述若干特征组存储到筛查信息库；

S4、基于所述筛查信息库对视频中的多个目标进行异常筛查。

作为优选方案，步骤S2中，所述人脸特征包括人脸128维基本特征以及人脸几何特征。

作为优选方案，步骤S2中，所述人脸几何特征的获取方式为：选取人脸五官位置处相对应点位作为关键点位；获取所述关键点位之间的距离及角度信息，以作为所述人脸几何特征。

作为优选方案，所述人脸特征向量的计算方式如下：基于所述人脸128维基本特征计算得到基本特征向量，基于所述人脸几何特征计算得到几何特征向量；基于所述基本特征向量和几何特征向量计算得到所述人脸特征向量。

作为优选方案，步骤S3中基于所述人脸特征向量之间的余弦相似度判断所述人脸特征向量是否属于同一人。

作为优选方案，所述余弦相似度计算公式为：

其中，i表示参与相似度计算的一个人脸特征向量，j表示参与相似度计算的另一个人脸特征向量，sim(i,j)表示参与相似度计算的两个所述人脸特征的相似度，cos(i,j)表示参与相似度计算的两个所述人脸特征向量的余弦值，||i||表示人脸特征向量i的长度，||j||表示人脸特征向量j的长度。

第二方面，本发明还提供一种基于视频提取特征以进行多目标筛查的系统，包括依次连接的数据获取模块、特征提取模块、计算模块、判断模块、归纳模块、存储模块、筛查模块；

所述数据获取模块，用于获取视频数据，还用于对所述视频数据进行分帧处理以得到多张分帧图片；

所述特征提取模块，用于对所述多张分帧图片进行人脸识别以得到各分帧图片对应的多个人脸边界范围，并在各人脸边界范围内进行特征提取以得到各人脸边界范围内所有人脸特征；所述计算模块，用于基于所述各人脸边界范围内的所有人脸特征计算得到各人脸边界范围内对应的人脸特征向量；

所述判断模块，用于基于所述人脸特征向量之间的相似度判断所述人脸特征向量是否属于同一人；

所述归纳模块，用于将属于同一人的所述人脸特征向量对应的所有人脸特征归纳为一组特征组以得到若干特征组；

所述存储模块，用于将所述多个特征组存储到筛查信息库；

所述筛查模块，用于基于所述筛查信息库对视频中的多个目标进行异常筛查。

作为优选方案，所述特征提取模块，用于选取人脸五官位置处相对应点位作为关键点位，并获取所述关键点位之间的距离及角度信息，以作为所述人脸几何特征，还用于提取所述人脸128维基本特征。

作为优选方案，所述计算模块，基于所述人脸128维基本特征计算得到基本特征向量，还基于所述人脸几何特征计算得到几何特征向量，并基于所述基本特征向量和几何特征向量计算得到所述人脸特征向量。

作为优选方案，所述判断模块，基于所述人脸特征向量之间的余弦相似度判断所述人脸特征向量是否属于同一人。

本发明与现有技术相比，有益效果是：

本发明，以动态视频作为数据库源，叠加使用人脸的基本特征和几何特征作为筛查的特征范围，计算并叠加基本特征向量和几何特征向量得到人脸特征向量，通过比较人脸特征向量之间的相似度归纳属于同一人的人脸特征，最终输出一个包含多组特征用于异常筛查的信息库。

具体的，一方面，本发明通过视频数据获得多个连续时刻的图像，相比于常规的异常筛查只选取单张图片作为筛查信息源，减少了由于筛查样本数量太少产生的目标定位不准确、目标信息不全面的情况发生，得到的用于异常筛查的信息更全面更准确，有效避免了避免偶然性误差，从而有效提高了异常筛查的准确率。

具体的，另一方面，本发明通过叠加使用人脸的基本特征和几何特征作为筛查的特征范围，相比于常规的异常筛查只选用人脸128维的基本特征，几何特征是通过选取人脸五官位置处作为关键点位，并获取这些关键点位的距离和角度信息得到，减少了由于在目标定位时目标人物姿态或位置不同，使得脸部特征展示不完全，机器识别不清晰则可能会忽略这个信息的情况发生，这使得到的用于异常筛查的特征更丰富，这些特征更能体现异常者的特异性表型，用于异常筛查的信息更全面更准确，从而有效提高了异常筛查的准确率。

进一步地或者更细节的有益效果将在具体实施方式中结合具体实施例进行说明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述一种基于视频提取特征以进行多目标筛查的方法的流程图。

图2是本发明所述一种基于视频提取特征以进行多目标筛查的系统的示意图。

图3是本发明所述人脸128维基本特征的示意图。

图4是本发明所述余弦相似度计算原理。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在下述介绍中，提供了本申请的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

为了便于更好地理解本申请实施例，在对本申请的具体实施方式进行详细地解释说明之前，先对其应用场景予以说明。

实施例一：

如图1所示，本实施例提供了一种基于视频提取特征以进行多目标筛查的方法，包括步骤：S1、获取视频数据，对所述视频数据进行分帧处理以得到多张分帧图片；

具体的，本实施例提供的步骤S1通过OpenCV工具包对所述视频数据进行处理，需要说明的是，对于所述多张分帧图片中帧数特别大的进行必要的压缩。OpenCV(OpenSource Computer Vision Library)是一个广泛使用的计算机视觉库，它提供了大量的计算机视觉相关的算法和工具，方便开发者进行图像处理、计算机视觉和机器学习等方面的开发。

假设包含带筛查者的这段视频文件路径为TEST，这段视频文件的帧数X。OpenCV的工作步骤包括：第一步，通过路径定位到对应的视频文件并打开；第二步，获取视频的属性信息，属性信息包括帧数。具体通过如下函数进行：

VideoCapture()函数，此函数用于打开视频文件或摄像头，并返回一个video对象，video对象含有一些属性和方法，可以此函数用来获取和处理视频的信息。VideoCapture()中参数为TEST，表示打开的是包含待筛查者的视频；

video.get()函数，此函数用于获取视频的属性信息，比如帧数、宽度、高度、位置等。可以通过输入一个参数来指定要获取哪种属性信息，比如0表示视频文件的当前位置以毫秒为单位，3表示在视频流的帧的宽度等。video.get()中参数为X，表示读取这段视频的帧数。

具体的，本实施例提供的步骤S2通过MediaPipe捕捉人脸的大致范围即述人脸边界范围，所述人脸边界范围指一个框定了包含人脸的坐标范围，后续的特征提取都在这个框定好的坐标范围内进行。Mediapipe是一个跨平台的机器学习框架，可以用于构建基于媒体的应用程序。MediaPipe的人脸检测模块基于BlazeFace，BlazeFace是一个轻量级且性能良好的人脸检测器，可以进行人脸识别、姿势识别、手势识别、特征提取等。

MediaPipe的工作步骤包括：第一步，建立初始化人脸模型，用来执行人脸检测任务即步骤S2中所述人脸识别；第二步，读取视频帧并将其转化为RGB格式，RGB格式是一种颜色表示方法，它使用红色、绿色和蓝色这三种颜色的强度来表示任意颜色，将视频帧转换为RGB格式是为了让MediaPipe能够正确地处理图像数据；第三步，进行人脸检测，并获取人脸区域的图片即步骤S2中所述人脸边界范围。具体通过如下函数进行：

mediapipe.solutions.face_detection.FaceDetection()函数，此函数可以在实时的视频流中检测出多个人脸，并返回每个人脸的位置和6个关键点，即左右眼、左右耳、鼻尖和嘴巴中心；mp_face_detection.process(frame_rgb)函数，此函数用于对输入的图像帧进行人脸检测，它属于MediaPipe库的人脸检测解决方案。该函数接受一个RGB格式的图像帧作为输入，并返回一个包含检测到的人脸信息的对象。(frame_rgb)是一个RGB格式的图像帧，它可以是从摄像头或者视频文件中获取的。该函数会返回一个名为results的对象，它包含了一个名为detections的属性，这是一个列表，它存储了各人脸边界范围内的若干人脸信息。

具体的，本实施例提供的步骤S2的一种优选实施方式，所述人脸特征包括人脸128维基本特征以及人脸几何特征。

具体的，本实施例提供的步骤S2的一种优选实施方式，所述人脸几何特征的获取方式为：

选取人脸五官位置处相对应点位作为关键点位；获取所述关键点位之间的距离及角度信息，以作为所述人脸几何特征。

具体的，本实施例提供的步骤S2的一种优选实施方式，所述人脸特征向量的计算方式如下：

基于所述人脸128维基本特征计算得到基本特征向量，基于所述人脸几何特征计算得到几何特征向量；基于所述基本特征向量和几何特征向量计算得到所述人脸特征向量。

更具体的，上述三种优选实施方式中的人脸128维基本特征以及人脸几何特征通过Dlib工具包获得。Dlib是一一个C++开发的机器学习库，它包含了人脸识别、人脸检测等功能。Dlib的人脸识别模型可以用于提取人脸特征并比较相似度，该模型是基于ResNet-34网络实现，并使用了数百万张图片训练出来的，它提取的准确性有一定的保证，满足本实施例的需求。

更具体的，上述三种优选实施方式中的人脸128维基本特征如图3所示，通过Dlib工具包实现人脸定位，获取68个点位的信息处理得到12维的基本特征向量。

更具体的，上述三种优选实施方式中的人脸几何特征需要获取以下信息：眼距、眼睛的长度和高度、眼睛周围的周长、人中的高度、嘴巴的张开高度、嘴巴外围的周长，上嘴唇的高度、下嘴唇的高度、脸廓的长度、鼻尖与两眼间的距离等，以及眼睛的两端的倾角、两眼间的水平倾角、眉毛的水平倾角、鼻翼的倾角、嘴巴的张开角度等。将上述获得的所有的长度和角度进行归一处理后，最终得到30维的几何特征向量。

具体的，本实施例提供的步骤S3的一种优选实施方式，步骤S3中基于所述人脸特征向量之间的余弦相似度判断所述人脸特征向量是否属于同一人。

更具体的，上述优选实施方式的余弦相似度判断中还需要设置一个判断阈值，所述人

脸特征向量之间的相似度的差值小于上述判断阈值的认为两者是属于同一人。通过设置上述判断阈值，不仅可以判断人脸特征的归属人，而且可以排除在视频摄取过程中框定的人脸边界范围内有其他无关遮挡物对目标对象遮挡的影响。通过上述判断阈值，若所述人脸特征向量之间的相似度的差值小于上述判断阈值，证明人脸边界范围内其他无关目标对目标对象的遮挡影响较小，该人脸边界范围内的人脸特征还是适用于作为异常筛查的信息；若所述人脸特征向量之间的相似度的差值大于上述判断阈值，相似度差异较大除了可能是两者不属于同一人的情况，还可能两者目标对象被其他无关目标遮挡较严重的情况，后一种情况下这两者异常筛查的使用价值不高可以舍弃。这种处理方法既保证了异常筛查数据库的数量，又保证了异常筛查信息的质量。

具体的，本实施例提供的步骤S3的一种优选实施方式，所述余弦相似度计算公式为：

更具体的，上述两种优选实施方式中的余弦相似度(Cosine Similarity)是通过测量两个向量的夹角的余弦值来度量他们之间的相似性。夹角越小相似度越大。如图4所示A、B两个向量的相似度，既可以通过计算它们之间的距离dist(A,B)获得，也可以通过计算余弦相似度获得。

实施例二：

如图2所示，本实施例提供了一种基于视频提取特征以进行多目标筛查的系统，包括依次连接的数据获取模块、特征提取模块、计算模块、判断模块、归纳模块、存储模块、筛查模块；所述数据获取模块，用于获取视频数据，还用于对所述视频数据进行分帧处理以得到多张分帧图片；

所述存储模块，用于将所述多个特征组存储到筛查信息库；

具体的，本实施例提供一种优选实施方式，所述特征提取模块，用于选取人脸五官位置处相对应点位作为关键点位，并获取所述关键点位之间的距离及角度信息，以作为所述人脸几何特征，还用于提取所述人脸128维基本特征。

具体的，本实施例提供一种优选实施方式，所述计算模块，基于所述人脸128维基本特征计算得到基本特征向量，还基于所述人脸几何特征计算得到几何特征向量，并基于所述基本特征向量和几何特征向量计算得到所述人脸特征向量。

具体的，本实施例提供一种优选实施方式，所述判断模块，基于所述人脸特征向量之间的余弦相似度判断所述人脸特征向量是否属于同一人。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种基于视频提取特征以进行多目标筛查的方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于视频提取特征以进行多目标筛查的方法，其特征在于，步骤S2中，所述人脸特征包括人脸128维基本特征以及人脸几何特征。

3.根据权利要求2所述的一种基于视频提取特征以进行多目标筛查的方法，其特征在于，步骤S2中，所述人脸几何特征的获取方式为：

选取人脸五官位置处相对应点位作为关键点位；

获取所述关键点位之间的距离及角度信息，以作为所述人脸几何特征。

4.根据权利要求3所述的一种基于视频提取特征以进行多目标筛查的方法，其特征在于，所述人脸特征向量的计算方式如下：

基于所述人脸128维基本特征计算得到基本特征向量，基于所述人脸几何特征计算得到几何特征向量；

基于所述基本特征向量和几何特征向量计算得到所述人脸特征向量。

5.根据权利要求1所述的一种基于视频提取特征以进行多目标筛查的方法，其特征在于，步骤S3中基于所述人脸特征向量之间的余弦相似度判断所述人脸特征向量是否属于同一人。

6.根据权利要求5所述的一种基于视频提取特征以进行多目标筛查的方法，其特征在于，所述余弦相似度计算公式为：

7.一种基于视频提取特征以进行多目标筛查的系统，其特征在于，

包括依次连接的数据获取模块、特征提取模块、计算模块、判断模块、归纳模块、存储模块、筛查模块；

所述存储模块，用于将所述多个特征组存储到筛查信息库；

8.根据权利要求7所述的一种基于视频提取特征以进行多目标筛查的系统，其特征在于，所述特征提取模块，用于选取人脸五官位置处相对应点位作为关键点位，并获取所述关键点位之间的距离及角度信息，以作为所述人脸几何特征，还用于提取所述人脸128维基本特征。

9.根据权利要求8所述的一种基于视频提取特征以进行多目标筛查的系统，其特征在于，所述计算模块，基于所述人脸128维基本特征计算得到基本特征向量，还基于所述人脸几何特征计算得到几何特征向量，并基于所述基本特征向量和几何特征向量计算得到所述人脸特征向量。

10.根据权利要求9所述的一种基于视频提取特征以进行多目标筛查的系统，其特征在于，所述判断模块，基于所述人脸特征向量之间的余弦相似度判断所述人脸特征向量是否属于同一人。