CN117523368A - 对象图像序列的确定方法、装置、设备及存储介质 - Google Patents
对象图像序列的确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117523368A CN117523368A CN202210908492.9A CN202210908492A CN117523368A CN 117523368 A CN117523368 A CN 117523368A CN 202210908492 A CN202210908492 A CN 202210908492A CN 117523368 A CN117523368 A CN 117523368A
- Authority
- CN
- China
- Prior art keywords
- matched
- object image
- appearance
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012545 processing Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 18
- 238000013441 quality evaluation Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 230000000875 corresponding effect Effects 0.000 description 31
- 238000004422 calculation algorithm Methods 0.000 description 26
- 238000001514 detection method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 20
- 239000013598 vector Substances 0.000 description 20
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000001303 quality assessment method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种对象图像序列的确定方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:从视频的当前图像帧中提取待匹配对象图像;获取待匹配对象图像的质量评分,质量评分用于指示待匹配对象图像的图像质量;在质量评分大于阈值的情况下,根据待匹配对象图像的外观信息,确定待匹配对象图像所属的对象图像序列;其中,待匹配对象图像的外观信息用于指示待匹配对象图像中包含的对象的外观特征。该方法是通过在待匹配对象图像的质量评分满足阈值的情况下,根据待匹配对象图像的外观信息来确定其所属的对象图像序列。因此,可以提高对象图像序列的确定精度,同时还可以提高确定对象图像序列的效率。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种对象图像序列的确定方法、装置、设备及存储介质。
背景技术
轨迹关联是计算机视觉和人工智能的一项重要任务,包含了多项图像处理的基础技术。
在相关技术中,一般是采用从视频中获取人脸图像,通过人脸图像来提取人脸特征,根据提取出的人脸特征关联轨迹。也即根据每个人脸图像的人脸特征来确定人脸轨迹。
然而,相关技术中通过每张人脸图像的人脸特征确定出的人脸轨迹精度较低。
发明内容
本申请实施例提供了一种对象图像序列的确定方法、装置、设备及存储介质,能够给不同的人脸图像以不同的质量评分,人脸图像的质量评分表征待匹配对象图像的图像质量,在对象图像的图像质量较高时,根据对象图像的外观信息来确定其所属的对象图像序列,因此最终关联出来的对象图像序列的精度更高。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种对象图像序列的确定方法,所述方法包括:
从视频的当前图像帧中提取待匹配对象图像;
获取所述待匹配对象图像的质量评分,所述质量评分用于指示所述待匹配对象图像的图像质量;
在所述质量评分大于阈值的情况下,根据所述待匹配对象图像的外观信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的外观信息用于指示所述待匹配对象图像中包含的对象的外观特征。
根据本申请实施例的一个方面,提供了一种对象图像序列的确定装置,所述装置包括:
图像提取模块,用于从视频的当前图像帧中提取待匹配对象图像;
评分获取模块,用于获取所述待匹配对象图像的质量评分,所述质量评分用于指示所述待匹配对象图像的图像质量;
序列确定模块,用于在所述质量评分大于阈值的情况下,根据所述待匹配对象图像的外观信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的外观信息用于指示所述待匹配对象图像中包含的对象的外观特征。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述方法。
本申请实施例提供的技术方案可以包括如下有益效果:通过获取当前图像帧的待匹配对象图像,当待匹配对象图像的图像质量满足一定条件时,根据待匹配对象图像的外观信息,确定待匹配对象图像所属的对象图像序列。通过用质量评分来指示待匹配对象图像的图像质量,当质量评分满足阈值时,说明待匹配对象图像的图像质量是较好的,也即此种情况下,待匹配对象图像的外观信息是可靠的,依据待匹配对象图像的外观信息确定待匹配对象图像所属的对象图像序列,可以使得最终的对象图像序列的确定结果精度更高。
附图说明
图1是本申请一个实施例提供的二分图的示意图;
图2是本申请一个实施例提供的二分图的最大匹配的示意图;
图3是本申请一个实施例提供的带权重的二分图的示意图;
图4是本申请另一个实施例提供的带权重的二分图的示意图;
图5是本申请一个实施例提供的二分图的最优匹配的示意图;
图6是本申请一个实施例提供的方案实施环境的示意图;
图7是本申请一个实施例提供的轨迹关联结果的示意图;
图8是本申请一个实施例提供的对象图像序列的确定方法的流程图;
图9是本申请一个实施例提供的人脸图像的质量评分的示意图;
图10是本申请另一个实施例提供的对象图像序列的确定方法的流程图;
图11是本申请另一个实施例提供的对象图像序列的确定方法的流程图;
图12是本申请一个实施例提供的人脸轨迹关联的框图;
图13是本申请另一个实施例提供的人脸轨迹关联的框图;
图14是本申请一个实施例提供的对象图像序列的确定装置的框图;
图15是本申请另一个实施例提供的对象图像序列的确定装置的框图;
图16是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉(Computer Vision,简称CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(three Dimensions,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的技术方案涉及人工智能的计算机视觉等技术,具体通过如下实施例进行说明。
在介绍本申请实施例之前,为了便于理解本方案,对本方案中出现的名词作以下解释。
MOT(Multiple Object Tracking)技术:获取单个视频并以特定帧速率(fps)将其拆分为离散帧以输出,检测每帧中存在哪些对象,标注对象在每一帧中的位置,关联不同帧中的对象图像是属于同一个目标对象还是属于不同目标对象。在人脸识别领域,MOT算法的通常工作流程:(1)给定视频的原始帧;(2)运行对象检测器以获得人脸图像的边界框;(3)对于每个检测到的人脸图像,计算出不同的特征,通常是视觉和运动特征;(4)之后,相似度计算步骤计算两个人脸图像属于同一目标人物的概率;(5)最后,关联步骤为每个目标人物分配数字标识。
轨迹关联:将目标和轨迹根据一定的度量标准进行一一匹配,得到目标与轨迹的匹配对,是MOT技术中数据关联的重要步骤。在本申请实施例中,对象图像序列也可称为轨迹,人脸图像序列(对象是人的对象图像序列)亦可称为人脸轨迹。
人脸轨迹的确定:对视频进行处理,输出同一个人物在视频中的人脸边界框及轨迹唯一标识号。完成当前图像帧中的人脸图像与当前图像帧以前的轨迹之间的匹配,并根据匹配结果,将人脸图像加入到对应的轨迹中,未匹配的人脸图像则生成新的轨迹,最终输出结果包括:当前图像帧中人脸图像所属的人脸轨迹的唯一标识,以及该人脸图像的人脸边界框。
交并比(Intersection-over-Union,简称IoU)距离:交并比为两个边界框的交集与并集之间的比值,交并比距离为1-交并比,交并比距离越大,表示两个边界框的重叠程度越小,反之则重叠程度越大。
余弦距离:余弦相似度是通过计算两个向量的夹角余弦值来评估两者的相似度,余弦距离为1-余弦相似度,余弦距离越大,表示两个向量的相似程度越低,反之则相似程度越高。
二分图匹配:给定一个二分图G,在G的一个子图M中,M的边集{E}中的任意两条边都不依附于同一个顶点,则称M是一个匹配。如图1所示的二分图中,二分图中包括子集U和子集V,对于右边子集V中的每一个顶点都和左边子集U中的顶点有着不同的连接关系。子集U和子集V中的点互不相交。在图2所示的二分图的一个匹配中,可以看出子集U中的第一个顶点与子集V中的第二个顶点相连接,子集U中的第二个顶点与子集V中的第三个顶点相连接,子集U中的第三个顶点与子集V中的第一个顶点相连接,这三条边中的任意两条边都不依附于同一个顶点,所以这三条边构成的边集称为是二分图的一个匹配。
匈牙利算法(Hungarian Algorithm):是图论中一种寻找最大匹配的算法。如图1所示,假设子集U是前N个图像帧的对象图像序列的代表对象图像。可选地,代表图像是第N帧的对象图像,其中,N为正整数。子集V是第N+1个图像帧的对象图像,其中,连接起来的线表示算法中认为属于相同对象的可能性较大。例如,图1中右边第一个顶点(以下简称右1,其他顶点类似)与左1以及左3都连接在一起,说明右1表示的对象图像与左1以及左3表示的对象图像属于同一对象的可能性都比较大,因此将右1和左1以及左3都连接起来。对于匈牙利算法来说,具体的匹配步骤如下。第一步,首先给左1进行匹配,发现可以与右1相连,因此可以将左1与右1进行配对。第二步,匹配左2,发现可以与右2相连,因此,将左2和右2进行配对。第三步,匹配左3,但是于左3相连接的右1和右2均已经配对成功,对左3来说已经没有了可以配对的对象,因此给之前的左1重新分配,将右2与左1进行配对,但是右2之前与左2进行了配对,因此给左2重新分配,将右3分配给左2,右2分配给左1,右1分配给左3。第四步,匹配左4,根据前三步的匹配结果,已经无法给左4进行匹配,因此放弃对左4的匹配。至此,匈牙利算法结束,可以如图1所示的二分图的一个最大匹配如图2所示。最终的匹配结果是匹配出来了三对目标,对于右4来说,在左边的子集U中没有与其连接的顶点,因此,无法对右4进行匹配。从上述的算法步骤中可以看出,在匈牙利算法的匹配过程中,对于连接线的要求非常高,如果顶点与顶点之间的连接出现了错误,则很有可能导致最终的匹配结果出现错误。因此,为了保证连接线的准确度,对于顶点与顶点之间是否连接作出限定。在一些实施例中,当左边的顶点(前N个图像帧的对象图像序列或者前N个图像帧的对象图像序列的代表对象图像)与右边的顶点(第N+1个图像帧的对象图像)的相似度大于阈值,才将该对顶点进行连接。然后,根据匈牙利算法研究得出的最大匹配将每一个待匹配顶点的地位视为相同,在此前提下进行求解最大匹配,但是考虑到在匹配的过程中,不可能所有的待匹配顶点都是相同的地位。如图1所示,,对于右边单个顶点来说,很有可能在左边的顶点中存在最优匹配的顶点,因此对于最优匹配的顶点来说,其应该具有更高的匹配权重。根据匹配权重来进行匹配,才更加贴近真实情况。因此,引入KM算法(Kuhn-Munkres Algorithm)。
KM算法:解决带权重的二分图的最优匹配问题。如图3所示的带权重的二分图中,根据KM算法,第一步,对子集中的每一个顶点进行赋值,将该值称为顶标,将左边的顶点赋值为一起相连的边的最大权重,右边的顶点赋值为0,例如,对左1赋值为0.8,左2赋值为0.9,以此类推。第二步,开始匹配。匹配的原则是权重与左边分数(顶标)相同或者权重大于左边顶标的边进行匹配,当找不到边匹配时,对此条路径所有左边顶点的顶标减d,右边顶点的定标加d,其中,d为正数,在一些实施例中,d的取值为0.1。对于左1,与顶标分值0.8相同的边为左1与右1的连线。对于左2,与顶标分支0.9相同的边为左2与右3的连线。对于左3,顶标分值0.9相同的边为左3与右1的连线,但是此时可以发现右1已经和左1相匹配,根据匹配原则,只有边的权重大于等于0.9的边才能满足要求。此时根据KM算法,应对所有冲突的边的顶点做加减操作,令左边顶点值减0.1,右边顶点值加0.1,得到如图4所示的二分图。也即,左1的顶标变为0.7,左3的顶标变为0.8,右1的顶标变为0.1,在此基础下,左1的可匹配边的权重应大于0.7,左1还是与右1匹配,左2可匹配的只有右3,左3可匹配的边此时变为两条,一个是左3与右1的连线,一个是左3和右2的连线。因此,除去右1之外,左3还可以与右2进行匹配。最终的最优匹配结果,如图5所示,此时,左1与右1相连,左2与右3相连,左3与右2相连。
请参考图6,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括:终端设备10和服务器20。
终端设备10包括但不限于手机、平板电脑、智能语音交互设备、游戏主机、可穿戴设备、多媒体播放设备、PC(Personal Computer,个人计算机)、车载终端、智能家电等电子设备。终端设备10中可以安装目标应用程序的客户端。
在本申请实施例中,上述目标应用程序可以是任何能够提供视频信息流内容服务的应用程序。典型地,该应用程序为视频类应用程序。当然,除了视频类应用程序之外,其它类型的应用程序中也可以提供信息流内容服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,简称VR)类应用程序、增强现实(Augmented Reality,简称AR)类应用程序等,本申请实施例对此不作限定。另外,对于不同的应用程序来说,其推送的视频也会有所不同,且相应的功能也会有所不同,这都可以根据实际需求预先进行配置,本申请实施例对此不作限定。可选地,终端设备10中运行有上述应用程序的客户端。在一些实施例中,上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱乐、游戏等诸多垂直内容,并且用户可通过上述信息流内容服务享受到文章、图片、小视频、短视频、直播、专题、栏目等众多形式的内容服务。
服务器20用于为终端设备10中的目标应用程序的客户端提供后台服务。例如,服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
终端设备10和服务器20之间可通过网络进行互相通信。该网络可以是有线网络,也可以是无线网络。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备。计算机设备可以是任何具备数据的存储和处理能力的电子设备。例如,计算机设备可以是图6中的服务器20,可以是图6中的终端设备10,也可以是除终端设备10和服务器20以外的另一设备。
在本申请实施例中,对于对象的类别不作限定,可选地,对象的类别包括但不限于商品、车辆、人物。所有能够关联轨迹的物体或人体均可纳入本申请技术方案的保护范围之内,为了便于描述,以下主要是以人脸为对象进行举例说明,其他类别的对象参见对于人脸的说明,不作赘述。
请参考图7,其示出了本申请一个实施例提供的轨迹关联结果的示意图。图中700是视频的多个图像帧,每个图像帧中的人脸图像都对应有检测框,检测框的左下角都有轨迹标识。T时刻对应的图像帧的对象图像是轨迹1,T+1时刻对应的图像帧的对象图像也是轨迹1,T+2时刻对应的图像帧的对象图像是轨迹2,T+3时刻对应的图像帧的对象图像也是轨迹1,T+4时刻对应的图像帧的对象图像也是轨迹2,T+5时刻对应的图像帧的对象图像也是轨迹1。轨迹1表征该轨迹的人脸属于明星A,轨迹2表征该轨迹的人脸属于明星B,同一个轨迹标识表明属于同一个轨迹,代表同一个人。
相关技术中,通常采用“检测人脸、提取人脸特征、关联人脸轨迹”的框架,步骤如下:首先在视频图像帧序列中运用人脸检测模型检测所有人脸,然后将所有检测人脸通过人脸识别模型提取人脸特征,接下来,在具有时序关系的图像帧序列中基于检测人脸位置和人脸特征计算人脸与轨迹边界框的IoU距离和人脸与轨迹特征向量的余弦距离,最后依次采用余弦距离和IoU距离根据匈牙利匹配算法完成人脸和轨迹的匹配。然而,某些情况下的外观表征信息不可靠,如大侧脸、模糊人脸、被遮挡的人脸、重妆容人脸等,此时,属于不同人的人脸可能提取到相似度过高的外观特征,这些特征间的余弦距离过小,不同人的人脸容易被关联在一起。在相关技术中的人脸轨迹关联步骤中,所有人脸均采用一致的轨迹关联方法,这会容易造成人脸轨迹误关联,以致轨迹中包含多个非关联目标的人脸。并且随着轨迹的增长,基于外观信息的轨迹关联在这种情况下容易导致误差累积,损害了轨迹关联的精度和有效性。
不同的是,本申请实施例提供的技术方案,用质量评分来衡量外观信息的可靠性,通过质量评价模型来对人脸图像进行质量的评估,将在视频画面中的人物在不同状态下的人脸进行区分,输出质量评分,根据一定,后续根据一定阈值完成高质量、低质量人脸的判断。根据人脸图像的质量,细化轨迹关联的方法。具体的,当质量评分大于阈值时,可以认为是高质量的人脸图像,因此基于人脸图像的外观信息判断该人脸图像所属的人脸轨迹,在质量评分小于阈值时,可以认为是低质量的人脸图像,此时人脸图像的外观信息并不可靠,因此基于人脸图像的运动信息判断该人脸图像所属的人脸轨迹。因此,可以提高轨迹关联的准确度,同时提高轨迹关联的效率。
下面,将通过几个实施例,对本申请提供的技术方案进行详细的介绍说明。本申请提供一种对象图像序列的确定方法,通过对视频进行处理,可以实现不同人脸的轨迹关联,可以应用于摄像头画面、辅助驾驶系统等固定镜头场景,也可以应用于电影、电视剧、综艺等多镜头的视频场景。并且,本申请可以针对其他类别进一步扩展,将方法中的对象检测模型、对象识别模型、质量评价模型支持的物体类别进行延伸,完成更多类别的对象的轨迹关联。本申请对于对象的类别不作限定,以下实施例的举例中主要以人脸为主进行解释说明。
请参考图8,其示出了本申请一个实施例提供的对象图像序列的确定方法的流程图。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下几个步骤(810~830)中的至少一个步骤。其中以对象是人脸为例来进行解释说明。
步骤810,从视频的当前图像帧中提取待匹配对象图像。
本申请对于视频的类型不作限定,可以是电影、电视剧、综艺、动漫等经过后期加工的视频,也可以是类似道路摄像头拍摄的路面画面、家用摄像头拍摄的人脸画面等等,凡是构成连续帧的视频均可纳入本申请的保护范围之内。
在一些实施例中,对视频进行解码,可以获得具有时序关系的图像帧。可选地,在这些图像帧中抽取部分图像帧来提取人脸图像。可选地,以固定间隔抽取图像帧,例如抽取第一帧、第二帧、第三帧等等。当然,为了减少处理量,节约处理成本,也可以间隔n帧抽取图像帧(n为大于1的整数),当然减少抽取的图像帧的数量,在一定程度上可能会带来轨迹关联结果的精度的降低。因此,可以综合考虑精度以及处理成本,来确定抽帧的间隔。
在一些实施例中,对抽帧出来的图像帧进行检测,检测出每个图像帧中的人脸边界框坐标。可选地,在一些实施例中,人脸边界框是长方形,则人脸边界框坐标可以是长方形四个顶点的坐标,也可以是长方形一个顶点的坐标以及长宽的数值。例如,如图7所示的T时刻的图像帧中人脸所在的矩形框可以认为是人脸边界框,该人脸边界框内的图像可以认为是人脸图像。
在一些实施例中,根据每个图像帧中的人脸边界框坐标可以确定出每个图像帧中的人脸图像,可选地,一个图像帧中的人脸图像的数量可以是一个或多个。在一些实施例中,每个识别出来的人脸图像都可以对应到之前图像帧对应的多个人脸图像序列中的一个人脸图像序列。可选地,根据前i(i为正整数)个图像帧,可以得到m(m为正整数)个人脸图像序列,则根据第i+1个图像帧的人脸图像,可以将该人脸图像对应到m个人脸图像序列中的至少一个,或者可以单独成为第m+1个人脸图像序列中的第一张人脸图像。在一些实施例中,根据人脸图像的外观信息,确定人脸图像对应到的人脸图像序列,在一些实施例中,还可以根据当前图像帧的人脸边界框与上一帧的人脸边界框的位置信息,判断当前图像帧的人脸图像所属的人脸图像序列。本申请对于判断人脸图像所属的人脸图像序列的方法不作限定,可以是基于外观信息判断,也可以基于运动信息(人脸边界框信息)判断。
在一些实施例中,通过人脸检测模型,可以获取每个图像帧对应的人脸边界框坐标以及人脸关键点坐标。在一些实施例中,人脸检测模型包括但不限于RetinaFace、MTCNN中至少一种,具体的检测原理本申请在此不作赘述。
在本申请实施例中,人脸图像序列也可称为人脸轨迹或轨迹,本申请对此不作限定。在一些实施例中,不同的轨迹对应于不同的编号,可选地,编号是从1开始,每个轨迹对应一个数字,可以被该数字唯一表征。
在一些实施例中,通过人脸检测模型获取当前图像帧的待匹配对象图像。在一些实施例中,在一些实施例中,根据当前图像帧中的人脸边界框坐标可以确定出当前图像帧中的人脸图像。
本申请实施例中,对象图像是图像帧中截取的只包括对象的图像,也可以是图像帧中的完整图像。例如,第一个图像帧的图像中包括一个对象,则该图像帧的图像称为是对象图像,或者根据该对象在图像帧中的位置所截取出来的部分图像,称为对象图像。待匹配对象图像是还没有与轨迹进行匹配的对象图像,可选地,待匹配对象图像是当前图像帧的完整图像,也可以是当前图像帧中的对象的图像,也即对象所在的检测框构成的图像。在一些实施例中,待匹配对象图像是待匹配人脸图像,则待匹配人脸图像是当前图像帧的完整图像或者是当前图像帧中人脸所在的检测框内的图像也即当前图像帧的图像中截取出只包含人脸的图像。本申请对于对象的类别不作限定,可以是人脸,也可以是车辆、物品等其他类别。
步骤820,获取待匹配对象图像的质量评分,质量评分用于指示待匹配对象图像的图像质量。
质量评分:表征人脸图像的图像质量的评分。在一些实施例中,根据人脸图像的亮度、清晰度等信息,来确定人脸图像的质量评分,根据质量评分的高低给予不同等级的图像质量。在另一些实施例中,根据人脸图像能够被正确分类,来确定人脸图像的质量评分,根据质量评分的高低给予等级的图像质量。在一些实施例中,图像质量和质量评分成正比,质量评分越高,图像质量越高,相应的图像质量级别越高。在一些实施例中,图像质量是分段函数,例如质量评分为80以上的人脸图像的图像质量确定为高质量,质量评分低于80的人脸图像的图像质量确定为低质量。在一些实施例中,通过质量评价模型,确定人脸图像的质量评分,并根据质量评分,确定人脸图像的质量级别。在一些实施例中,质量评价模型是根据多个带正确分类标签的人脸图像训练出来的,根据人脸图像是否被正确分类,来调整质量评分,进而采用梯度下降的方式调整模型中的参数,当人脸图像被正确分类时,提高该人脸图像的质量评分,当人脸图像被错误分类时,降低该人脸图像的质量评分,使用多个带正确分类标签的人脸图像训练出来的质量评价模型,可以用于评估不带标签的人脸图像,用于本申请实施例中的人脸图像的质量评分。
在一些实施例中,质量评分还可以用于衡量人脸图像的外观特征的可靠程度。当人脸图像的外观特征比较可靠时,也即人脸图像的外观特征可以比较好的表征该人脸图像时,该人脸图像的质量评分较高。当人脸图像的外观特征不太可靠时,也即人脸图像的外观特征无法比较好的表征该人脸图像时,该人脸图像的质量评分较低。
本申请实施例提供的技术方案,对于质量评分大于阈值的人脸图像,根据人脸图像的外观信息,来确定该人脸图像所属的人脸图像序列。因为质量评分可以用于衡量人脸图像外观特征的可靠程度,所以使用外观信息来确定人脸图像所属的人脸图像序列,最终确定出来的人脸图像序列的结果更加可靠,轨迹关联的结果想对来说更加贴近真实情况。
参考图9,其示出了本申请一个实施例提供的人脸图像的质量评分的示意图。其中,41、42、43、44是多张人脸图像,经过质量评价模型,可以得到多张人脸图像对应的质量评分以及根据质量评分确定出来的人脸质量级别。其中,人脸质量级别反应人脸图像的图像质量,可选地,根据图像质量的高低,将人脸质量级别分为多个级别,可选地,人脸质量级别包括高质量、中质量、低质量。如图9中,可以看出人脸图像41以及人脸图像42的质量评分分别为80和82,质量评分较高,因此人脸图像41以及人脸图像42的人脸质量级别均为高质量,人脸图像43以及人脸图像44的质量评分分别为18和0,质量评分较低,因此人脸图像43以及人脸图像44的人脸质量级别均为低质量。
在一些实施例中,通过质量评价模型对对齐后的待匹配对象图像进行处理,得到待匹配对象图像的质量评分。在一些实施例中,采用如图9所示的质量评价模型可以对人脸质量进行评估,首先,获得人脸图像的质量评分。质量评价模型的输入为人脸对齐后的人脸图像,模型评估人脸图像质量后,输出人脸图像对应的质量评分,取值范围为0到100的整数。在一些实施例中,所有检测人脸都采用质量评价模型进行质量估计,获得每张人脸的质量评分,用于后续的轨迹聚类和级联投票环节,具体参见下述实施例。其次,区分高、低质量人脸。设定一定阈值,将大于阈值的定义为高质量人脸,将低于阈值的定义为低质量人脸。
步骤830,在质量评分大于阈值的情况下,根据待匹配对象图像的外观信息,确定待匹配对象图像所属的对象图像序列;其中,待匹配对象图像的外观信息用于指示待匹配对象图像中包含的对象的外观特征。
在一些实施例中,本申请实施例中的对象图像序列是由对象图像构成的对象图像的集合,也即对象图像序列即包括多张对象图像。在另一些实施例中,对象图像序列可以称为轨迹。例如,待匹配对象图像属于对象图像序列A,则可以认为待匹配对象图像属于轨迹A,则在当前图像帧中的待匹配对象图像上标出“轨迹A”,说明该待匹配对象图像属于轨迹A。在另一些实施例中,对象图像序列还可以是多张对象图像以及对象图像对应的轨迹的标号。在另一些实施例中,还可以对于对象图像所在的位置以检测框的形式凸出显示,同时在检测框中展示该对象图像所属的轨迹的标号。
本申请实施例中的轨迹可以认为是多张对象图像对应的目标对象的标号,目标对象是根据待匹配对象图像确定出来的对象。在另一些实施例中,轨迹可以认为是多张对象图像所在的图像帧的集合,并且该集合对应不同的标号。
在本申请实施例中,以待匹配对象图像为待匹配人脸图像来进行解释说明,但本申请对于待匹配对象图像的类别不作限定,对于待匹配人脸图像的解释说明仅是示例性的。
在一些实施例中,外观信息是用于指示待匹配对象图像中包含的对象的外观特征。可选地,外观信息是特征信息,例如特征向量。在一些实施例中,采用m维的特征向量来作为待匹配对象的外观信息,其中,m为正整数。
在一些实施例中,阈值可以是设定好的。可选地,阈值是60,对质量评分大于60的待匹配人脸图像,根据待匹配人脸图像的外观信息,确定待匹配人脸图像所属的人脸图像序列。在一些实施例中,对于质量评分等于60的待匹配人脸图像,根据待匹配人脸图像的外观信息,确定待匹配人脸图像所属的人脸图像序列。或者,对于质量评分等于60的待匹配人脸图像,根据待匹配人脸图像的运动信息,确定待匹配人脸图像所属的人脸图像序列。对于质量评分小于60的待匹配人脸图像,则根据待匹配人脸图像的运动信息,确定待匹配人脸图像所属的人脸图像序列。可选的,质量评分不满足阈值时,说明待匹配人脸图像的可靠性较低,因此根据待匹配人脸图像的运动信息来确定其所属的人脸图像序列,具体见下文实施例,此处不再赘述。
在一些实施例中,根据待匹配对象图像的关键点识别结果,进行关键点对齐,得到对齐后的待匹配对象图像。在一些实施例中,对当前图像帧进行检测,检测出当前图像帧中的关键点识别结果。在一些实施例中,关键点识别结果可以是关键点坐标,此处的关键点可以理解为能够表征人脸的点,例如人脸上的五官。可选地,关键点识别结果是人脸上从五官中提取的至少10个点的坐标。本申请对于关键点不作限定,凡是能够表征人脸的点均可以称为是关键点。在一些实施例中,根据人脸检测模型,得到人脸图像的关键点识别结果,其中关键点识别结果包括多个关键点的坐标信息。关键点对齐是指将人脸图像中获取的关键点与正面标准脸型的关键点进行对齐,也即将可能出现的侧面等非正面的人脸图像转变为正脸图像。在一些实施例中,采用关键点对齐可以使得非正面的人脸图像转变为正脸图像,从而提高人脸识别的精度,提高目标人物的识别率。
在一些实施例中,通过对象识别模型(当对象为人脸时,对象识别模型也可认为是人脸识别模型)对对齐后的待匹配对象图像进行处理,得到待匹配对象图像的外观信息。在一些实施例中,根据人脸识别模型,可以提取对齐后的人脸图像的特征信息。在一些实施例中,特征信息是特征向量,可选地,通过人脸识别模型可以从对齐后的人脸图像中,得到人脸图像对应的512维的特征向量,该512维的特征向量可以表征上述人脸图像。
在一些实施例中,对于当前图像帧来说,当前图像帧之前的历史图像帧已经生成多个对象图像序列,此处生成对象图像序列的方法可以是本申请实施例提供的技术方案,也可以是其他能够生成对象图像序列的方案,本申请对此不作限定。相对来说,采用本申请实施例提供的技术方案对视频中的所有的图像帧,从第一帧开始就生成对象图像序列,能够使得根据整个视频生成的多个对象图像序列(轨迹)更加精准,误差更小。
在一些实施例中,可以根据当前图像帧的待匹配人脸图像与根据历史图像帧生成的多个人脸轨迹的相似度,来确定待匹配人脸图像所属的多个人脸轨迹中的一个。在一些实施例中,当前图像帧的待匹配人脸图像与根据历史图像帧生成的多个人脸轨迹匹配不上,则当前图像帧的待匹配人脸图像可以单独形成一个新的轨迹。
本申请实施例提供的技术方案,通过获取当前图像帧的待匹配对象图像,当待匹配对象图像的图像质量满足一定条件时,根据待匹配对象图像的外观信息,确定待匹配对象图像所属的对象图像序列。通过用质量评分来指示待匹配对象图像的图像质量,当质量评分满足阈值时,说明待匹配对象图像的图像质量是较好的,也即此种情况下,待匹配对象图像的外观信息是可靠的,依据待匹配对象图像的外观信息确定待匹配对象图像所属的对象图像序列,可以使得最终的对象图像序列的确定结果精度更高。
请参考图10,其示出了本申请一个实施例提供的人脸轨迹关联的框图。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下几个步骤(810~836)中的至少一个步骤。
步骤810,从视频的当前图像帧中提取待匹配对象图像。
步骤820,获取待匹配对象图像的质量评分,质量评分用于指示待匹配对象图像的图像质量。
步骤832,获取至少一个对象图像序列的外观信息;其中,至少一个对象图像序列是基于视频中位于当前图像帧之前的历史图像帧生成的,对象图像序列的外观信息用于指示对象图像序列中包含的对象的外观特征。
在一些实施例中,基于视频中位于当前图像帧之前的历史图像帧可以生成多个对象图像序列,每个对象图像序列都具有外观信息。在一些实施例中,可以根据对象图像序列中,质量评分最高的对象图像的外观信息作为该对象图像所在的对象图像序列的外观信息。在一些实施例中,以质量评分作为外观信息确定的权重,根据对象图像序列中每个对象图像的权重以及外观信息,确定出该对象图像序列的外观信息。在一些实施例中,将对象图像序列中的对象图像与待匹配对象图像的外观信息的相似度的最值所对应的外观信息确定为该对象图像序列的外观信息。可选地,外观信息是特征信息,例如特征向量。在一些实施例中,采用m维的特征向量来作为对象图像序列的外观信息,其中,m为正整数。
步骤834,获取待匹配对象图像的外观信息,分别与各个对象图像序列的外观信息之间的外观匹配度。
每个对象图像序列的外观信息包括:对象图像序列中包含的至少一个已匹配对象图像的外观信息,已匹配对象图像的外观信息用于指示已匹配对象图像中包含的对象的外观特征。
在一些实施例中,步骤834还包括如下几个步骤(834-2~834-4,图中未示出)中的至少一个步骤。
步骤834-2,对于每个对象图像序列,获取待匹配对象图像的外观信息,分别与对象图像序列中包含的各个已匹配对象图像的外观信息之间的外观相似度。
在一些实施例中,将待匹配对象图像与对象图像序列中的每一个对象图像的外观信息之间计算相似度。可选地,人脸轨迹1中每个人脸图像都对应有一个特征向量,待匹配人脸图像的外观信息也对应有一个特征向量(记为特征向量K),计算特征向量K与人脸轨迹中的每个人脸图像的特征向量的相似度。在一些实施例中,针对人脸图像对应的512维的特征向量,将其归一化成一维的向量,通过分别计算两个一维向量之间的相似度来确定待匹配对象图像的外观信息,分别与对象图像序列中包含的各个已匹配对象图像的外观信息之间的外观相似度。
可选地,本申请对于相似度不作限定,包括但不限于余弦相似度、欧氏距离。
步骤834-4,根据外观相似度的最大值,确定待匹配对象图像的外观信息与对象图像序列的外观信息之间的外观匹配度。
在一些实施例中,针对人脸轨迹1中包括的三个人脸图像,人脸图像a与人脸轨迹1中的第一个人脸图像的外观相似度为0.8,与人脸轨迹1中的第二个人脸图像的外观相似度为0.9,人脸轨迹1中的第三个人脸图像的外观相似度为0.3,因此将外观相似度的最大值0.9确定为待匹配人脸图像的外观信息与人脸图像序列的外观信息之间的外观匹配度。也即人脸图像a与人脸轨迹1的外观相似度为0.9,在一些实施例中,人脸图像a与人脸轨迹2的外观相似度为0.7,一些实施例中,人脸图像a与人脸轨迹2的外观相似度为0.3。
步骤836,根据各个外观匹配度,确定待匹配对象图像所属的对象图像序列。
在一些实施例中,在待匹配对象图像的数量为一个的情况下,将各个外观匹配度中的最大值所对应的对象图像序列,确定为待匹配对象图像所属的对象图像序列。可选地,如上述实施例所述,待匹配人脸图像的数量为1,人脸图像a与人脸轨迹1的外观相似度为0.9,人脸图像a与人脸轨迹2的外观相似度为0.7,人脸图像a与人脸轨迹2的外观相似度为0.3,因此将外观相似度的最大值0.9所对应的人脸轨迹确定为该待匹配人脸图像所属的人脸轨迹,因此将人脸轨迹1确定为人脸图像所属的人脸轨迹。
在一些实施例中,在待匹配对象图像的数量为至少两个的情况下,根据待匹配对象图像的外观信息与各个对象图像序列的外观信息之间的外观匹配度,确定待匹配对象图像与各个对象图像序列的外观权重信息,外观权重信息与外观匹配度成正比;根据各个外观匹配度以及各个所述外观权重信息,确定各个待匹配对象图像分别所属的对象图像序列。在一些实施例中,以各个外观匹配度为第一优先级,各个外观权重信息为第二优先级,确定各个待匹配对象分别所属的对象图像序列;其中,第一优先级大于第二优先级。
在一些实施例中,当前图像帧的对象图像的数量为至少两个。也即,当前图像帧中包括人脸图像b和人脸图像c,对于当前图像帧来说,历史图像帧总共生成了3条人脸轨迹,分别为人脸轨迹3、4、5。对于人脸图像b来说,人脸图像b和人脸轨迹3的外观匹配度为0.9,人脸图像b和人脸轨迹4的外观匹配度为0.8,人脸图像b和人脸轨迹5的外观匹配度为0.2。对于人脸图像c来说,人脸图像c和人脸轨迹3的外观匹配度为0.1,人脸图像c和人脸轨迹4的外观相匹配度为0.8,人脸图像c和人脸轨迹5的外观匹配度为0.9。
第一步,以外观匹配度为第一优先级,将外观匹配度低于外观相似度阈值的人脸轨迹与待匹配人脸图像之间不作连接。可选地,外观匹配度阈值为0.8。因此,可以和人脸图像b匹配的仅有人脸轨迹3以及人脸轨迹4,可以和人脸图像c匹配的仅有人脸轨迹4以及人脸轨迹5。
第二步,在确定完连接关系之后,确定出人脸图像b和人脸图像c分别对应的人脸轨迹。在一些实施例中,根据匈牙利算法确定出人脸图像对应的轨迹,具体过程参见上述对于匈牙利算法的介绍,本申请此处不再赘述。
在一些的实施例中,根据KM算法确定出人脸图像b和人脸图像c分别对应的人脸轨迹。也即,根据待匹配对象图像的外观信息与各个对象图像序列的外观信息之间的外观匹配度,确定待匹配对象图像与各个对象图像序列的外观权重信息,外观权重信息与外观匹配度成正比。可选地,将外观匹配度确定为权重信息,也即,可以和人脸图像b匹配的为人脸轨迹3以及人脸轨迹4,其中,人脸图像b和人脸轨迹3连接的边的权重信息是0.9,和人脸轨迹4连接的边的权重信息为0.8。可以和人脸图像c匹配的为人脸轨迹4以及人脸轨迹5,其中,人脸图像c和人脸轨迹4连接的边的权重信息为0.8,人脸图像c和人脸轨迹5连接的边的权重信息为0.9。基于边的权重信息,可以确定出最优匹配结果,即人脸图像b与人脸轨迹3连接,人脸图像c与人脸轨迹5连接,也即确定人脸图像b所属的人脸轨迹是人脸轨迹3,人脸图像c所属的人脸轨迹是人脸轨迹5。具体的可以参见上述对于KM算法的介绍,具体的过程本申请在此不再赘述。
在本申请实施例中,人脸图像a、人脸图像b、人脸图像c均是指待匹配人脸图像,待匹配人脸图像是指当对象是人脸时的待匹配对象图像。
在一些实施例中,外观相似度与外观距离成反比,外观相似度越高,外观距离越小,因此在一些实施例中,在为人脸图像分配轨迹时,也可将外观距离作为匹配代价,来确定人脸图像所属的人脸轨迹。在一些实施例中,外观相似度是余弦相似度,外观距离是余弦距离,以余弦距离作为匹配代价,余弦距离与权重信息成反比,来确定人脸图像所属的人脸轨迹。
本申请实施例提供的技术方案,通过当前图像帧的待匹配对象图像的外观信息与对象图像序列中的多个对象图像的外观信息进行外观相似度的计算,从多个外观相似度中确定出最大值作为当前图像帧的待匹配对象图像和对象图像序列的外观相似度的值,使得对象图像序列的外观相似度的值的确定更加精准,因此可以使得最终的轨迹关联结果也更加准确。
本申请实施例提供的技术方案,通过对当前图像帧的对象图像的数量作出分类,以不同的匹配方式,来为不同的对象图像筛选出贴切的轨迹,使得能够有效提高轨迹关联的准确度,同时提高轨迹关联的效率,直接根据当前图像帧中不同的对象图像的数量,采用不同的轨迹关联方式,减少了图像数据处理的时间,提高了轨迹关联的效率。
本申请实施例提供的技术方案,对于质量评分大于阈值的对象图像,通过获取对象图像序列的外观信息,根据对象图像的外观信息与对象图像序列的外观信息的外观匹配度,来确定出待匹配对象图像所属的对象图像序列。基于外观信息来确定所属的对象图像序列,在一定程度上来说,确定出来的轨迹结果更精确,外观信息指示对象图像的特征信息,当对象图像的质量是可靠的时候,根据对象图像的特征信息确定出来的轨迹也是十分可靠的。
请参考图11,其示出了本申请一个实施例提供的人脸轨迹关联的框图。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下几个步骤(810~840)中的至少一个步骤。
步骤810,从视频的当前图像帧中提取待匹配对象图像。
步骤820,获取待匹配对象图像的质量评分,质量评分用于指示待匹配对象图像的图像质量。
步骤831,质量评分是否大于阈值。
若质量评分大于阈值,则执行步骤832,若质量评分小于阈值,则执行步骤840,若质量评分等于阈值,则执行步骤832或步骤840中的任意一个步骤。
步骤832,获取至少一个对象图像序列的外观信息;其中,至少一个对象图像序列是基于视频中位于当前图像帧之前的历史图像帧生成的,对象图像序列的外观信息用于指示对象图像序列中包含的对象的外观特征。
步骤834,获取待匹配对象图像的外观信息,分别与各个对象图像序列的外观信息之间的外观匹配度。
步骤835,外观匹配度是否满足第一条件。
在一些实施例中,第一条件是外观匹配度大于外观匹配度阈值。例如,在一些实施例中,轨迹关联的结果是人脸图像b属于人脸轨迹3,但是人脸图像b和人脸轨迹3的外观匹配度仅为0.6。在一些实施例中,设定外观匹配度阈值为0.8,当匹配出来的结果中的外观匹配度不满足外观匹配度阈值,则重新对该对象图像进行匹配。例如,对于人脸图像b来说,其和和人脸轨迹3的外观匹配度仅为0.6,远小于外观匹配度阈值0.8,因此重新对人脸图像b匹配人脸轨迹。
若外观匹配度满足第一条件,则执行步骤836,若外观匹配度不满足第一条件,则执行步骤840。
步骤836,根据各个外观匹配度,确定待匹配对象图像所属的对象图像序列
步骤840,根据待匹配对象图像的运动信息,确定待匹配对象图像所属的对象图像序列;其中,待匹配对象图像的运动信息用于指示待匹配对象图像在当前图像帧中的位置。
在一些实施例中,步骤840还包括如下几个步骤(842~846,图中未示出)中的至少一个步骤。
步骤842,获取至少一个对象图像序列的运动信息;其中,至少一个对象图像序列是基于视频中位于所述当前图像帧之前的历史图像帧生成的,对象图像序列的运动信息用于指示对象图像序列中包含的对象的位置变化。
步骤844,获取待匹配对象图像的运动信息,分别与各个对象图像序列的运动信息之间的运动匹配度。
在一些实施例中,对当前图像帧进行检测,检测出当前图像帧中的人脸边界框坐标。可选地,在一些实施例中,人脸边界框是长方形,则人脸边界框坐标可以是长方形四个顶点的坐标,也可以是长方形一个顶点的坐标以及长宽的数值。当前图像帧的待匹配对象图像的运动信息也就是待匹配对象图像的对象边界框(或者称为检测框)信息。可选地,当前图像帧的待匹配人脸图像的运动信息是待匹配对象图像的人脸边界框的位置信息,可选地,位置信息包括人脸边界框所在的位置,具体的,可以表示为人脸边界框的尺寸信息和坐标信息。
在一些实施例中,每个对象图像序列的运动信息包括:对象图像序列中包含的至少一个已匹配对象图像的运动信息,已匹配对象图像的运动信息用于指示所述已匹配对象图像在所属图像帧中的位置。
在一些实施例中,步骤844还包括如下几个步骤(844-2~844-4,图中未示出)中的至少一个步骤。
步骤844-2,对于每个对象图像序列,获取待匹配对象图像的运动信息,与对象图像序列中最新识别的对象的运动信息之间的运动相似度。
在一些实施例中,将历史图像帧形成的多条轨迹中,最后加入轨迹的对象图像的运动信息确定为对象图像序列的运动信息。可选地,对象图像序列中最新识别的对象的运动信息作为该对象图像序列的运动信息。
在一些实施例中,将待匹配人脸图像的人脸边界框与人脸轨迹中最新识别的人脸图像的人脸边界框的交并比距离的倒数,确定为待匹配人脸图像的运动信息,与人脸轨迹中最新识别的人脸图像的运动信息之间的运动相似度。可选地,运动相似度越大,说明待匹配人脸图像的人脸检测框和人脸轨迹中最新识别的人脸图像的人脸检测框的重叠程度越高。
步骤844-4,根据运动相似度,确定待匹配对象图像的运动信息与对象图像序列的运动信息之间的运动匹配度。
在一些实施例中,将待匹配对象图像的运动信息,与对象图像序列中最新识别的对象的运动信息之间的运动相似度确定为确定待匹配对象图像的运动信息与对象图像序列的运动信息之间的运动匹配度。
步骤846,根据各个运动匹配度,确定待匹配对象图像所属的对象图像序列。
在一些实施例中,在待匹配对象图像的数量为一个的情况下,将各个运动匹配度中的最大值所对应的对象图像序列,确定为待匹配对象图像所属的对象图像序列。
在一些实施例中,在待匹配对象图像的数量为至少两个的情况下,根据待匹配对象图像的运动信息与各个对象图像序列的运动信息之间的运动匹配度,确定待匹配对象图像与各个对象图像序列的运动权重信息,运动权重信息与运动匹配度成正比;根据各个运动匹配度以及各个运动权重信息,确定各个待匹配对象图像分别所属的对象图像序列。在一些实施例中,以各个运动匹配度为第三优先级,各个运动权重信息为第四优先级,确定各个待匹配对象分别所属的对象图像序列;其中,第三优先级大于第四优先级。
此处参见上文中根据外观信息确定待匹配对象图像所属的对象图像序列的说明,在此不作赘述。
在一些实施例中,若运动匹配度不满足第二条件,则确定待匹配对象图像属于新的对象图像序列。
在一些实施例中,第二条件是运动匹配度大于运动匹配度阈值。例如,在一些实施例中,根据运动信息得到的轨迹关联的结果是人脸图像b属于人脸轨迹4,但是人脸图像b和人脸轨迹4的运动匹配度仅为0.6。在一些实施例中,设定运动匹配度阈值为0.8,当匹配出来的结果中的运动匹配度不满足运动匹配度阈值,则确定人脸图像b属于新的人脸轨迹。例如,对于人脸图像b来说,其和和人脸轨迹4的外观匹配度仅为0.6,远小于运动匹配度阈值0.8,因此确定人脸图像b为新的人脸轨迹。本申请实施例提供的技术方案,通过在运动匹配度不满足条件的情况下,将该对象图像确定为新的轨迹中的对象图像,增加轨迹的多样性和可能性,以此进一步保证轨迹关联结果更贴近实际情况。
在一些实施例中,在为待匹配人脸图像分配轨迹时,也可将交并比距离作为匹配代价,交并比距离与权重信息成反比,来确定待匹配人脸图像所属的人脸轨迹。在一些实施例中,以交并比距离作为匹配代价,来确定待匹配人脸图像所属的人脸轨迹。
本申请实施例中,待匹配人脸图像是指还未进行轨迹匹配的人脸图像,待匹配人脸图像同样也是人脸图像。待匹配对象图像亦是如此。
本申请实施例提供的技术方案,在外观匹配度的值不满足条件的情况,对该当前图像帧的待匹配人脸图像重新根据运动信息做轨迹关联,也即即使根据外观信息确定出来关联的轨迹,但是如果关联的结果并不很理想的话,还是对该图像帧的待匹配对象图像重新进行轨迹关联,以保证最终轨迹关联结果的准确度。也即,对于当前帧待匹配对象图像的质量评分满足阈值的对象图像,采用“外观信息+运动信息”的联合方式,来确定待匹配对象图像的轨迹,对于通过外观信息没有匹配上的或者根据外观信息的匹配结果并不理想的对象图像,可以继续采用运动信息来进行轨迹关联,可以说运动信息不仅可以兜底,还可以进一步提高轨迹关联的精度。
本申请实施例提供的技术方案,在当前帧待匹配对象图像的质量评分不满足阈值的情况下,采用运动信息对当前图像帧的待匹配对象图像进行轨迹关联。当前帧待匹配对象图像的质量评分不满足阈值也就意味着该待匹配对象图像的外观信息是不可靠的,该图像的图像质量不过关,很可能存在模糊等问题,因此对于这些外观信息不可靠的对象图像,本申请采用运动信息来关联轨迹,在外观信息不可靠的情况下,运行信息可以认为是相对较为可靠的信息,基于运动信息作出的轨迹关联,是弥补外观信息不可靠的情况下的轨迹关联。因此,本申请实施例提供的技术方案,普适性较好。同时,由于对不可靠的外观信息进行了排除,可以有效减少轨迹间的累计误差,在很大程度上有效提高轨迹确定的精度。
进一步地,由于提前根据质量评分进行了分类,对质量评分低于阈值的待匹配对象图像直接不采用外观信息进行轨迹关联,直接采用运动信息进行轨迹关联,可以较少图像处理的时间,提高轨迹关联的效率。
请参考图12,其示出了本申请一个实施例提供的人脸轨迹关联的框图。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下几个步骤(S1~S6)中的至少一个步骤。
步骤S1:视频解码,对视频进行解码获取具有时序关系的图像帧。特别地,为了平衡识别精度和处理速率,对视频解码可以进行固定间隔的抽帧从而减少处理图像帧数量,这里通常采用固定间隔1、2和3帧。
步骤S2:人脸检测,将解码后的所有图像帧图像输入到人脸检测模型中,模型对画面中存在的人脸进行检测,输出每帧画面的人脸边界框坐标和人脸关键点坐标。这里的人脸检测模型可以采用但不限于RetinaFace、MTCNN等方法。
步骤S3:人脸特征提取。首先,根据步骤S2的检测人脸边界框坐标和关键点坐标,截取人脸图像并对人脸进行变形实现人脸对齐。然后,将对齐后的人脸图像输入人脸识别模型获得固定长度的人脸特征,作为该人脸图像的外观表征。这里的人脸识别模型可以采用但不限于CosFace、ArcFace等模型,人脸索引采用但不限于Faiss等工具。
步骤S4:人脸质量评估。将第三步完成人脸对齐的人脸图像输入质量评价模型,模型对图像质量进行评估,输出每张人脸的质量评分,人脸质量与质量评分成正相关。这里可以采用但不限于EQFace等模型。
步骤S5:应用自适应轨迹关联模块完成人脸轨迹的确定。该步骤基于检测人脸的边界框(位置信息)、人脸特征(外观信息)和人脸质量评分(可靠性信息),将具有时序关系的多个人脸进行轨迹关联,实现在视频画面中对相同人物的人脸的持续跟进,输出人脸的轨迹。与已有的轨迹关联方法的差异最大在于,本发明提出的自适应轨迹关联模块应用于轨迹关联,将轨迹关联步骤细化为两路分支:基于“外观—运动”联合信息对高质量人脸进行匹配,以及基于运动信息对低质量人脸进行匹配,最后将两路分支的匹配结果进行合并。该步骤中,人脸质量评分指导轨迹关联采用不同信息去完成人脸轨迹关联的过程。
步骤S6:输出轨迹。将人脸轨迹在每帧视频图像的边界框坐标和轨迹唯一标识进行输出,并存储在视频结构化信息当中。
本申请实施例提供的技术方案创新性地在轨迹关联过程中引入人脸质量信息作为人脸可靠性的衡量,在外观不可靠时舍弃外观信息,只利用运动信息作为关联依据,在外观可靠时优先采用人脸外观作为关联依据。这种根据人脸可靠性进行细化的轨迹关联方式称为自适应轨迹关联模块。自适应轨迹关联模块利用人脸检测结果、人脸特征、人脸质量分数三者信息自适应选择最佳方式:基于运动信息或基于“外观—运动”联合信息。
本申请实施例提供的技术方案,提出自适应轨迹关联模块,细化了人脸轨迹关联过程。在过程中模块会根据人脸质量评分高低,决定是否将人脸外观信息运用到轨迹关联当中,自适应地采用更佳的轨迹关联方式。具体地,轨迹关联过程中,高质量人脸采用“外观—运动”联合信息,首先采用基于外观信息的特征余弦距离作为匈牙利匹配算法的代价,去计算人脸和轨迹的匹配程度,得到人脸和轨迹的匹配对。然后,基于运动信息的IoU距离作为匹配算法的代价,将未匹配的人脸和轨迹再次进行匹配。最后,综合两者匹配结果作为最终的轨迹关联结果。低质量人脸因外观特征信息不可靠,则只采用“运动信息”进行关联,抛弃外观特征信息,只将IoU距离作为匹配算法的代价,完成人脸和轨迹的匹配过程。细化的轨迹关联步骤,保证了轨迹关联的方法能更可靠地利用人脸外观信息,减少了人脸和轨迹误关联的情况,提高轨迹关联的精度。
请参考图13,其示出了本申请一个实施例提供的人脸轨迹关联的框图。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下几个步骤(P1~P4)至少一个步骤。
步骤P1:获取当前图像帧的人脸边界框和人脸特征。
步骤P2:获取当前图像帧以前的人脸轨迹。
步骤P3:自适应地选择两种方式进行人脸与轨迹的匹配,完成轨迹关联。人脸质量与预先设置的阈值进行比较,高于阈值则定义为高质量人脸,低于阈值则定义为低质量人脸。与相关技术中对所有人脸进行相同的处理方式有所不同,此时,该模块根据高质量人脸和低质量人脸将后续流程分成两路分支进行处理。
高质量人脸采用“外观—运动”联合信息进行轨迹关联,采用与相关技术中的方法相同的方式,首先,计算人脸与各轨迹的特征之间的余弦距离,然后以这些余弦距离为匹配代价,采用匈牙利匹配算法进行二分图匹配,完成人脸和轨迹的一对一匹配,获得人脸和轨迹的匹配对。接下来,将完成匹配的人脸加入到对应的人脸轨迹中,将未匹配的人脸和轨迹在步骤3.2中进行进一步的轨迹关联,该步骤依赖运动信息进行轨迹关联。
与相关技术的方法不同,低质量人脸只依赖运动信息进行轨迹关联,避免不可靠的外观信息对轨迹关联过程造成不良影响。该步骤中处理的人脸包含低质量人脸和步骤3.1中未完成匹配的人脸,在该步骤中,依赖人脸的运动信息去实现人脸和轨迹的匹配,首先,计算人脸与轨迹边界框之间的IoU距离,然后以这些IoU距离作为匹配代价,采用匈牙利匹配算法进行二分图匹配,完成人脸和轨迹的一一配对,获得人脸和轨迹的匹配对。接下来,将完成匹配的人脸加入到对应的人脸轨迹中,将未匹配的人脸初始化成新的轨迹。
步骤P4:将人脸加入轨迹。综合两路结果。在两路分支完成后,将两路结果合并起来作为当前图像帧人脸与轨迹的匹配输出,并跳转到下一个图像帧进行处理,直到视频图像帧的最后一帧。
本申请实施例提供的技术方案,通过使用自适应轨迹关联模块,能够使人脸轨迹关联过程更加精确和鲁棒,提高轨迹关联的的有效性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图14,其示出了本申请一个实施例提供的对象图像序列的确定装置的框图。该装置900可以包括:图像提取模块910、评分获取模块920和序列确定模块930。
所述图像提取模块910,用于从视频的当前图像帧中提取待匹配对象图像;
所述评分获取模块920,用于获取所述待匹配对象图像的质量评分,所述质量评分用于指示所述待匹配对象图像的图像质量。
所述序列确定模块930,用于在所述质量评分大于阈值的情况下,根据所述待匹配对象图像的外观信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的外观信息用于指示所述待匹配对象图像中包含的对象的外观特征。
在一些实施例中,如图15所示,所述序列确定模块930包括信息获取单元932、匹配度获取单元934和序列确定单元936。
所述信息获取单元932,用于获取至少一个对象图像序列的外观信息;其中,所述至少一个对象图像序列是基于所述视频中位于所述当前图像帧之前的历史图像帧生成的,所述对象图像序列的外观信息用于指示所述对象图像序列中包含的对象的外观特征。
所述匹配度获取单元934,用于获取所述待匹配对象图像的外观信息,分别与各个所述对象图像序列的外观信息之间的外观匹配度。
所述序列确定单元936,用于根据各个所述外观匹配度,确定所述待匹配对象图像所属的对象图像序列。
在一些实施例中,每个所述对象图像序列的外观信息包括:所述对象图像序列中包含的至少一个已匹配对象图像的外观信息,所述已匹配对象图像的外观信息用于指示所述已匹配对象图像中包含的对象的外观特征。
在一些实施例中,所述匹配度获取单元934,用于对于每个所述对象图像序列,获取所述待匹配对象图像的外观信息,分别与所述对象图像序列中包含的各个所述已匹配对象图像的外观信息之间的外观相似度。
所述匹配度获取单元934,用于根据所述外观相似度的最大值,确定所述待匹配对象图像的外观信息与所述对象图像序列的外观信息之间的外观匹配度。
在一些实施例中,所述序列确定单元936,用于在所述待匹配对象图像的数量为一个的情况下,将各个所述外观匹配度中的最大值所对应的对象图像序列,确定为所述待匹配对象图像所属的对象图像序列;或者,所述序列确定单元936,用于在所述待匹配对象图像的数量为至少两个的情况下,根据所述待匹配对象图像的外观信息与各个所述对象图像序列的外观信息之间的外观匹配度,确定所述待匹配对象图像与各个所述对象图像序列的外观权重信息,所述外观权重信息与所述外观匹配度成正比;根据各个所述外观匹配度以及各个所述外观权重信息,确定各个所述待匹配对象图像分别所属的对象图像序列。
在一些实施例中,所述序列确定模块930,用于以各个所述外观匹配度为第一优先级,各个所述外观权重信息为第二优先级,确定各个所述待匹配对象分别所属的对象图像序列;其中,所述第一优先级大于所述第二优先级。
在一些实施例中,所述序列确定模块930,还用于若所述外观匹配度不满足第一条件,则根据所述待匹配对象图像的运动信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的运动信息用于指示所述待匹配对象图像在所述当前图像帧中的位置。
在一些实施例中,所述序列确定模块930,还用于在所述质量评分小于所述阈值的情况下,根据所述待匹配对象图像的运动信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的运动信息用于指示所述待匹配对象图像在所述当前图像帧中的位置。
在一些实施例中,所述信息获取单元932,用于对于每个所述对象图像序列,获取所述待匹配对象图像的运动信息,与所述对象图像序列中最新识别的对象的运动信息之间的运动相似度。
所述匹配度获取单元934,用于根据所述运动相似度,确定所述待匹配对象图像的运动信息与所述对象图像序列的运动信息之间的运动匹配度。
在一些实施例中,所述序列确定单元936,用于在所述待匹配对象图像的数量为一个的情况下,将各个所述运动匹配度中的最大值所对应的对象图像序列,确定为所述待匹配对象图像所属的对象图像序列;或者,所述序列确定单元936,用于在所述待匹配对象图像的数量为至少两个的情况下,根据所述待匹配对象图像的运动信息与各个所述对象图像序列的运动信息之间的运动匹配度,确定所述待匹配对象图像与各个所述对象图像序列的运动权重信息,所述运动权重信息与所述运动匹配度成正比;根据各个所述运动匹配度以及各个所述运动权重信息,确定各个所述待匹配对象图像分别所属的对象图像序列。
在一些实施例中,所述序列确定单元936,用于以各个所述运动匹配度为第三优先级,各个所述运动权重信息为第四优先级,确定各个所述待匹配对象分别所属的对象图像序列;其中,所述第三优先级大于所述第四优先级。
在一些实施例中,所述序列确定单元936,用于若所述运动匹配度不满足第二条件,则确定所述待匹配对象图像属于新的对象图像序列。
在一些实施例中,所述评分获取模块920,用于根据所述待匹配对象图像的关键点识别结果,进行关键点对齐,得到对齐后的待匹配对象图像。
所述评分获取模块920,用于通过对象识别模型对所述对齐后的待匹配对象图像进行处理,得到所述待匹配对象图像的外观信息。
所述评分获取模块920,用于通过质量评价模型对所述对齐后的待匹配对象图像进行处理,得到所述待匹配对象图像的质量评分。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图16,其示出了本申请一个实施例提供的计算机设备2100的结构框图。
通常,计算机设备2100包括有:处理器2101和存储器2102。
处理器2101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器2101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器2101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器2101还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器2102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器2102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器2102中的非暂态的计算机可读存储介质用于存储计算机程序,所述计算机程序经配置以由一个或者一个以上处理器执行,以实现上述对象图像序列的确定方法。
本领域技术人员可以理解,图16中示出的结构并不构成对计算机设备2100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上对象图像序列的确定方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取存储器可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取存储器)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序,所述处理器执行所述计算机程序,使得所述计算机设备执行上述对象图像序列的确定方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (17)
1.一种对象图像序列的确定方法,其特征在于,所述方法包括:
从视频的当前图像帧中提取待匹配对象图像;
获取所述待匹配对象图像的质量评分,所述质量评分用于指示所述待匹配对象图像的图像质量;
在所述质量评分大于阈值的情况下,根据所述待匹配对象图像的外观信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的外观信息用于指示所述待匹配对象图像中包含的对象的外观特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待匹配对象图像的外观信息,确定所述待匹配对象图像所属的对象图像序列,包括:
获取至少一个对象图像序列的外观信息;其中,所述至少一个对象图像序列是基于所述视频中位于所述当前图像帧之前的历史图像帧生成的,所述对象图像序列的外观信息用于指示所述对象图像序列中包含的对象的外观特征;
获取所述待匹配对象图像的外观信息,分别与各个所述对象图像序列的外观信息之间的外观匹配度;
根据各个所述外观匹配度,确定所述待匹配对象图像所属的对象图像序列。
3.根据权利要求2所述的方法,其特征在于,每个所述对象图像序列的外观信息包括:所述对象图像序列中包含的至少一个已匹配对象图像的外观信息,所述已匹配对象图像的外观信息用于指示所述已匹配对象图像中包含的对象的外观特征;
所述获取所述待匹配对象图像的外观信息,分别与各个所述对象图像序列的外观信息之间的外观匹配度,包括:
对于每个所述对象图像序列,获取所述待匹配对象图像的外观信息,分别与所述对象图像序列中包含的各个所述已匹配对象图像的外观信息之间的外观相似度;
根据所述外观相似度的最大值,确定所述待匹配对象图像的外观信息与所述对象图像序列的外观信息之间的外观匹配度。
4.根据权利要求2所述的方法,其特征在于,所述根据各个所述外观匹配度,确定所述待匹配对象图像所属的对象图像序列,包括:
在所述待匹配对象图像的数量为一个的情况下,将各个所述外观匹配度中的最大值所对应的对象图像序列,确定为所述待匹配对象图像所属的对象图像序列;
或者,
在所述待匹配对象图像的数量为至少两个的情况下,根据所述待匹配对象图像的外观信息与各个所述对象图像序列的外观信息之间的外观匹配度,确定所述待匹配对象图像与各个所述对象图像序列的外观权重信息,所述外观权重信息与所述外观匹配度成正比;根据各个所述外观匹配度以及各个所述外观权重信息,确定各个所述待匹配对象图像分别所属的对象图像序列。
5.根据权利要求4所述的方法,其特征在于,所述根据各个所述外观匹配度以及各个所述外观权重信息,确定各个所述待匹配对象图像分别所属的对象图像序列,包括:
以各个所述外观匹配度为第一优先级,各个所述外观权重信息为第二优先级,确定各个所述待匹配对象分别所属的对象图像序列;其中,所述第一优先级大于所述第二优先级。
6.根据权利要求2所述的方法,其特征在于,所述获取所述待匹配对象图像的外观信息,分别与各个所述对象图像序列的外观信息之间的外观匹配度之后,还包括:
若所述外观匹配度不满足第一条件,则根据所述待匹配对象图像的运动信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的运动信息用于指示所述待匹配对象图像在所述当前图像帧中的位置。
7.根据权利要求1所述的方法,其特征在于,所述获取所述待匹配对象图像的质量评分之后,还包括:
在所述质量评分小于所述阈值的情况下,根据所述待匹配对象图像的运动信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的运动信息用于指示所述待匹配对象图像在所述当前图像帧中的位置。
8.根据权利要求6或7所述的方法,其特征在于,所述根据所述待匹配对象图像的运动信息,确定所述待匹配对象图像所属的对象图像序列,包括:
获取至少一个对象图像序列的运动信息;其中,所述至少一个对象图像序列是基于所述视频中位于所述当前图像帧之前的历史图像帧生成的,所述对象图像序列的运动信息用于指示所述对象图像序列中包含的对象的位置变化;
获取所述待匹配对象图像的运动信息,分别与各个所述对象图像序列的运动信息之间的运动匹配度;
根据各个所述运动匹配度,确定所述待匹配对象图像所属的对象图像序列。
9.根据权利要求8所述的方法,其特征在于,每个所述对象图像序列的运动信息包括:所述对象图像序列中包含的至少一个已匹配对象图像的运动信息,所述已匹配对象图像的运动信息用于指示所述已匹配对象图像在所属图像帧中的位置;
所述获取所述待匹配对象图像的运动信息,分别与各个所述对象图像序列的运动信息之间的运动匹配度,包括:
对于每个所述对象图像序列,获取所述待匹配对象图像的运动信息,与所述对象图像序列中最新识别的对象的运动信息之间的运动相似度;
根据所述运动相似度,确定所述待匹配对象图像的运动信息与所述对象图像序列的运动信息之间的运动匹配度。
10.根据权利要求8所述的方法,其特征在于,所述根据各个所述运动匹配度,确定所述待匹配对象图像所属的对象图像序列,包括:
在所述待匹配对象图像的数量为一个的情况下,将各个所述运动匹配度中的最大值所对应的对象图像序列,确定为所述待匹配对象图像所属的对象图像序列;
或者,
在所述待匹配对象图像的数量为至少两个的情况下,根据所述待匹配对象图像的运动信息与各个所述对象图像序列的运动信息之间的运动匹配度,确定所述待匹配对象图像与各个所述对象图像序列的运动权重信息,所述运动权重信息与所述运动匹配度成正比;根据各个所述运动匹配度以及各个所述运动权重信息,确定各个所述待匹配对象图像分别所属的对象图像序列。
11.根据权利要求10所述的方法,其特征在于,所述根据各个所述运动匹配度以及各个所述运动权重信息,确定各个所述待匹配对象图像分别所属的对象图像序列,包括:
以各个所述运动匹配度为第三优先级,各个所述运动权重信息为第四优先级,确定各个所述待匹配对象分别所属的对象图像序列;其中,所述第三优先级大于所述第四优先级。
12.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所述运动匹配度不满足第二条件,则确定所述待匹配对象图像属于新的对象图像序列。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待匹配对象图像的关键点识别结果,进行关键点对齐,得到对齐后的待匹配对象图像;
通过对象识别模型对所述对齐后的待匹配对象图像进行处理,得到所述待匹配对象图像的外观信息;
通过质量评价模型对所述对齐后的待匹配对象图像进行处理,得到所述待匹配对象图像的质量评分。
14.一种对象图像序列的确定装置,其特征在于,所述装置包括:
图像提取模块,用于从视频的当前图像帧中提取待匹配对象图像;
评分获取模块,用于获取所述待匹配对象图像的质量评分,所述质量评分用于指示所述待匹配对象图像的图像质量;
序列确定模块,用于在所述质量评分大于阈值的情况下,根据所述待匹配对象图像的外观信息,确定所述待匹配对象图像所属的对象图像序列;其中,所述待匹配对象图像的外观信息用于指示所述待匹配对象图像中包含的对象的外观特征。
15.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至13任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210908492.9A CN117523368A (zh) | 2022-07-29 | 2022-07-29 | 对象图像序列的确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210908492.9A CN117523368A (zh) | 2022-07-29 | 2022-07-29 | 对象图像序列的确定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117523368A true CN117523368A (zh) | 2024-02-06 |
Family
ID=89759343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210908492.9A Pending CN117523368A (zh) | 2022-07-29 | 2022-07-29 | 对象图像序列的确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523368A (zh) |
-
2022
- 2022-07-29 CN CN202210908492.9A patent/CN117523368A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
Liang et al. | Stereo matching using multi-level cost volume and multi-scale feature constancy | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
US11514625B2 (en) | Motion trajectory drawing method and apparatus, and device and storage medium | |
CN110705478A (zh) | 人脸跟踪方法、装置、设备及存储介质 | |
CN108875542B (zh) | 一种人脸识别方法、装置、系统及计算机存储介质 | |
CN105005777A (zh) | 一种基于人脸的音视频推荐方法及系统 | |
CN111405360B (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN114782499A (zh) | 一种基于光流和视图几何约束的图像静态区域提取方法及装置 | |
CN112272295B (zh) | 具有三维效果的视频的生成方法、播放方法、装置及设备 | |
Xue et al. | Boundary-induced and scene-aggregated network for monocular depth prediction | |
CN112712051B (zh) | 对象跟踪方法、装置、计算机设备及存储介质 | |
Jiang et al. | Application of a fast RCNN based on upper and lower layers in face recognition | |
CN112101344A (zh) | 一种视频文本跟踪方法及装置 | |
CN114973349A (zh) | 面部图像处理方法和面部图像处理模型的训练方法 | |
Yaseen et al. | A novel approach based on multi-level bottleneck attention modules using self-guided dropblock for person re-identification | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
Seychell et al. | Ranking regions of visual saliency in rgb-d content | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
CN117351192A (zh) | 一种对象检索模型训练、对象检索方法、装置及电子设备 | |
CN112257628A (zh) | 一种户外比赛运动员的身份识别方法、装置及设备 | |
CN115018886B (zh) | 运动轨迹识别方法、装置、设备及介质 | |
CN117523368A (zh) | 对象图像序列的确定方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |