CN108229320A - 选帧方法和装置、电子设备、程序和介质 - Google Patents

选帧方法和装置、电子设备、程序和介质 Download PDF

Info

Publication number
CN108229320A
CN108229320A CN201711236422.9A CN201711236422A CN108229320A CN 108229320 A CN108229320 A CN 108229320A CN 201711236422 A CN201711236422 A CN 201711236422A CN 108229320 A CN108229320 A CN 108229320A
Authority
CN
China
Prior art keywords
frame
quality
video frame
multiple video
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711236422.9A
Other languages
English (en)
Other versions
CN108229320B (zh
Inventor
宋广录
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201711236422.9A priority Critical patent/CN108229320B/zh
Publication of CN108229320A publication Critical patent/CN108229320A/zh
Application granted granted Critical
Publication of CN108229320B publication Critical patent/CN108229320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种选帧方法和装置、电子设备、程序和介质,其中,方法包括:获取视频帧序列;通过质量网络模型,针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值;基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作。本发明实施例可以选取信息有效性较好的视频帧,以提升视频帧识别的性能、效率和精度。

Description

选帧方法和装置、电子设备、程序和介质
技术领域
本发明涉及计算机视觉技术,尤其是一种选帧方法和装置、电子设备、程序和介质。
背景技术
人脸识别是计算机视觉以及智能视频监控领域的核心技术。人脸识别模型的性能对于安防监控的安全性具有很大的影响。利用视频序列中多帧图像丰富的特征信息,可以有效的提升人脸识别模型的鲁棒性。
发明内容
本发明实施例提供一种用于从视频序列中选帧的技术方案。
根据本发明实施例的一个方面,提供的一种选帧方法,包括:
获取视频帧序列;
通过质量网络模型,针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值;
基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作。
可选地,在本发明上述各方法实施例中,所述获取视频帧序列之后,还包括:
通过人脸检测模型,检测所述多个视频帧中人脸的关键点位置,根据检测到的关键点位置对所述多个视频帧进行校准,得到校准后的多个视频帧;
所述针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值,包括:针对所述校准后的多个视频帧,获取所述校准后的多个视频帧分别对应的图像质量预测值。
可选地,在本发明上述各方法实施例中,基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作,包括:
根据所述多个视频帧分别对应的图像质量预测值,从所述多个视频帧中选取图像质量预测值最高的或者图像质量预测值高于预设质量阈值的至少一帧图像。
可选地,在本发明上述各方法实施例中,还包括:
基于选取的帧图像进行人脸识别。
可选地,在本发明上述各方法实施例中,还包括:
向所述质量网络模型输入监控图像,所述监控图像为从监控视频提取的图像;
由所述质量网络模型预测所述监控图像的质量,并输出所述监控图像的预测质量值;
基于所述监控图像的预测质量值与质量监督信息对所述质量网络模型进行训练,直至满足预设训练完成条件;其中,所述质量监督信息基于所述监控图像的特征与训练用底库照片的特征之间的相似度获得,所述训练用底库照片包括与至少一帧监控图像对应的注册照片。
可选地,在本发明上述各方法实施例中,还包括:
从监控视频中提取至少一帧底库中存在对应同一用户人脸的注册照片的图像作为所述监控图像;
从所述底库中选取所述监控图像对应的注册照片,形成所述训练用底库照片。
可选地,在本发明上述各方法实施例中,所述质量监督信息的获取方法,包括:
分别以每帧监控图像作为当前监控图像,获取当前监控图像的特征与所述训练用底库照片中该当前监控图像对应的注册照片的特征之间的第一相似度、以及当前监控图像与所述训练用底库照片中其他注册照片的特征之间的第二相似度;
根据所述第一相似度与所述第二相似度获取所述当前监控图像的质量监督信息;所述质量监督信息包括各帧监控图像的质量监督信息。
可选地,在本发明上述各方法实施例中,根据所述第一相似度与所述第二相似度获取所述当前监控图像的质量监督信息,包括:
计算所述第一相似度与对比相似度之间的比值,作为所述当前监控图像的质量监督信息;
所述对比相似度包括以下任一:所述第二相似度中的最大值,所述第二相似度的平均值,所述第二相似度的最小值,所述第二相似度的均方差值。
可选地,在本发明上述各方法实施例中,基于所述监控图像的预测质量值与质量监督信息对所述质量网络模型进行训练,包括:
获取所述监控图像的预测质量值与质量监督信息之间的差异,根据所述差异对所述质量网络模型的网络参数进行调整。
可选地,在本发明上述各方法实施例中,获取所述监控图像的预测质量值与质量监督信息之间的差异,根据所述差异对所述质量网络模型的网络参数进行调整,包括:
通过损失函数,计算所述监控图像的预测质量值与质量监督信息之间的损失函数值,根据所述损失函数值对所述质量网络模型的网络参数进行调整。
可选地,在本发明上述各方法实施例中,所述满足预设训练完成条件,包括:
所述监控图像的预测质量值与质量监督信息之间的差异小于预设阈值,和/或,对所述质量网络模型的训练次数达到预设次数。
根据本发明实施例的另一个方面,提供的一种选帧装置,包括:
第一获取模块,用于获取视频帧序列;
质量网络模型,用于针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值;
选帧模块,用于基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作。
可选地,在本发明上述各装置实施例中,还包括:
人脸检测模型,用于检测所述多个视频帧中人脸的关键点位置,根据检测到的关键点位置对所述多个视频帧进行校准,得到校准后的多个视频帧;
所述质量网络模型具体用于:针对所述校准后的多个视频帧,获取所述校准后的多个视频帧分别对应的图像质量预测值。
可选地,在本发明上述各装置实施例中,所述选帧模块具体用于:根据所述多个视频帧分别对应的图像质量预测值,从所述多个视频帧中选取图像质量预测值最高的或者图像质量预测值高于预设质量阈值的至少一帧图像。
可选地,在本发明上述各装置实施例中,还包括:
人脸识别模块,用于基于选取的帧图像进行人脸识别。
可选地,在本发明上述各装置实施例中,所述质量网络模型,还用于接收输入的监控图像,所述监控图像为从监控视频提取的图像;以及预测所述监控图像的质量,并输出所述监控图像的预测质量值;
所述装置还包括:
训练模块,用于基于所述监控图像的预测质量值与质量监督信息对所述质量网络模型进行训练,直至满足预设训练完成条件;其中,所述质量监督信息基于所述监控图像的特征与训练用底库照片的特征之间的相似度获得,所述训练用底库照片包括与至少一帧监控图像对应的注册照片。
可选地,在本发明上述各装置实施例中,还包括:
第二获取模块,用于从监控视频中提取至少一帧底库中存在对应同一用户人脸的注册照片的图像作为所述监控图像;以及从所述底库中选取所述监控图像对应的注册照片,形成所述训练用底库照片。
可选地,在本发明上述各装置实施例中,还包括:
第三获取模块,用于分别以每帧监控图像作为当前监控图像,获取当前监控图像的特征与所述训练用底库照片中该当前监控图像对应的注册照片的特征之间的第一相似度、以及当前监控图像与所述训练用底库照片中其他注册照片的特征之间的第二相似度;
第四获取模块,用于根据所述第一相似度与所述第二相似度获取所述当前监控图像的质量监督信息;所述质量监督信息包括各帧监控图像的质量监督信息。
可选地,在本发明上述各装置实施例中,第四获取模块具体用于:计算所述第一相似度与对比相似度之间的比值,作为所述当前监控图像的质量监督信息;
所述对比相似度包括以下任一:所述第二相似度中的最大值,所述第二相似度的平均值,所述第二相似度的最小值,所述第二相似度的均方差值。
可选地,在本发明上述各装置实施例中,所述训练模块具体用于:获取所述监控图像的预测质量值与质量监督信息之间的差异,根据所述差异对所述质量网络模型的网络参数进行调整。
可选地,在本发明上述各装置实施例中,所述训练模块具体用于:通过损失函数,计算所述监控图像的预测质量值与质量监督信息之间的损失函数值,根据所述损失函数值对所述质量网络模型的网络参数进行调整。
可选地,在本发明上述各装置实施例中,所述满足预设训练完成条件,包括:
所述监控图像的预测质量值与质量监督信息之间的差异小于预设阈值,和/或,对所述质量网络模型的训练次数达到预设次数。
根据本发明实施例的又一个方面,提供一种本发明上述任一实施例所述的选帧装置中的质量网络模型。
根据本发明实施例的再一个方面,提供的一种电子设备,包括:本发明上述任一实施例所述的选帧装置或者质量网络模型。
根据本发明实施例的再一个方面,提供的另一种电子设备,包括:
处理器和本发明上述任一实施例所述的选帧装置或者质量网络模型;
在处理器运行所述选帧装置或者质量网络模型时,本发明上述任一实施例所述的相应的选帧装置或者质量网络模型中的单元被运行。
根据本发明实施例的再一个方面,提供的再一种电子设备,包括:处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本发明上述任一实施例所述方法中各步骤的操作。
根据本发明实施例的再一个方面,提供的一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本发明上述任一实施例所述方法中各步骤的指令。
根据本发明实施例的再一个方面,提供的一种计算机可读介质,用于存储计算机可读取的指令,所述指令被执行时实现本发明上述任一实施例所述方法中各步骤的操作。
基于本发明上述实施例提供的选帧方法和装置、电子设备、程序和介质,获取视频帧序列后,可以通过质量网络模型,针对该视频帧序列中的多个视频帧,获取该多个视频帧分别对应的图像质量预测值,基于该多个视频帧分别对应的图像质量预测值,对视频帧序列进行选帧操作,质量网络模型可以准确、有效获取视频帧的图像质量,从而有效的视频帧的信息有效性,使得挑选出的视频帧可以充分表达整体视频帧序列,以便于选取信息有效性较好的视频帧参与图像识别(例如人脸识别),提升图像识别的性能、效率和精度,而无需针对整个视频帧序列进行识别,可以满足安防监控要求耗时短、精度高的要求。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明选帧方法一个实施例的流程图。
图2为本发明选帧方法另一个实施例的流程图。
图3为本发明实施例中质量网络模型的训练方法一个实施例的流程图。
图4为本发明实施例中质量网络模型的训练方法另一个实施例的流程图。
图5为本发明实施例中质量网络模型的训练方法又一个实施例的流程图。
图6为本发明选帧装置一个实施例的结构示意图。
图7为本发明选帧装置另一个实施例的结构示意图。
图8为本发明电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在实现本发明的过程中,发明人通过研究发现,对视频序列中每一帧图像均进行特征提取是尤为耗时的,安防监控要求耗时短、精度高,因此需要从视频序列挑选出部分帧图像进行特征提取,用从该部分帧图像提取出来的特征来表示整个视频序列。视频序列中不同帧图像的信息有效性不同,人脸的遮挡、模糊以及姿态变化都会对人脸识别结果产生影响。
图1为本发明选帧方法一个实施例的流程图。如图1所示,该实施例的选帧方法包括:
102,获取视频帧序列。
104,通过质量网络模型,针对上述视频帧序列中的多个视频帧,获取该多个视频帧分别对应的图像质量预测值。
106,基于上述多个视频帧分别对应的图像质量预测值,对上述视频帧序列进行选帧操作。
基于本发明上述实施例提供的选帧方法,获取视频帧序列后,可以通过质量网络模型,针对该视频帧序列中的多个视频帧,获取该多个视频帧分别对应的图像质量预测值,基于该多个视频帧分别对应的图像质量预测值,对视频帧序列进行选帧操作,质量网络模型可以准确、有效获取视频帧的图像质量,从而有效的视频帧的信息有效性,使得挑选出的视频帧可以充分表达整体视频帧序列,以便于选取信息有效性较好的视频帧参与图像识别(例如人脸识别),提升图像识别的性能、效率和精度,而无需针对整个视频帧序列进行识别,可以满足安防监控要求耗时短、精度高的要求。
图2为本发明选帧方法另一个实施例的流程图。如图2所示,该实施例的选帧方法包括:
202,获取视频帧序列。
204,通过人脸检测模型,检测多个视频帧中人脸的关键点位置,根据检测到的关键点位置对多个视频帧进行校准,即:对视频帧中的人脸图像进行校准,得到校准后的多个视频帧。
206,通过质量网络模型,针对校准后的多个视频帧,获取该校准后的多个视频帧分别对应的图像质量预测值。
208,基于获取到的多个视频帧分别对应的图像质量预测值,对上述视频帧序列进行选帧操作。
210,基于选取的帧图像进行人脸识别。
在实际应用中,输入的视频帧序列中的人脸可能存在较为严重的变形、模糊和较大的姿态变化。在该实施例中,通过人脸检测模型检测视频帧中人脸的关键点位置,根据该关键点位置对视频帧中的人脸图像进行校准,得到校准后的视频帧,从而解决人脸变形的问题。
在本发明上述各选帧方法实施例的一个可选示例中,操作106或210可以包括:
根据多个视频帧分别对应的图像质量预测值,从该多个视频帧中选取图像质量预测值(即:质量得分)最高的或者图像质量预测值高于预设质量阈值的至少一帧图像。
根据质量网络模型对视频帧序列中的多个视频帧生成的质量得分来进行选帧操作,便可以得到挑选后的视频帧。例如,多个视频帧记为Si={I1,I2,……,In},该多个视频帧经过质量网络模型生成其对应的质量得分Qi={Q1,Q2,……,Qn},选取前k(k为大于0的整数)个的质量得分最高的视频帧输出。
基于本发明实施例,可以利用深度学习构建的质量网络模型来更好的预测视频帧的质量,能够对视频帧序列中的视频帧进行质量分析,根据各视频帧的质量得分,可以选取高质量的视频帧进行特征提取,然后以该部分选取出来的视频帧的特征的平均特征或融合特征表达来表示整个视频帧序列的信息,可以极大的降低视频帧序列特征提取的耗时,同时保证识别性能的稳定性。
另外,在本发明上述各选帧方法实施例的流程之前,还可以包括对质量网络模型进行训练的操作。
如图3所示,为本发明实施例中质量网络模型的训练方法一个实施例的流程图。参见图3,该实施例的质量网络模型的训练方法包括:
302,向质量网络模型输入监控图像。
该监控图像包括从监控视频提取的至少一帧图像。
在本发明各实施例的一个可选实施方式中,质量生成网络模型可以采用轻量级的卷积神经网络,例如1/4通道(channel)的GoogleNet模型。轻量级的卷积神经网络采用inception结构,网络参数量少、计算复杂度低,获取图像的预测质量值所需的时间短。
304,由质量网络模型预测上述监控图像的质量,并输出上述监控图像的预测质量值。
306,基于上述监控图像的预测质量值与质量监督信息对质量网络模型进行训练,直至满足预设训练完成条件。
其中,质量监督信息基于监控图像的特征与训练用底库照片的特征之间的相似度获得,其中的训练用底库照片包括与至少一帧监控图像对应的注册照片。
基于上述实施例提供的质量网络模型的训练方法,可以预先基于监控图像的特征与训练用底库照片的特征之间的相似度获得质量监督信息,其中的训练用底库照片包括与至少一帧监控图像对应的注册照片;向质量网络模型输入监控图像,由质量网络模型预测监控图像的质量,并输出监控图像的预测质量值,基于监控图像的预测质量值与质量监督信息对质量网络模型进行训练,直至满足预设训练完成条件。本发明实施例以监控图像的特征与训练用底库照片的特征之间的相似度作为质量监督信息,来训练质量网络模型,使得质量网络模型可以学习到有效样本图像和干扰样本图像的特性,使得训练好的质量网络模型可以准确、有效获取图像的质量,从而有效的区分帧图像的信息有效性,使得挑选出的帧图像可以充分表达整体视频序列,以便于选取信息有效性较好的图像参与人脸识别,提升人脸识别的性能、效率和精度。
在本发明质量网络模型的训练方法的另一个实施例中,可以预先获取训练样本集,该训练样本集包括:监控图像与训练用底库照片。在其中一种可选的实现方式中,上述训练样本集的获取方法,例如可以包括:从监控视频中提取至少一帧底库中存在对应同一用户人脸的注册照片的图像作为监控图像;从底库中选取各监控图像分别对应的注册照片,形成训练用底库照片。其中的底库中包括用户注册时采集的人脸照片。获得训练样本集后,可以对训练样本集中的图像/照片进行标注,将对应同一用户人脸的图像/照片标注为同一标识(ID),例如同一用户ID。
图4为本发明实施例中质量网络模型的训练方法另一个实施例的流程图。与图3所述实施例相比,该实施例的训练方法,在操作306之前还可以包括:获取质量监督信息的操作。如图4所示,该实施例的训练方法中,质量监督信息的获取方法,包括:
402,分别以每帧监控图像作为当前监控图像,获取当前监控图像的特征与训练用底库照片中该当前监控图像对应的注册照片的特征之间的第一相似度、以及当前监控图像与训练用底库照片中其他注册照片的特征之间的第二相似度。
404,根据第一相似度与第二相似度获取当前监控图像的质量监督信息。
其中的质量监督信息包括各帧监控图像的质量监督信息。
在本发明各训练方法实施例的一个可选示例中,根据第一相似度与第二相似度获取当前监控图像的质量监督信息,例如可以通过如下方式实现:计算第一相似度与对比相似度之间的比值,作为当前监控图像的质量监督信息。其中,对比相似度例如可以包括但不限于以下任一:第二相似度中的最大值,第二相似度的平均值,第二相似度的最小值,第二相似度的均方差值。
例如,将每帧监控图像的特征与其在训练用底库照片中对应的注册照片的特征之间的第一相似度表示为Sintra,将每帧监控图像与训练用底库照片中其他注册照片的特征之间的第二相似度集合记为Sextra,则该帧监控图像的质量作为质量监督信息,可以表示记:为Q=Sintra/max(Sextra)。其中,其他注册照片即:该帧监控图像在训练用底库照片中对应的注册照片外的其他注册照片,该帧监控图像与其他注册照片对应于不同用户人脸。
本发明上述各实施例获取当前监控图像的质量监督信息时,不仅考虑了当前监控图像对于识别的信息有效性的贡献,同时考虑其他样本图像的影响,如果该监控图像与其注册照片的特征之间的第一相似度比该监控图像与其他注册照的特征之间的第二相似度高,则认定其质量越高,反之,其认定其质量为低。
在本发明各训练方法实施例的另一个可选示例中,操作306中,基于监控图像的预测质量值与质量监督信息对质量网络模型进行训练,例如可以通过如下方式实现:获取监控图像的预测质量值与质量监督信息之间的差异,根据该差异对质量网络模型的网络参数进行调整。
进一步示例性地,获取监控图像的预测质量值与质量监督信息之间的差异,根据差异对质量网络模型的网络参数进行调整,例如可以包括:通过损失函数,计算监控图像的预测质量值与质量监督信息之间的损失函数值,根据损失函数值对质量网络模型的网络参数进行调整。
在本发明各训练方法实施例的另一个可选示例中,操作306中,满足预设训练完成条件,例如可以包括但不限于:监控图像的预测质量值与质量监督信息之间的差异小于预设阈值,和/或,对质量网络模型的训练次数达到预设次数。
图5为本发明实施例中质量网络模型的训练方法又一个实施例的流程图。如图5所示,该实施例质量网络模型的训练方法包括:
502,分别以每帧监控图像作为当前监控图像,获取当前监控图像的特征与训练用底库照片中该当前监控图像对应的注册照片的特征之间的第一相似度、以及当前监控图像与训练用底库照片中其他注册照片的特征之间的第二相似度。
其中的训练用底库照片包括分别与各帧监控图像对应同一用户人脸的注册照片。
504,计算第一相似度与对比相似度之间的比值,作为当前监控图像的质量监督信息。
记Ii为标识(ID)为i的监控图像,Si为该ID的注册照片,O={I1,I2,……,In},(n≠i),则该监控图像i的质量Qi定义为:其中,F(·)表示从该监控图像Ii的特征,cos(·)表示特征之间的余弦距离,Qi作为该监控图像Ii的质量监督信号,Q={Q1,Q2,……,Qn}为n帧监控图像的质量监督信号。
506,向质量网络模型输入监控图像。
该监控图像包括从监控视频提取的至少一帧图像。
508,由质量网络模型预测监控图像的质量,并输出监控图像的预测质量值。
510,通过损失函数,计算监控图像的预测质量值与质量监督信息之间的损失函数值,根据损失函数值对质量网络模型的网络参数进行调整。
通过监控图像和质量监督信息自检的损失函数值对质量网络模型进行训练优化,目标损失函数Loss例如可以采用:其中,N为输入的监控图像的帧数,yn分别表示预测质量值和质量监督信号Qi
512,识别是否满足预设训练完成条件。
若满足预设训练完成条件,对质量网络模型的训练完成,得到训练好的质量网络模型。否则,若未满足预设训练完成条件,继续针对上述监控图像开始执行操作506,或者针对新的监控图像执行操作502。
本发明实施例提供的任一种选帧方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本发明实施例提供的任一种选帧方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本发明实施例提及的任一种选帧方法。下文不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图6为本发明选帧装置一个实施例的结构示意图。该实施例的选帧装置可用于实现本发明上述各选帧方法实施例。如图6所示,该实施例的选帧装置包括:第一获取模块,质量网络模型和选帧模块。其中:
第一获取模块,用于获取视频帧序列。
质量网络模型,用于针对上述视频帧序列中的多个视频帧,获取该多个视频帧分别对应的图像质量预测值。
选帧模块,用于基于上述多个视频帧分别对应的图像质量预测值,对上述视频帧序列进行选帧操作。
基于本发明上述实施例提供的选帧装置,获取视频帧序列后,可以通过质量网络模型,针对该视频帧序列中的多个视频帧,获取该多个视频帧分别对应的图像质量预测值,基于该多个视频帧分别对应的图像质量预测值,对视频帧序列进行选帧操作,质量网络模型可以准确、有效获取视频帧的图像质量,从而有效的视频帧的信息有效性,使得挑选出的视频帧可以充分表达整体视频帧序列,以便于选取信息有效性较好的视频帧参与图像识别(例如人脸识别),提升图像识别的性能、效率和精度,而无需针对整个视频帧序列进行识别,可以满足安防监控要求耗时短、精度高的要求。
图7为本发明选帧装置另一个实施例的结构示意图。如图7所示,与图6所示的实施例相比,该实施例的选帧装置还包括:人脸检测模型,用于检测上述多个视频帧中人脸的关键点位置,根据检测到的关键点位置对上述多个视频帧进行校准,得到校准后的多个视频帧。相应地,该实施例中,质量网络模型具体用于:针对校准后的多个视频帧,获取校准后的多个视频帧分别对应的图像质量预测值。
在其中一个可选示例中,选帧模块具体用于:根据上述多个视频帧分别对应的图像质量预测值,从该多个视频帧中选取图像质量预测值最高的或者图像质量预测值高于预设质量阈值的至少一帧图像。
另外,再参见图7,在本发明选帧装置的又一个实施例中,还可以包括:人脸识别模块,用于基于选取的帧图像进行人脸识别。
在其中一个可选示例中,上述人脸识别模块可以通过一个神经网络来实现,因此也可以称为人脸识别神经网络。
另外,再参见图7,在本发明选帧装置的又一个实施例中,还可以包括:训练模块。该实施例中,质量网络模型,还用于接收输入的监控图像,该监控图像为从监控视频提取的图像;以及预测该监控图像的质量,并输出该监控图像的预测质量值。
训练模块,用于基于上述监控图像的预测质量值与质量监督信息对质量网络模型进行训练,直至满足预设训练完成条件,例如监控图像的预测质量值与质量监督信息之间的差异小于预设阈值,和/或,对质量网络模型的训练次数达到预设次数。该训练模块在质量网络模型的训练完成后可以去除。
其中,质量监督信息基于监控图像的特征与训练用底库照片的特征之间的相似度获得,训练用底库照片包括与至少一帧监控图像对应的注册照片。
另外,再参见图7,在本发明选帧装置的再一个实施例中,还可以包括:第二获取模块,用于从监控视频中提取至少一帧底库中存在对应同一用户人脸的注册照片的图像作为监控图像;以及从底库中选取监控图像对应的注册照片,形成训练用底库照片。
进一步地,再参见图7,在本发明上述各选帧装置的实施例中,还可以选择性地包括:第三获取模块和第四获取模块。其中:
第三获取模块,用于分别以每帧监控图像作为当前监控图像,获取当前监控图像的特征与训练用底库照片中该当前监控图像对应的注册照片的特征之间的第一相似度、以及当前监控图像与训练用底库照片中其他注册照片的特征之间的第二相似度。
第四获取模块,用于根据第一相似度与第二相似度获取当前监控图像的质量监督信息;质量监督信息包括各帧监控图像的质量监督信息。
在其中一个可选示例中,第四获取模块具体用于:计算第一相似度与对比相似度之间的比值,作为当前监控图像的质量监督信息。其中的对比相似度例如可以包括以下任一:第二相似度中的最大值,第二相似度的平均值,第二相似度的最小值,第二相似度的均方差值。
在其中一个可选示例中,训练模块具体用于:获取监控图像的预测质量值与质量监督信息之间的差异,根据差异对质量网络模型的网络参数进行调整。
进一步示例性地,训练模块具体用于:通过损失函数,计算监控图像的预测质量值与质量监督信息之间的损失函数值,根据损失函数值对质量网络模型的网络参数进行调整。
本发明实施例还提供了一种本发明上述任一选帧装置实施例中的质量网络模型。
本发明实施例还提供了一种电子设备,包括:本发明上述任一实施例的选帧装置或者质量网络模型。
本发明实施例还提供了另一种电子设备,包括:
处理器和本发明上述任一实施例的选帧装置;
在处理器运行选帧装置时,本发明上述任一实施例的选帧装置中的单元被运行。
本发明实施例还提供了又一种电子设备,包括:
处理器和本发明上述任一实施例的质量网络模型;
在处理器运行质量网络模型时,本发明上述任一实施例的质量网络模型中的单元被运行。
本发明实施例还提供了再一种电子设备,包括:处理器和存储器;
存储器用于存放至少一可执行指令,可执行指令使处理器执行本发明上述任一选帧方法实施例中各步骤的操作。
图8为本发明电子设备一个应用实施例的结构示意图。如图8所示,用于实现本发明实施例的电子设备包括中央处理单元(CPU)或者图形处理单元(GPU),其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本发明实施例提供的选帧方法对应的操作,例如:获取视频帧序列;通过质量网络模型,针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值;基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作。
此外,在RAM中,还可存储有系统操作所需的各种程序和数据。CPU、GPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,所述程序代码可包括对应执行本发明实施例提供的任一项选帧方法步骤对应的指令,例如,获取视频帧序列的指令;通过质量网络模型,针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值的指令;基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作的指令。该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)或图形处理单元(GPU)执行时,执行本发明的方法中限定的上述功能。
本发明实施例还提供了一种计算机程序,包括计算机可读代码,当计算机可读代码在设备上运行时,该设备中的处理器执行用于实现本发明上述任一选帧方法实施例中各步骤的指令。
本发明实施例还提供了一种计算机可读介质,用于存储计算机可读取的指令,该指令被执行时实现本发明上述任一选帧方法实施例中各步骤的操作。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置、设备、程序、介质等实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种选帧方法,其特征在于,包括:
获取视频帧序列;
通过质量网络模型,针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值;
基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作。
2.根据权利要求1所述的方法,其特征在于,所述获取视频帧序列之后,还包括:
通过人脸检测模型,检测所述多个视频帧中人脸的关键点位置,根据检测到的关键点位置对所述多个视频帧进行校准,得到校准后的多个视频帧;
所述针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值,包括:针对所述校准后的多个视频帧,获取所述校准后的多个视频帧分别对应的图像质量预测值。
3.根据权利要求1或2所述的方法,其特征在于,基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作,包括:
根据所述多个视频帧分别对应的图像质量预测值,从所述多个视频帧中选取图像质量预测值最高的或者图像质量预测值高于预设质量阈值的至少一帧图像。
4.一种选帧装置,其特征在于,包括:
第一获取模块,用于获取视频帧序列;
质量网络模型,用于针对所述视频帧序列中的多个视频帧,获取所述多个视频帧分别对应的图像质量预测值;
选帧模块,用于基于所述多个视频帧分别对应的图像质量预测值,对所述视频帧序列进行选帧操作。
5.一种权利要求4所述的选帧装置中的质量网络模型。
6.一种电子设备,其特征在于,包括:权利要求4所述的选帧装置或者权利要求5所述的质量网络模型。
7.一种电子设备,其特征在于,包括:
处理器和权利要求4所述的选帧装置或者权利要求5所述的质量网络模型;
在处理器运行所述选帧装置或者所述质量网络模型时,对应的权利要求4所述的选帧装置或者权利要求5所述的质量网络模型中的单元被运行。
8.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行权利要求1-3任一所述方法中各步骤的操作。
9.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1-3任一所述方法中各步骤的指令。
10.一种计算机可读介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现权利要求1-3任一所述方法中各步骤的操作。
CN201711236422.9A 2017-11-29 2017-11-29 选帧方法和装置、电子设备、程序和介质 Active CN108229320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711236422.9A CN108229320B (zh) 2017-11-29 2017-11-29 选帧方法和装置、电子设备、程序和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711236422.9A CN108229320B (zh) 2017-11-29 2017-11-29 选帧方法和装置、电子设备、程序和介质

Publications (2)

Publication Number Publication Date
CN108229320A true CN108229320A (zh) 2018-06-29
CN108229320B CN108229320B (zh) 2020-05-22

Family

ID=62653769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711236422.9A Active CN108229320B (zh) 2017-11-29 2017-11-29 选帧方法和装置、电子设备、程序和介质

Country Status (1)

Country Link
CN (1) CN108229320B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815840A (zh) * 2018-12-29 2019-05-28 上海依图网络科技有限公司 一种确定识别信息的方法及装置
CN110339567A (zh) * 2019-07-17 2019-10-18 三星电子(中国)研发中心 系统资源配置、场景预测模型训练方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408736A (zh) * 2014-12-12 2015-03-11 西安电子科技大学 基于特征相似性的合成人脸画像质量评价方法
US20160086015A1 (en) * 2007-01-09 2016-03-24 Si Corporation Method and system for automated face detection and recognition
CN105488478A (zh) * 2015-12-02 2016-04-13 深圳市商汤科技有限公司 一种人脸识别系统和方法
CN105631439A (zh) * 2016-02-18 2016-06-01 北京旷视科技有限公司 人脸图像处理方法和装置
CN106127103A (zh) * 2016-06-12 2016-11-16 广州广电运通金融电子股份有限公司 一种离线身份认证的方法和装置
CN106663204A (zh) * 2015-07-03 2017-05-10 指纹卡有限公司 用于基于指纹的认证的装置和计算机实现的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160086015A1 (en) * 2007-01-09 2016-03-24 Si Corporation Method and system for automated face detection and recognition
CN104408736A (zh) * 2014-12-12 2015-03-11 西安电子科技大学 基于特征相似性的合成人脸画像质量评价方法
CN106663204A (zh) * 2015-07-03 2017-05-10 指纹卡有限公司 用于基于指纹的认证的装置和计算机实现的方法
CN105488478A (zh) * 2015-12-02 2016-04-13 深圳市商汤科技有限公司 一种人脸识别系统和方法
CN105631439A (zh) * 2016-02-18 2016-06-01 北京旷视科技有限公司 人脸图像处理方法和装置
CN106127103A (zh) * 2016-06-12 2016-11-16 广州广电运通金融电子股份有限公司 一种离线身份认证的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815840A (zh) * 2018-12-29 2019-05-28 上海依图网络科技有限公司 一种确定识别信息的方法及装置
CN110339567A (zh) * 2019-07-17 2019-10-18 三星电子(中国)研发中心 系统资源配置、场景预测模型训练方法和装置

Also Published As

Publication number Publication date
CN108229320B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN109344908B (zh) 用于生成模型的方法和装置
CN109145781B (zh) 用于处理图像的方法和装置
CN106599789B (zh) 视频类别识别方法和装置、数据处理装置和电子设备
CN109447156B (zh) 用于生成模型的方法和装置
CN109086873B (zh) 递归神经网络的训练方法、识别方法、装置及处理设备
CN111476871B (zh) 用于生成视频的方法和装置
CN110853033B (zh) 基于帧间相似度的视频检测方法和装置
CN109325541A (zh) 用于训练模型的方法和装置
CN108229321A (zh) 人脸识别模型及其训练方法和装置、设备、程序和介质
WO2018099473A1 (zh) 场景分析方法和系统、电子设备
WO2019105163A1 (zh) 目标人物的搜索方法和装置、设备、程序产品和介质
CN108229280A (zh) 时域动作检测方法和系统、电子设备、计算机存储介质
CN111052128B (zh) 用于检测和定位视频中的对象的描述符学习方法
KR101955919B1 (ko) 딥러닝 기반의 영상데이터 내 관심영역 설정방법 및 프로그램
JP7146122B2 (ja) 制御入力および限られた観測から動的流動を予測するための方法およびシステム
WO2021247371A1 (en) System and method for predicting formation in sports
TW202022726A (zh) 使用者准入的風險確定方法及裝置
WO2023221363A1 (zh) 一种图像生成方法、装置、设备及介质
CN109740567A (zh) 关键点定位模型训练方法、定位方法、装置及设备
WO2023048809A1 (en) Leveraging unsupervised meta-learning to boost few-shot action recognition
CN108229320A (zh) 选帧方法和装置、电子设备、程序和介质
CN111027582B (zh) 基于低秩图学习的半监督特征子空间学习方法及装置
CN110457523A (zh) 封面图片的选取方法、模型的训练方法、装置及介质
CN113822144A (zh) 一种目标检测方法、装置、计算机设备和存储介质
US20220012499A1 (en) Spatial-temporal graph-to-sequence learning based grounded video descriptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant