CN111401238B - 一种视频中人物特写片段的检测方法及装置 - Google Patents
一种视频中人物特写片段的检测方法及装置 Download PDFInfo
- Publication number
- CN111401238B CN111401238B CN202010181935.XA CN202010181935A CN111401238B CN 111401238 B CN111401238 B CN 111401238B CN 202010181935 A CN202010181935 A CN 202010181935A CN 111401238 B CN111401238 B CN 111401238B
- Authority
- CN
- China
- Prior art keywords
- portrait
- video
- target person
- close
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000012634 fragment Substances 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 111
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- VCGRFBXVSFAGGA-UHFFFAOYSA-N (1,1-dioxo-1,4-thiazinan-4-yl)-[6-[[3-(4-fluorophenyl)-5-methyl-1,2-oxazol-4-yl]methoxy]pyridin-3-yl]methanone Chemical compound CC=1ON=C(C=2C=CC(F)=CC=2)C=1COC(N=C1)=CC=C1C(=O)N1CCS(=O)(=O)CC1 VCGRFBXVSFAGGA-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
本发明提供了一种视频中人物特写片段的检测方法及装置,通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测,得到多个人像视频帧,并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,对多个人像视频帧进行筛选得到多个特写镜头帧,然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸,如明星人脸进行检测,得到包含目标人物人脸的多个目标视频帧,进一步,根据每个目标视频帧的时间,将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段,整个人物特写片段检测过程全部自动化完成,大幅度提高了视频中人物特写片段的检测速度和准确性。
Description
技术领域
本发明涉及视频数据分析技术领域,更具体的,涉及一种视频中人物特写片段的检测方法及装置。
背景技术
在视频,如综艺影视剧集的播放中,会在目标人物第一次出场的特写镜头中对该目标人物进行介绍,介绍显示的时长一般为该目标人物特写片段的时长。对目标人物的介绍方式很多,当目标人物是明星时,在特写镜头下可以进行明星相关广告“创可贴”式投放、在明星特写片段中进行AI广告植入等。为了满足这些需求,需要对视频中目标人物的特写片段进行检测。
目前,一般通过人工浏览视频的方式检测视频中的人物特写片段,但是人工浏览效率低,不能实现对大量视频中的人物特写片段的快速检测;并且在人工浏览过程中,从发现人物特写片段到记录人物特写片段的起始时间,以及从发现人物特写片段结束到记录人物特写片段的结束时间,存在由于人工操作导致的时延,因此,人工检测人物特写片段的方式很难准确记录人物特写片段的起始时间和结束时间。
可见,目前通过人工浏览视频的方式检测视频中的人物特写片段,效率低下且准确性较低,亟需一种可以快速、准确检测视频中人物特写片段的方法
发明内容
有鉴于此,本发明提供了一种视频中人物特写片段的检测方法及装置,实现对视频中人物特写片段的快速、准确检测。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种视频中人物特写片段的检测方法,包括:
将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测,得到包含人像的多个人像视频帧;
获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比;
根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定所述人像视频帧中的多个特写镜头帧;
调用预先构建的目标人物人脸检测模型,依次对多个所述特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,并记录每个目标视频帧的时间;
将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。
可选的,所述根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定所述人像视频帧中的多个特写镜头帧,包括:
从多个所述人像视频帧中提取仅包含一个人像的人像视频帧;
从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧;
从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧,作为所述特写视频帧。
可选的,所述调用预先构建的目标人物人脸检测模型,依次对多个所述特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,包括:
分别从每个所述特写镜头帧中截取人像图像;
将每个所述人像图像依次输入预先构建的人脸检测模型中进行人脸检测,得到多个人脸图像;
分别从每个所述人脸图像中提取人脸特征码;
将每个所述人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测,得到包含目标人物人脸的多个目标视频帧。
可选的,所述分别从每个所述人脸图像中提取人脸特征码,包括:
将所述人脸图像的尺寸调整为预设尺寸;
将调整后的人脸图像输入到预先构建的目标人物人脸检测模型中,提取所述目标人物人脸检测模型中的全连接层输出的人脸特征码。
可选的,在所述将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后,所述方法还包括:
获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间;
将所述视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。
一种视频中人物特写片段的检测装置,包括:
人像检测单元,用于将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测,得到包含人像的多个人像视频帧;
数据获取单元,用于获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比;
特写镜头确定单元,用于根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定所述人像视频帧中的多个特写镜头帧;
人脸检测单元,用于调用预先构建的目标人物人脸检测模型,依次对多个所述特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,并记录每个目标视频帧的时间;
特写片段确定单元,用于将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。
可选的,所述特写镜头确定单元,具体用于:
从多个所述人像视频帧中提取仅包含一个人像的人像视频帧;
从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧;
从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧,作为所述特写视频帧。
可选的,所述人脸检测单元,具体用于:
人像图像截取子单元,用于分别从每个所述特写镜头帧中截取人像图像;
第一检测子单元,用于将每个所述人像图像依次输入预先构建的人脸检测模型中进行人脸检测,得到多个人脸图像;
特征码提取子单元,用于分别从每个所述人脸图像中提取人脸特征码;
第二检测子单元,用于将每个所述人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测,得到包含目标人物人脸的多个目标视频帧。
可选的,所述特征码提取子单元,具体用于:
将所述人脸图像的尺寸调整为预设尺寸;
将调整后的人脸图像输入到预先构建的目标人物人脸检测模型中,提取所述目标人物人脸检测模型中的全连接层输出的人脸特征码。
可选的,所述装置还包括:
数据存储单元,用于在将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后,获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间;将所述视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种视频中人物特写片段的检测方法,通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测,得到多个人像视频帧,并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,对多个人像视频帧进行筛选得到多个特写镜头帧,然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸,如明星人脸进行检测,得到包含目标人物人脸的多个目标视频帧,进一步,根据每个目标视频帧的时间,将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段,整个人物特写片段检测过程全部自动化完成,大幅度提高了视频中人物特写片段的检测速度。
同时,通过以视频帧为单位进行人物特写片段检测,能够准确记录检测得到的人物特写片段中每一帧的时间,可以准确记录视频中人物特写片段的开始时间和结束时间,提高了视频中人物特写片段检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种视频中人物特写片段的检测方法的流程示意图;
图2为本发明实施例公开的一种特写镜头帧的确定方法的流程示意图;
图3为本发明实施例公开的一种目标人物人脸的检测方法的流程示意图;
图4为本发明实施例公开的一种视频中人物特写片段的检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种视频中人物特写片段的检测方法,应用于视频处理设备,如台式电脑、笔记本电脑、平板电脑、智能手机等,对现有的人工浏览视频检测目标人物特写片段的方法进行改进,自动化完成整个人物特写片段检测过程,大幅度提高了视频中人物特写片段的检测速度;同时,通过以视频帧为单位进行人物特写片段检测,能够准确记录检测得到的人物特写片段中每一帧的时间,可以准确记录视频中人物特写片段的开始时间和结束时间,提高了视频中人物特写片段检测的准确性。
具体的,请参阅图1,本实施例公开的视频中人物特写片段的检测方法包括以下步骤:
S101:将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测,得到包含人像的多个人像视频帧;
将待处理视频拆分为多个视频帧,然后将每个视频帧依次输入预先构建的人像检测模型中进行人像检测。
上述人像检测模型可以为利用包含人像的图像训练数据集,如公共人像检测数据、基于综艺影视剧集标注的人像检测数据等,对tiny yolov3的深度学习模型或深度卷积神经网络模型或其他机器学习模型进行训练得到的。
为了便于人像检测模型的人像检测,可以将视频帧的尺寸调整为人像检测模型适合的尺寸,如对于tiny yolov3的深度学习模型,需要将视频帧的尺寸调整为320*320。
当视频帧中包含人像时,人像检测模型的输出结果为包含人像目标框的人像视频帧。
S102:获取每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比;
通过识别人像视频帧中人像目标框的数量,可以获取人像视频帧中的人像数量。
人像目标框可以为矩形,人像的中心点坐标即为人像目标框的中心点坐标。
根据人像目标框的框宽和匡高可以计算人像目标框的面积,视频帧的尺寸是已知的,人像目标框的面积与视频帧的面积的比值为人像的屏占比。
S103:根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定人像视频帧中的多个特写镜头帧;
请参阅图2,一种可选的特写镜头帧的确定方法包括以下步骤:
S201:从多个人像视频帧中提取仅包含一个人像的人像视频帧;
S202:从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧;
中心预设区域可以根据实际需求进行预先设定,如设定在((Frame-Width,Frame-Height)*1/4—(Frame-Width,Frame-Height)*3/4)的区域内,其中,Frame-Width为视频帧的宽,Frame-Height为视频帧的高。
S203:从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧,作为特写视频帧。
S104:调用预先构建的目标人物人脸检测模型,依次对多个特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,并记录每个目标视频帧的时间;
具体的,调用预先构建的目标人物人脸检测模型,依次对多个特写镜头帧进行处理包括对特写镜头帧的人脸检测和对人脸图像进行目标人物人脸检测两部分。
请参阅图3,一种可选的目标人物人脸检测方法包括以下步骤:
S301:分别从每个特写镜头帧中截取人像图像;
由于特写镜头帧中包含人像目标框,根据人像目标框可以对特写镜头帧进行截取,得到人像头像。
S302:将每个人像图像依次输入预先构建的人脸检测模型中进行人脸检测,得到多个人脸图像;
上述人脸检测模型可以为利用包含人脸的图像训练数据集,如公共人脸检测数据、明星人脸检测数据等,对tiny yolov3的深度学习模型或深度卷积神经网络模型或其他机器学习模型进行训练得到的。
S303:分别从每个人脸图像中提取人脸特征码;
为了便于基于目标人物人脸检测模型从人脸图像中提取人脸特征码,可以对人脸图像的尺寸进行调整,将人脸图像的尺寸调整为适合目标人物人脸检测模型处理的预设尺寸,如112*112。
然后将调整后的人脸图像输入到上述目标人物人脸检测模型中,提取目标人物人脸检测模型中的全连接层输出的人脸特征码。
其中,可以采用目前流行的arcface损失函数进行人脸分类训练;采用resnet50为骨干网络;当寻得损失值loss降低到最低时,裁剪掉分类层,取出上一个512维的全连接层,此时获取的512维特征能够很好的表征人脸的特征,即为人脸特征码。
在对目标人物人脸检测模型的训练过程中,首先采集目标人物的人脸数据,如目前综艺影视剧中出现的明星人物人脸数据,(每个明星人脸约30-50张),通过上述方法获取每个目标人物每张人脸图像的512维特征值,即得到目标人物人脸检测模型的训练数据,再利用多层感知机算法(MLP)完成对目标人物人脸检测模型的训练。
S304:将每个人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测,得到包含目标人物人脸的多个目标视频帧。
S105:将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。
由于每个目标视频帧都对应着一个时间,在此基础上,可以得到包含同一目标人物的连续多个目标视频帧,当连续多个目标视频帧所对应的时长超过预设值时,确定该连续多个目标视频帧为目标人物的特写片段。
进一步,为了便于后续利用目标人物的特写片段,在视频中目标人物的特写片段中投放广告等操作,可以获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间;将视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。通过查询数据库,即可找到某个视频中的所有目标人物的特写片段的开始时间和结束时间。
可见,本实施例公开的一种视频中人物特写片段的检测方法,通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测,得到多个人像视频帧,并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,对多个人像视频帧进行筛选得到多个特写镜头帧,然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸,如明星人脸进行检测,得到包含目标人物人脸的多个目标视频帧,进一步,根据每个目标视频帧的时间,将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段,整个人物特写片段检测过程全部自动化完成,大幅度提高了视频中人物特写片段的检测速度。
同时,通过以视频帧为单位进行人物特写片段检测,能够准确记录检测得到的人物特写片段中每一帧的时间,可以准确记录视频中人物特写片段的开始时间和结束时间,提高了视频中人物特写片段检测的准确性。
基于上述实施例公开的一种视频中人物特写片段的检测方法,本实施例对应公开了一种视频中人物特写片段的检测装置,请参阅图4,该装置具体包括:
人像检测单元401,用于将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测,得到包含人像的多个人像视频帧;
数据获取单元402,用于获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比;
特写镜头确定单元403,用于根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定所述人像视频帧中的多个特写镜头帧;
人脸检测单元404,用于调用预先构建的目标人物人脸检测模型,依次对多个所述特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,并记录每个目标视频帧的时间;
特写片段确定单元405,用于将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。
可选的,所述特写镜头确定单元,具体用于:
从多个所述人像视频帧中提取仅包含一个人像的人像视频帧;
从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧;
从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧,作为所述特写视频帧。
可选的,所述人脸检测单元,具体用于:
人像图像截取子单元,用于分别从每个所述特写镜头帧中截取人像图像;
第一检测子单元,用于将每个所述人像图像依次输入预先构建的人脸检测模型中进行人脸检测,得到多个人脸图像;
特征码提取子单元,用于分别从每个所述人脸图像中提取人脸特征码;
第二检测子单元,用于将每个所述人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测,得到包含目标人物人脸的多个目标视频帧。
可选的,所述特征码提取子单元,具体用于:
将所述人脸图像的尺寸调整为预设尺寸;
将调整后的人脸图像输入到预先构建的目标人物人脸检测模型中,提取所述目标人物人脸检测模型中的全连接层输出的人脸特征码。
可选的,所述装置还包括:
数据存储单元,用于在将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后,获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间;将所述视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。
本实施例公开的一种视频中人物特写片段的检测装置,通过调用预先构建的人像检测模型对视频中的每个视频帧进行人像检测,得到多个人像视频帧,并根据每个人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,对多个人像视频帧进行筛选得到多个特写镜头帧,然后调用预先构建的目标人物人脸检测模型对特写镜头帧中的目标人物人脸,如明星人脸进行检测,得到包含目标人物人脸的多个目标视频帧,进一步,根据每个目标视频帧的时间,将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段,整个人物特写片段检测过程全部自动化完成,大幅度提高了视频中人物特写片段的检测速度;同时,通过以视频帧为单位进行人物特写片段检测,能够准确记录检测得到的人物特写片段中每一帧的时间,可以准确记录视频中人物特写片段的开始时间和结束时间,提高了视频中人物特写片段检测的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种视频中人物特写片段的检测方法,其特征在于,包括:
将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测,得到包含人像的多个人像视频帧;
获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比;
根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定所述人像视频帧中的多个特写镜头帧;
调用预先构建的目标人物人脸检测模型,依次对多个所述特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,并记录每个目标视频帧的时间;
将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定所述人像视频帧中的多个特写镜头帧,包括:
从多个所述人像视频帧中提取仅包含一个人像的人像视频帧;
从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧;
从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧,作为所述特写视频帧。
3.根据权利要求1所述的方法,其特征在于,所述调用预先构建的目标人物人脸检测模型,依次对多个所述特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,包括:
分别从每个所述特写镜头帧中截取人像图像;
将每个所述人像图像依次输入预先构建的人脸检测模型中进行人脸检测,得到多个人脸图像;
分别从每个所述人脸图像中提取人脸特征码;
将每个所述人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测,得到包含目标人物人脸的多个目标视频帧。
4.根据权利要求3所述的方法,其特征在于,所述分别从每个所述人脸图像中提取人脸特征码,包括:
将所述人脸图像的尺寸调整为预设尺寸;
将调整后的人脸图像输入到预先构建的目标人物人脸检测模型中,提取所述目标人物人脸检测模型中的全连接层输出的人脸特征码。
5.根据权利要求1所述的方法,其特征在于,在所述将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后,所述方法还包括:
获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间;
将所述视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。
6.一种视频中人物特写片段的检测装置,其特征在于,包括:
人像检测单元,用于将视频中的每个视频帧依次输入预先构建的人像检测模型中进行人像检测,得到包含人像的多个人像视频帧;
数据获取单元,用于获取每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比;
特写镜头确定单元,用于根据每个所述人像视频帧中的人像数量、人像的中心点坐标以及人像的屏占比,确定所述人像视频帧中的多个特写镜头帧;
人脸检测单元,用于调用预先构建的目标人物人脸检测模型,依次对多个所述特写镜头帧进行处理,得到包含目标人物人脸的多个目标视频帧,并记录每个目标视频帧的时间;
特写片段确定单元,用于将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段。
7.根据权利要求6所述的装置,其特征在于,所述特写镜头确定单元,具体用于:
从多个所述人像视频帧中提取仅包含一个人像的人像视频帧;
从仅包含一个人像的人像视频帧中提取人像的中心点坐标在中心预设区域的人像视频帧;
从仅包含一个人像且人像的中心点坐标在中心预设区域的人像视频帧中提取人像的屏占比大于阈值的视频帧,作为所述特写视频帧。
8.根据权利要求6所述的装置,其特征在于,所述人脸检测单元,具体用于:
人像图像截取子单元,用于分别从每个所述特写镜头帧中截取人像图像;
第一检测子单元,用于将每个所述人像图像依次输入预先构建的人脸检测模型中进行人脸检测,得到多个人脸图像;
特征码提取子单元,用于分别从每个所述人脸图像中提取人脸特征码;
第二检测子单元,用于将每个所述人脸特征码依次输入预先构建的目标人物人脸检测模型中进行检测,得到包含目标人物人脸的多个目标视频帧。
9.根据权利要求8所述的装置,其特征在于,所述特征码提取子单元,具体用于:
将所述人脸图像的尺寸调整为预设尺寸;
将调整后的人脸图像输入到预先构建的目标人物人脸检测模型中,提取所述目标人物人脸检测模型中的全连接层输出的人脸特征码。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
数据存储单元,用于在将包含同一目标人物,且连续时长超过预设值的多个目标视频帧确定为目标人物的特写片段之后,获取视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间;将所述视频标识以及视频中每个目标人物的特写片段的开始时间和结束时间存储在数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010181935.XA CN111401238B (zh) | 2020-03-16 | 2020-03-16 | 一种视频中人物特写片段的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010181935.XA CN111401238B (zh) | 2020-03-16 | 2020-03-16 | 一种视频中人物特写片段的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401238A CN111401238A (zh) | 2020-07-10 |
CN111401238B true CN111401238B (zh) | 2023-04-28 |
Family
ID=71430851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010181935.XA Active CN111401238B (zh) | 2020-03-16 | 2020-03-16 | 一种视频中人物特写片段的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401238B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069357B (zh) * | 2020-07-29 | 2024-03-01 | 北京奇艺世纪科技有限公司 | 视频资源处理方法、装置、电子设备及存储介质 |
CN112132797B (zh) * | 2020-09-15 | 2024-02-20 | 新华智云科技有限公司 | 一种短视频质量筛选方法 |
CN112287877B (zh) * | 2020-11-18 | 2022-12-02 | 苏州爱可尔智能科技有限公司 | 一种多角色特写镜头追踪方法 |
CN116055861B (zh) * | 2022-05-30 | 2023-10-20 | 荣耀终端有限公司 | 一种视频编辑方法和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532035B1 (en) * | 2000-06-29 | 2003-03-11 | Nokia Mobile Phones Ltd. | Method and apparatus for implementation of close-up imaging capability in a mobile imaging system |
JPWO2008129656A1 (ja) * | 2007-04-16 | 2010-07-22 | パイオニア株式会社 | アップショット検出装置及び方法、電子機器、並びにコンピュータプログラム |
CN104883548A (zh) * | 2015-06-16 | 2015-09-02 | 金鹏电子信息机器有限公司 | 监控视频人脸抓取处理方法及其系统 |
CN107392883A (zh) * | 2017-08-11 | 2017-11-24 | 陈雷 | 影视戏剧冲突程度计算的方法及系统 |
CN108388885A (zh) * | 2018-03-16 | 2018-08-10 | 南京邮电大学 | 面向大型直播场景的多人特写实时识别与自动截图方法 |
CN108491784A (zh) * | 2018-03-16 | 2018-09-04 | 南京邮电大学 | 面向大型直播场景的单人特写实时识别与自动截图方法 |
CN110119711A (zh) * | 2019-05-14 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 一种获取视频数据人物片段的方法、装置及电子设备 |
-
2020
- 2020-03-16 CN CN202010181935.XA patent/CN111401238B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532035B1 (en) * | 2000-06-29 | 2003-03-11 | Nokia Mobile Phones Ltd. | Method and apparatus for implementation of close-up imaging capability in a mobile imaging system |
JPWO2008129656A1 (ja) * | 2007-04-16 | 2010-07-22 | パイオニア株式会社 | アップショット検出装置及び方法、電子機器、並びにコンピュータプログラム |
CN104883548A (zh) * | 2015-06-16 | 2015-09-02 | 金鹏电子信息机器有限公司 | 监控视频人脸抓取处理方法及其系统 |
CN107392883A (zh) * | 2017-08-11 | 2017-11-24 | 陈雷 | 影视戏剧冲突程度计算的方法及系统 |
CN108388885A (zh) * | 2018-03-16 | 2018-08-10 | 南京邮电大学 | 面向大型直播场景的多人特写实时识别与自动截图方法 |
CN108491784A (zh) * | 2018-03-16 | 2018-09-04 | 南京邮电大学 | 面向大型直播场景的单人特写实时识别与自动截图方法 |
CN110119711A (zh) * | 2019-05-14 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 一种获取视频数据人物片段的方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
郎 ; 周霁婷 ; 梁小龙 ; 张文俊 ; .基于人脸识别的影视剧镜头自动标注及重剪系统.上海大学学报(自然科学版).2017,(第03期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111401238A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401238B (zh) | 一种视频中人物特写片段的检测方法及装置 | |
CN109858371B (zh) | 人脸识别的方法及装置 | |
CN111191067A (zh) | 绘本识别方法、终端设备及计算机可读存储介质 | |
US20220172476A1 (en) | Video similarity detection method, apparatus, and device | |
CN110263215B (zh) | 一种视频情感定位方法及系统 | |
CN105159913B (zh) | 一种待清理文件确定方法及装置 | |
CN107977394B (zh) | 绘本识别方法及电子设备 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN112417970A (zh) | 目标对象识别方法、装置和电子系统 | |
CN109284700B (zh) | 图像中多个人脸检测的方法、存储介质、设备及系统 | |
CN111753715B (zh) | 点读场景下试题拍摄的方法、装置、电子设备和存储介质 | |
CN111428087B (zh) | 视频截取方法、装置、计算机设备和存储介质 | |
CN111077992B (zh) | 一种点读方法、电子设备及存储介质 | |
US11348254B2 (en) | Visual search method, computer device, and storage medium | |
CN115062186A (zh) | 一种视频内容检索方法、装置、设备以及存储介质 | |
CN111476132A (zh) | 视频场景识别方法、装置及电子设备、存储介质 | |
CN109711287B (zh) | 人脸采集方法及相关产品 | |
CN106682669A (zh) | 一种图像处理方法及移动终端 | |
CN104170367A (zh) | 虚拟快门图像捕获 | |
CN111539390A (zh) | 一种基于Yolov3的小目标图像识别方法、设备和系统 | |
CN112560728B (zh) | 目标对象识别方法及装置 | |
CN110458171B (zh) | 一种车牌识别的方法以及相关装置 | |
CN114550049A (zh) | 行为识别方法、装置、设备及存储介质 | |
CN114529912A (zh) | 图形验证码识别方法、装置、电子设备及可读存储介质 | |
CN115004245A (zh) | 目标检测方法、装置、电子设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |