CN109492545B - 一种基于场景及压缩信息的五官定位方法和系统 - Google Patents

一种基于场景及压缩信息的五官定位方法和系统 Download PDF

Info

Publication number
CN109492545B
CN109492545B CN201811232860.2A CN201811232860A CN109492545B CN 109492545 B CN109492545 B CN 109492545B CN 201811232860 A CN201811232860 A CN 201811232860A CN 109492545 B CN109492545 B CN 109492545B
Authority
CN
China
Prior art keywords
block
current frame
processing mode
scene
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811232860.2A
Other languages
English (en)
Other versions
CN109492545A (zh
Inventor
马国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Mengwang Video Co ltd
Original Assignee
Shenzhen Mengwang Video Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Mengwang Video Co ltd filed Critical Shenzhen Mengwang Video Co ltd
Priority to CN201811232860.2A priority Critical patent/CN109492545B/zh
Publication of CN109492545A publication Critical patent/CN109492545A/zh
Application granted granted Critical
Publication of CN109492545B publication Critical patent/CN109492545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Abstract

本发明提出一种基于场景及压缩信息的五官定位方法和系统。本发明方法首先根据视频场景的特点,设置不同的处理模式,提升算法的效率,减少不必要的判断;其次利用视频流携带的图像块划分模式的分布规律,筛选出五官待定位置;接着由五官几何位置以及肤色邻接关系作进一步误判删除,完成快速初选五官定位。对于质量需要高于速度处理需求的系统,可利用五官的各自特点:高对比度确定人眼、唇部的色域特点,进行精确定位。

Description

一种基于场景及压缩信息的五官定位方法和系统
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于场景及压缩信息的五官定位方法和系统。
背景技术
随着多媒体技术及计算机网络技术的迅速发展,视频逐渐成为信息传播的主流载体之一。无论是人脸视频检索、还是在线视频美颜,精确快速的五官定位技术都会增强其事半功倍的效果。目前主流的专设眼唇图像定位技术,计算量大,制约了算法的在线使用和二次开发效率。此外,当眼唇定位技术应用于视频时,不利用视频的时间相关性,仅做图像处理的纵向延伸,亦会进一步降低算法实施效率。
发明内容
本发明实施例的目的在于提出一种基于场景及压缩信息的五官定位方法,旨在解决现有技术主流的专设眼唇图像定位技术,计算量大,效率低的问题。
本发明实施例是这样实现的,一种基于场景及压缩信息的五官定位方法,所述方法包括:
根据视频场景特点,设置当前帧的起始搜索位置、搜索方向及处理模式;
根据对应的处理模式,完成当前帧的五官定位;
对当前帧每个人脸进行信息统计;
根据视频场景特点,完成后续帧的五官定位。
本发明实施例的另一目的在于提出一种基于场景及压缩信息的五官定位系统,所述系统包括:
初始处理模式设置模块,用于根据视频场景特点,设置当前帧的起始搜索位置、搜索方向及处理模式;
第一五官定位模块,用于根据对应的处理模式,完成当前帧的五官定位;
人脸信息统计模块,用于对当前帧每个人脸进行信息统计;
第二五官定位模块,用于根据视频场景特点,完成后续帧的五官定位。
本发明的有益效果
本发明提出一种基于场景及压缩信息的五官定位方法和系统。本发明方法首先根据视频场景的特点,设置不同的处理模式,提升算法的效率,减少不必要的判断;其次利用视频流携带的图像块划分模式的分布规律,筛选出五官待定位置;接着由五官几何位置以及肤色邻接关系作进一步误判删除,完成快速初选五官定位。对于质量需要高于速度处理需求的系统,可利用五官的各自特点:高对比度确定人眼、唇部的色域特点,进行精确定位。
附图说明
图1是本发明优选实施例一种基于场景及压缩信息的五官定位方法流程图;
图2是图1中Step1中处理模式为第一处理模式的方法流程图;
图3是图1中Step1中处理模式为第二处理模式的方法流程图;
图4是本发明优选实施例一种基于场景及压缩信息的五官定位系统结构图;
图5是图4中初始处理模式设置模块详细结构图;
图6是图5中第一处理模式模块详细结构图;
图7是图5中第二处理模式模块详细结构图;
图8是图4中第二五官定位模块详细结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明,为了便于说明,仅示出了与本发明实施例相关的部分。应当理解,此处所描写的具体实施例,仅仅用于解释本发明,并不用以限制本发明。
本发明提出一种基于场景及压缩信息的五官定位方法和系统。本发明方法首先根据视频场景的特点,设置不同的处理模式,提升算法的效率,减少不必要的判断;其次利用视频流携带的图像块划分模式的分布规律,筛选出五官待定位置;接着由五官几何位置以及肤色邻接关系作进一步误判删除,完成快速初选五官定位。对于质量需要高于速度处理需求的系统,可利用五官的各自特点:高对比度确定人眼、唇部的色域特点,进行精确定位。
实施例一
图1是本发明优选实施例一种基于场景及压缩信息的五官定位方法流程图;所述方法包括:
Step1:根据视频场景特点,设置当前帧的起始搜索位置、搜索方向及处理模式。具体为:
若为主播场景,设置起始搜索块的列号为中间列号,行号为1/3行宽,设定搜索方向以起始搜索块为中心,向四周外扩搜索,设定处理模式为第一处理模式;
否则(若为一般未知视频),设置起始搜索块的列号为非起始列号,行号为非起始行号,设定搜索方向以起始搜索块为起点,从左至右从上至下搜索,设定处理模式为第二处理模式,同时设置搜索截止行号。
其中,设置搜索截止行号及搜索起始行列号,用于跳过人脸在图像中的低概率区域。
图2是图1中Step1中处理模式为第一处理模式的方法流程图;
第一处理模式
StepA1:根据当前帧的码流信息找到当前帧肤色待定区域。
具体如下:
若当前帧的起始搜索位置对应编码块尺寸和预测尺寸均为最大尺寸,则将该块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;
否则,以起始搜索块(即起始搜索位置对应的编码块)为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块,若找到,则将该块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;否则(即若未找到),直接判定当前帧不存在人脸,进入后续帧的五官定位(即Step4)。
StepA2:若集合ω所占图像区域内侧不包含不属于集合ω的块,则直接判定当前帧不存在人脸,进入后续帧的五官定位(即Step4);否则,将集合ω所占图像区域内侧不属于集合ω的块划入集合ω1,将与集合ω1内块邻接的块划入集合ω2
StepA3:对集合ω2内所有块作肤色判定,若集合ω2内判定为肤色块的数量小于门限阈值,则直接判定当前帧不存在人脸,进入后续帧的五官定位(即Step4),否则进入StepA4。
StepA4:首先将集合ω1内块按照其行号分布二等分为两个集合
Figure BDA0001836866840000041
再将
Figure BDA0001836866840000042
按照其行号分布二等分为两个集合
Figure BDA0001836866840000043
接着对集合
Figure BDA0001836866840000044
进行五官之眼睛判定,对集合
Figure BDA0001836866840000045
进行五官之唇部判定,对集合
Figure BDA0001836866840000046
进行五官之鼻部判定。
其中,眼睛、唇部、鼻部判定的方法可采用业内公开的方法。例如眼睛鼻部可选用基于亮度对比度分析的方法,唇部则可用色域特征方法。
图3是图1中Step1中处理模式为第二处理模式的方法流程图;
第二处理模式
StepB1:根据当前帧的码流信息找到当前帧肤色待定区域。
具体如下:
若当前帧的起始搜索位置对应编码块为肤色块,则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω;否则,当搜索到截止行号的块时,若集合ω仍为空集则直接判定当前帧不存在人脸,进入后续帧的五官定位(即Step4)。
StepB2:将集合ω内块按照区域连通性,划分为不同的集合ω1,ω2,...,ωN
StepB3:对ω1,ω2,...,ωN内每一个集合,使用第一处理模式(StepA2-StepA4)的方法,进行逐一五官判定。
Step2:根据对应的处理模式,完成当前帧的五官定位。
其中,五官定位的方法采用本技术领域公知的方法,在此不再赘述。
Step3:对当前帧每个人脸进行信息统计。
具体为:统计当前帧每个人脸包含的编码块数量,记当前帧第k个人脸所包含的编码块的数量为sizek;构建当前帧每个人脸肤色区域编码块的尺寸集合,记为ψ1;构建当前帧每个人脸五官对应的编码块尺寸集合,记为ψ2
Step4:根据视频场景特点,完成后续帧的五官定位。
具体为:若为主播场景,设定处理模式为第三处理模式;否则(若为一般未知视频),设定处理模式为第四处理模式。
第三处理模式:
若为主播场景,后续帧中,以当前帧中已定位为五官的块为参考块,标识后续帧对应块为五官,以此类推,获取视频所有帧的五官定位。
第四处理模式:
即:进行场景检测;根据场景检测的结果,选择对应的处理方法。具体为:
未发生场景变换时,
对于当前帧的帧间预测块,若当前帧的帧间预测块对应的参考块已被标识为五官,则标识该帧间预测块为五官;若当前帧的帧间预测块对应的参考块未被标识为五官,则标识该帧间预测块为非五官;
对当前帧的帧内预测块,首先判断当前帧的帧内预测块数量是否小于min(sizek)*Thres1,若是,则直接标识当前帧所有帧内预测块为非五官;若否,则首先构建集合
Figure BDA0001836866840000051
接着将集合
Figure BDA0001836866840000052
内块按照区域连通性,划分为不同的集合
Figure BDA0001836866840000053
然后将上述集合中满足条件
Figure BDA0001836866840000054
Figure BDA0001836866840000055
划入当前帧新判定区域;最后对非空的当前帧新判定区域内块,进行新人脸及其五官的精确判定。
其中,Thres1、Thres2、Thres3分别表示第一阈值、第二阈值、第三阈值;
Figure BDA0001836866840000056
表示
Figure BDA0001836866840000057
包含的编码块的数量;
Figure BDA0001836866840000058
表示位于
Figure BDA0001836866840000059
所占图像区域的内侧且其对应编码块尺寸∈ψ2编码块的数量;min表示求最小值。
发生场景变换时,
首先清空ψ1、ψ2,然后重回Step1。
实施例二
图4是本发明优选实施例一种基于场景及压缩信息的五官定位系统结构图;所述系统包括:
初始处理模式设置模块,用于根据视频场景特点,设置当前帧的起始搜索位置、搜索方向及处理模式。
第一五官定位模块,用于根据对应的处理模式,完成当前帧的五官定位。
人脸信息统计模块,用于对当前帧每个人脸进行信息统计。
具体为:统计当前帧每个人脸包含的编码块数量,记当前帧第k个人脸所包含的编码块的数量为sizek;构建当前帧每个人脸肤色区域编码块的尺寸集合,记为ψ1;构建当前帧每个人脸五官对应的编码块尺寸集合,记为ψ2
第二五官定位模块,用于根据视频场景特点,完成后续帧的五官定位。
图5是图4中初始处理模式设置模块详细结构图;所述初始处理模式设置模块包括:
第一主播场景判断模块,用于判断视频是否为主播场景,若是,则进入第一位置方向设置模块,否则进入第二位置方向设置模块;
第一位置方向设置模块,用于设定搜索方向以起始搜索块为中心,向四周外扩搜索,设定处理模式为第一处理模式;然后进入第一处理模式模块;
第二位置方向设置模块,用于设置起始搜索块的列号为非起始列号,行号为非起始行号,设定搜索方向以起始搜索块为起点,从左至右从上至下搜索;然后进入第二处理模式模块;
第一处理模式模块,用于设定处理模式为第一处理模式;
第二处理模式模块,用于设定处理模式为第二处理模式,同时设置搜索截止行号;
其中,设置搜索截止行号及搜索起始行列号,用于跳过人脸在图像中的低概率区域。
图6是图5中第一处理模式模块详细结构图;所述第一处理模式模块包括:
第一肤色待定区域查找模块,用于根据当前帧的码流信息找到当前帧肤色待定区域。
具体如下:
若当前帧的起始搜索位置对应编码块尺寸和预测尺寸均为最大尺寸,则将该块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;
否则,以起始搜索块(即起始搜索位置对应的编码块)为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块,若找到,则将该块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;否则(即若未找到),直接判定当前帧不存在人脸,进入第二五官定位模块。
块集合判定及划分模块,用于判断若集合ω所占图像区域内侧不包含不属于集合ω的块,则直接判定当前帧不存在人脸,进入第二五官定位模块;否则,将集合ω所占图像区域内侧不属于集合ω的块划入集合ω1,将与集合ω1内块邻接的块划入集合ω2
肤色判定模块,用于对集合ω2内所有块作肤色判定,若集合ω2内判定为肤色块的数量小于门限阈值,则直接判定当前帧不存在人脸,进入第二五官定位模块,否则进入第一五官判定模块。
第一五官判定模块,用于首先将集合ω1内块按照其行号分布二等分为两个集合
Figure BDA0001836866840000061
再将
Figure BDA0001836866840000062
按照其行号分布二等分为两个集合
Figure BDA0001836866840000063
接着对集合
Figure BDA0001836866840000064
进行五官之眼睛判定,对集合
Figure BDA0001836866840000065
进行五官之唇部判定,对集合
Figure BDA0001836866840000066
进行五官之鼻部判定。
图7是图5中第二处理模式模块详细结构图;所述第二处理模式模块包括:
第二肤色待定区域查找模块,用于根据当前帧的码流信息找到当前帧肤色待定区域。具体如下:
若当前帧的起始搜索位置对应编码块为肤色块,则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω;否则,当搜索到截止行号的块时,若集合ω仍为空集则直接判定当前帧不存在人脸,进入第二五官定位模块。
块集合划分模块,用于将集合ω内块按照区域连通性,划分为不同的集合ω1,ω2,...,ωN
第二五官判定模块,用于对ω1,ω2,...,ωN内每一个集合,使用第一处理模式的装置中的方法,进行逐一五官判定。
图8是图4中第二五官定位模块详细结构图,包括
第二主播场景判断模块,用于判断视频是否为主播场景,若是则进入第三处理模式模块,否则进入第四处理模式模块;
第三处理模式模块,用于设定处理模式为第三处理模式;
具体为:
若为主播场景,后续帧中,以当前帧中已定位为五官的块为参考块,标识后续帧对应块为五官,以此类推,获取视频所有帧的五官定位。
第四处理模式模块,用于设定处理模式为第四处理模式。
即:进行场景检测;根据场景检测的结果,选择对应的处理方法;具体为:
未发生场景变换时,
对于当前帧的帧间预测块,若当前帧的帧间预测块对应的参考块已被标识为五官,则标识该帧间预测块为五官;若当前帧的帧间预测块对应的参考块未被标识为五官,则标识该帧间预测块为非五官;
对当前帧的帧内预测块,首先判断当前帧的帧内预测块数量是否小于min(sizek)*Thres1,若是,则直接标识当前帧所有帧内预测块为非五官;若否,则首先构建集合
Figure BDA0001836866840000071
接着将集合
Figure BDA0001836866840000072
内块按照区域连通性,划分为不同的集合
Figure BDA0001836866840000073
然后将上述集合中满足条件
Figure BDA0001836866840000074
Figure BDA0001836866840000075
划入当前帧新判定区域;最后对非空的当前帧新判定区域内块,进行新人脸及其五官的精确判定。
其中,Thres1、Thres2、Thres3分别表示第一阈值、第二阈值、第三阈值;
Figure BDA0001836866840000084
表示
Figure BDA0001836866840000081
包含的编码块的数量;
Figure BDA0001836866840000082
表示位于
Figure BDA0001836866840000083
所占图像区域的内侧且其对应编码块尺寸∈ψ2编码块的数量;min表示求最小值。
发生场景变换时,
首先清空ψ1、ψ2,然后重回初始处理模式设置模块。
本领域的普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序指令相关硬件来完成的,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质可以为ROM、RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于场景及压缩信息的五官定位方法,其特征在于,所述方法包括:
根据视频场景特点,设置当前帧的起始搜索位置、搜索方向及处理模式:
若为主播场景,设置起始搜索块的列号为中间列号,行号为1/3行宽,设定搜索方向以起始搜索块为中心,向四周外扩搜索,设定处理模式为第一处理模式;否则,设置起始搜索块的列号为非起始列号,行号为非起始行号,设定搜索方向以起始搜索块为起点,从左至右从上至下搜索,设定处理模式为第二处理模式,同时设置搜索截止行号;其中,设置搜索截止行号及搜索起始行列号,用于跳过人脸在图像中的低概率区域;
根据对应的处理模式,完成当前帧的五官定位;
对当前帧每个人脸进行信息统计:统计当前帧每个人脸包含的编码块数量,记当前帧第k个人脸所包含的编码块的数量为sizek;构建当前帧每个人脸肤色区域编码块的尺寸集合,记为ψ1;构建当前帧每个人脸五官对应的编码块尺寸集合,记为ψ2
根据视频场景特点,完成后续帧的五官定位:若为主播场景,设定处理模式为第三处理模式:若为主播场景,后续帧中,以当前帧中已定位为五官的块为参考块,标识后续帧对应块为五官,以此类推,获取视频所有帧的五官定位。
2.如权利要求1所述的基于场景及压缩信息的五官定位方法,其特征在于,所述第一处理模式包括:
StepA1:根据当前帧的码流信息找到当前帧肤色待定区域;具体如下:
若当前帧的起始搜索位置对应编码块尺寸和预测尺寸均为最大尺寸,则将当前帧的起始搜索位置对应编码块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;
否则,以起始搜索块为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块,若找到,则将该块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;若未找到,直接判定当前帧不存在人脸,进入后续帧的五官定位;
StepA2:若集合ω所占图像区域内侧不包含不属于集合ω的块,则直接判定当前帧不存在人脸,进入后续帧的五官定位;否则,将集合ω所占图像区域内侧不属于集合ω的块划入集合ω1,将与集合ω1内块邻接的块划入集合ω2
StepA3:对集合ω2内所有块作肤色判定,若集合ω2内判定为肤色块的数量小于门限阈值,则直接判定当前帧不存在人脸,进入后续帧的五官定位否则进入StepA4;
StepA4:首先将集合ω1内块按照其行号分布二等分为两个集合
Figure FDA0003209932580000021
再将
Figure FDA0003209932580000022
按照其行号分布二等分为两个集合
Figure FDA0003209932580000023
接着对集合
Figure FDA0003209932580000024
进行五官之眼睛判定,对集合
Figure FDA0003209932580000025
进行五官之唇部判定,对集合
Figure FDA0003209932580000026
进行五官之鼻部判定。
3.如权利要求1所述的基于场景及压缩信息的五官定位方法,其特征在于,所述第二处理模式包括:
StepB1:根据当前帧的码流信息找到当前帧肤色待定区域;
具体为:若当前帧的起始搜索位置对应编码块为肤色块,则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω;否则,当搜索到截止行号的块时,若集合ω仍为空集则直接判定当前帧不存在人脸,进入后续帧的五官定位;
StepB2:将集合ω内块按照区域连通性,划分为不同的集合ω1,ω2,...,ωN
StepB3:对ω1,ω2,...,ωN内每一个集合,使用第一处理模式的方法,进行逐一五官判定。
4.如权利要求1所述的基于场景及压缩信息的五官定位方法,其特征在于,所述根据视频场景特点,完成后续帧的五官定位具体为:
若不为主播场景,设定处理模式为第四处理模式。
5.如权利要求4所述的基于场景及压缩信息的五官定位方法,其特征在于,
第四处理模式:
进行场景检测;根据场景检测的结果,选择对应的处理方法;具体为:
未发生场景变换时,
对于当前帧的帧间预测块,若当前帧的帧间预测块对应的参考块已被标识为五官,则标识该帧间预测块为五官;若当前帧的帧间预测块对应的参考块未被标识为五官,则标识该帧间预测块为非五官;
对当前帧的帧内预测块,首先判断当前帧的帧内预测块数量是否小于min(sizek)*Thres1,若是,则直接标识当前帧所有帧内预测块为非五官;若否,则首先构建集合
Figure FDA0003209932580000031
接着将集合
Figure FDA0003209932580000032
内块按照区域连通性,划分为不同的集合
Figure FDA0003209932580000033
然后将上述集合中满足条件
Figure FDA0003209932580000034
Figure FDA0003209932580000035
划入当前帧新判定区域;最后对非空的当前帧新判定区域内块,进行新人脸及其五官的精确判定;
其中,Thres1、Thres2、Thres3分别表示第一阈值、第二阈值、第三阈值;
Figure FDA0003209932580000036
表示
Figure FDA0003209932580000037
包含的编码块的数量;
Figure FDA0003209932580000038
表示位于
Figure FDA0003209932580000039
所占图像区域的内侧且其对应编码块尺寸∈ψ2编码块的数量;min表示求最小值;
发生场景变换时,
首先清空ψ1、ψ2,然后重回步骤“根据视频场景特点,设置当前帧的起始搜索位置、搜索方向及处理模式”。
6.一种基于场景及压缩信息的五官定位系统,其特征在于,所述系统包括:
初始处理模式设置模块,用于根据视频场景特点,设置当前帧的起始搜索位置、搜索方向及处理模式;所述初始处理模式设置模块包括:
第一主播场景判断模块,用于判断视频是否为主播场景,若是,则进入第一位置方向设置模块,否则进入第二位置方向设置模块;
第一位置方向设置模块,用于设定搜索方向以起始搜索块为中心,向四周外扩搜索,设定处理模式为第一处理模式;然后进入第一处理模式模块;
第二位置方向设置模块,用于设置起始搜索块的列号为非起始列号,行号为非起始行号,设定搜索方向以起始搜索块为起点,从左至右从上至下搜索;然后进入第二处理模式模块;
第一处理模式模块,用于设定处理模式为第一处理模式;
第二处理模式模块,用于设定处理模式为第二处理模式,同时设置搜索截止行号;
第一五官定位模块,用于根据对应的处理模式,完成当前帧的五官定位;
人脸信息统计模块,用于对当前帧每个人脸进行信息统计:统计当前帧每个人脸包含的编码块数量,记当前帧第k个人脸所包含的编码块的数量为sizek;构建当前帧每个人脸肤色区域编码块的尺寸集合,记为ψ1;构建当前帧每个人脸五官对应的编码块尺寸集合,记为ψ2
第二五官定位模块,用于根据视频场景特点,完成后续帧的五官定位;
所述第二五官定位模块包括第二主播场景判断模块,用于判断视频是否为主播场景,若是则进入第三处理模式模块;
第三处理模式模块,用于设定处理模式为第三处理模式;具体为:
若为主播场景,后续帧中,以当前帧中已定位为五官的块为参考块,标识后续帧对应块为五官,以此类推,获取视频所有帧的五官定位。
7.如权利要求6所述的一种基于场景及压缩信息的五官定位系统,其特征在于,所述第一处理模式模块包括:
第一肤色待定区域查找模块,用于根据当前帧的码流信息找到当前帧肤色待定区域;具体为:
若当前帧的起始搜索位置对应编码块尺寸和预测尺寸均为最大尺寸,则将该块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;
否则,以起始搜索块为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块,若找到,则将该块划入集合ω,接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块,每找到一个块后就做一次集合ω的更新;若未找到,直接判定当前帧不存在人脸,进入第二五官定位模块;
块集合判定及划分模块,用于判断若集合ω所占图像区域内侧不包含不属于集合ω的块,则直接判定当前帧不存在人脸,进入第二五官定位模块;否则,将集合ω所占图像区域内侧不属于集合ω的块划入集合ω1,将与集合ω1内块邻接的块划入集合ω2
肤色判定模块,用于对集合ω2内所有块作肤色判定,若集合ω2内判定为肤色块的数量小于门限阈值,则直接判定当前帧不存在人脸,进入第二五官定位模块,否则进入第一五官判定模块;
第一五官判定模块,用于首先将集合ω1内块按照其行号分布二等分为两个集合
Figure FDA0003209932580000051
再将
Figure FDA0003209932580000052
按照其行号分布二等分为两个集合
Figure FDA0003209932580000053
接着对集合
Figure FDA0003209932580000054
进行五官之眼睛判定,对集合
Figure FDA0003209932580000055
进行五官之唇部判定,对集合
Figure FDA0003209932580000056
进行五官之鼻部判定。
8.如权利要求6所述的一种基于场景及压缩信息的五官定位系统,其特征在于,所述第二处理模式模块包括:
第二肤色待定区域查找模块,用于根据当前帧的码流信息找到当前帧肤色待定区域;具体为:
若当前帧的起始搜索位置对应编码块为肤色块,则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω;否则,当搜索到截止行号的块时,若集合ω仍为空集则直接判定当前帧不存在人脸,进入第二五官定位模块;
块集合划分模块,用于将集合ω内块按照区域连通性,划分为不同的集合ω1,ω2,...,ωN
第二五官判定模块,用于对ω1,ω2,...,ωN内每一个集合,使用第一处理模式的装置中的方法,进行逐一五官判定。
9.如权利要求6所述的一种基于场景及压缩信息的五官定位系统,其特征在于,
第二主播场景判断模块,还用于若判断视频不为主播场景,进入第四处理模式模块;
第四处理模式模块,用于设定处理模式为第四处理模式;即:
进行场景检测;根据场景检测的结果,选择对应的处理方法;具体为:
未发生场景变换时,
对于当前帧的帧间预测块,若当前帧的帧间预测块对应的参考块已被标识为五官,则标识该帧间预测块为五官;若当前帧的帧间预测块对应的参考块未被标识为五官,则标识该帧间预测块为非五官;
对当前帧的帧内预测块,首先判断当前帧的帧内预测块数量是否小于min(sizek)*Thres1,若是,则直接标识当前帧所有帧内预测块为非五官;若否,则首先构建集合
Figure FDA0003209932580000061
接着将集合
Figure FDA0003209932580000062
内块按照区域连通性,划分为不同的集合
Figure FDA0003209932580000063
然后将上述集合中满足条件
Figure FDA0003209932580000064
Figure FDA0003209932580000065
划入当前帧新判定区域;最后对非空的当前帧新判定区域内块,进行新人脸及其五官的精确判定;
其中,Thres1、Thres2、Thres3分别表示第一阈值、第二阈值、第三阈值;
Figure FDA0003209932580000071
表示
Figure FDA0003209932580000072
包含的编码块的数量;
Figure FDA0003209932580000073
表示位于
Figure FDA0003209932580000074
所占图像区域的内侧且其对应编码块尺寸∈ψ2编码块的数量;min表示求最小值;
发生场景变换时,
首先清空ψ1、ψ2,然后重回初始处理模式设置模块。
CN201811232860.2A 2018-10-22 2018-10-22 一种基于场景及压缩信息的五官定位方法和系统 Active CN109492545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811232860.2A CN109492545B (zh) 2018-10-22 2018-10-22 一种基于场景及压缩信息的五官定位方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811232860.2A CN109492545B (zh) 2018-10-22 2018-10-22 一种基于场景及压缩信息的五官定位方法和系统

Publications (2)

Publication Number Publication Date
CN109492545A CN109492545A (zh) 2019-03-19
CN109492545B true CN109492545B (zh) 2021-11-09

Family

ID=65692321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811232860.2A Active CN109492545B (zh) 2018-10-22 2018-10-22 一种基于场景及压缩信息的五官定位方法和系统

Country Status (1)

Country Link
CN (1) CN109492545B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807402B (zh) * 2019-10-29 2023-08-08 深圳市梦网视讯有限公司 一种基于肤色检测的五官定位方法、系统和终端设备
CN110781840B (zh) * 2019-10-29 2022-08-26 深圳市梦网视讯有限公司 一种基于肤色检测的鼻头定位方法和系统
CN111815653B (zh) * 2020-07-08 2024-01-30 深圳市梦网视讯有限公司 一种人脸与身体肤色区域的分割方法、系统和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617432A (zh) * 2013-11-12 2014-03-05 华为技术有限公司 一种场景识别方法及装置
CN105430337A (zh) * 2015-11-23 2016-03-23 亳州师范高等专科学校 一种远程教学直播系统
CN107506691A (zh) * 2017-10-19 2017-12-22 深圳市梦网百科信息技术有限公司 一种基于肤色检测的唇部定位方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961134B2 (en) * 2009-03-18 2011-06-14 The United States Of America As Represented By The Secretary Of The Army Metric and self-calibration for an automatic, surveillance-based change detection system operating on noisy imagery
US9077943B2 (en) * 2012-05-31 2015-07-07 Apple Inc. Local image statistics collection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617432A (zh) * 2013-11-12 2014-03-05 华为技术有限公司 一种场景识别方法及装置
CN105430337A (zh) * 2015-11-23 2016-03-23 亳州师范高等专科学校 一种远程教学直播系统
CN107506691A (zh) * 2017-10-19 2017-12-22 深圳市梦网百科信息技术有限公司 一种基于肤色检测的唇部定位方法和系统

Also Published As

Publication number Publication date
CN109492545A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109492545B (zh) 一种基于场景及压缩信息的五官定位方法和系统
CN106162223B (zh) 一种新闻视频切分方法和装置
JP4553650B2 (ja) 画像グループの表現方法および表現方法によって導出される記述子、探索方法、装置、コンピュータプログラム、ならびに記憶媒体
US20050228849A1 (en) Intelligent key-frame extraction from a video
US8605113B2 (en) Method and device for adaptive video presentation
CN109446967B (zh) 一种基于压缩信息的人脸检测方法和系统
CN105139421B (zh) 电力系统基于互信息量的视频关键帧提取方法
CN107295296B (zh) 一种监控视频选择性存储与恢复方法及系统
GB2409030A (en) Face detection
JP2009043265A (ja) 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム
CN108764060A (zh) 基于滑动窗口的视频镜头边缘检测方法
CN101827224A (zh) 一种新闻视频中主播镜头的检测方法
JP4369308B2 (ja) 代表画像選択装置,代表画像選択方法および代表画像選択プログラム
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN109218728B (zh) 一种场景切换检测方法和系统
CN116095363A (zh) 基于关键行为识别的移动端短视频高光时刻剪辑方法
Wang et al. Virtual reality scene construction based on multimodal video scene segmentation algorithm
CN114449362B (zh) 视频封面的选取方法、装置、设备及存储介质
CN113010736A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN115460462A (zh) 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法
CN115379290A (zh) 视频处理方法、装置、设备及存储介质
CN115239551A (zh) 视频增强方法和装置
CN114821441A (zh) 联合ads-b信息的基于深度学习的机场场面运动目标识别方法
CN114567798A (zh) 一种针对互联网短视频变种的溯源方法
US9135509B2 (en) Determining representative images for a video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518000 Guangdong city of Shenzhen province Nanshan District Guangdong streets high in the four Longtaili Technology Building Room 325 No. 30

Applicant after: Shenzhen mengwang video Co., Ltd

Address before: 518000 Guangdong city of Shenzhen province Nanshan District Guangdong streets high in the four Longtaili Technology Building Room 325 No. 30

Applicant before: SHENZHEN MONTNETS ENCYCLOPEDIA INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant