CN109492545B

CN109492545B - 一种基于场景及压缩信息的五官定位方法和系统

Info

Publication number: CN109492545B
Application number: CN201811232860.2A
Authority: CN
Inventors: 马国强
Original assignee: Shenzhen Mengwang Video Co ltd
Current assignee: Shenzhen Mengwang Video Co ltd
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2021-11-09
Anticipated expiration: 2038-10-22
Also published as: CN109492545A

Abstract

本发明提出一种基于场景及压缩信息的五官定位方法和系统。本发明方法首先根据视频场景的特点，设置不同的处理模式，提升算法的效率，减少不必要的判断；其次利用视频流携带的图像块划分模式的分布规律，筛选出五官待定位置；接着由五官几何位置以及肤色邻接关系作进一步误判删除，完成快速初选五官定位。对于质量需要高于速度处理需求的系统，可利用五官的各自特点：高对比度确定人眼、唇部的色域特点，进行精确定位。

Description

一种基于场景及压缩信息的五官定位方法和系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于场景及压缩信息的五官定位方法和系统。

背景技术

随着多媒体技术及计算机网络技术的迅速发展，视频逐渐成为信息传播的主流载体之一。无论是人脸视频检索、还是在线视频美颜，精确快速的五官定位技术都会增强其事半功倍的效果。目前主流的专设眼唇图像定位技术，计算量大，制约了算法的在线使用和二次开发效率。此外，当眼唇定位技术应用于视频时，不利用视频的时间相关性，仅做图像处理的纵向延伸，亦会进一步降低算法实施效率。

发明内容

本发明实施例的目的在于提出一种基于场景及压缩信息的五官定位方法，旨在解决现有技术主流的专设眼唇图像定位技术，计算量大，效率低的问题。

本发明实施例是这样实现的，一种基于场景及压缩信息的五官定位方法，所述方法包括：

根据视频场景特点，设置当前帧的起始搜索位置、搜索方向及处理模式；

根据对应的处理模式，完成当前帧的五官定位；

对当前帧每个人脸进行信息统计；

根据视频场景特点，完成后续帧的五官定位。

本发明实施例的另一目的在于提出一种基于场景及压缩信息的五官定位系统，所述系统包括：

初始处理模式设置模块，用于根据视频场景特点，设置当前帧的起始搜索位置、搜索方向及处理模式；

第一五官定位模块，用于根据对应的处理模式，完成当前帧的五官定位；

人脸信息统计模块，用于对当前帧每个人脸进行信息统计；

第二五官定位模块，用于根据视频场景特点，完成后续帧的五官定位。

本发明的有益效果

附图说明

图1是本发明优选实施例一种基于场景及压缩信息的五官定位方法流程图；

图2是图1中Step1中处理模式为第一处理模式的方法流程图；

图3是图1中Step1中处理模式为第二处理模式的方法流程图；

图4是本发明优选实施例一种基于场景及压缩信息的五官定位系统结构图；

图5是图4中初始处理模式设置模块详细结构图；

图6是图5中第一处理模式模块详细结构图；

图7是图5中第二处理模式模块详细结构图；

图8是图4中第二五官定位模块详细结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明，为了便于说明，仅示出了与本发明实施例相关的部分。应当理解，此处所描写的具体实施例，仅仅用于解释本发明，并不用以限制本发明。

实施例一

图1是本发明优选实施例一种基于场景及压缩信息的五官定位方法流程图；所述方法包括：

Step1：根据视频场景特点，设置当前帧的起始搜索位置、搜索方向及处理模式。具体为：

若为主播场景，设置起始搜索块的列号为中间列号，行号为1/3行宽，设定搜索方向以起始搜索块为中心，向四周外扩搜索，设定处理模式为第一处理模式；

否则(若为一般未知视频)，设置起始搜索块的列号为非起始列号，行号为非起始行号，设定搜索方向以起始搜索块为起点，从左至右从上至下搜索，设定处理模式为第二处理模式，同时设置搜索截止行号。

其中，设置搜索截止行号及搜索起始行列号，用于跳过人脸在图像中的低概率区域。

图2是图1中Step1中处理模式为第一处理模式的方法流程图；

第一处理模式

StepA1：根据当前帧的码流信息找到当前帧肤色待定区域。

具体如下：

若当前帧的起始搜索位置对应编码块尺寸和预测尺寸均为最大尺寸，则将该块划入集合ω，接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块，每找到一个块后就做一次集合ω的更新；

否则，以起始搜索块(即起始搜索位置对应的编码块)为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块，若找到，则将该块划入集合ω，接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块，每找到一个块后就做一次集合ω的更新；否则(即若未找到)，直接判定当前帧不存在人脸，进入后续帧的五官定位(即Step4)。

StepA2：若集合ω所占图像区域内侧不包含不属于集合ω的块，则直接判定当前帧不存在人脸，进入后续帧的五官定位(即Step4)；否则，将集合ω所占图像区域内侧不属于集合ω的块划入集合ω₁，将与集合ω₁内块邻接的块划入集合ω₂。

StepA3：对集合ω₂内所有块作肤色判定，若集合ω₂内判定为肤色块的数量小于门限阈值，则直接判定当前帧不存在人脸，进入后续帧的五官定位(即Step4)，否则进入StepA4。

StepA4：首先将集合ω₁内块按照其行号分布二等分为两个集合

再将

按照其行号分布二等分为两个集合

接着对集合

进行五官之眼睛判定，对集合

进行五官之唇部判定，对集合

进行五官之鼻部判定。

其中，眼睛、唇部、鼻部判定的方法可采用业内公开的方法。例如眼睛鼻部可选用基于亮度对比度分析的方法，唇部则可用色域特征方法。

图3是图1中Step1中处理模式为第二处理模式的方法流程图；

第二处理模式

StepB1：根据当前帧的码流信息找到当前帧肤色待定区域。

具体如下：

若当前帧的起始搜索位置对应编码块为肤色块，则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω；否则，当搜索到截止行号的块时，若集合ω仍为空集则直接判定当前帧不存在人脸，进入后续帧的五官定位(即Step4)。

StepB2：将集合ω内块按照区域连通性，划分为不同的集合ω¹，ω²，...，ω^N。

StepB3：对ω¹，ω²，...，ω^N内每一个集合，使用第一处理模式(StepA2-StepA4)的方法，进行逐一五官判定。

Step2：根据对应的处理模式，完成当前帧的五官定位。

其中，五官定位的方法采用本技术领域公知的方法，在此不再赘述。

Step3：对当前帧每个人脸进行信息统计。

具体为：统计当前帧每个人脸包含的编码块数量，记当前帧第k个人脸所包含的编码块的数量为size_k；构建当前帧每个人脸肤色区域编码块的尺寸集合，记为ψ₁；构建当前帧每个人脸五官对应的编码块尺寸集合，记为ψ₂。

Step4：根据视频场景特点，完成后续帧的五官定位。

具体为：若为主播场景，设定处理模式为第三处理模式；否则(若为一般未知视频)，设定处理模式为第四处理模式。

第三处理模式：

若为主播场景，后续帧中，以当前帧中已定位为五官的块为参考块，标识后续帧对应块为五官，以此类推，获取视频所有帧的五官定位。

第四处理模式：

即：进行场景检测；根据场景检测的结果，选择对应的处理方法。具体为：

未发生场景变换时，

对于当前帧的帧间预测块，若当前帧的帧间预测块对应的参考块已被标识为五官，则标识该帧间预测块为五官；若当前帧的帧间预测块对应的参考块未被标识为五官，则标识该帧间预测块为非五官；

对当前帧的帧内预测块，首先判断当前帧的帧内预测块数量是否小于min(size_k)*Thres₁，若是，则直接标识当前帧所有帧内预测块为非五官；若否，则首先构建集合

接着将集合

内块按照区域连通性，划分为不同的集合

然后将上述集合中满足条件

的

划入当前帧新判定区域；最后对非空的当前帧新判定区域内块，进行新人脸及其五官的精确判定。

其中，Thres₁、Thres₂、Thres₃分别表示第一阈值、第二阈值、第三阈值；

表示

包含的编码块的数量；

表示位于

所占图像区域的内侧且其对应编码块尺寸∈ψ₂编码块的数量；min表示求最小值。

发生场景变换时，

首先清空ψ₁、ψ₂，然后重回Step1。

实施例二

图4是本发明优选实施例一种基于场景及压缩信息的五官定位系统结构图；所述系统包括：

初始处理模式设置模块，用于根据视频场景特点，设置当前帧的起始搜索位置、搜索方向及处理模式。

第一五官定位模块，用于根据对应的处理模式，完成当前帧的五官定位。

人脸信息统计模块，用于对当前帧每个人脸进行信息统计。

图5是图4中初始处理模式设置模块详细结构图；所述初始处理模式设置模块包括：

第一主播场景判断模块，用于判断视频是否为主播场景，若是，则进入第一位置方向设置模块，否则进入第二位置方向设置模块；

第一位置方向设置模块，用于设定搜索方向以起始搜索块为中心，向四周外扩搜索，设定处理模式为第一处理模式；然后进入第一处理模式模块；

第二位置方向设置模块，用于设置起始搜索块的列号为非起始列号，行号为非起始行号，设定搜索方向以起始搜索块为起点，从左至右从上至下搜索；然后进入第二处理模式模块；

第一处理模式模块，用于设定处理模式为第一处理模式；

第二处理模式模块，用于设定处理模式为第二处理模式，同时设置搜索截止行号；

图6是图5中第一处理模式模块详细结构图；所述第一处理模式模块包括：

第一肤色待定区域查找模块，用于根据当前帧的码流信息找到当前帧肤色待定区域。

具体如下：

否则，以起始搜索块(即起始搜索位置对应的编码块)为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块，若找到，则将该块划入集合ω，接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块，每找到一个块后就做一次集合ω的更新；否则(即若未找到)，直接判定当前帧不存在人脸，进入第二五官定位模块。

块集合判定及划分模块，用于判断若集合ω所占图像区域内侧不包含不属于集合ω的块，则直接判定当前帧不存在人脸，进入第二五官定位模块；否则，将集合ω所占图像区域内侧不属于集合ω的块划入集合ω₁，将与集合ω₁内块邻接的块划入集合ω₂。

肤色判定模块，用于对集合ω₂内所有块作肤色判定，若集合ω₂内判定为肤色块的数量小于门限阈值，则直接判定当前帧不存在人脸，进入第二五官定位模块，否则进入第一五官判定模块。

第一五官判定模块，用于首先将集合ω₁内块按照其行号分布二等分为两个集合

再将

按照其行号分布二等分为两个集合

接着对集合

进行五官之眼睛判定，对集合

进行五官之唇部判定，对集合

进行五官之鼻部判定。

图7是图5中第二处理模式模块详细结构图；所述第二处理模式模块包括：

第二肤色待定区域查找模块，用于根据当前帧的码流信息找到当前帧肤色待定区域。具体如下：

若当前帧的起始搜索位置对应编码块为肤色块，则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω；否则，当搜索到截止行号的块时，若集合ω仍为空集则直接判定当前帧不存在人脸，进入第二五官定位模块。

块集合划分模块，用于将集合ω内块按照区域连通性，划分为不同的集合ω¹，ω²，...，ω^N。

第二五官判定模块，用于对ω¹，ω²，...，ω^N内每一个集合，使用第一处理模式的装置中的方法，进行逐一五官判定。

图8是图4中第二五官定位模块详细结构图，包括

第二主播场景判断模块，用于判断视频是否为主播场景，若是则进入第三处理模式模块，否则进入第四处理模式模块；

第三处理模式模块，用于设定处理模式为第三处理模式；

具体为：

第四处理模式模块，用于设定处理模式为第四处理模式。

即：进行场景检测；根据场景检测的结果，选择对应的处理方法；具体为：

未发生场景变换时，

接着将集合

内块按照区域连通性，划分为不同的集合

然后将上述集合中满足条件

的

表示

包含的编码块的数量；

表示位于

发生场景变换时，

首先清空ψ₁、ψ₂，然后重回初始处理模式设置模块。

本领域的普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序指令相关硬件来完成的，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质可以为ROM、RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于场景及压缩信息的五官定位方法，其特征在于，所述方法包括：

根据视频场景特点，设置当前帧的起始搜索位置、搜索方向及处理模式：

若为主播场景，设置起始搜索块的列号为中间列号，行号为1/3行宽，设定搜索方向以起始搜索块为中心，向四周外扩搜索，设定处理模式为第一处理模式；否则，设置起始搜索块的列号为非起始列号，行号为非起始行号，设定搜索方向以起始搜索块为起点，从左至右从上至下搜索，设定处理模式为第二处理模式，同时设置搜索截止行号；其中，设置搜索截止行号及搜索起始行列号，用于跳过人脸在图像中的低概率区域；

根据对应的处理模式，完成当前帧的五官定位；

对当前帧每个人脸进行信息统计：统计当前帧每个人脸包含的编码块数量，记当前帧第k个人脸所包含的编码块的数量为size_k；构建当前帧每个人脸肤色区域编码块的尺寸集合，记为ψ₁；构建当前帧每个人脸五官对应的编码块尺寸集合，记为ψ₂；

根据视频场景特点，完成后续帧的五官定位：若为主播场景，设定处理模式为第三处理模式:若为主播场景，后续帧中，以当前帧中已定位为五官的块为参考块，标识后续帧对应块为五官，以此类推，获取视频所有帧的五官定位。

2.如权利要求1所述的基于场景及压缩信息的五官定位方法，其特征在于，所述第一处理模式包括：

StepA1：根据当前帧的码流信息找到当前帧肤色待定区域；具体如下：

若当前帧的起始搜索位置对应编码块尺寸和预测尺寸均为最大尺寸，则将当前帧的起始搜索位置对应编码块划入集合ω，接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块，每找到一个块后就做一次集合ω的更新；

否则，以起始搜索块为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块，若找到，则将该块划入集合ω，接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块，每找到一个块后就做一次集合ω的更新；若未找到，直接判定当前帧不存在人脸，进入后续帧的五官定位；

StepA2：若集合ω所占图像区域内侧不包含不属于集合ω的块，则直接判定当前帧不存在人脸，进入后续帧的五官定位；否则，将集合ω所占图像区域内侧不属于集合ω的块划入集合ω₁，将与集合ω₁内块邻接的块划入集合ω₂；

StepA3：对集合ω₂内所有块作肤色判定，若集合ω₂内判定为肤色块的数量小于门限阈值，则直接判定当前帧不存在人脸，进入后续帧的五官定位否则进入StepA4；

再将

按照其行号分布二等分为两个集合

接着对集合

进行五官之眼睛判定，对集合

进行五官之唇部判定，对集合

进行五官之鼻部判定。

3.如权利要求1所述的基于场景及压缩信息的五官定位方法，其特征在于，所述第二处理模式包括：

StepB1：根据当前帧的码流信息找到当前帧肤色待定区域；

具体为：若当前帧的起始搜索位置对应编码块为肤色块，则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω；否则，当搜索到截止行号的块时，若集合ω仍为空集则直接判定当前帧不存在人脸，进入后续帧的五官定位；

StepB2：将集合ω内块按照区域连通性，划分为不同的集合ω¹，ω²，...，ω^N；

StepB3：对ω¹，ω²，...，ω^N内每一个集合，使用第一处理模式的方法，进行逐一五官判定。

4.如权利要求1所述的基于场景及压缩信息的五官定位方法，其特征在于，所述根据视频场景特点，完成后续帧的五官定位具体为：

若不为主播场景，设定处理模式为第四处理模式。

5.如权利要求4所述的基于场景及压缩信息的五官定位方法，其特征在于，

第四处理模式：

进行场景检测；根据场景检测的结果，选择对应的处理方法；具体为：

未发生场景变换时，

对于当前帧的帧间预测块,若当前帧的帧间预测块对应的参考块已被标识为五官，则标识该帧间预测块为五官；若当前帧的帧间预测块对应的参考块未被标识为五官，则标识该帧间预测块为非五官；

对当前帧的帧内预测块,首先判断当前帧的帧内预测块数量是否小于min(size_k)*Thres₁，若是，则直接标识当前帧所有帧内预测块为非五官；若否，则首先构建集合

接着将集合

内块按照区域连通性，划分为不同的集合

然后将上述集合中满足条件

的

划入当前帧新判定区域；最后对非空的当前帧新判定区域内块，进行新人脸及其五官的精确判定；

表示

包含的编码块的数量；

表示位于

所占图像区域的内侧且其对应编码块尺寸∈ψ₂编码块的数量；min表示求最小值；

发生场景变换时，

首先清空ψ₁、ψ₂，然后重回步骤“根据视频场景特点，设置当前帧的起始搜索位置、搜索方向及处理模式”。

6.一种基于场景及压缩信息的五官定位系统，其特征在于，所述系统包括：

初始处理模式设置模块，用于根据视频场景特点，设置当前帧的起始搜索位置、搜索方向及处理模式；所述初始处理模式设置模块包括：

第一处理模式模块，用于设定处理模式为第一处理模式；

人脸信息统计模块，用于对当前帧每个人脸进行信息统计:统计当前帧每个人脸包含的编码块数量，记当前帧第k个人脸所包含的编码块的数量为size_k；构建当前帧每个人脸肤色区域编码块的尺寸集合，记为ψ₁；构建当前帧每个人脸五官对应的编码块尺寸集合，记为ψ₂；

第二五官定位模块，用于根据视频场景特点，完成后续帧的五官定位；

所述第二五官定位模块包括第二主播场景判断模块，用于判断视频是否为主播场景,若是则进入第三处理模式模块；

第三处理模式模块,用于设定处理模式为第三处理模式；具体为：

7.如权利要求6所述的一种基于场景及压缩信息的五官定位系统，其特征在于，所述第一处理模式模块包括：

第一肤色待定区域查找模块，用于根据当前帧的码流信息找到当前帧肤色待定区域；具体为：

否则，以起始搜索块为起点按照搜索方向寻找满足“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”的块，若找到，则将该块划入集合ω，接着查找“搜索位置对应编码块尺寸和预测尺寸均为最大尺寸”且与ω中块连通的块，每找到一个块后就做一次集合ω的更新；若未找到，直接判定当前帧不存在人脸，进入第二五官定位模块；

块集合判定及划分模块，用于判断若集合ω所占图像区域内侧不包含不属于集合ω的块，则直接判定当前帧不存在人脸，进入第二五官定位模块；否则，将集合ω所占图像区域内侧不属于集合ω的块划入集合ω₁，将与集合ω₁内块邻接的块划入集合ω₂；

肤色判定模块，用于对集合ω₂内所有块作肤色判定，若集合ω₂内判定为肤色块的数量小于门限阈值，则直接判定当前帧不存在人脸，进入第二五官定位模块，否则进入第一五官判定模块；

再将

按照其行号分布二等分为两个集合

接着对集合

进行五官之眼睛判定，对集合

进行五官之唇部判定，对集合

进行五官之鼻部判定。

8.如权利要求6所述的一种基于场景及压缩信息的五官定位系统，其特征在于，所述第二处理模式模块包括：

第二肤色待定区域查找模块，用于根据当前帧的码流信息找到当前帧肤色待定区域；具体为：

若当前帧的起始搜索位置对应编码块为肤色块，则将当前帧中所有具有与所述编码块同样编码块尺寸和预测块尺寸的块划入集合ω；否则，当搜索到截止行号的块时，若集合ω仍为空集则直接判定当前帧不存在人脸，进入第二五官定位模块；

块集合划分模块，用于将集合ω内块按照区域连通性，划分为不同的集合ω¹，ω²，...，ω^N；

9.如权利要求6所述的一种基于场景及压缩信息的五官定位系统，其特征在于，

第二主播场景判断模块，还用于若判断视频不为主播场景，进入第四处理模式模块；

第四处理模式模块，用于设定处理模式为第四处理模式；即：

未发生场景变换时，

接着将集合

内块按照区域连通性，划分为不同的集合

然后将上述集合中满足条件

的

表示

包含的编码块的数量；

表示位于

发生场景变换时，

首先清空ψ₁、ψ₂，然后重回初始处理模式设置模块。