CN108710836A

CN108710836A - 一种基于级联特征提取的唇部检测及读取方法

Info

Publication number: CN108710836A
Application number: CN201810422275.2A
Authority: CN
Inventors: 王洲杰; 陈志�; 岳文静; 刘玲; 于涛; 刘真
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-10-26
Anticipated expiration: 2038-05-04
Also published as: CN108710836B

Abstract

本发明公开一种基于级联特征提取的唇部检测及读取方法。该发明首先对输入视频的唇部区域进行检测，通过基于哈尔分类器和自适应推进算法的维奥拉琼斯方法实现唇部区域检测；然后先根据唇区色彩特征对检测区域进行阈值二值化以实现唇区提取，对唇区图像进行离散余弦变换，将视频图像信息集中于数据矩阵的某一区域，采取合适的筛选方式提取数据；然后通过主成分分析算法对贡献值较大的多个特征值进行维度提取，使数据进一步降维；根据一定规模的数据样本建立用于识别的序列字典树，使用莱文斯坦距离进行序列的相似度分析和模糊匹配；最后将每帧的静态特征与视频的动态特征相结合进行动态序列查询从而完成唇区的读取。本发明通过对唇区图像特征的多级提取和降维，能够提升唇读的速度和准确性，具有良好的实施性和鲁棒性。

Description

一种基于级联特征提取的唇部检测及读取方法

技术领域

本发明涉及一种基于级联特征提取的唇部检测及读取方法，属于计算机视觉、图像处理、人机交互等交叉技术领域。随着我国经济社会的发展和科技的进步，对视频图像中唇部的检测与识别方法已经成为社会科学和自然科学领域的重要内容。在智慧城市、人机交互、辅助语音识别及生命健康等诸多领域都具有广泛的应用，对于噪声环境或听力障碍者更加具有重要意义。

背景技术

计算机唇读识别是指利用计算机对说话者的唇部视觉信息进行分析从而识别出其说话内容，并且可以与听觉识别相结合以进一步提高识别率。近年来，计算机唇读识别已成为计算机视觉和人机交互领域中的一个重要研究课题，具有重要的理论意义与实际应用价值。

与静态图片中的唇部识别相比较而言，视频中背景的变化、对象的运动和高维度的数据处理等对研究而言具有更大的挑战性。目前，对于视频唇部区域读取一般分为两个部分，一是对视频中唇部区域的检测及特征提取，二是对特征数据的模式识别。前者能够从视频中缩小感兴趣范围，准确提取重要信息并降低数据维度，后者则能够对提取出的数据进行分析识别，从而正确读出说话者的说话内容。除此之外还应包含一些额外的处理等。

对于唇部区域检测及特征提取主要有以下三种方法：

(1)维奥拉琼斯方法：利用积分图像来提取图像特征值，速度快。同时，利用自适应推进分类器的特征筛选特性，保留最有用特征，减少了运算复杂度。将自适应推进分类器进行级联，提高了检测的准确率；

(2)光流分析法：利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”，即研究图像灰度在时间上的变化与检测目标的结构及运动的关系；

(3)唇色滤波器方法：利用自适应色度滤波器将唇色有效分离,得到唇部的精确定位。

对于唇部区域识别主要有以下三种模型：(1)时延神经网络(2)隐马尔科夫模型(3)贝叶斯网络。

目前为止，国内的相关研究大多还处于实验室阶段，对于唇部区域的检测及识别的方法，还需要进行大量的研究工作。

发明内容

技术问题：发明所要解决的技术问题是提供一种基于级联特征提取的唇部检测及读取方法，视频中唇部的区域检测和信息识别，以有效的提高唇部检测的速度和信息识别的准确性。

技术方案：本发明的一种基于级联特征提取的唇部检测及读取方法包括以下步骤：

步骤1)输入1个视频，所述视频是用户输入的视频，将视频进行逐帧的图像灰化和大小归一处理；

步骤2)对于步骤1)的输入视频，通过结合人脸特征进行基于维奥拉琼斯方法的唇区检测；所述的唇区检测是指根据输入图像的积分图快速计算像素灰度积分和哈尔特征值，通过离散自适应推进算法将训练得到弱分类器进行级联形成强分类器，实现唇区检测；

步骤21)中将输入图像的积分图像在任意一个像素点坐标的取值定义为所述f表示输入图像，g表示积分图像，g(x,y)表示积分图像上坐标为(x,y)的像素点值，f(x,y)表示输入图像上坐标为(x,y)的像素点值，表示输入图像上像素点(x,y)的左下矩形区域值的求和；积分图像的计算可用下面的递推公式：s(x,y)＝s(x,y-1)+f(x,y)和g(x,y)＝g(x-1,y)+s(x,y)，所述s(x,y)表示输入图像中像素点(x,y)左下矩形区域每一行的累加值，s(x,y-1)表示输入图像中像素点(x,y-1)左下矩形区域每一行的累加值，所述g(x-1,y)表示积分图像上坐标为(x-1,y)的像素点值；

步骤22)每一幅图像的积分图可根据步骤21)中的方法，对原始图像进行一次扫描得到，根据积分图快速计算像素灰度积分，而哈尔特征由不同矩形区域的像素和作差得到；使用检测窗口在输入图像上滑动并快速计算哈尔特征，每一个特征就形成一个弱分类器；

步骤23)对所有的弱分类器进行基于离散自适应推进算法的级联迭代形成强分类器；初始化ω_i＝1/O,i＝1,2,...,O，所述ω表示样本权值，i表示样本标号，O表示样本总数；对每个样本有h_i，所述h_i表示对第i个样本采用弱分类器算法训练得到的弱分类器；计算及α_i＝log[(1-ε_i)/ε_i]，所述i表示第i个样本，j表示求和下标，O表示样本总数，h_i表示第i个样本的弱分类器，ε_i表示分类器h_i的加权错误率，α_i表示分类器h_i的加权系数，log表示取对数，y_j表示样本j的样本标签，正样本为+1，负样本为-1；得到ε_t和h_t，所述t表示迭代次数，ε_t表示第t次迭代中ε_i的最小值，h_t表示第t次迭代中使ε_i达到ε_t的最佳弱分类器；根据这个最佳弱分类器调整权重：所述ω_t,i表示第t次迭代后样本i的权值，ω_t+1,i表示第t+1次迭代后样本i的权值，e_i表示样本i的分类系数，e_i＝0表示分类正确时，e_i＝1表示分类错误；当达到结束条件时迭代结束，输出H,所述H为迭代得到的强分类器；

步骤24)根据步骤23)得到的强分类器，对输入的视频序列进行区域识别分类，实现唇区检测。

步骤3)通过级联特征提取方法，对步骤2)中的唇部区域进行特征提取；在原视频帧上根据唇区色彩特征对检测区域进行阈值二值化，将唇肤分离；对唇区图像采用离散余弦变换或离散小波变换，将信息集中于变换矩阵的某一区域，对系数矩阵中的数据采用合适的筛选方法进行数据选取；通过主成分分析算法根据各个成分累积贡献率的大小选取前多个主成分，生成特征序列；

步骤31)在步骤2)获得的唇区图像的基础上，结合唇区色彩特征对原视频帧色域中的绿蓝分量进行阈值二值化，将唇与肤分离；对分离出的图像序列逐帧处理，大小归一为合适大小；

步骤32)对每一帧图像进行离散余弦变换，将图像信息集中于数据矩阵的低频区域，其他部分系数接近于零；通过设置门限，使用以低频为起点的斜向扫描方法进行数据选择,优先选取集中于低频区域的高能系数；

步骤33)通过主成分分析算法对步骤32)得到的结果进行进一步的数据降维；设μ_b＝(μ_b1,μ_b2,...,μ_bc)^T，b＝1,2,...,r,r＞c；所述b表示样本下标，μ表示单个样本，μ_b表示第b个样本数据的标准化采集向量，T表示转置，r表示样本数量，c表示向量维度；计算

其中所述p表示样本下标，q表示维度下标，μ_pq表示样本p的第q个数据，Z表示标准化指标阵，Z_pq表示标准化指标阵第p行第q列的元素，δ_q表示第q个维度的样本均值，表示第q个维度的样本方差；求所述R表示相关系数矩阵，R_pq表示相关系数矩阵中第p行第q列的元素，cxc表示矩阵R的行列数均为c，Z表示上述标准化阵，Z^T表示标准化阵的转置，r表示样本数量，u表示求和下标；根据R计算得到λ₁,λ₂,...,λ_c，所述λ表示相关系数矩阵的c个特征值；计算所述e和v表示特征值的下标，c表示特征值数目，λ表示特征值，θ_e表示第e个特征值的信息贡献率；根据特征值贡献率从大到小，按公式确定Q的值，所述Q表示选取的主成分数量，σ表示所要达到的信息利用率，c表示特征值数目，w表示求和下标。

步骤4)根据一定规模的数据样本建立用于识别的序列字典树并提取静态特征；使用莱文斯坦距离进行序列的相似度分析和模糊匹配；结合视频动态特征获得动态序列，对样本序列进行查询匹配从而完成唇区的读取。

步骤41)根据一定规模的数据样本建立序列字典树，对样本的每个静态帧运用上述的特征提取方法生成识别序列作为图像的静态特征；使用莱文斯坦距离进行序列的相似度分析和模糊匹配，所述莱文斯坦距离可由如下公式定义：其中所述A、B表示用于分析和匹配的两个特征序列，n、m分别表示这两个序列的当前前缀长度，max和min分别表示取最大值和最小值，lev_A,B(n,m)表示A序列长度为n的前缀和B序列长度为m的前缀间的莱文斯坦距离，A_n和B_m分别表示A序列下标为n的特征值和B序列下标为m的特征值，Blur(A_n,B_m)表示模糊函数，π表示模糊系数；

步骤42)根据输入视频的动态特征产生动态序列，通过设置一定的容错量和模糊系数并结合样本数据中的静态特征，使用莱温斯坦距离在序列字典树上进行查询和匹配，取可能性最大的数据样本，完成唇区的读取。

其中，

所述步骤21)中，s(x,y)的初始值s(x,-1)＝0,g(x,y)的初始值g(-1,x)＝0。

所述步骤22)中，采用积分图后，像素点值由对应的积分图像中的四个顶点值计算得到。

所述步骤32)中，不同变换下系数的不同分布规律决定了有效信息的选择方法。

所述步骤33)中，σ按照经验取0.9。

所述步骤41)中，π按照经验取100。

有益效果：本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明使用基于哈尔特征的维奥拉琼斯方法对视频唇区进行检测，通过依据唇区色彩特征的阈值二值化、离散余弦变换和其它图像变换、主成分分析算法等对唇区特征数据进行多级提取和降维，并根据数据样本建立用于识别的序列字典树，结合视频动态特征获取动态序列，使用莱温斯坦距离进行相似度分析和模糊匹配并最终找到可能性最大的字词。通过这些方法的应用能够对视频中的唇区进行检测和识别，具有良好的准确性和有效性，具体来说：

(1)本发明通过积分图实现了哈尔特征的快速计算，避免了穷举方法的庞大计算量。

(2)本发明通过依据色彩特征的阈值二值化和主成分分析算法等，可以对提取出的唇部数据进行多级降维，减少无用冗余数据，提高检测识别的速度和准确性。

(3)本发明使用的莱温斯坦距离能够很好地对视频信息序列进行动态相似度分析和模糊匹配，具有良好的容错性和抗干扰性。

附图说明

图1是基于级联特征提取的唇部检测及读取方法流程。

图2是哈尔分类器级联结构。

图3是唇区图像离散余弦变换前后系数分布。

图4是唇区图像2层小波变换结果。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

图1是基于级联特征提取的唇部检测及读取方法流程。首先输入1个视频，将视频进行逐帧的图像灰化和大小归一，相当于预处理，有利于后续的检测。通过维奥拉琼斯方法对预处理后的视频图像进行唇部区域检测，即先计算出输入图像的积分图，然后根据积分图快速计算哈尔特征得到弱分类器，通过离散自适应推进算法将这些弱分类器进行级联形成强分类器以实现检测，分类器级联结构如图2所示。

然后，对唇区图像进行多级特征提取。先根据唇区色彩特征对图像进行阈值二值化以实现唇肤分离，之后采用离散余弦变换，使图像信息集中于变换矩阵的某一区域，然后对系数矩阵中的数据采用合适的筛选方法以减少数据冗余，筛选方法视变换方式而定，比如对离散余弦变换通过设置门限选取如图3所示的集中于左上角的高能系数，另外也可以使用如图4所示的离散沃尔什变换，能够实现一定程度的降维。之后对筛选出的数据通过主成分分析算法选取前多个贡献率较大的特征值，达到选取主成分的目的，从而使数据进一步降维。

最后，先根据一定规模的数据样本建立用于识别的序列字典树，然后使用莱文斯坦距离进行序列的相似度分析和模糊匹配，结合视频动态特征获得动态序列，对其进行查询匹配找到可能性最大的字词作为识别结果，完成最终的识别。

Claims

1.一种基于级联特征提取的唇部检测及读取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤2)的具体方法为：

3.根据权利要求1所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤3)的具体方法为：

4.根据权利要求1所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤4)的具体方法为：

步骤41)根据一定规模的数据样本建立序列字典树，对样本的每个静态帧运用上述的特征提取方法生成识别序列作为图像的静态特征；使用莱文斯坦距离进行序列的相似度分析和模糊匹配，所述莱文斯坦距离可由如下公式定义：

其中所述A、B表示用于分析和匹配的两个特征序列，n、m分别表示这两个序列的当前前缀长度，max和min分别表示取最大值和最小值，lev_A,B(n,m)表示A序列长度为n的前缀和B序列长度为m的前缀间的莱文斯坦距离，A_n和B_m分别表示A序列下标为n的特征值和B序列下标为m的特征值，Blur(A_n,B_m)表示模糊函数，π表示模糊系数；

5.根据权利要求2所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤21)中，s(x,y)的初始值s(x,-1)＝0,g(x,y)的初始值g(-1,x)＝0。

6.根据权利要求2所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤22)中，采用积分图后，像素点值由对应的积分图中的四个顶点值计算得到。

7.根据权利要求3所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤32)中，不同变换下系数的不同分布规律决定了有效信息的选择方法。

8.根据权利要求3所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤33)中，σ按照经验取0.9。

9.根据权利要求4所述的一种基于级联特征提取的唇部检测及读取方法，其特征在于，所述步骤41)中，π按照经验取100。