CN105787428A

CN105787428A - 基于稀疏编码的唇语特征身份认证方法

Info

Publication number: CN105787428A
Application number: CN201610012017.8A
Authority: CN
Inventors: 王士林; 赖骏尧; 夏霙; 李翔; 裘瑛
Original assignee: SHANGHAI INSTITUTE OF DATA ANALYSIS AND PROCESSING TECHNOLOGY; Shanghai Jiaotong University
Current assignee: SHANGHAI INSTITUTE OF DATA ANALYSIS AND PROCESSING TECHNOLOGY; Shanghai Jiaotong University
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2016-07-20

Abstract

本发明提供了一种基于稀疏编码的唇语特征身份认证方法，包括如下步骤：步骤1：依据嘴唇位置，从输入视频中提取嘴唇图像块；步骤2：建立稀疏编码特征字典群，并对嘴唇图像块进行重构，计算重构误差；步骤3：根据重构误差对讲话用户进行身份识别和认证。本发明将唇语的生理结构与行为习惯双重特征同时考虑，从唇语特征中获得较多的信息量，提高了识别的准确率；并采用稀疏编码算法较好地对抗视频采集过程中因为环境和讲话人自身因素带来的各类噪声，有较强的鲁棒性；并且使用稀疏编码的重构及重构误差作为判定依据，计算机执行效率高，速度快。

Description

基于稀疏编码的唇语特征身份认证方法

技术领域

本发明涉及信息安全技术领域，具体地，涉及一种基于稀疏编码的唇语特征身份认证方法。

背景技术

在过去的若干年间，生物特征已经被广泛地应用于身份认证。一些较为成熟的生物特征，例如指纹、瞳孔、人脸等，已经走出实验室，得到商业应用。一些近期的研究工作表明，嘴唇区域的视觉信息及运动信息，能为讲话人的身份认证提供充足的信息。因此其有望成为一种新的生物特征，被应用于身份认证。

与传统生物特征有所不同，唇语生物特征同时包含了生理结构与行为习惯的双重信息，用以确定讲话人的身份。不同的人，其嘴唇区域的形状与纹理(嘴唇区域的灰度变化)有所不同，是为唇语的生理结构信息。另一方面，说话时嘴唇区域的运动模式反映了讲话人经年累月养成的习惯，是为唇语的行为习惯信息。两类信息相辅相成，有助于提高身份认证的准确率，同时也能提高身份认证系统的鲁棒性及抗攻击能力。

将上述两类信息应用于身份认证领域，近年来国际上有一定影响力的研究成果有：Luettin等人使用主动形状模型(ASM)对上下嘴唇的形状与纹理进行建模，以描述嘴唇的静态生理结构特征。Broun等人将讲话时显露的口腔内部区域的相关信息加入唇语的生理结构特征。Wang等人使用独立成分分析技术，对上下嘴唇及口腔区域进行表示，改进了传统使用主成分分析描述唇语生理结构特征。行为习惯特征，则采用对静态特征的一阶导数的形式加以体现。

经对现有技术的文献检索发现，Goswami等人在2012年在IEEE信息取证与安全专刊(EEETransactionsonInformationForensicsandSecurity,vol.7,issue2,pp.602-612,2012.)上发表的“基于局部有向对比度模式直方图的时空唇语身份认证”(LocalOrdinalContrastPatternHistogramsforSpatiotemporal,Lip-BasedSpeakerAuthentication)。该文中采用局部有向对比度模式算子对嘴唇纹理进行描述，实现了将生理结构信息与行为习惯信息结合，达到了一定的正确率。其不足在于：1)唇语特征的提取准确性不足；2)缺乏有身份鉴别力的唇语特征表达；3)缺乏适合唇语特征的身份认证机制。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于稀疏编码的唇语特征身份认证方法。

根据本发明提供的基于稀疏编码的唇语特征身份认证方法，包括如下步骤：

步骤1：依据嘴唇位置，从输入视频中提取嘴唇图像块；

步骤2：建立稀疏编码特征字典群，并对嘴唇图像块进行重构，计算重构误差；

步骤3：根据重构误差对输入视频中讲话用户进行身份识别和认证。

优选地，所述步骤1包括：

步骤1.1：识别输入视频某一帧面部图片的嘴唇区域图像；

步骤1.2：以步骤1.1中的输入视频的该帧为起始帧，提取一段时间内输入视频所有帧的嘴唇区域图像；

步骤1.3：将该段时间内提取的所有帧的嘴唇区域图像按照时间顺序进行堆叠获得具有时空维度的嘴唇图像块。

优选地，所述步骤2包括：

步骤2.1：建立用户稀疏编码特征字典群；具体地，包括如下步骤：

步骤2.1.1：将训练集中所有用户讲述提示语的视频片段作为训练样本总体，并从每一段视频片段中提取出具有相应用户特征的嘴唇图像块；

步骤i：将用户对应的所有嘴唇图像块作为输入信号，采用K-奇异值分解，即K-SingularValueDecomposition，简称为K-SVD算法构建稀疏编码字典；所述稀疏编码字典中包含若干用户独特的嘴唇图像块基础信号，能够作为与用户的特征字典；

步骤2.1.2：对训练集中每一个用户的嘴唇图像块执行步骤i，获得所有用户的特征字典，所有用户的特征字典构成稀疏编码特征字典群；

步骤2.2：使用正交匹配追踪OrthogonalMatchingPursuit，简称为OMP算法，以给定特征字典中的基础信号为基底，对待识别视频提取的嘴唇图像块进行变换；

步骤2.2.1：选取变换向量中特征值最大的S(一般取3或5或7)个元素，将其他元素置为0，其中S称为稀疏编码的稀疏度；

步骤2.2.2：将部分置0后的变换向量进行逆变换，得到重构的嘴唇图像块；

步骤2.2.3：将重构的嘴唇图像块与初始嘴唇图像块进行比较，计算每一帧每一像素点的差值的绝对值，并求和，得到重构误差。

优选地，所述步骤2.2.3中重构误差的计算公式如下：

Δ = \underset{x, y, t}{Σ} | M_{o} (x, y, t) - M_{r} (x, y, t) |

式中：△表示重构误差，M_o(x,y,t)表示初始嘴唇图像块，M_r(x,y,t)表示重构后的嘴唇图像块，其中嘴唇图像块中坐标(x,y,t)位置的取值为输入视频第t帧所提取的嘴唇区域图像的行列坐标(x,y)位置的像素RGB值。

优选地，在步骤2中，使用用户稀疏编码特征字典群中的每一个特征字典，依次对嘴唇图像块进行重构并计算重构误差；所述步骤3包括：

确定最小的重构误差所对应的特征字典，则讲话人被识别为该特征字典对应的用户。

优选地，在所述步骤2中，从用户稀疏编码特征字典群中选取申明身份对应的特征字典，对所提取的嘴唇图像块进行重构，并计算重构误差；所述步骤3还包括：

将该重构误差与设定的阈值进行比较，若重构误差小于设定阈值，则认为识别出的讲话用户与该用户申明的身份相符，若重构误差大于等于设定阈值，则认为识别出的讲话用户与该用户申明的身份不相符。

优选地，还包括：训练步骤，即学习待识别用户唇语特征的过程，通过对用户预先输入的唇语特征进行学习，获得后续用于识别和认证的特征字典，具体包括如下步骤：

步骤E1：采集用户讲述提示语视频片段；对待识别的用户，分别采集若干讲述提示语的视频片段，将采集的视频片段以对应用户的身份识别符进行标识，并分别存储；所述标识符包括：名字、工号或身份证号；

步骤E2：对于每一位待识别的用户，将步骤E1中采集的讲述提示语的所有视频片段进行嘴唇图像块提取，获得若干嘴唇图像块，所述嘴唇图像块反映了该用户唇语的生理结构和行为习惯特征；

步骤E3：对于步骤E2中获得的若干嘴唇图像块，使用K-奇异值分解算法，构建稀疏编码字典，所述编码字典中包含若干基础信号，每一个基础信号为一个三维矩阵，该三维矩阵的尺寸与输入的嘴唇图像块一致，所述基础信号是输入嘴唇图像块的奇异值，表达了对应用户的唇语特征的一致性信息与独特性信息，称为对应用户的特征字典；

步骤E4：对所有待识别用户执行步骤E2和步骤E3，获得等同于用户数量的特征字典，将每一个特征字典以对应用户的身份标识符进行标识，所有用户的特征字典的集合称为用户稀疏编码特征字典群。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供的基于稀疏编码的唇语特征身份认证方法在性能上优于传统的基于唇语特征的身份认证方法，其原因在于：第一，方案在设计的基本原理上，将唇语的生理结构与行为习惯双重特征同时考虑，从唇语特征中获得较多的信息量，提高了识别的准确率；第二，稀疏编码算法能够较好对抗视频采集过程中因为环境和讲话人自身因素带来的各类噪声，有较强的鲁棒性；第三，使用稀疏编码的重构及重构误差作为判定依据，计算机执行效率高，速度快。

2、本发明针对唇语特征的具体特点，提出了适合该类生物特征的提取、分析和分类方法，并实现了讲话人身份的识别与认证。

3、本发明经过了性能测试，测试结果表明了本发明对讲话人身份的识别和认证有较高的准确率，即身份识别率为99.01％，身份认证等差错率为0.79％；同时，本发明在获得较高的识别准确率的同时，保证了较高的处理速度，具有广阔的应用前景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于稀疏编码的唇语特征身份认证方法的流程图；

图2为本发明提供的基于稀疏编码的唇语特征身份认证方法的训练流程图；

图3为嘴唇图像块提取方法流程图；

图4为时空维度的嘴唇图像块示意图；

图5为利用稀疏编码对嘴唇图像块进行重构并计算误差流程图；

图6为利用本发明进行唇语特征的身份认证和识别方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

根据本发明提供的基于稀疏编码的唇语特征身份认证方法，实现对于讲话人身份的识别，判断其申明身份与真实身份的一致性。与此同时，高效处理输入视频数据，并达到较高的准确率。

具体地，首先通过嘴唇区域分割算法自动识别面部图片的嘴唇区域，然后将视频中逐帧的嘴唇区域图像进行堆叠获得时空维度的嘴唇图像块，最后使用稀疏编码算法对嘴唇图像块进行重构，依据重构误差对讲话人的身份进行识别。

嘴唇图像块的构成方法如下：

依据嘴唇区域分割算法提供的嘴唇区域至面部图像的相对位置及大小，将嘴唇区域的图像从面部图像中提取出来，将其旋转至水平方向，并缩放至固定尺寸。对视频中每一帧的面部图像进行上述处理，获得每一帧中嘴唇区域的(固定尺寸的)图像。将所获得的嘴唇区域图像依照其在原始视频中的帧顺序，组织为一个三维矩阵。该三维矩阵包含空间维度的嘴唇纹理信息与时间维度的嘴唇运动信息，称之为：嘴唇图像块。

对讲话用户身份进行识别和认证的方法，具体步骤如下：

步骤A：建立用户稀疏编码特征字典群；

步骤A1：以训练集中所有用户讲诉提示语的视频片段为训练样本总体，则每一段视频能够提取获得具有时空维度的嘴唇图像块；对于训练集中的每一位用户，将该用户对应的所有嘴唇图像块作为输入信号，采用K-奇异值分解(K-SingularValueDecomposition，下文简称为K-SVD)算法构建稀疏编码字典；所述稀疏编码字典包含若干该用户独特的嘴唇图像块基础信号，为该用户的特征字典；

步骤A2：依据步骤A1的方法对训练集中每一个用户构建特征字典，得到等同于用户数量的特征字典，将所有特征字典的集合称作稀疏编码特征字典群；

步骤B：使用稀疏编码对嘴唇图像块进行重构并计算重构误差；

步骤B1：使用正交匹配追踪(OrthogonalMatchingPursuit，下文简称为OMP)算法，以给定特征字典中的基础信号为基底，对给定嘴唇图像块进行变换；选取变换向量中特征值最大的S个元素，将其他元素置为0，其中S称为稀疏编码的稀疏度(Sparsity)；将部分置0后的变换向量进行逆变换，得到重构的嘴唇图像块；

步骤B2：将重构的嘴唇图像块与给定的(原始的)嘴唇图像块进行比较，计算每一帧每一像素点的差值的绝对值，并求和，得到重构误差；

步骤C：对讲话用户身份进行识别，即从用户群中识别讲话人的身份；

步骤C1：从讲话用户讲诉提示语的视频片段中提取嘴唇图像块，使用用户稀疏编码特征字典群中的每一个特征字典，依次使用步骤B中方法进行重构并计算重构误差；

步骤C2：确定重构误差最小所对应的特征字典，则讲话人被识别为该特征字典对应的用户。

步骤D：对讲话用户身份进行认证，即判定讲话人的身份与其申明的身份是否相符；

步骤D1：从讲话用户讲诉提示语的视频片段中提取嘴唇图像块，从用户稀疏编码特征字典群中选取申明身份对应的特征字典，使用步骤B中的方法对所提取的嘴唇图像块进行重构，并计算重构误差；

步骤D2：将所述重构误差与设定的阈值进行比较，若重构误差小于阈值，则认为其与申明身份相符，否则认为不相符。

如图1所示，本实施例首先对视频中嘴唇区域的位置进行识别，获取以下信息：

1)嘴唇的几何特征，即嘴唇区域的长度和宽度信息；

2)嘴唇区域所在位置，即嘴唇区域在视频帧中所在的横坐标和纵坐标的区间范围；

3)嘴唇区域的旋转的角度，其实为讲话人之于摄像器材的角度。

通过上述信息，将嘴唇区域从视频帧中提取出来，并旋转至水平方向后缩放至固定大小。将视频中每一帧的嘴唇区域依照时间顺序构成嘴唇图像块。然后使用K-奇异值分解处理训练集中的所有嘴唇图像块，构建用户稀疏编码特征字典群。最后，依据识别与认证的不同，采用特定的特征字典对输入样本进行重构，依据重构误差给出识别结果。

如图2所示，提取嘴唇图像块的方法流程，包括以下几个步骤：

步骤S1：校正角度；

因视频摄录过程中，讲话人的面部与摄像设备之间可能存在一定的角度，故须进行角度校正。将视频的第一帧图像，以1°为步长，在顺时针30°至逆时针30°之间进行旋转，获得61幅旋转后的图像。对每一幅图像执行嘴唇区域识别。选取识别结果中，嘴唇的水平宽度最长的图像，及其对应的旋转角度。依据此角度，将视频剩余帧进行旋转，即完成矫校正角度。

步骤S2：嘴唇区域分割；

由步骤S1获得的视频，包含面部一些其他区域的图像，需要将其裁剪去除，以提高嘴唇区域所占比。对视频中的每一帧，执行嘴唇区域识别，获得嘴唇区域的横坐标和纵坐标的区间范围。将该范围内的图像保留，裁剪其余图像。然后采用二次差值算法，将嘴唇区域的图像缩放至统一预先设定的尺寸(依据摄像器材及摄像环境，可以选择30×90、100×300、200×600、1000×3000等不同尺寸，作为嘴唇区域的统一尺寸)。

步骤S3：构造嘴唇图像块

嘴唇图像块包含视频中所有帧嘴唇区域，用于后续的训练和认证过程，是视频中所包含的所有嘴唇的生理结构和行为习惯信息的总合。嘴唇图像块是一个三维矩阵，三个维度分别是空间上的横坐标维度、纵坐标维度和时间维度，分别用X，Y，T表示。X坐标和Y坐标的取值范围依据步骤S2中选定的嘴唇区域统一尺寸而定，T坐标的取值范围为视频的长度。嘴唇图像块中(x,y,t)的取值为原视频第t帧所提取的(经缩放至统一尺寸的)嘴唇区域图像的(x,y)位置的像素RGB值。或可理解为，将每一帧所提取的(经缩放至统一尺寸的)嘴唇区域图像，以时间顺序堆叠形成立方体状。

如图5所示，应用稀疏编码算法，使用特征字典对嘴唇图像块进行重构并计算重构误差，作为识别与认证的判据。首先，以所选用的特征字典中的所有基础信号为基底，使用OMP算法对嘴唇图像块进行变换，得到变换向量。选定变换向量中绝对值较大的S(稀疏度，一般取3或者5)个元素，将其余元素置为0。使用经上述处理的变换向量，以特征字典中的所有基础信号为基底进行逆变换，获得重构后的嘴唇图像块。将重构前后的嘴唇图像块依下述公式做差，获得重构误差，计算公式如下：

Δ = \underset{x, y, t}{Σ} | M_{o} (x, y, t) - M_{r} (x, y, t) |

式中：△表示重构误差，M_o(x,y,t)表示原始嘴唇图像块，M_r(x,y,t)M_r表示重构后的嘴唇图像块。

如图6所示，适合唇语特征特点的基于嘴唇图像块稀疏编码的讲话人身份识别与认证方法，具体分为训练流程、识别流程、认证流程，分别阐述如下：

训练流程是指学习待识别用户唇语特征的过程。通过对用户预先输入的唇语特征进行学习，获得后续用于识别和认证的唇语模型(本方法中为特征字典)，具体执行流程如下：

步骤E1：采集用户讲述提示语视频片段；对待识别的用户，分别采集若干讲述提示语的视频片段，将采集的视频片段以其对应用户的身份识别符(名字、工号或身份证号等)进行标识，并分别存储；

步骤E3：对于步骤E2中获得的若干嘴唇图像块，使用K-奇异值分解算法，构建稀疏编码字典，所述编码字典中包含若干基础信号，每一个基础信号是一个三维矩阵，其尺寸与输入的嘴唇图像块一致。这些基础信号是输入嘴唇图像块的奇异值，其表达了对应用户的唇语特征的一致性信息与独特性信息，故将该字典称为对应用户的特征字典；

步骤E4：对所有待识别用户执行步骤E2和步骤E3，获得等同于用户数量的特征字典，将每一个特征字典以其对应用户的身份标识符进行标识，所有用户的特征字典的集合称为用户稀疏编码特征字典群，简称为特征字典群。

识别流程是指以特征字典群为基础，对输入的讲述提示语视频片段进行识别，给出最接近的(特征字典群中的)用户身份标识符的过程，具体执行流程如下：

步骤F1：提取对输入的视频片段嘴唇图像块，所述嘴唇图像块反映了输入视频中的唇语特征；

步骤F2：逐个使用特征字典群中的特征字典，依照稀疏编码算法对步骤F1中提取的嘴唇图像块进行重构，并计算重构误差；记录重构误差最小时所使用的特征字典，及其标识的用户身份识别符；

步骤F3：获取骤2中重构误差最小的特征字典所对应的用户，以该用户对应的身份识别符表示。

认证流程是指以特征字典群位基础，对输入的讲述提示语视频片段进行认证，判断其是否与其所声明的身份一致的过程，具体执行流程如下：

步骤G1：对输入的视频片段进行嘴唇图像块提取，所述嘴唇图像块反映了输入视频中的唇语特征；

步骤G2：从特征字典群中选择用户声明身份所对应的特征字典，依照稀疏编码算法对步骤G1中提取的嘴唇图像块进行重构，并计算重构误差；

步骤G3：将步骤G2中求得的重构误差与设定的阈值进行比较：若重构误差小于阈值，则判定用户与所声明身份一致；否则，判定用户与所声明身份不一致。

为了实施本发明的具体方法，还设计并实现了基于唇语特征的身份认证系统。通过对于40个讲话人(29男11女)，讲述特定提示语的视频库(包含约400段讲述提示语的视频)的实验与评估。本系统对于讲话人身份的认证有着较高正确率，即身份识别率为99.01％，身份认证等差错率为0.79％。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于稀疏编码的唇语特征身份认证方法，其特征在于，包括如下步骤：

步骤1：依据嘴唇位置，从输入视频中提取嘴唇图像块；

2.根据权利要求1所述的基于稀疏编码的唇语特征身份认证方法，其特征在于，所述步骤1包括：

步骤1.1：识别输入视频某一帧面部图片的嘴唇区域图像；

3.根据权利要求1所述的基于稀疏编码的唇语特征身份认证方法，其特征在于，所述步骤2包括：

步骤2.2.1：选取变换向量中特征值最大的S个元素，将其他元素置为0，其中S称为稀疏编码的稀疏度；

4.根据权利要求3所述的基于稀疏编码的唇语特征身份认证方法，其特征在于，所述步骤2.2.3中重构误差的计算公式如下：

Δ = \underset{x, y, t}{Σ} | M_{o} (x, y, t) - M_{r} (x, y, t) |

5.根据权利要求3所述的基于稀疏编码的唇语特征身份认证方法，其特征在于，在步骤2中，使用用户稀疏编码特征字典群中的每一个特征字典，依次对嘴唇图像块进行重构并计算重构误差；所述步骤3包括：

6.根据权利要求5所述的基于稀疏编码的唇语特征身份认证方法，其特征在于，在所述步骤2中，从用户稀疏编码特征字典群中选取申明身份对应的特征字典，对所提取的嘴唇图像块进行重构，并计算重构误差；所述步骤3还包括：

7.根据权利要求1所述的基于稀疏编码的唇语特征身份认证方法，其特征在于，还包括：训练步骤，即学习待识别用户唇语特征的过程，通过对用户预先输入的唇语特征进行学习，获得后续用于识别和认证的特征字典，具体包括如下步骤：