CN105787428A - 基于稀疏编码的唇语特征身份认证方法 - Google Patents

基于稀疏编码的唇语特征身份认证方法 Download PDF

Info

Publication number
CN105787428A
CN105787428A CN201610012017.8A CN201610012017A CN105787428A CN 105787428 A CN105787428 A CN 105787428A CN 201610012017 A CN201610012017 A CN 201610012017A CN 105787428 A CN105787428 A CN 105787428A
Authority
CN
China
Prior art keywords
lip
user
image block
sparse coding
lip image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610012017.8A
Other languages
English (en)
Inventor
王士林
赖骏尧
夏霙
李翔
裘瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI INSTITUTE OF DATA ANALYSIS AND PROCESSING TECHNOLOGY
Shanghai Jiaotong University
Original Assignee
SHANGHAI INSTITUTE OF DATA ANALYSIS AND PROCESSING TECHNOLOGY
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI INSTITUTE OF DATA ANALYSIS AND PROCESSING TECHNOLOGY, Shanghai Jiaotong University filed Critical SHANGHAI INSTITUTE OF DATA ANALYSIS AND PROCESSING TECHNOLOGY
Priority to CN201610012017.8A priority Critical patent/CN105787428A/zh
Publication of CN105787428A publication Critical patent/CN105787428A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供了一种基于稀疏编码的唇语特征身份认证方法,包括如下步骤:步骤1:依据嘴唇位置,从输入视频中提取嘴唇图像块;步骤2:建立稀疏编码特征字典群,并对嘴唇图像块进行重构,计算重构误差;步骤3:根据重构误差对讲话用户进行身份识别和认证。本发明将唇语的生理结构与行为习惯双重特征同时考虑,从唇语特征中获得较多的信息量,提高了识别的准确率;并采用稀疏编码算法较好地对抗视频采集过程中因为环境和讲话人自身因素带来的各类噪声,有较强的鲁棒性;并且使用稀疏编码的重构及重构误差作为判定依据,计算机执行效率高,速度快。

Description

基于稀疏编码的唇语特征身份认证方法
技术领域
本发明涉及信息安全技术领域,具体地,涉及一种基于稀疏编码的唇语特征身份认证方法。
背景技术
在过去的若干年间,生物特征已经被广泛地应用于身份认证。一些较为成熟的生物特征,例如指纹、瞳孔、人脸等,已经走出实验室,得到商业应用。一些近期的研究工作表明,嘴唇区域的视觉信息及运动信息,能为讲话人的身份认证提供充足的信息。因此其有望成为一种新的生物特征,被应用于身份认证。
与传统生物特征有所不同,唇语生物特征同时包含了生理结构与行为习惯的双重信息,用以确定讲话人的身份。不同的人,其嘴唇区域的形状与纹理(嘴唇区域的灰度变化)有所不同,是为唇语的生理结构信息。另一方面,说话时嘴唇区域的运动模式反映了讲话人经年累月养成的习惯,是为唇语的行为习惯信息。两类信息相辅相成,有助于提高身份认证的准确率,同时也能提高身份认证系统的鲁棒性及抗攻击能力。
将上述两类信息应用于身份认证领域,近年来国际上有一定影响力的研究成果有:Luettin等人使用主动形状模型(ASM)对上下嘴唇的形状与纹理进行建模,以描述嘴唇的静态生理结构特征。Broun等人将讲话时显露的口腔内部区域的相关信息加入唇语的生理结构特征。Wang等人使用独立成分分析技术,对上下嘴唇及口腔区域进行表示,改进了传统使用主成分分析描述唇语生理结构特征。行为习惯特征,则采用对静态特征的一阶导数的形式加以体现。
经对现有技术的文献检索发现,Goswami等人在2012年在IEEE信息取证与安全专刊(EEETransactionsonInformationForensicsandSecurity,vol.7,issue2,pp.602-612,2012.)上发表的“基于局部有向对比度模式直方图的时空唇语身份认证”(LocalOrdinalContrastPatternHistogramsforSpatiotemporal,Lip-BasedSpeakerAuthentication)。该文中采用局部有向对比度模式算子对嘴唇纹理进行描述,实现了将生理结构信息与行为习惯信息结合,达到了一定的正确率。其不足在于:1)唇语特征的提取准确性不足;2)缺乏有身份鉴别力的唇语特征表达;3)缺乏适合唇语特征的身份认证机制。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于稀疏编码的唇语特征身份认证方法。
根据本发明提供的基于稀疏编码的唇语特征身份认证方法,包括如下步骤:
步骤1:依据嘴唇位置,从输入视频中提取嘴唇图像块;
步骤2:建立稀疏编码特征字典群,并对嘴唇图像块进行重构,计算重构误差;
步骤3:根据重构误差对输入视频中讲话用户进行身份识别和认证。
优选地,所述步骤1包括:
步骤1.1:识别输入视频某一帧面部图片的嘴唇区域图像;
步骤1.2:以步骤1.1中的输入视频的该帧为起始帧,提取一段时间内输入视频所有帧的嘴唇区域图像;
步骤1.3:将该段时间内提取的所有帧的嘴唇区域图像按照时间顺序进行堆叠获得具有时空维度的嘴唇图像块。
优选地,所述步骤2包括:
步骤2.1:建立用户稀疏编码特征字典群;具体地,包括如下步骤:
步骤2.1.1:将训练集中所有用户讲述提示语的视频片段作为训练样本总体,并从每一段视频片段中提取出具有相应用户特征的嘴唇图像块;
步骤i:将用户对应的所有嘴唇图像块作为输入信号,采用K-奇异值分解,即K-SingularValueDecomposition,简称为K-SVD算法构建稀疏编码字典;所述稀疏编码字典中包含若干用户独特的嘴唇图像块基础信号,能够作为与用户的特征字典;
步骤2.1.2:对训练集中每一个用户的嘴唇图像块执行步骤i,获得所有用户的特征字典,所有用户的特征字典构成稀疏编码特征字典群;
步骤2.2:使用正交匹配追踪OrthogonalMatchingPursuit,简称为OMP算法,以给定特征字典中的基础信号为基底,对待识别视频提取的嘴唇图像块进行变换;
步骤2.2.1:选取变换向量中特征值最大的S(一般取3或5或7)个元素,将其他元素置为0,其中S称为稀疏编码的稀疏度;
步骤2.2.2:将部分置0后的变换向量进行逆变换,得到重构的嘴唇图像块;
步骤2.2.3:将重构的嘴唇图像块与初始嘴唇图像块进行比较,计算每一帧每一像素点的差值的绝对值,并求和,得到重构误差。
优选地,所述步骤2.2.3中重构误差的计算公式如下:
Δ = Σ x , y , t | M o ( x , y , t ) - M r ( x , y , t ) |
式中:△表示重构误差,Mo(x,y,t)表示初始嘴唇图像块,Mr(x,y,t)表示重构后的嘴唇图像块,其中嘴唇图像块中坐标(x,y,t)位置的取值为输入视频第t帧所提取的嘴唇区域图像的行列坐标(x,y)位置的像素RGB值。
优选地,在步骤2中,使用用户稀疏编码特征字典群中的每一个特征字典,依次对嘴唇图像块进行重构并计算重构误差;所述步骤3包括:
确定最小的重构误差所对应的特征字典,则讲话人被识别为该特征字典对应的用户。
优选地,在所述步骤2中,从用户稀疏编码特征字典群中选取申明身份对应的特征字典,对所提取的嘴唇图像块进行重构,并计算重构误差;所述步骤3还包括:
将该重构误差与设定的阈值进行比较,若重构误差小于设定阈值,则认为识别出的讲话用户与该用户申明的身份相符,若重构误差大于等于设定阈值,则认为识别出的讲话用户与该用户申明的身份不相符。
优选地,还包括:训练步骤,即学习待识别用户唇语特征的过程,通过对用户预先输入的唇语特征进行学习,获得后续用于识别和认证的特征字典,具体包括如下步骤:
步骤E1:采集用户讲述提示语视频片段;对待识别的用户,分别采集若干讲述提示语的视频片段,将采集的视频片段以对应用户的身份识别符进行标识,并分别存储;所述标识符包括:名字、工号或身份证号;
步骤E2:对于每一位待识别的用户,将步骤E1中采集的讲述提示语的所有视频片段进行嘴唇图像块提取,获得若干嘴唇图像块,所述嘴唇图像块反映了该用户唇语的生理结构和行为习惯特征;
步骤E3:对于步骤E2中获得的若干嘴唇图像块,使用K-奇异值分解算法,构建稀疏编码字典,所述编码字典中包含若干基础信号,每一个基础信号为一个三维矩阵,该三维矩阵的尺寸与输入的嘴唇图像块一致,所述基础信号是输入嘴唇图像块的奇异值,表达了对应用户的唇语特征的一致性信息与独特性信息,称为对应用户的特征字典;
步骤E4:对所有待识别用户执行步骤E2和步骤E3,获得等同于用户数量的特征字典,将每一个特征字典以对应用户的身份标识符进行标识,所有用户的特征字典的集合称为用户稀疏编码特征字典群。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提供的基于稀疏编码的唇语特征身份认证方法在性能上优于传统的基于唇语特征的身份认证方法,其原因在于:第一,方案在设计的基本原理上,将唇语的生理结构与行为习惯双重特征同时考虑,从唇语特征中获得较多的信息量,提高了识别的准确率;第二,稀疏编码算法能够较好对抗视频采集过程中因为环境和讲话人自身因素带来的各类噪声,有较强的鲁棒性;第三,使用稀疏编码的重构及重构误差作为判定依据,计算机执行效率高,速度快。
2、本发明针对唇语特征的具体特点,提出了适合该类生物特征的提取、分析和分类方法,并实现了讲话人身份的识别与认证。
3、本发明经过了性能测试,测试结果表明了本发明对讲话人身份的识别和认证有较高的准确率,即身份识别率为99.01%,身份认证等差错率为0.79%;同时,本发明在获得较高的识别准确率的同时,保证了较高的处理速度,具有广阔的应用前景。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的基于稀疏编码的唇语特征身份认证方法的流程图;
图2为本发明提供的基于稀疏编码的唇语特征身份认证方法的训练流程图;
图3为嘴唇图像块提取方法流程图;
图4为时空维度的嘴唇图像块示意图;
图5为利用稀疏编码对嘴唇图像块进行重构并计算误差流程图;
图6为利用本发明进行唇语特征的身份认证和识别方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
根据本发明提供的基于稀疏编码的唇语特征身份认证方法,实现对于讲话人身份的识别,判断其申明身份与真实身份的一致性。与此同时,高效处理输入视频数据,并达到较高的准确率。
具体地,首先通过嘴唇区域分割算法自动识别面部图片的嘴唇区域,然后将视频中逐帧的嘴唇区域图像进行堆叠获得时空维度的嘴唇图像块,最后使用稀疏编码算法对嘴唇图像块进行重构,依据重构误差对讲话人的身份进行识别。
嘴唇图像块的构成方法如下:
依据嘴唇区域分割算法提供的嘴唇区域至面部图像的相对位置及大小,将嘴唇区域的图像从面部图像中提取出来,将其旋转至水平方向,并缩放至固定尺寸。对视频中每一帧的面部图像进行上述处理,获得每一帧中嘴唇区域的(固定尺寸的)图像。将所获得的嘴唇区域图像依照其在原始视频中的帧顺序,组织为一个三维矩阵。该三维矩阵包含空间维度的嘴唇纹理信息与时间维度的嘴唇运动信息,称之为:嘴唇图像块。
对讲话用户身份进行识别和认证的方法,具体步骤如下:
步骤A:建立用户稀疏编码特征字典群;
步骤A1:以训练集中所有用户讲诉提示语的视频片段为训练样本总体,则每一段视频能够提取获得具有时空维度的嘴唇图像块;对于训练集中的每一位用户,将该用户对应的所有嘴唇图像块作为输入信号,采用K-奇异值分解(K-SingularValueDecomposition,下文简称为K-SVD)算法构建稀疏编码字典;所述稀疏编码字典包含若干该用户独特的嘴唇图像块基础信号,为该用户的特征字典;
步骤A2:依据步骤A1的方法对训练集中每一个用户构建特征字典,得到等同于用户数量的特征字典,将所有特征字典的集合称作稀疏编码特征字典群;
步骤B:使用稀疏编码对嘴唇图像块进行重构并计算重构误差;
步骤B1:使用正交匹配追踪(OrthogonalMatchingPursuit,下文简称为OMP)算法,以给定特征字典中的基础信号为基底,对给定嘴唇图像块进行变换;选取变换向量中特征值最大的S个元素,将其他元素置为0,其中S称为稀疏编码的稀疏度(Sparsity);将部分置0后的变换向量进行逆变换,得到重构的嘴唇图像块;
步骤B2:将重构的嘴唇图像块与给定的(原始的)嘴唇图像块进行比较,计算每一帧每一像素点的差值的绝对值,并求和,得到重构误差;
步骤C:对讲话用户身份进行识别,即从用户群中识别讲话人的身份;
步骤C1:从讲话用户讲诉提示语的视频片段中提取嘴唇图像块,使用用户稀疏编码特征字典群中的每一个特征字典,依次使用步骤B中方法进行重构并计算重构误差;
步骤C2:确定重构误差最小所对应的特征字典,则讲话人被识别为该特征字典对应的用户。
步骤D:对讲话用户身份进行认证,即判定讲话人的身份与其申明的身份是否相符;
步骤D1:从讲话用户讲诉提示语的视频片段中提取嘴唇图像块,从用户稀疏编码特征字典群中选取申明身份对应的特征字典,使用步骤B中的方法对所提取的嘴唇图像块进行重构,并计算重构误差;
步骤D2:将所述重构误差与设定的阈值进行比较,若重构误差小于阈值,则认为其与申明身份相符,否则认为不相符。
如图1所示,本实施例首先对视频中嘴唇区域的位置进行识别,获取以下信息:
1)嘴唇的几何特征,即嘴唇区域的长度和宽度信息;
2)嘴唇区域所在位置,即嘴唇区域在视频帧中所在的横坐标和纵坐标的区间范围;
3)嘴唇区域的旋转的角度,其实为讲话人之于摄像器材的角度。
通过上述信息,将嘴唇区域从视频帧中提取出来,并旋转至水平方向后缩放至固定大小。将视频中每一帧的嘴唇区域依照时间顺序构成嘴唇图像块。然后使用K-奇异值分解处理训练集中的所有嘴唇图像块,构建用户稀疏编码特征字典群。最后,依据识别与认证的不同,采用特定的特征字典对输入样本进行重构,依据重构误差给出识别结果。
如图2所示,提取嘴唇图像块的方法流程,包括以下几个步骤:
步骤S1:校正角度;
因视频摄录过程中,讲话人的面部与摄像设备之间可能存在一定的角度,故须进行角度校正。将视频的第一帧图像,以1°为步长,在顺时针30°至逆时针30°之间进行旋转,获得61幅旋转后的图像。对每一幅图像执行嘴唇区域识别。选取识别结果中,嘴唇的水平宽度最长的图像,及其对应的旋转角度。依据此角度,将视频剩余帧进行旋转,即完成矫校正角度。
步骤S2:嘴唇区域分割;
由步骤S1获得的视频,包含面部一些其他区域的图像,需要将其裁剪去除,以提高嘴唇区域所占比。对视频中的每一帧,执行嘴唇区域识别,获得嘴唇区域的横坐标和纵坐标的区间范围。将该范围内的图像保留,裁剪其余图像。然后采用二次差值算法,将嘴唇区域的图像缩放至统一预先设定的尺寸(依据摄像器材及摄像环境,可以选择30×90、100×300、200×600、1000×3000等不同尺寸,作为嘴唇区域的统一尺寸)。
步骤S3:构造嘴唇图像块
嘴唇图像块包含视频中所有帧嘴唇区域,用于后续的训练和认证过程,是视频中所包含的所有嘴唇的生理结构和行为习惯信息的总合。嘴唇图像块是一个三维矩阵,三个维度分别是空间上的横坐标维度、纵坐标维度和时间维度,分别用X,Y,T表示。X坐标和Y坐标的取值范围依据步骤S2中选定的嘴唇区域统一尺寸而定,T坐标的取值范围为视频的长度。嘴唇图像块中(x,y,t)的取值为原视频第t帧所提取的(经缩放至统一尺寸的)嘴唇区域图像的(x,y)位置的像素RGB值。或可理解为,将每一帧所提取的(经缩放至统一尺寸的)嘴唇区域图像,以时间顺序堆叠形成立方体状。
如图5所示,应用稀疏编码算法,使用特征字典对嘴唇图像块进行重构并计算重构误差,作为识别与认证的判据。首先,以所选用的特征字典中的所有基础信号为基底,使用OMP算法对嘴唇图像块进行变换,得到变换向量。选定变换向量中绝对值较大的S(稀疏度,一般取3或者5)个元素,将其余元素置为0。使用经上述处理的变换向量,以特征字典中的所有基础信号为基底进行逆变换,获得重构后的嘴唇图像块。将重构前后的嘴唇图像块依下述公式做差,获得重构误差,计算公式如下:
Δ = Σ x , y , t | M o ( x , y , t ) - M r ( x , y , t ) |
式中:△表示重构误差,Mo(x,y,t)表示原始嘴唇图像块,Mr(x,y,t)Mr表示重构后的嘴唇图像块。
如图6所示,适合唇语特征特点的基于嘴唇图像块稀疏编码的讲话人身份识别与认证方法,具体分为训练流程、识别流程、认证流程,分别阐述如下:
训练流程是指学习待识别用户唇语特征的过程。通过对用户预先输入的唇语特征进行学习,获得后续用于识别和认证的唇语模型(本方法中为特征字典),具体执行流程如下:
步骤E1:采集用户讲述提示语视频片段;对待识别的用户,分别采集若干讲述提示语的视频片段,将采集的视频片段以其对应用户的身份识别符(名字、工号或身份证号等)进行标识,并分别存储;
步骤E2:对于每一位待识别的用户,将步骤E1中采集的讲述提示语的所有视频片段进行嘴唇图像块提取,获得若干嘴唇图像块,所述嘴唇图像块反映了该用户唇语的生理结构和行为习惯特征;
步骤E3:对于步骤E2中获得的若干嘴唇图像块,使用K-奇异值分解算法,构建稀疏编码字典,所述编码字典中包含若干基础信号,每一个基础信号是一个三维矩阵,其尺寸与输入的嘴唇图像块一致。这些基础信号是输入嘴唇图像块的奇异值,其表达了对应用户的唇语特征的一致性信息与独特性信息,故将该字典称为对应用户的特征字典;
步骤E4:对所有待识别用户执行步骤E2和步骤E3,获得等同于用户数量的特征字典,将每一个特征字典以其对应用户的身份标识符进行标识,所有用户的特征字典的集合称为用户稀疏编码特征字典群,简称为特征字典群。
识别流程是指以特征字典群为基础,对输入的讲述提示语视频片段进行识别,给出最接近的(特征字典群中的)用户身份标识符的过程,具体执行流程如下:
步骤F1:提取对输入的视频片段嘴唇图像块,所述嘴唇图像块反映了输入视频中的唇语特征;
步骤F2:逐个使用特征字典群中的特征字典,依照稀疏编码算法对步骤F1中提取的嘴唇图像块进行重构,并计算重构误差;记录重构误差最小时所使用的特征字典,及其标识的用户身份识别符;
步骤F3:获取骤2中重构误差最小的特征字典所对应的用户,以该用户对应的身份识别符表示。
认证流程是指以特征字典群位基础,对输入的讲述提示语视频片段进行认证,判断其是否与其所声明的身份一致的过程,具体执行流程如下:
步骤G1:对输入的视频片段进行嘴唇图像块提取,所述嘴唇图像块反映了输入视频中的唇语特征;
步骤G2:从特征字典群中选择用户声明身份所对应的特征字典,依照稀疏编码算法对步骤G1中提取的嘴唇图像块进行重构,并计算重构误差;
步骤G3:将步骤G2中求得的重构误差与设定的阈值进行比较:若重构误差小于阈值,则判定用户与所声明身份一致;否则,判定用户与所声明身份不一致。
为了实施本发明的具体方法,还设计并实现了基于唇语特征的身份认证系统。通过对于40个讲话人(29男11女),讲述特定提示语的视频库(包含约400段讲述提示语的视频)的实验与评估。本系统对于讲话人身份的认证有着较高正确率,即身份识别率为99.01%,身份认证等差错率为0.79%。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (7)

1.一种基于稀疏编码的唇语特征身份认证方法,其特征在于,包括如下步骤:
步骤1:依据嘴唇位置,从输入视频中提取嘴唇图像块;
步骤2:建立稀疏编码特征字典群,并对嘴唇图像块进行重构,计算重构误差;
步骤3:根据重构误差对输入视频中讲话用户进行身份识别和认证。
2.根据权利要求1所述的基于稀疏编码的唇语特征身份认证方法,其特征在于,所述步骤1包括:
步骤1.1:识别输入视频某一帧面部图片的嘴唇区域图像;
步骤1.2:以步骤1.1中的输入视频的该帧为起始帧,提取一段时间内输入视频所有帧的嘴唇区域图像;
步骤1.3:将该段时间内提取的所有帧的嘴唇区域图像按照时间顺序进行堆叠获得具有时空维度的嘴唇图像块。
3.根据权利要求1所述的基于稀疏编码的唇语特征身份认证方法,其特征在于,所述步骤2包括:
步骤2.1:建立用户稀疏编码特征字典群;具体地,包括如下步骤:
步骤2.1.1:将训练集中所有用户讲述提示语的视频片段作为训练样本总体,并从每一段视频片段中提取出具有相应用户特征的嘴唇图像块;
步骤i:将用户对应的所有嘴唇图像块作为输入信号,采用K-奇异值分解,即K-SingularValueDecomposition,简称为K-SVD算法构建稀疏编码字典;所述稀疏编码字典中包含若干用户独特的嘴唇图像块基础信号,能够作为与用户的特征字典;
步骤2.1.2:对训练集中每一个用户的嘴唇图像块执行步骤i,获得所有用户的特征字典,所有用户的特征字典构成稀疏编码特征字典群;
步骤2.2:使用正交匹配追踪OrthogonalMatchingPursuit,简称为OMP算法,以给定特征字典中的基础信号为基底,对待识别视频提取的嘴唇图像块进行变换;
步骤2.2.1:选取变换向量中特征值最大的S个元素,将其他元素置为0,其中S称为稀疏编码的稀疏度;
步骤2.2.2:将部分置0后的变换向量进行逆变换,得到重构的嘴唇图像块;
步骤2.2.3:将重构的嘴唇图像块与初始嘴唇图像块进行比较,计算每一帧每一像素点的差值的绝对值,并求和,得到重构误差。
4.根据权利要求3所述的基于稀疏编码的唇语特征身份认证方法,其特征在于,所述步骤2.2.3中重构误差的计算公式如下:
Δ = Σ x , y , t | M o ( x , y , t ) - M r ( x , y , t ) |
式中:△表示重构误差,Mo(x,y,t)表示初始嘴唇图像块,Mr(x,y,t)表示重构后的嘴唇图像块,其中嘴唇图像块中坐标(x,y,t)位置的取值为输入视频第t帧所提取的嘴唇区域图像的行列坐标(x,y)位置的像素RGB值。
5.根据权利要求3所述的基于稀疏编码的唇语特征身份认证方法,其特征在于,在步骤2中,使用用户稀疏编码特征字典群中的每一个特征字典,依次对嘴唇图像块进行重构并计算重构误差;所述步骤3包括:
确定最小的重构误差所对应的特征字典,则讲话人被识别为该特征字典对应的用户。
6.根据权利要求5所述的基于稀疏编码的唇语特征身份认证方法,其特征在于,在所述步骤2中,从用户稀疏编码特征字典群中选取申明身份对应的特征字典,对所提取的嘴唇图像块进行重构,并计算重构误差;所述步骤3还包括:
将该重构误差与设定的阈值进行比较,若重构误差小于设定阈值,则认为识别出的讲话用户与该用户申明的身份相符,若重构误差大于等于设定阈值,则认为识别出的讲话用户与该用户申明的身份不相符。
7.根据权利要求1所述的基于稀疏编码的唇语特征身份认证方法,其特征在于,还包括:训练步骤,即学习待识别用户唇语特征的过程,通过对用户预先输入的唇语特征进行学习,获得后续用于识别和认证的特征字典,具体包括如下步骤:
步骤E1:采集用户讲述提示语视频片段;对待识别的用户,分别采集若干讲述提示语的视频片段,将采集的视频片段以对应用户的身份识别符进行标识,并分别存储;所述标识符包括:名字、工号或身份证号;
步骤E2:对于每一位待识别的用户,将步骤E1中采集的讲述提示语的所有视频片段进行嘴唇图像块提取,获得若干嘴唇图像块,所述嘴唇图像块反映了该用户唇语的生理结构和行为习惯特征;
步骤E3:对于步骤E2中获得的若干嘴唇图像块,使用K-奇异值分解算法,构建稀疏编码字典,所述编码字典中包含若干基础信号,每一个基础信号为一个三维矩阵,该三维矩阵的尺寸与输入的嘴唇图像块一致,所述基础信号是输入嘴唇图像块的奇异值,表达了对应用户的唇语特征的一致性信息与独特性信息,称为对应用户的特征字典;
步骤E4:对所有待识别用户执行步骤E2和步骤E3,获得等同于用户数量的特征字典,将每一个特征字典以对应用户的身份标识符进行标识,所有用户的特征字典的集合称为用户稀疏编码特征字典群。
CN201610012017.8A 2016-01-08 2016-01-08 基于稀疏编码的唇语特征身份认证方法 Pending CN105787428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610012017.8A CN105787428A (zh) 2016-01-08 2016-01-08 基于稀疏编码的唇语特征身份认证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610012017.8A CN105787428A (zh) 2016-01-08 2016-01-08 基于稀疏编码的唇语特征身份认证方法

Publications (1)

Publication Number Publication Date
CN105787428A true CN105787428A (zh) 2016-07-20

Family

ID=56402842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610012017.8A Pending CN105787428A (zh) 2016-01-08 2016-01-08 基于稀疏编码的唇语特征身份认证方法

Country Status (1)

Country Link
CN (1) CN105787428A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295501A (zh) * 2016-07-22 2017-01-04 中国科学院自动化研究所 基于唇部运动的深度学习身份识别方法
CN106778179A (zh) * 2017-01-05 2017-05-31 南京大学 一种基于超声波唇语识别的身份认证方法
CN107391985A (zh) * 2017-06-21 2017-11-24 努比亚技术有限公司 一种解密图像验证方法、终端及计算机可读存储介质
CN108427874A (zh) * 2018-03-12 2018-08-21 平安科技(深圳)有限公司 身份认证方法、服务器及计算机可读存储介质
CN108491808A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN110247898A (zh) * 2019-05-23 2019-09-17 平安普惠企业管理有限公司 身份验证方法、装置、介质及电子设备
CN111310819A (zh) * 2020-02-11 2020-06-19 深圳前海微众银行股份有限公司 数据筛选方法、装置、设备及可读存储介质
CN113239903A (zh) * 2021-07-08 2021-08-10 中国人民解放军国防科技大学 一种跨模态唇读的对抗性双重对比自监督学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046959A (zh) * 2007-04-26 2007-10-03 上海交通大学 基于唇语特征的身份认证方法
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN102004549A (zh) * 2010-11-22 2011-04-06 北京理工大学 一种适用于中文的自动唇语识别系统
US20120219213A1 (en) * 2011-02-28 2012-08-30 Jinjun Wang Embedded Optical Flow Features
CN103226714A (zh) * 2013-05-09 2013-07-31 山东大学 基于较大编码系数强化的稀疏编码方法
CN104200146A (zh) * 2014-08-29 2014-12-10 华侨大学 一种结合视频人脸和数字唇动密码的身份验证方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046959A (zh) * 2007-04-26 2007-10-03 上海交通大学 基于唇语特征的身份认证方法
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN102004549A (zh) * 2010-11-22 2011-04-06 北京理工大学 一种适用于中文的自动唇语识别系统
US20120219213A1 (en) * 2011-02-28 2012-08-30 Jinjun Wang Embedded Optical Flow Features
CN103226714A (zh) * 2013-05-09 2013-07-31 山东大学 基于较大编码系数强化的稀疏编码方法
CN104200146A (zh) * 2014-08-29 2014-12-10 华侨大学 一种结合视频人脸和数字唇动密码的身份验证方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
瞿珊: "基于稀疏表示的人的口型识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295501A (zh) * 2016-07-22 2017-01-04 中国科学院自动化研究所 基于唇部运动的深度学习身份识别方法
CN106778179A (zh) * 2017-01-05 2017-05-31 南京大学 一种基于超声波唇语识别的身份认证方法
CN106778179B (zh) * 2017-01-05 2021-07-09 南京大学 一种基于超声波唇语识别的身份认证方法
CN107391985B (zh) * 2017-06-21 2020-10-09 江苏泮池信息技术有限公司 一种解密图像验证方法、终端及计算机可读存储介质
CN107391985A (zh) * 2017-06-21 2017-11-24 努比亚技术有限公司 一种解密图像验证方法、终端及计算机可读存储介质
CN108427874A (zh) * 2018-03-12 2018-08-21 平安科技(深圳)有限公司 身份认证方法、服务器及计算机可读存储介质
CN108491808A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN108491808B (zh) * 2018-03-28 2021-11-23 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN110247898A (zh) * 2019-05-23 2019-09-17 平安普惠企业管理有限公司 身份验证方法、装置、介质及电子设备
CN110247898B (zh) * 2019-05-23 2021-11-19 平安普惠企业管理有限公司 身份验证方法、装置、介质及电子设备
CN111310819A (zh) * 2020-02-11 2020-06-19 深圳前海微众银行股份有限公司 数据筛选方法、装置、设备及可读存储介质
CN113239903A (zh) * 2021-07-08 2021-08-10 中国人民解放军国防科技大学 一种跨模态唇读的对抗性双重对比自监督学习方法

Similar Documents

Publication Publication Date Title
CN105787428A (zh) 基于稀疏编码的唇语特征身份认证方法
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
Feng et al. Robust and efficient algorithms for separating latent overlapped fingerprints
CN108182397B (zh) 一种多姿态多尺度的人脸验证方法
CN112818764B (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN104281835B (zh) 基于局部敏感的核稀疏表示的人脸识别方法
CN111028319B (zh) 一种基于面部运动单元的三维非真实感表情生成方法
Michel et al. Scale invariant and deformation tolerant partial shape matching
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
CN110334566B (zh) 一种基于三维全卷积神经网络的oct内外指纹提取方法
CN112329663B (zh) 一种基于人脸图像序列的微表情时刻检测方法及装置
CN109497990A (zh) 一种基于典型相关分析的心电信号身份识别方法及系统
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及系统
CN101958000A (zh) 基于稀疏表示的人脸画像-照片生成方法
Srivastava et al. Looking for shapes in two-dimensional cluttered point clouds
CN106980825A (zh) 一种基于归一化像素差特征的人脸姿势分类方法
CN111126169B (zh) 基于正交化的图正则非负矩阵分解的人脸识别方法及系统
Zhang et al. Low-rank and joint sparse representations for multi-modal recognition
CN110909678B (zh) 一种基于宽度学习网络特征提取的人脸识别方法及系统
CN102122391B (zh) 一种运动捕获数据自动分割方法
Kaur et al. Comparative study of facial expression recognition techniques
CN103093211B (zh) 基于深度核信息图像特征的人体运动跟踪方法
US20080031523A1 (en) Information parts extraction for retrieving image sequence data
CN110543845B (zh) 一种三维人脸的人脸级联回归模型训练方法及重建方法
Aouada et al. 3D deformation signature for dynamic face recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720

RJ01 Rejection of invention patent application after publication