CN108710836A - 一种基于级联特征提取的唇部检测及读取方法 - Google Patents

一种基于级联特征提取的唇部检测及读取方法 Download PDF

Info

Publication number
CN108710836A
CN108710836A CN201810422275.2A CN201810422275A CN108710836A CN 108710836 A CN108710836 A CN 108710836A CN 201810422275 A CN201810422275 A CN 201810422275A CN 108710836 A CN108710836 A CN 108710836A
Authority
CN
China
Prior art keywords
indicate
sample
lip
sequence
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810422275.2A
Other languages
English (en)
Other versions
CN108710836B (zh
Inventor
王洲杰
陈志�
岳文静
刘玲
于涛
刘真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810422275.2A priority Critical patent/CN108710836B/zh
Publication of CN108710836A publication Critical patent/CN108710836A/zh
Application granted granted Critical
Publication of CN108710836B publication Critical patent/CN108710836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于级联特征提取的唇部检测及读取方法。该发明首先对输入视频的唇部区域进行检测,通过基于哈尔分类器和自适应推进算法的维奥拉琼斯方法实现唇部区域检测;然后先根据唇区色彩特征对检测区域进行阈值二值化以实现唇区提取,对唇区图像进行离散余弦变换,将视频图像信息集中于数据矩阵的某一区域,采取合适的筛选方式提取数据;然后通过主成分分析算法对贡献值较大的多个特征值进行维度提取,使数据进一步降维;根据一定规模的数据样本建立用于识别的序列字典树,使用莱文斯坦距离进行序列的相似度分析和模糊匹配;最后将每帧的静态特征与视频的动态特征相结合进行动态序列查询从而完成唇区的读取。本发明通过对唇区图像特征的多级提取和降维,能够提升唇读的速度和准确性,具有良好的实施性和鲁棒性。

Description

一种基于级联特征提取的唇部检测及读取方法
技术领域
本发明涉及一种基于级联特征提取的唇部检测及读取方法,属于计算机视觉、图像处理、人机交互等交叉技术领域。随着我国经济社会的发展和科技的进步,对视频图像中唇部的检测与识别方法已经成为社会科学和自然科学领域的重要内容。在智慧城市、人机交互、辅助语音识别及生命健康等诸多领域都具有广泛的应用,对于噪声环境或听力障碍者更加具有重要意义。
背景技术
计算机唇读识别是指利用计算机对说话者的唇部视觉信息进行分析从而识别出其说话内容,并且可以与听觉识别相结合以进一步提高识别率。近年来,计算机唇读识别已成为计算机视觉和人机交互领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。
与静态图片中的唇部识别相比较而言,视频中背景的变化、对象的运动和高维度的数据处理等对研究而言具有更大的挑战性。目前,对于视频唇部区域读取一般分为两个部分,一是对视频中唇部区域的检测及特征提取,二是对特征数据的模式识别。前者能够从视频中缩小感兴趣范围,准确提取重要信息并降低数据维度,后者则能够对提取出的数据进行分析识别,从而正确读出说话者的说话内容。除此之外还应包含一些额外的处理等。
对于唇部区域检测及特征提取主要有以下三种方法:
(1)维奥拉琼斯方法:利用积分图像来提取图像特征值,速度快。同时,利用自适应推进分类器的特征筛选特性,保留最有用特征,减少了运算复杂度。将自适应推进分类器进行级联,提高了检测的准确率;
(2)光流分析法:利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”,即研究图像灰度在时间上的变化与检测目标的结构及运动的关系;
(3)唇色滤波器方法:利用自适应色度滤波器将唇色有效分离,得到唇部的精确定位。
对于唇部区域识别主要有以下三种模型:(1)时延神经网络(2)隐马尔科夫模型(3)贝叶斯网络。
目前为止,国内的相关研究大多还处于实验室阶段,对于唇部区域的检测及识别的方法,还需要进行大量的研究工作。
发明内容
技术问题:发明所要解决的技术问题是提供一种基于级联特征提取的唇部检测及读取方法,视频中唇部的区域检测和信息识别,以有效的提高唇部检测的速度和信息识别的准确性。
技术方案:本发明的一种基于级联特征提取的唇部检测及读取方法包括以下步骤:
步骤1)输入1个视频,所述视频是用户输入的视频,将视频进行逐帧的图像灰化和大小归一处理;
步骤2)对于步骤1)的输入视频,通过结合人脸特征进行基于维奥拉琼斯方法的唇区检测;所述的唇区检测是指根据输入图像的积分图快速计算像素灰度积分和哈尔特征值,通过离散自适应推进算法将训练得到弱分类器进行级联形成强分类器,实现唇区检测;
步骤21)中将输入图像的积分图像在任意一个像素点坐标的取值定义为所述f表示输入图像,g表示积分图像,g(x,y)表示积分图像上坐标为(x,y)的像素点值,f(x,y)表示输入图像上坐标为(x,y)的像素点值,表示输入图像上像素点(x,y)的左下矩形区域值的求和;积分图像的计算可用下面的递推公式:s(x,y)=s(x,y-1)+f(x,y)和g(x,y)=g(x-1,y)+s(x,y),所述s(x,y)表示输入图像中像素点(x,y)左下矩形区域每一行的累加值,s(x,y-1)表示输入图像中像素点(x,y-1)左下矩形区域每一行的累加值,所述g(x-1,y)表示积分图像上坐标为(x-1,y)的像素点值;
步骤22)每一幅图像的积分图可根据步骤21)中的方法,对原始图像进行一次扫描得到,根据积分图快速计算像素灰度积分,而哈尔特征由不同矩形区域的像素和作差得到;使用检测窗口在输入图像上滑动并快速计算哈尔特征,每一个特征就形成一个弱分类器;
步骤23)对所有的弱分类器进行基于离散自适应推进算法的级联迭代形成强分类器;初始化ωi=1/O,i=1,2,...,O,所述ω表示样本权值,i表示样本标号,O表示样本总数;对每个样本有hi,所述hi表示对第i个样本采用弱分类器算法训练得到的弱分类器;计算及αi=log[(1-εi)/εi],所述i表示第i个样本,j表示求和下标,O表示样本总数,hi表示第i个样本的弱分类器,εi表示分类器hi的加权错误率,αi表示分类器hi的加权系数,log表示取对数,yj表示样本j的样本标签,正样本为+1,负样本为-1;得到εt和ht,所述t表示迭代次数,εt表示第t次迭代中εi的最小值,ht表示第t次迭代中使εi达到εt的最佳弱分类器;根据这个最佳弱分类器调整权重:所述ωt,i表示第t次迭代后样本i的权值,ωt+1,i表示第t+1次迭代后样本i的权值,ei表示样本i的分类系数,ei=0表示分类正确时,ei=1表示分类错误;当达到结束条件时迭代结束,输出H,所述H为迭代得到的强分类器;
步骤24)根据步骤23)得到的强分类器,对输入的视频序列进行区域识别分类,实现唇区检测。
步骤3)通过级联特征提取方法,对步骤2)中的唇部区域进行特征提取;在原视频帧上根据唇区色彩特征对检测区域进行阈值二值化,将唇肤分离;对唇区图像采用离散余弦变换或离散小波变换,将信息集中于变换矩阵的某一区域,对系数矩阵中的数据采用合适的筛选方法进行数据选取;通过主成分分析算法根据各个成分累积贡献率的大小选取前多个主成分,生成特征序列;
步骤31)在步骤2)获得的唇区图像的基础上,结合唇区色彩特征对原视频帧色域中的绿蓝分量进行阈值二值化,将唇与肤分离;对分离出的图像序列逐帧处理,大小归一为合适大小;
步骤32)对每一帧图像进行离散余弦变换,将图像信息集中于数据矩阵的低频区域,其他部分系数接近于零;通过设置门限,使用以低频为起点的斜向扫描方法进行数据选择,优先选取集中于低频区域的高能系数;
步骤33)通过主成分分析算法对步骤32)得到的结果进行进一步的数据降维;设μb=(μb1b2,...,μbc)T,b=1,2,...,r,r>c;所述b表示样本下标,μ表示单个样本,μb表示第b个样本数据的标准化采集向量,T表示转置,r表示样本数量,c表示向量维度;计算
其中所述p表示样本下标,q表示维度下标,μpq表示样本p的第q个数据,Z表示标准化指标阵,Zpq表示标准化指标阵第p行第q列的元素,δq表示第q个维度的样本均值,表示第q个维度的样本方差;求所述R表示相关系数矩阵,Rpq表示相关系数矩阵中第p行第q列的元素,cxc表示矩阵R的行列数均为c,Z表示上述标准化阵,ZT表示标准化阵的转置,r表示样本数量,u表示求和下标;根据R计算得到λ12,...,λc,所述λ表示相关系数矩阵的c个特征值;计算所述e和v表示特征值的下标,c表示特征值数目,λ表示特征值,θe表示第e个特征值的信息贡献率;根据特征值贡献率从大到小,按公式确定Q的值,所述Q表示选取的主成分数量,σ表示所要达到的信息利用率,c表示特征值数目,w表示求和下标。
步骤4)根据一定规模的数据样本建立用于识别的序列字典树并提取静态特征;使用莱文斯坦距离进行序列的相似度分析和模糊匹配;结合视频动态特征获得动态序列,对样本序列进行查询匹配从而完成唇区的读取。
步骤41)根据一定规模的数据样本建立序列字典树,对样本的每个静态帧运用上述的特征提取方法生成识别序列作为图像的静态特征;使用莱文斯坦距离进行序列的相似度分析和模糊匹配,所述莱文斯坦距离可由如下公式定义:其中所述A、B表示用于分析和匹配的两个特征序列,n、m分别表示这两个序列的当前前缀长度,max和min分别表示取最大值和最小值,levA,B(n,m)表示A序列长度为n的前缀和B序列长度为m的前缀间的莱文斯坦距离,An和Bm分别表示A序列下标为n的特征值和B序列下标为m的特征值,Blur(An,Bm)表示模糊函数,π表示模糊系数;
步骤42)根据输入视频的动态特征产生动态序列,通过设置一定的容错量和模糊系数并结合样本数据中的静态特征,使用莱温斯坦距离在序列字典树上进行查询和匹配,取可能性最大的数据样本,完成唇区的读取。
其中,
所述步骤21)中,s(x,y)的初始值s(x,-1)=0,g(x,y)的初始值g(-1,x)=0。
所述步骤22)中,采用积分图后,像素点值由对应的积分图像中的四个顶点值计算得到。
所述步骤32)中,不同变换下系数的不同分布规律决定了有效信息的选择方法。
所述步骤33)中,σ按照经验取0.9。
所述步骤41)中,π按照经验取100。
有益效果:本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明使用基于哈尔特征的维奥拉琼斯方法对视频唇区进行检测,通过依据唇区色彩特征的阈值二值化、离散余弦变换和其它图像变换、主成分分析算法等对唇区特征数据进行多级提取和降维,并根据数据样本建立用于识别的序列字典树,结合视频动态特征获取动态序列,使用莱温斯坦距离进行相似度分析和模糊匹配并最终找到可能性最大的字词。通过这些方法的应用能够对视频中的唇区进行检测和识别,具有良好的准确性和有效性,具体来说:
(1)本发明通过积分图实现了哈尔特征的快速计算,避免了穷举方法的庞大计算量。
(2)本发明通过依据色彩特征的阈值二值化和主成分分析算法等,可以对提取出的唇部数据进行多级降维,减少无用冗余数据,提高检测识别的速度和准确性。
(3)本发明使用的莱温斯坦距离能够很好地对视频信息序列进行动态相似度分析和模糊匹配,具有良好的容错性和抗干扰性。
附图说明
图1是基于级联特征提取的唇部检测及读取方法流程。
图2是哈尔分类器级联结构。
图3是唇区图像离散余弦变换前后系数分布。
图4是唇区图像2层小波变换结果。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
图1是基于级联特征提取的唇部检测及读取方法流程。首先输入1个视频,将视频进行逐帧的图像灰化和大小归一,相当于预处理,有利于后续的检测。通过维奥拉琼斯方法对预处理后的视频图像进行唇部区域检测,即先计算出输入图像的积分图,然后根据积分图快速计算哈尔特征得到弱分类器,通过离散自适应推进算法将这些弱分类器进行级联形成强分类器以实现检测,分类器级联结构如图2所示。
然后,对唇区图像进行多级特征提取。先根据唇区色彩特征对图像进行阈值二值化以实现唇肤分离,之后采用离散余弦变换,使图像信息集中于变换矩阵的某一区域,然后对系数矩阵中的数据采用合适的筛选方法以减少数据冗余,筛选方法视变换方式而定,比如对离散余弦变换通过设置门限选取如图3所示的集中于左上角的高能系数,另外也可以使用如图4所示的离散沃尔什变换,能够实现一定程度的降维。之后对筛选出的数据通过主成分分析算法选取前多个贡献率较大的特征值,达到选取主成分的目的,从而使数据进一步降维。
最后,先根据一定规模的数据样本建立用于识别的序列字典树,然后使用莱文斯坦距离进行序列的相似度分析和模糊匹配,结合视频动态特征获得动态序列,对其进行查询匹配找到可能性最大的字词作为识别结果,完成最终的识别。

Claims (9)

1.一种基于级联特征提取的唇部检测及读取方法,其特征在于,包括以下步骤:
步骤1)输入1个视频,所述视频是用户输入的视频,将视频进行逐帧的图像灰化和大小归一处理;
步骤2)对于步骤1)的输入视频,通过结合人脸特征进行基于维奥拉琼斯方法的唇区检测;所述的唇区检测是指根据输入图像的积分图快速计算像素灰度积分和哈尔特征值,通过离散自适应推进算法将训练得到弱分类器进行级联形成强分类器,实现唇区检测;
步骤3)通过级联特征提取方法,对步骤2)中的唇部区域进行特征提取;在原视频帧上根据唇区色彩特征对检测区域进行阈值二值化,将唇肤分离;对唇区图像采用离散余弦变换或离散小波变换,将信息集中于变换矩阵的某一区域,对系数矩阵中的数据采用合适的筛选方法进行数据选取;通过主成分分析算法根据各个成分累积贡献率的大小选取前多个主成分,生成特征序列;
步骤4)根据一定规模的数据样本建立用于识别的序列字典树并提取静态特征;使用莱文斯坦距离进行序列的相似度分析和模糊匹配;结合视频动态特征获得动态序列,对样本序列进行查询匹配从而完成唇区的读取。
2.根据权利要求1所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤2)的具体方法为:
步骤21)中将输入图像的积分图像在任意一个像素点坐标的取值定义为所述f表示输入图像,g表示积分图像,g(x,y)表示积分图像上坐标为(x,y)的像素点值,f(x,y)表示输入图像上坐标为(x,y)的像素点值,表示输入图像上像素点(x,y)的左下矩形区域值的求和;积分图像的计算可用下面的递推公式:s(x,y)=s(x,y-1)+f(x,y)和g(x,y)=g(x-1,y)+s(x,y),所述s(x,y)表示输入图像中像素点(x,y)左下矩形区域每一行的累加值,s(x,y-1)表示输入图像中像素点(x,y-1)左下矩形区域每一行的累加值,所述g(x-1,y)表示积分图像上坐标为(x-1,y)的像素点值;
步骤22)每一幅图像的积分图可根据步骤21)中的方法,对原始图像进行一次扫描得到,根据积分图快速计算像素灰度积分,而哈尔特征由不同矩形区域的像素和作差得到;使用检测窗口在输入图像上滑动并快速计算哈尔特征,每一个特征就形成一个弱分类器;
步骤23)对所有的弱分类器进行基于离散自适应推进算法的级联迭代形成强分类器;初始化ωi=1/O,i=1,2,...,O,所述ω表示样本权值,i表示样本标号,O表示样本总数;对每个样本有hi,所述hi表示对第i个样本采用弱分类器算法训练得到的弱分类器;计算及αi=log[(1-εi)/εi],所述i表示第i个样本,j表示求和下标,O表示样本总数,hi表示第i个样本的弱分类器,εi表示分类器hi的加权错误率,αi表示分类器hi的加权系数,log表示取对数,yj表示样本j的样本标签,正样本为+1,负样本为-1;得到εt和ht,所述t表示迭代次数,εt表示第t次迭代中εi的最小值,ht表示第t次迭代中使εi达到εt的最佳弱分类器;根据这个最佳弱分类器调整权重:所述ωt,i表示第t次迭代后样本i的权值,ωt+1,i表示第t+1次迭代后样本i的权值,ei表示样本i的分类系数,ei=0表示分类正确时,ei=1表示分类错误;当达到结束条件时迭代结束,输出H,所述H为迭代得到的强分类器;
步骤24)根据步骤23)得到的强分类器,对输入的视频序列进行区域识别分类,实现唇区检测。
3.根据权利要求1所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤3)的具体方法为:
步骤31)在步骤2)获得的唇区图像的基础上,结合唇区色彩特征对原视频帧色域中的绿蓝分量进行阈值二值化,将唇与肤分离;对分离出的图像序列逐帧处理,大小归一为合适大小;
步骤32)对每一帧图像进行离散余弦变换,将图像信息集中于数据矩阵的低频区域,其他部分系数接近于零;通过设置门限,使用以低频为起点的斜向扫描方法进行数据选择,优先选取集中于低频区域的高能系数;
步骤33)通过主成分分析算法对步骤32)得到的结果进行进一步的数据降维;设μb=(μb1b2,...,μbc)T,b=1,2,...,r,r>c;所述b表示样本下标,μ表示单个样本,μb表示第b个样本数据的标准化采集向量,T表示转置,r表示样本数量,c表示向量维度;计算
其中所述p表示样本下标,q表示维度下标,μpq表示样本p的第q个数据,Z表示标准化指标阵,Zpq表示标准化指标阵第p行第q列的元素,δq表示第q个维度的样本均值,表示第q个维度的样本方差;求所述R表示相关系数矩阵,Rpq表示相关系数矩阵中第p行第q列的元素,cxc表示矩阵R的行列数均为c,Z表示上述标准化阵,ZT表示标准化阵的转置,r表示样本数量,u表示求和下标;根据R计算得到λ12,...,λc,所述λ表示相关系数矩阵的c个特征值;计算所述e和v表示特征值的下标,c表示特征值数目,λ表示特征值,θe表示第e个特征值的信息贡献率;根据特征值贡献率从大到小,按公式确定Q的值,所述Q表示选取的主成分数量,σ表示所要达到的信息利用率,c表示特征值数目,w表示求和下标。
4.根据权利要求1所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤4)的具体方法为:
步骤41)根据一定规模的数据样本建立序列字典树,对样本的每个静态帧运用上述的特征提取方法生成识别序列作为图像的静态特征;使用莱文斯坦距离进行序列的相似度分析和模糊匹配,所述莱文斯坦距离可由如下公式定义:
其中所述A、B表示用于分析和匹配的两个特征序列,n、m分别表示这两个序列的当前前缀长度,max和min分别表示取最大值和最小值,levA,B(n,m)表示A序列长度为n的前缀和B序列长度为m的前缀间的莱文斯坦距离,An和Bm分别表示A序列下标为n的特征值和B序列下标为m的特征值,Blur(An,Bm)表示模糊函数,π表示模糊系数;
步骤42)根据输入视频的动态特征产生动态序列,通过设置一定的容错量和模糊系数并结合样本数据中的静态特征,使用莱温斯坦距离在序列字典树上进行查询和匹配,取可能性最大的数据样本,完成唇区的读取。
5.根据权利要求2所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤21)中,s(x,y)的初始值s(x,-1)=0,g(x,y)的初始值g(-1,x)=0。
6.根据权利要求2所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤22)中,采用积分图后,像素点值由对应的积分图中的四个顶点值计算得到。
7.根据权利要求3所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤32)中,不同变换下系数的不同分布规律决定了有效信息的选择方法。
8.根据权利要求3所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤33)中,σ按照经验取0.9。
9.根据权利要求4所述的一种基于级联特征提取的唇部检测及读取方法,其特征在于,所述步骤41)中,π按照经验取100。
CN201810422275.2A 2018-05-04 2018-05-04 一种基于级联特征提取的唇部检测及读取方法 Active CN108710836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810422275.2A CN108710836B (zh) 2018-05-04 2018-05-04 一种基于级联特征提取的唇部检测及读取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810422275.2A CN108710836B (zh) 2018-05-04 2018-05-04 一种基于级联特征提取的唇部检测及读取方法

Publications (2)

Publication Number Publication Date
CN108710836A true CN108710836A (zh) 2018-10-26
CN108710836B CN108710836B (zh) 2020-10-09

Family

ID=63868848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810422275.2A Active CN108710836B (zh) 2018-05-04 2018-05-04 一种基于级联特征提取的唇部检测及读取方法

Country Status (1)

Country Link
CN (1) CN108710836B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110603A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于面部生理信息的多模态唇读方法
CN110163156A (zh) * 2019-05-24 2019-08-23 南京邮电大学 一种基于卷积自编码模型的唇部特征提取方法
CN110427517A (zh) * 2019-07-18 2019-11-08 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140355821A1 (en) * 2013-06-04 2014-12-04 Apple Inc. Object Landmark Detection in Images
CN104298969A (zh) * 2014-09-25 2015-01-21 电子科技大学 基于颜色与haar特征融合的人群规模统计方法
CN104331160A (zh) * 2014-10-30 2015-02-04 重庆邮电大学 一种基于唇部状态识别的智能轮椅人机交互系统及方法
CN204667465U (zh) * 2015-02-28 2015-09-23 优化科技(苏州)有限公司 电子支付真人活体身份验证系统
CN107169423A (zh) * 2017-04-24 2017-09-15 南京邮电大学 一种视频人物运动类型识别方法
CN107273801A (zh) * 2017-05-15 2017-10-20 南京邮电大学 一种视频多目标跟踪检测异常点的方法
US9832452B1 (en) * 2013-08-12 2017-11-28 Amazon Technologies, Inc. Robust user detection and tracking
CN107481222A (zh) * 2017-07-21 2017-12-15 深圳市梦网百科信息技术有限公司 一种基于肤色检测的快速眼唇视频定位方法和系统
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
US20180070008A1 (en) * 2016-09-08 2018-03-08 Qualcomm Incorporated Techniques for using lip movement detection for speaker recognition in multi-person video calls

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140355821A1 (en) * 2013-06-04 2014-12-04 Apple Inc. Object Landmark Detection in Images
US9832452B1 (en) * 2013-08-12 2017-11-28 Amazon Technologies, Inc. Robust user detection and tracking
CN104298969A (zh) * 2014-09-25 2015-01-21 电子科技大学 基于颜色与haar特征融合的人群规模统计方法
CN104331160A (zh) * 2014-10-30 2015-02-04 重庆邮电大学 一种基于唇部状态识别的智能轮椅人机交互系统及方法
CN204667465U (zh) * 2015-02-28 2015-09-23 优化科技(苏州)有限公司 电子支付真人活体身份验证系统
US20180070008A1 (en) * 2016-09-08 2018-03-08 Qualcomm Incorporated Techniques for using lip movement detection for speaker recognition in multi-person video calls
CN107169423A (zh) * 2017-04-24 2017-09-15 南京邮电大学 一种视频人物运动类型识别方法
CN107273801A (zh) * 2017-05-15 2017-10-20 南京邮电大学 一种视频多目标跟踪检测异常点的方法
CN107481222A (zh) * 2017-07-21 2017-12-15 深圳市梦网百科信息技术有限公司 一种基于肤色检测的快速眼唇视频定位方法和系统
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
RAJITHA NAVARATHNA 等: "Lip detection for audio-visual speech recognition in-car environment", 《10TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE, SIGNAL PROCESSING AND THEIR APPLICATIONS (ISSPA 2010)》 *
ZHENGYAN ZHANG等: "Multiscale Adaptive Local Directional Texture Pattern for Facial Expression Recognition", 《TRANSACTIONS ON INTERNET AND INFORMATION SYSTEMS》 *
ZHI CHEN: "A Multi-agent Based Social Computing Collaboration Selection Approach in Stable States", 《JOURNAL OF COMPUTATIONAL INFORMATION SYSTEMS 》 *
杨阳: "唇读应用中唇部信息的定位跟踪与特征提取技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
高翔; 陈志等: "基于视频场景深度学习的人物语义识别模型", 《计算机技术与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110603A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于面部生理信息的多模态唇读方法
CN110163156A (zh) * 2019-05-24 2019-08-23 南京邮电大学 一种基于卷积自编码模型的唇部特征提取方法
CN110427517A (zh) * 2019-07-18 2019-11-08 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN110427517B (zh) * 2019-07-18 2023-04-25 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN108710836B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
Qu et al. Radar signal intra-pulse modulation recognition based on convolutional denoising autoencoder and deep convolutional neural network
CN105205449B (zh) 基于深度学习的手语识别方法
CN105718889B (zh) 基于GB(2D)2PCANet深度卷积模型的人脸身份识别方法
CN109902590A (zh) 深度多视图特征距离学习的行人重识别方法
Wang et al. Feature extraction algorithm based on dual-scale decomposition and local binary descriptors for plant leaf recognition
CN105913053B (zh) 一种基于稀疏融合的单演多特征的人脸表情识别方法
Sun et al. Robust text detection in natural scene images by generalized color-enhanced contrasting extremal region and neural networks
CN105117708A (zh) 人脸表情识别的方法和装置
CN112464730B (zh) 一种基于域无关前景特征学习的行人再识别方法
CN107330412B (zh) 一种基于深度稀疏表示的人脸年龄估计方法
CN110472652A (zh) 基于语义引导的少量样本分类方法
CN109190698B (zh) 一种网络数字虚拟资产的分类识别系统及方法
More et al. Hand gesture recognition system using image processing
CN102214299A (zh) 一种基于改进的asm算法的人脸特征定位方法
CN108710836A (zh) 一种基于级联特征提取的唇部检测及读取方法
CN103605993B (zh) 一种基于面向场景判别性分析的图像到视频人脸识别方法
Song et al. Feature extraction and target recognition of moving image sequences
CN107516083A (zh) 一种面向识别的远距离人脸图像增强方法
CN109934852B (zh) 一种基于对象属性关系图的视频描述方法
CN103942572A (zh) 一种基于双向压缩数据空间维度缩减的面部表情特征提取方法和装置
CN103942545A (zh) 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置
CN109902692A (zh) 一种基于局部区域深度特征编码的图像分类方法
CN110909678B (zh) 一种基于宽度学习网络特征提取的人脸识别方法及系统
Ma et al. An improved deep learning network structure for multitask text implication translation character recognition
CN109902690A (zh) 图像识别技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant