CN102004795A - 一种手语检索的方法 - Google Patents

一种手语检索的方法 Download PDF

Info

Publication number
CN102004795A
CN102004795A CN 201010592907 CN201010592907A CN102004795A CN 102004795 A CN102004795 A CN 102004795A CN 201010592907 CN201010592907 CN 201010592907 CN 201010592907 A CN201010592907 A CN 201010592907A CN 102004795 A CN102004795 A CN 102004795A
Authority
CN
China
Prior art keywords
sign language
video
coordinate
character
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010592907
Other languages
English (en)
Other versions
CN102004795B (zh
Inventor
张师林
李和平
张树武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2010105929073A priority Critical patent/CN102004795B/zh
Publication of CN102004795A publication Critical patent/CN102004795A/zh
Application granted granted Critical
Publication of CN102004795B publication Critical patent/CN102004795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种手语检索的方法,包括步骤S1:对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征,根据手语运动特征生成手语特征库,用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征,进而构成时间序列特征,并以手语特征的字符串存储下来;步骤S2:对于用户输入的视频用坐标、速度和形状特征表示,得到用户输入视频的字符串;步骤S3:利用字符串编辑距离算法对用户输入视频的字符串和手语特征的字符串进行距离度量,得到输入视频和手语特征库中视频的相似度量。本发明解决了手语中快速且鲁棒的双手定位的问题,双手特征表示的问题和快速有效的手语相似度度量问题。

Description

一种手语检索的方法
技术领域
本发明涉及数字媒体和人机交互领域,它要求用户输入手语视频,然后在手语视频库中检索相似的视频片断。
背景技术
近几年来,中国很多电视台比如北京新闻等,都提供了手语播报的功能,以帮助聋哑残疾人士观看新闻内容。基于内容的视频检索和管理是目前数字媒体领域比较热门的研究方向。但是,对于手语视频这种比较特殊的视频形式,如何有效地根据内容管理这些视频是一个亟待解决的问题。在这种情况下,将大量的手语视频的存储和查找从全人工的方式中解脱出来更是大势所趋。要做到这一点,就必须分析手语的内容并且加以分析和特征生成,以方便管理。手语的3D特征的获取在不借助于数据手套的情况下几乎是不可能的,而分析手语新闻,主持人也是不带数据手套的。现有的手语处理技术借助数据手套,限制了用户使用的灵活性。那么,通过手部运动追踪,提取坐标速度和形状以建立分段的手语新闻特征并检索是一种可行的并且方便快捷的方法。
发明内容
为了解决现有技术手语处理只能借助于数据手套,并且速度较慢的技术缺陷,本发明的目的在于提出一种对大量的手语视频进行建立特征库和有效管理的手语检索的方法。
为了达成所述目的,本发明提供一种手语检索方法,所述方法的技术方案包括如下步骤:
步骤S1:对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征,根据手语运动特征生成手语特征库,用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征,进而构成时间序列特征,并以手语特征的字符串存储下来;
步骤S2:对于用户输入的视频用坐标、速度和形状特征表示,得到用户输入视频的字符串;
步骤S3:利用字符串编辑距离算法对检索时用户输入手语视频的字符串和手语特征的字符串进行距离度量,得到输入视频和手语特征库中视频的相似度量。
其中,所述双手追踪和定位的步骤如下:
步骤S11:获取输入计算机的手语新闻视频帧或摄像头视频,对于手语新闻或者摄像头视频进行检测,如果检测视频帧中有人脸,则进行步骤S12的操作;如果检测视频帧中没有人脸,则对此视频帧不做处理返回计算机输入端;
步骤S12:根据视频帧中的人脸坐标,得到人脸下方距离人脸中心一倍人脸直径的胸部位置作为极坐标的中心,建立极坐标系,以刻画后续双手位置;
步骤S13:将视频帧转化为亮度色度颜色空间(YUV),并且映射到色度二维空间,利用肤色的良好的聚类性质分割肤色,肤色分割的公式为:
0.261 π ≤ tan - 1 ( U V ) ≤ 0.3111 π
43 ≤ U 2 + V 2 ≤ 78
0.25 π ≤ tan - 1 ( U V ) ≤ 0.3161 π
0 ≤ U 2 + V 2 ≤ 70
式中U和V是在亮度色度颜色空间(YUV)中被正交调制了的色度信息,作用是描述影像色彩及饱和度;
步骤S14:把所有满足肤色的区域作为候选双手运动区域,并且把候选双手运动区域二值化,得到的二值化灰度图,此时,人脸、脖子、手臂以及接近肤色的衣服的区域都被分割出来了;
步骤S15:对步骤S14获得的候选双手运动区域进行定位,获取双手位置;接下来,对于步骤S14得到的二值化灰度图在相邻两帧间计算光流;对光流算法中的检测区域大小的阈值和速度阈值自动调整,用以获取多个光流块;
步骤S16:多个光流块对应了视频中的包含了肤色的运动区域,由于衣服、人脸和臂部运动不明显,所以光流块集中的地方是人手所在的位置;使用聚类算法把光流块聚类成两类,如果两类距离小于指定阈值,认为双手重合,则两类合并成一类,作为左手和右手的坐标;如果两类大于指定阈值,则两类按照坐标关系分别对应了左手和右手的坐标位置。
其中,所述双手运动的的坐标特征是双手位置的极坐标表示;把极坐标值(ρ,θ),在空间中离散化为多个字符,从而一帧的左右手坐标用两个字符表示,一段视频则对应了两个字符串。
其中,所述双手运动的速度特征记录了手语运动序列的轨迹,轨迹的运动方向同样离散化为多个字符。
其中,所述手语特征中的形状特征是利用手部轮廓的一阶矩和二阶矩得到左右手椭圆拟合后的椭圆长短轴和倾斜角度,同样将形状信息表示为字符,进而表示为字符串以表达时间序列特征。
其中,所述时间序列特征是左手和右手分别对应了坐标字符串、速度字符串和形状字符串,总共六个特征字符串表达了一段手语新闻的特征;手语新闻分段的规则是,如果一段手语包含了一个词或一个短语则切分为一段;由于这样可能导致一个手语词被切分到两段中去,所以,这里允许两个相邻视频段有5个字符的重合;手语特征存储为扩展标记语言文件并存放入数据库。
其中,用户检索时,对于用户通过摄像头输入的手语,得到视频分析之后的坐标、速度和形状特征,使用六个字符串以表征这段用户手语视频特征。
其中,所述距离度量表示如下:
D(i,j)=λ1Dposition(i,j)+λ2Dvelocity(i,j)+(1-λ12)Dfigure(i,j)
D(i,j)表示距离度量,i表示输入视频的第i帧特征,j表示数据库中视频的第j帧特征;其中Dposition(i,j)表达两个手语位置之间的坐标距离,Dvelocity(i,j)表达了速度相似度,Dfigure(i,j)表达了形状相似度;λ1,λ2表达了坐标特征、速度特征和形状特征的权重比例。
其中,所述坐标,速度和形状用字符串表示,所以坐标,速度和形状的距离度量σ(X1...i,Yi...j)是基于编辑距离的算法表示为:
σ(X1...i,Yi...j)=min{σ(X1...i-1,Y1...j)+τ(Xi→λ),
                        σ(X1...i-1,Y1...j-1)+τ(Xi→Yi),
                        σ(X1...i,Y1...j-1)+τ(λ→Yj)},
式中,X1...i,Yi...j表示两个字符串;τ(Xi→λ)表示删除一个字符的代价,τ(Xi→Yi)表示替换一个字符的代价,τ(λ→Yj)表示插入一个字符的代价σ表示编辑距离度量、τ表示字符串的操作代价、λ表示空字符、min表示求最小值;字符之间的代价函数是根据极坐标位置的关系,重新定义字符之间插入删除和替换的代价,从而此处的编辑距离算法代价计算是跟坐标位置的远近,速度方向的差异,形状的差异而计算出来的代价。
本发明的有益效果:利用电视台实际录制的新闻节目作为评估数据,该方法能够做到快速、准确的找出与输入视频相似的手语视频,并且能有效地克服人工管理上的一些主观性和操作失误,从而促进对于手语新闻视频资源的有效管理以更好的服务于聋哑残疾人。本发明是通过人脸检测、肤色分割、光流计算和聚类分析以有效和鲁棒的追踪人手;通过手的坐标、速度和形状来刻画手的动态特征;使用字符串的编辑距离算法来计算输入视频和手语视频库中的视频片断的相似度。本发明解决了手语中快速且鲁棒的双手定位的问题,双手特征表示的问题和快速有效的手语相似度度量问题。
附图说明
图1a和图1b是本发明的手语视频特征提取和检索流程图。
图2是本发明的北京手语新闻播报以及人脸检测。
图3是本发明的手语表达中的极坐标系的建立。
图4是本发明的手语双手追踪的实现。
图5是本发明的坐标位置和相应字符的对应关系。
图6是本发明的用户录制的手语视频处理过程。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明提出了一种手语新闻中双手追踪、特征提取以及快速检索的方法,如图1a所示,该方法对手语新闻中的主持人双手进行追踪,获取双手的运动序列,速度和形状变化序列等内容,并以XML的形式存放起来以和其他系统数据交换。系统接受输入手语视频并且根据本发明定义的相似度量返回最相似的匹配结果。
1.人脸检测预处理
本发明提出对于每帧视频首先检测是否包含主持人人脸或者输入视频的用户人脸,如果不包含人脸就继续处理下一帧以加快处理过程。如图2所示,是以北京电视台手语新闻节目为例的主持人人脸检测过程。
2.极坐标系建立
如图3所示,本发明以人脸下方一倍人脸直径的距离位置,大体位于主持人胸部位置,作为极坐标系的中心。由于,手的运动基本上是在以此中心为圆心,以2.5倍人脸直径距离为半径的圆内运动的,从而构建这个极坐标系可以刻画手的坐标位置,并且该坐标可以归一化,极角在0到2∏间,极半径在0到1之间。图中,ρ表示极半径,θ表示极角度,v表示速度,α表示速度的方向。
3.双手追踪的实现
本发明提出一种双手的快速有效追踪的方法。双手的追踪和定位的过程如图1b所示。首先,对包含主持人的视频帧进行肤色分割。肤色分割的方法采用亮度色度颜色空间(YUV)中肤色的良好的聚类性质。肤色分割后得到二值化的灰度图。然后对前后两帧进行光流计算,由于灰度图中仅包含了肤色候选区域,所以此时的光流计算仅仅在这些肤色区域上进行,速度较快。光流块表达了图像中那些部位是肤色,并且还在快速运动,这个性质恰好对应了双手所应具有的特征。如图4所示,红色的圆点表示的是光流块,也就是包含肤色并且还在运动的小块区域。左手和右手范围内具有大量的光流块,这符合实际情况。对于这些光流块用K-Means聚类得到左手和右手的中心坐标,如图4黑点所示,可见,该方法准确找到了左手和右手的中心坐标。
4.特征字符串的生成
为了表达手的信息,本发明提取了双手的坐标,速度和形状特征。
对于坐标特征,当双手处理不同位置的时候,每个位置对应了一个唯一的字符,如图5所示。对于速度的方向,也是处于0到2∏间,同样离散化为字符。对于形状特征,如图4所示,本发明对于左手和右手的轮廓作了椭圆拟合,得到了长轴和短轴的比值和倾斜角。对于形状特征,本算法同样离散为一个字符,这样一段视频就对应了6个字符串,如下所示,BeginSenc元素表示开始时间点,:EndSenc表示结束时间点。LeftHandFeature,LeftHandVelocity,LeftHandFigure分别别是左手的坐标速度和形状特征;RightHandFeature,RightHandVelocity,RightHandFigure则分别表示了右手对应的特征。
<Result>
            <BeginSenc>104.2667</BeginSenc>
            <EndSenc>105.2</EndSenc>
            <LeftHandFeature>WOQV4VUPQVPLPQU</LeftHandFeature>
            <LeftHandVelocity>fpOakOkOJapJaEf</LeftHandVelocity>
            <LeftHandFigure>nqAaqapqGGEvGGa</LeftHandFigure>
            <RightHandFeature>WffV4VUPQVPfPfU</RightHandFeature>
            <RightHandVelocity>kaaakOkOJapaEak</RightHandVelocity>
            <RightHandFigure>naaaqapqGGEaGaa</RightHandFigure>
</Result>
5.手语相似度距离度量
为了计算输入手语视频片断和数据库中视频片断的相似性,本发明定义了一种距离度量,如下所示:
D(v_input,v_db)=λleftDleft(i,j)+λrightDright(i,j)
其中,v_input,v_db分别表示输入视频和数据库中的视频,D(v_input,v_db)表示的是输入手语新闻片段和数据库中手语新闻片段的相似度。Dleft(i,j)表示左手的距离度量,Dright(i,j)表示右手的距离度量。λleft表示左手的权重,一般为0.4,λright为右手的权重,一般为0.6,因为一般来说,右手在整个手语过程中起到更重要的表达作用。I表示输入视频的第i帧特征,j表示数据库中视频的第j帧特征。
其中Dleft,right(i,j)定义如下:
Dleft,right(i,j)=λ1Dposition(i,j)+λ2Dvelocity(i,j)+(1-λ12)Dfigure(i,j)
其中Dposition(i,j)表达了坐标相似度,Dvelocity(i,j)表达了速度相似度,Dfigure(i,j)表达了形状相似度。λ1,λ2表达了三个特征的权重比例。进一步Dposition(i,j),Dvelocity(i,j),和Dfigure(i,j)的距离则利用的经典的编辑字符串距离算法,这里用σ表示位置、速度和形状的距离度量。如下所示:
σ(X1...i,Yi...j)=min{σ(X1...i-1,Y1...j)+τ(Xi→λ),
                        σ(X1...i-1,Y1...j-1)+τ(Xi→Yi),
                        σ(X1...i,Y1...j-1)+τ(λ→Yj)}
其中,X1...i,Yi...j表示两个字符串,σ(X1...i,Yi...j)表示两个字符串的编辑距离。τ(Xi→λ)表示删除一个字符的代价,τ(Xi→Yi)表示替换一个字符的代价,τ(λ→Yj)表示插入一个字符的代价。本算法定义代价函数跟两个字符所代表的方向成正比,比例为2,跟半径正比,比例为1。比如(0.5,∏/6),(0.5,∏/3)的距离为2,因为方向差异∏/6。(0.6,∏/6),(0.4,∏/6)的距离为1,因为半径差异0.2。半径差异的阶为0.2,方向差异的阶为∏/6。
图6是本发明用户录制的手语视频处理过程,在该图中双手运动的位置和形状已经标出。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的权利要求书的保护范围之内。

Claims (9)

1.一种手语检索的方法,其特征在于,所述方法的步骤如下:
步骤S1:对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征,根据手语运动特征生成手语特征库,用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征,进而构成时间序列特征,并以手语特征的字符串存储下来;
步骤S2:对于用户输入的视频用坐标、速度和形状特征表示,得到用户输入视频的字符串;
步骤S3:利用字符串编辑距离算法对检索时用户输入手语视频的字符串和手语特征的字符串进行距离度量,得到输入视频和手语特征库中视频的相似度量。
2.根据权利要求1所述的手语检索的方法,其特征在于,所述双手追踪和定位的步骤如下:
步骤S11:获取输入计算机的手语新闻视频帧或摄像头视频,对于手语新闻或者摄像头视频进行检测,如果检测视频帧中有人脸,则进行步骤S12的操作;如果检测视频帧中没有人脸,则对此视频帧不做处理返回计算机输入端;
步骤S12:根据视频帧中的人脸坐标,得到人脸下方距离人脸中心一倍人脸直径的胸部位置作为极坐标的中心,建立极坐标系,以刻画后续双手位置;
步骤S13:将视频帧转化为亮度色度颜色空间(YUV),并且映射到色度二维空间,利用肤色的良好的聚类性质分割肤色,肤色分割的公式为:
0.261 &pi; &le; tan - 1 ( U V ) &le; 0.3111 &pi;
43 &le; U 2 + V 2 &le; 78
0.25 &pi; &le; tan - 1 ( U V ) &le; 0.3161 &pi;
0 &le; U 2 + V 2 &le; 70
式中U和V是在亮度色度颜色空间(YUV)中被正交调制了的色度信息,作用是描述影像色彩及饱和度;
步骤S14:把所有满足肤色的区域作为候选双手运动区域,并且把候选双手运动区域二值化,得到的二值化灰度图,此时,人脸、脖子、手臂以及接近肤色的衣服的区域都被分割出来了;
步骤S15:对步骤S14获得的候选双手运动区域进行定位,获取双手位置;接下来,对于步骤S14得到的二值化灰度图在相邻两帧间计算光流;对光流算法中的检测区域大小的阈值和速度阈值自动调整,用以获取多个光流块;
步骤S16:多个光流块对应了视频中的包含了肤色的运动区域,由于衣服、人脸和臂部运动不明显,所以光流块集中的地方是人手所在的位置;使用聚类算法把光流块聚类成两类,如果两类距离小于指定阈值,认为双手重合,则两类合并成一类,作为左手和右手的坐标;如果两类大于指定阈值,则两类按照坐标关系分别对应了左手和右手的坐标位置。
3.根据权利要求1所述的手语检索的方法,其特征在于,所述双手运动的的坐标特征是双手位置的极坐标表示;把极坐标值(ρ,θ),在空间中离散化为多个字符,从而一帧的左右手坐标用两个字符表示,一段视频则对应了两个字符串。
4.根据权利要求1所述的手语检索的方法,其特征在于,所述双手运动的速度特征记录了手语运动序列的轨迹,轨迹的运动方向同样离散化为多个字符。
5.根据权利要求1所述的手语检索的方法,其特征在于,所述手语特征中的形状特征是利用手部轮廓的一阶矩和二阶矩得到左右手椭圆拟合后的椭圆长短轴和倾斜角度,同样将形状信息表示为字符,进而表示为字符串以表达时间序列特征。
6.根据权利要求1所述的手语检索的方法,其特征在于,所述时间序列特征是左手和右手分别对应了坐标字符串、速度字符串和形状字符串,总共六个特征字符串表达了一段手语新闻的特征;手语新闻分段的规则是,如果一段手语包含了一个词或一个短语则切分为一段;由于这样可能导致一个手语词被切分到两段中去,所以,这里允许两个相邻视频段有5个字符的重合;手语特征存储为扩展标记语言文件并存放入数据库。
7.根据权利要求1所述的手语检索的方法,其特征在于,用户检索时,对于用户通过摄像头输入的手语,得到视频分析之后的坐标、速度和形状特征,使用六个字符串以表征这段用户手语视频特征。
8.根据权利要求1所述的手语检索的方法,其特征在于,所述距离度量表示如下:
D(i,j)=λ1Dposition(i,j)+λ2Dvelocity(i,j)+(1-λ12)Dfigure(i,j)
D(i,j)表示距离度量,i表示输入视频的第i帧特征,j表示数据库中视频的第j帧特征;其中Dposition(i,j)表达两个手语位置之间的坐标距离,Dvelocity(i,j)表达了速度相似度,Dfigure(i,j)表达了形状相似度;λ1,λ2表达了坐标特征、速度特征和形状特征的权重比例。
9.根据权利要求8所述的手语检索的方法,其特征在于,所述坐标,速度和形状用字符串表示,所以坐标,速度和形状的距离度量σ(X1...i,Yi...j)是基于编辑距离的算法表示为:
σ(X1...i,Yi...j)=min{σ(X1...i-1,Y1...j)+τ(Xi→λ),
                        σ(X1...i-1,Y1...j-1)+τ(Xi→Yi),
                        σ(X1...i,Y1...j-1)+τ(λ→Yj)),
其中,X1...i,Yi...j表示两个字符串;τ(Xi→λ)表示删除一个字符的代价,τ(Xi→Yi)表示替换一个字符的代价,τ(λ→Yj)表示插入一个字符的代价σ表示编辑距离度量、τ表示字符串的操作代价、λ表示空字符、min表示求最小值;字符之间的代价函数是根据极坐标位置的关系,重新定义字符之间插入删除和替换的代价,从而此处的编辑距离算法代价计算是跟坐标位置的远近,速度方向的差异,形状的差异而计算出来的代价。
CN2010105929073A 2010-12-08 2010-12-08 一种手语检索的方法 Active CN102004795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105929073A CN102004795B (zh) 2010-12-08 2010-12-08 一种手语检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105929073A CN102004795B (zh) 2010-12-08 2010-12-08 一种手语检索的方法

Publications (2)

Publication Number Publication Date
CN102004795A true CN102004795A (zh) 2011-04-06
CN102004795B CN102004795B (zh) 2012-11-21

Family

ID=43812157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105929073A Active CN102004795B (zh) 2010-12-08 2010-12-08 一种手语检索的方法

Country Status (1)

Country Link
CN (1) CN102004795B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222237A (zh) * 2011-07-14 2011-10-19 北京工业大学 手语视频的相似度评估模型的建立方法
CN102364470A (zh) * 2011-10-14 2012-02-29 西安工业大学 一种基于图像序列的三维动画检索方法
CN102880621A (zh) * 2011-07-14 2013-01-16 富士通株式会社 提取相似子时间序列的方法和装置
CN102981624A (zh) * 2012-12-03 2013-03-20 中国联合网络通信集团有限公司 三维手势输入方法及装置
CN108563997A (zh) * 2018-03-16 2018-09-21 新智认知数据服务有限公司 一种建立人脸检测模型、人脸识别的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944315B1 (en) * 2000-10-31 2005-09-13 Intel Corporation Method and apparatus for performing scale-invariant gesture recognition
CN101477538A (zh) * 2008-12-30 2009-07-08 清华大学 一种三维对象检索的方法和装置
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944315B1 (en) * 2000-10-31 2005-09-13 Intel Corporation Method and apparatus for performing scale-invariant gesture recognition
CN101477538A (zh) * 2008-12-30 2009-07-08 清华大学 一种三维对象检索的方法和装置
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222237A (zh) * 2011-07-14 2011-10-19 北京工业大学 手语视频的相似度评估模型的建立方法
CN102880621A (zh) * 2011-07-14 2013-01-16 富士通株式会社 提取相似子时间序列的方法和装置
CN102880621B (zh) * 2011-07-14 2017-03-01 富士通株式会社 提取相似子时间序列的方法和装置
CN102364470A (zh) * 2011-10-14 2012-02-29 西安工业大学 一种基于图像序列的三维动画检索方法
CN102364470B (zh) * 2011-10-14 2013-05-15 西安工业大学 一种基于图像序列的三维动画检索方法
CN102981624A (zh) * 2012-12-03 2013-03-20 中国联合网络通信集团有限公司 三维手势输入方法及装置
CN108563997A (zh) * 2018-03-16 2018-09-21 新智认知数据服务有限公司 一种建立人脸检测模型、人脸识别的方法和装置
CN108563997B (zh) * 2018-03-16 2021-10-12 新智认知数据服务有限公司 一种建立人脸检测模型、人脸识别的方法和装置

Also Published As

Publication number Publication date
CN102004795B (zh) 2012-11-21

Similar Documents

Publication Publication Date Title
Yoon et al. Analyzing basketball movements and pass relationships using realtime object tracking techniques based on deep learning
CN103246891B (zh) 一种基于Kinect的中国手语识别方法
CN104463250B (zh) 一种基于达芬奇技术的手语识别翻译方法
KR102061288B1 (ko) 이미지 검색 방법, 실시간 그리기 프롬프팅 방법 및 그 장치
CN105493078B (zh) 彩色草图图像搜索
EP2587826A1 (en) Extraction and association method and system for objects of interest in video
CN105574510A (zh) 一种步态识别方法及装置
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN106960006A (zh) 一种不同轨迹间相似度度量系统及其度量方法
CN103988232A (zh) 使用运动流形来改进图像匹配
CN102004795B (zh) 一种手语检索的方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN103336835B (zh) 基于权值color‑sift特征字典的图像检索方法
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
Deray et al. Word ordering and document adjacency for large loop closure detection in 2-D laser maps
CN106980866B (zh) 一种鞋类检索方法和装置
Chen et al. Headnet: pedestrian head detection utilizing body in context
CN117119253B (zh) 一种针对目标对象的高质量视频抽帧方法
Sinha et al. Image retrieval using landmark indexing for indoor navigation
CN116612542A (zh) 基于多模态生物特征一致性的音视频人物识别方法及系统
CN115063448A (zh) 一种面向油田作业场景的多目标追踪方法
Li et al. Combining shape and appearance for automatic pedestrian segmentation
Protopapadakis et al. Multidimensional trajectory similarity estimation via spatial-temporal keyframe selection and signal correlation analysis
Zhao et al. Semantic enhancement based adaptive geometric encoding network for low overlap point cloud registration

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant