CN102004795A - 一种手语检索的方法 - Google Patents
一种手语检索的方法 Download PDFInfo
- Publication number
- CN102004795A CN102004795A CN 201010592907 CN201010592907A CN102004795A CN 102004795 A CN102004795 A CN 102004795A CN 201010592907 CN201010592907 CN 201010592907 CN 201010592907 A CN201010592907 A CN 201010592907A CN 102004795 A CN102004795 A CN 102004795A
- Authority
- CN
- China
- Prior art keywords
- sign language
- video
- feature
- coordinate
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000033001 locomotion Effects 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000011524 similarity measure Methods 0.000 claims abstract description 3
- 230000003287 optical effect Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 239000003086 colorant Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 claims 1
- 230000008676 import Effects 0.000 claims 1
- 230000004807 localization Effects 0.000 claims 1
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 206010011878 Deafness Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种手语检索的方法,包括步骤S1:对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征,根据手语运动特征生成手语特征库,用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征,进而构成时间序列特征,并以手语特征的字符串存储下来;步骤S2:对于用户输入的视频用坐标、速度和形状特征表示,得到用户输入视频的字符串;步骤S3:利用字符串编辑距离算法对用户输入视频的字符串和手语特征的字符串进行距离度量,得到输入视频和手语特征库中视频的相似度量。本发明解决了手语中快速且鲁棒的双手定位的问题,双手特征表示的问题和快速有效的手语相似度度量问题。
Description
技术领域
本发明涉及数字媒体和人机交互领域,它要求用户输入手语视频,然后在手语视频库中检索相似的视频片断。
背景技术
近几年来,中国很多电视台比如北京新闻等,都提供了手语播报的功能,以帮助聋哑残疾人士观看新闻内容。基于内容的视频检索和管理是目前数字媒体领域比较热门的研究方向。但是,对于手语视频这种比较特殊的视频形式,如何有效地根据内容管理这些视频是一个亟待解决的问题。在这种情况下,将大量的手语视频的存储和查找从全人工的方式中解脱出来更是大势所趋。要做到这一点,就必须分析手语的内容并且加以分析和特征生成,以方便管理。手语的3D特征的获取在不借助于数据手套的情况下几乎是不可能的,而分析手语新闻,主持人也是不带数据手套的。现有的手语处理技术借助数据手套,限制了用户使用的灵活性。那么,通过手部运动追踪,提取坐标速度和形状以建立分段的手语新闻特征并检索是一种可行的并且方便快捷的方法。
发明内容
为了解决现有技术手语处理只能借助于数据手套,并且速度较慢的技术缺陷,本发明的目的在于提出一种对大量的手语视频进行建立特征库和有效管理的手语检索的方法。
为了达成所述目的,本发明提供一种手语检索方法,所述方法的技术方案包括如下步骤:
步骤S1:对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征,根据手语运动特征生成手语特征库,用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征,进而构成时间序列特征,并以手语特征的字符串存储下来;
步骤S2:对于用户输入的视频用坐标、速度和形状特征表示,得到用户输入视频的字符串;
步骤S3:利用字符串编辑距离算法对检索时用户输入手语视频的字符串和手语特征的字符串进行距离度量,得到输入视频和手语特征库中视频的相似度量。
其中,所述双手追踪和定位的步骤如下:
步骤S11:获取输入计算机的手语新闻视频帧或摄像头视频,对于手语新闻或者摄像头视频进行检测,如果检测视频帧中有人脸,则进行步骤S12的操作;如果检测视频帧中没有人脸,则对此视频帧不做处理返回计算机输入端;
步骤S12:根据视频帧中的人脸坐标,得到人脸下方距离人脸中心一倍人脸直径的胸部位置作为极坐标的中心,建立极坐标系,以刻画后续双手位置;
步骤S13:将视频帧转化为亮度色度颜色空间(YUV),并且映射到色度二维空间,利用肤色的良好的聚类性质分割肤色,肤色分割的公式为:
式中U和V是在亮度色度颜色空间(YUV)中被正交调制了的色度信息,作用是描述影像色彩及饱和度;
步骤S14:把所有满足肤色的区域作为候选双手运动区域,并且把候选双手运动区域二值化,得到的二值化灰度图,此时,人脸、脖子、手臂以及接近肤色的衣服的区域都被分割出来了;
步骤S15:对步骤S14获得的候选双手运动区域进行定位,获取双手位置;接下来,对于步骤S14得到的二值化灰度图在相邻两帧间计算光流;对光流算法中的检测区域大小的阈值和速度阈值自动调整,用以获取多个光流块;
步骤S16:多个光流块对应了视频中的包含了肤色的运动区域,由于衣服、人脸和臂部运动不明显,所以光流块集中的地方是人手所在的位置;使用聚类算法把光流块聚类成两类,如果两类距离小于指定阈值,认为双手重合,则两类合并成一类,作为左手和右手的坐标;如果两类大于指定阈值,则两类按照坐标关系分别对应了左手和右手的坐标位置。
其中,所述双手运动的的坐标特征是双手位置的极坐标表示;把极坐标值(ρ,θ),在空间中离散化为多个字符,从而一帧的左右手坐标用两个字符表示,一段视频则对应了两个字符串。
其中,所述双手运动的速度特征记录了手语运动序列的轨迹,轨迹的运动方向同样离散化为多个字符。
其中,所述手语特征中的形状特征是利用手部轮廓的一阶矩和二阶矩得到左右手椭圆拟合后的椭圆长短轴和倾斜角度,同样将形状信息表示为字符,进而表示为字符串以表达时间序列特征。
其中,所述时间序列特征是左手和右手分别对应了坐标字符串、速度字符串和形状字符串,总共六个特征字符串表达了一段手语新闻的特征;手语新闻分段的规则是,如果一段手语包含了一个词或一个短语则切分为一段;由于这样可能导致一个手语词被切分到两段中去,所以,这里允许两个相邻视频段有5个字符的重合;手语特征存储为扩展标记语言文件并存放入数据库。
其中,用户检索时,对于用户通过摄像头输入的手语,得到视频分析之后的坐标、速度和形状特征,使用六个字符串以表征这段用户手语视频特征。
其中,所述距离度量表示如下:
D(i,j)=λ1Dposition(i,j)+λ2Dvelocity(i,j)+(1-λ1-λ2)Dfigure(i,j)
D(i,j)表示距离度量,i表示输入视频的第i帧特征,j表示数据库中视频的第j帧特征;其中Dposition(i,j)表达两个手语位置之间的坐标距离,Dvelocity(i,j)表达了速度相似度,Dfigure(i,j)表达了形状相似度;λ1,λ2表达了坐标特征、速度特征和形状特征的权重比例。
其中,所述坐标,速度和形状用字符串表示,所以坐标,速度和形状的距离度量σ(X1...i,Yi...j)是基于编辑距离的算法表示为:
σ(X1...i,Yi...j)=min{σ(X1...i-1,Y1...j)+τ(Xi→λ),
σ(X1...i-1,Y1...j-1)+τ(Xi→Yi),
σ(X1...i,Y1...j-1)+τ(λ→Yj)},
式中,X1...i,Yi...j表示两个字符串;τ(Xi→λ)表示删除一个字符的代价,τ(Xi→Yi)表示替换一个字符的代价,τ(λ→Yj)表示插入一个字符的代价σ表示编辑距离度量、τ表示字符串的操作代价、λ表示空字符、min表示求最小值;字符之间的代价函数是根据极坐标位置的关系,重新定义字符之间插入删除和替换的代价,从而此处的编辑距离算法代价计算是跟坐标位置的远近,速度方向的差异,形状的差异而计算出来的代价。
本发明的有益效果:利用电视台实际录制的新闻节目作为评估数据,该方法能够做到快速、准确的找出与输入视频相似的手语视频,并且能有效地克服人工管理上的一些主观性和操作失误,从而促进对于手语新闻视频资源的有效管理以更好的服务于聋哑残疾人。本发明是通过人脸检测、肤色分割、光流计算和聚类分析以有效和鲁棒的追踪人手;通过手的坐标、速度和形状来刻画手的动态特征;使用字符串的编辑距离算法来计算输入视频和手语视频库中的视频片断的相似度。本发明解决了手语中快速且鲁棒的双手定位的问题,双手特征表示的问题和快速有效的手语相似度度量问题。
附图说明
图1a和图1b是本发明的手语视频特征提取和检索流程图。
图2是本发明的北京手语新闻播报以及人脸检测。
图3是本发明的手语表达中的极坐标系的建立。
图4是本发明的手语双手追踪的实现。
图5是本发明的坐标位置和相应字符的对应关系。
图6是本发明的用户录制的手语视频处理过程。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明提出了一种手语新闻中双手追踪、特征提取以及快速检索的方法,如图1a所示,该方法对手语新闻中的主持人双手进行追踪,获取双手的运动序列,速度和形状变化序列等内容,并以XML的形式存放起来以和其他系统数据交换。系统接受输入手语视频并且根据本发明定义的相似度量返回最相似的匹配结果。
1.人脸检测预处理
本发明提出对于每帧视频首先检测是否包含主持人人脸或者输入视频的用户人脸,如果不包含人脸就继续处理下一帧以加快处理过程。如图2所示,是以北京电视台手语新闻节目为例的主持人人脸检测过程。
2.极坐标系建立
如图3所示,本发明以人脸下方一倍人脸直径的距离位置,大体位于主持人胸部位置,作为极坐标系的中心。由于,手的运动基本上是在以此中心为圆心,以2.5倍人脸直径距离为半径的圆内运动的,从而构建这个极坐标系可以刻画手的坐标位置,并且该坐标可以归一化,极角在0到2∏间,极半径在0到1之间。图中,ρ表示极半径,θ表示极角度,v表示速度,α表示速度的方向。
3.双手追踪的实现
本发明提出一种双手的快速有效追踪的方法。双手的追踪和定位的过程如图1b所示。首先,对包含主持人的视频帧进行肤色分割。肤色分割的方法采用亮度色度颜色空间(YUV)中肤色的良好的聚类性质。肤色分割后得到二值化的灰度图。然后对前后两帧进行光流计算,由于灰度图中仅包含了肤色候选区域,所以此时的光流计算仅仅在这些肤色区域上进行,速度较快。光流块表达了图像中那些部位是肤色,并且还在快速运动,这个性质恰好对应了双手所应具有的特征。如图4所示,红色的圆点表示的是光流块,也就是包含肤色并且还在运动的小块区域。左手和右手范围内具有大量的光流块,这符合实际情况。对于这些光流块用K-Means聚类得到左手和右手的中心坐标,如图4黑点所示,可见,该方法准确找到了左手和右手的中心坐标。
4.特征字符串的生成
为了表达手的信息,本发明提取了双手的坐标,速度和形状特征。
对于坐标特征,当双手处理不同位置的时候,每个位置对应了一个唯一的字符,如图5所示。对于速度的方向,也是处于0到2∏间,同样离散化为字符。对于形状特征,如图4所示,本发明对于左手和右手的轮廓作了椭圆拟合,得到了长轴和短轴的比值和倾斜角。对于形状特征,本算法同样离散为一个字符,这样一段视频就对应了6个字符串,如下所示,BeginSenc元素表示开始时间点,:EndSenc表示结束时间点。LeftHandFeature,LeftHandVelocity,LeftHandFigure分别别是左手的坐标速度和形状特征;RightHandFeature,RightHandVelocity,RightHandFigure则分别表示了右手对应的特征。
<Result>
<BeginSenc>104.2667</BeginSenc>
<EndSenc>105.2</EndSenc>
<LeftHandFeature>WOQV4VUPQVPLPQU</LeftHandFeature>
<LeftHandVelocity>fpOakOkOJapJaEf</LeftHandVelocity>
<LeftHandFigure>nqAaqapqGGEvGGa</LeftHandFigure>
<RightHandFeature>WffV4VUPQVPfPfU</RightHandFeature>
<RightHandVelocity>kaaakOkOJapaEak</RightHandVelocity>
<RightHandFigure>naaaqapqGGEaGaa</RightHandFigure>
</Result>
5.手语相似度距离度量
为了计算输入手语视频片断和数据库中视频片断的相似性,本发明定义了一种距离度量,如下所示:
D(v_input,v_db)=λleftDleft(i,j)+λrightDright(i,j)
其中,v_input,v_db分别表示输入视频和数据库中的视频,D(v_input,v_db)表示的是输入手语新闻片段和数据库中手语新闻片段的相似度。Dleft(i,j)表示左手的距离度量,Dright(i,j)表示右手的距离度量。λleft表示左手的权重,一般为0.4,λright为右手的权重,一般为0.6,因为一般来说,右手在整个手语过程中起到更重要的表达作用。I表示输入视频的第i帧特征,j表示数据库中视频的第j帧特征。
其中Dleft,right(i,j)定义如下:
Dleft,right(i,j)=λ1Dposition(i,j)+λ2Dvelocity(i,j)+(1-λ1-λ2)Dfigure(i,j)
其中Dposition(i,j)表达了坐标相似度,Dvelocity(i,j)表达了速度相似度,Dfigure(i,j)表达了形状相似度。λ1,λ2表达了三个特征的权重比例。进一步Dposition(i,j),Dvelocity(i,j),和Dfigure(i,j)的距离则利用的经典的编辑字符串距离算法,这里用σ表示位置、速度和形状的距离度量。如下所示:
σ(X1...i,Yi...j)=min{σ(X1...i-1,Y1...j)+τ(Xi→λ),
σ(X1...i-1,Y1...j-1)+τ(Xi→Yi),
σ(X1...i,Y1...j-1)+τ(λ→Yj)}
其中,X1...i,Yi...j表示两个字符串,σ(X1...i,Yi...j)表示两个字符串的编辑距离。τ(Xi→λ)表示删除一个字符的代价,τ(Xi→Yi)表示替换一个字符的代价,τ(λ→Yj)表示插入一个字符的代价。本算法定义代价函数跟两个字符所代表的方向成正比,比例为2,跟半径正比,比例为1。比如(0.5,∏/6),(0.5,∏/3)的距离为2,因为方向差异∏/6。(0.6,∏/6),(0.4,∏/6)的距离为1,因为半径差异0.2。半径差异的阶为0.2,方向差异的阶为∏/6。
图6是本发明用户录制的手语视频处理过程,在该图中双手运动的位置和形状已经标出。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的权利要求书的保护范围之内。
Claims (9)
1.一种手语检索的方法,其特征在于,所述方法的步骤如下:
步骤S1:对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征,根据手语运动特征生成手语特征库,用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征,进而构成时间序列特征,并以手语特征的字符串存储下来;
步骤S2:对于用户输入的视频用坐标、速度和形状特征表示,得到用户输入视频的字符串;
步骤S3:利用字符串编辑距离算法对检索时用户输入手语视频的字符串和手语特征的字符串进行距离度量,得到输入视频和手语特征库中视频的相似度量。
2.根据权利要求1所述的手语检索的方法,其特征在于,所述双手追踪和定位的步骤如下:
步骤S11:获取输入计算机的手语新闻视频帧或摄像头视频,对于手语新闻或者摄像头视频进行检测,如果检测视频帧中有人脸,则进行步骤S12的操作;如果检测视频帧中没有人脸,则对此视频帧不做处理返回计算机输入端;
步骤S12:根据视频帧中的人脸坐标,得到人脸下方距离人脸中心一倍人脸直径的胸部位置作为极坐标的中心,建立极坐标系,以刻画后续双手位置;
步骤S13:将视频帧转化为亮度色度颜色空间(YUV),并且映射到色度二维空间,利用肤色的良好的聚类性质分割肤色,肤色分割的公式为:
式中U和V是在亮度色度颜色空间(YUV)中被正交调制了的色度信息,作用是描述影像色彩及饱和度;
步骤S14:把所有满足肤色的区域作为候选双手运动区域,并且把候选双手运动区域二值化,得到的二值化灰度图,此时,人脸、脖子、手臂以及接近肤色的衣服的区域都被分割出来了;
步骤S15:对步骤S14获得的候选双手运动区域进行定位,获取双手位置;接下来,对于步骤S14得到的二值化灰度图在相邻两帧间计算光流;对光流算法中的检测区域大小的阈值和速度阈值自动调整,用以获取多个光流块;
步骤S16:多个光流块对应了视频中的包含了肤色的运动区域,由于衣服、人脸和臂部运动不明显,所以光流块集中的地方是人手所在的位置;使用聚类算法把光流块聚类成两类,如果两类距离小于指定阈值,认为双手重合,则两类合并成一类,作为左手和右手的坐标;如果两类大于指定阈值,则两类按照坐标关系分别对应了左手和右手的坐标位置。
3.根据权利要求1所述的手语检索的方法,其特征在于,所述双手运动的的坐标特征是双手位置的极坐标表示;把极坐标值(ρ,θ),在空间中离散化为多个字符,从而一帧的左右手坐标用两个字符表示,一段视频则对应了两个字符串。
4.根据权利要求1所述的手语检索的方法,其特征在于,所述双手运动的速度特征记录了手语运动序列的轨迹,轨迹的运动方向同样离散化为多个字符。
5.根据权利要求1所述的手语检索的方法,其特征在于,所述手语特征中的形状特征是利用手部轮廓的一阶矩和二阶矩得到左右手椭圆拟合后的椭圆长短轴和倾斜角度,同样将形状信息表示为字符,进而表示为字符串以表达时间序列特征。
6.根据权利要求1所述的手语检索的方法,其特征在于,所述时间序列特征是左手和右手分别对应了坐标字符串、速度字符串和形状字符串,总共六个特征字符串表达了一段手语新闻的特征;手语新闻分段的规则是,如果一段手语包含了一个词或一个短语则切分为一段;由于这样可能导致一个手语词被切分到两段中去,所以,这里允许两个相邻视频段有5个字符的重合;手语特征存储为扩展标记语言文件并存放入数据库。
7.根据权利要求1所述的手语检索的方法,其特征在于,用户检索时,对于用户通过摄像头输入的手语,得到视频分析之后的坐标、速度和形状特征,使用六个字符串以表征这段用户手语视频特征。
8.根据权利要求1所述的手语检索的方法,其特征在于,所述距离度量表示如下:
D(i,j)=λ1Dposition(i,j)+λ2Dvelocity(i,j)+(1-λ1-λ2)Dfigure(i,j)
D(i,j)表示距离度量,i表示输入视频的第i帧特征,j表示数据库中视频的第j帧特征;其中Dposition(i,j)表达两个手语位置之间的坐标距离,Dvelocity(i,j)表达了速度相似度,Dfigure(i,j)表达了形状相似度;λ1,λ2表达了坐标特征、速度特征和形状特征的权重比例。
9.根据权利要求8所述的手语检索的方法,其特征在于,所述坐标,速度和形状用字符串表示,所以坐标,速度和形状的距离度量σ(X1...i,Yi...j)是基于编辑距离的算法表示为:
σ(X1...i,Yi...j)=min{σ(X1...i-1,Y1...j)+τ(Xi→λ),
σ(X1...i-1,Y1...j-1)+τ(Xi→Yi),
σ(X1...i,Y1...j-1)+τ(λ→Yj)),
其中,X1...i,Yi...j表示两个字符串;τ(Xi→λ)表示删除一个字符的代价,τ(Xi→Yi)表示替换一个字符的代价,τ(λ→Yj)表示插入一个字符的代价σ表示编辑距离度量、τ表示字符串的操作代价、λ表示空字符、min表示求最小值;字符之间的代价函数是根据极坐标位置的关系,重新定义字符之间插入删除和替换的代价,从而此处的编辑距离算法代价计算是跟坐标位置的远近,速度方向的差异,形状的差异而计算出来的代价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105929073A CN102004795B (zh) | 2010-12-08 | 2010-12-08 | 一种手语检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105929073A CN102004795B (zh) | 2010-12-08 | 2010-12-08 | 一种手语检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102004795A true CN102004795A (zh) | 2011-04-06 |
CN102004795B CN102004795B (zh) | 2012-11-21 |
Family
ID=43812157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105929073A Expired - Fee Related CN102004795B (zh) | 2010-12-08 | 2010-12-08 | 一种手语检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102004795B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222237A (zh) * | 2011-07-14 | 2011-10-19 | 北京工业大学 | 手语视频的相似度评估模型的建立方法 |
CN102364470A (zh) * | 2011-10-14 | 2012-02-29 | 西安工业大学 | 一种基于图像序列的三维动画检索方法 |
CN102880621A (zh) * | 2011-07-14 | 2013-01-16 | 富士通株式会社 | 提取相似子时间序列的方法和装置 |
CN102981624A (zh) * | 2012-12-03 | 2013-03-20 | 中国联合网络通信集团有限公司 | 三维手势输入方法及装置 |
CN108563997A (zh) * | 2018-03-16 | 2018-09-21 | 新智认知数据服务有限公司 | 一种建立人脸检测模型、人脸识别的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944315B1 (en) * | 2000-10-31 | 2005-09-13 | Intel Corporation | Method and apparatus for performing scale-invariant gesture recognition |
CN101477538A (zh) * | 2008-12-30 | 2009-07-08 | 清华大学 | 一种三维对象检索的方法和装置 |
CN101859326A (zh) * | 2010-06-09 | 2010-10-13 | 南京大学 | 一种图像检索方法 |
-
2010
- 2010-12-08 CN CN2010105929073A patent/CN102004795B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944315B1 (en) * | 2000-10-31 | 2005-09-13 | Intel Corporation | Method and apparatus for performing scale-invariant gesture recognition |
CN101477538A (zh) * | 2008-12-30 | 2009-07-08 | 清华大学 | 一种三维对象检索的方法和装置 |
CN101859326A (zh) * | 2010-06-09 | 2010-10-13 | 南京大学 | 一种图像检索方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222237A (zh) * | 2011-07-14 | 2011-10-19 | 北京工业大学 | 手语视频的相似度评估模型的建立方法 |
CN102880621A (zh) * | 2011-07-14 | 2013-01-16 | 富士通株式会社 | 提取相似子时间序列的方法和装置 |
CN102880621B (zh) * | 2011-07-14 | 2017-03-01 | 富士通株式会社 | 提取相似子时间序列的方法和装置 |
CN102364470A (zh) * | 2011-10-14 | 2012-02-29 | 西安工业大学 | 一种基于图像序列的三维动画检索方法 |
CN102364470B (zh) * | 2011-10-14 | 2013-05-15 | 西安工业大学 | 一种基于图像序列的三维动画检索方法 |
CN102981624A (zh) * | 2012-12-03 | 2013-03-20 | 中国联合网络通信集团有限公司 | 三维手势输入方法及装置 |
CN108563997A (zh) * | 2018-03-16 | 2018-09-21 | 新智认知数据服务有限公司 | 一种建立人脸检测模型、人脸识别的方法和装置 |
CN108563997B (zh) * | 2018-03-16 | 2021-10-12 | 新智认知数据服务有限公司 | 一种建立人脸检测模型、人脸识别的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102004795B (zh) | 2012-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818906B (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
CN110012349B (zh) | 一种端到端的新闻节目结构化方法 | |
CN101315631B (zh) | 一种新闻视频故事单元关联方法 | |
CN105493078B (zh) | 彩色草图图像搜索 | |
CN105678297A (zh) | 一种基于标签转移及lstm模型的人像语义分析的方法及系统 | |
CN103246891A (zh) | 一种基于Kinect的中国手语识别方法 | |
CN114926859B (zh) | 一种结合头部跟踪的密集场景下行人多目标跟踪方法 | |
CN102004795B (zh) | 一种手语检索的方法 | |
Li et al. | Window detection in facades using heatmap fusion | |
CN104820711A (zh) | 复杂场景下对人形目标的视频检索方法 | |
CN117119253B (zh) | 一种针对目标对象的高质量视频抽帧方法 | |
CN106844785A (zh) | 一种基于显著性分割的基于内容的图像检索方法 | |
CN105868269A (zh) | 基于区域卷积神经网络的精确图像检索方法 | |
Xu et al. | DOMAINDESC: Learning local descriptors with domain adaptation | |
CN115393751A (zh) | 数据处理方法、存储介质及电子设备 | |
Bu et al. | Scene-text oriented referring expression comprehension | |
Zhang et al. | Language-assisted 3D feature learning for semantic scene understanding | |
CN105678244A (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
Zhu et al. | Collaborative learning network for change detection and semantic segmentation of remote sensing images | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
Sinha et al. | Image retrieval using landmark indexing for indoor navigation | |
CN110659576A (zh) | 一种基于联合判断与生成学习的行人搜索方法及装置 | |
Li et al. | Combining shape and appearance for automatic pedestrian segmentation | |
Zhao et al. | Semantic enhancement based adaptive geometric encoding network for low overlap point cloud registration | |
Xu et al. | Device: Depth and visual concepts aware transformer for textcaps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121121 |