CN113343937B - 一种基于深度卷积和注意力机制的唇语识别方法 - Google Patents

一种基于深度卷积和注意力机制的唇语识别方法 Download PDF

Info

Publication number
CN113343937B
CN113343937B CN202110801803.7A CN202110801803A CN113343937B CN 113343937 B CN113343937 B CN 113343937B CN 202110801803 A CN202110801803 A CN 202110801803A CN 113343937 B CN113343937 B CN 113343937B
Authority
CN
China
Prior art keywords
convolution
lip
layer
inputting
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110801803.7A
Other languages
English (en)
Other versions
CN113343937A (zh
Inventor
袁全波
王慧娟
蒲刚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengji Taichuan Technology Langfang Co ltd
Original Assignee
North China Institute of Aerospace Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Institute of Aerospace Engineering filed Critical North China Institute of Aerospace Engineering
Priority to CN202110801803.7A priority Critical patent/CN113343937B/zh
Publication of CN113343937A publication Critical patent/CN113343937A/zh
Application granted granted Critical
Publication of CN113343937B publication Critical patent/CN113343937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度卷积和注意力机制的唇语识别方法,包括步骤:S1)对大型唇读数据集进行预处理,获取唇部识别图像;S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值。本发明在卷积网络的基础上加入注意力机制模型,并改善其结构,提高了唇语识别率并减小了计算开支。

Description

一种基于深度卷积和注意力机制的唇语识别方法
技术领域
本发明涉及计算机视觉与自然语言处理技术领域,特别是涉及一种基于深度卷积和注意力机制的唇语识别方法。
背景技术
唇语识别也称为视觉语音识别,是指通过说话人的嘴唇运动变化来判断说话内容,其研究过程涉及到了计算机视觉、自然语言处理等技术。唇语识别在身份认证、语音识别、说话人脸合成、改善聋哑人交流以及公共安全等方面有着广泛的应用。
目前,随着深度学习的快速发展,唇语识别也取得了一定的成果,但是由于说话人的主观因素以及所处背景环境的复杂性,唇语识别还存在着巨大的挑战,如不同字词间发音的相识性,同一字词在不同人的发音里嘴唇运动变化也有所不同,在现有公开的大型唇语数据集中的识别率都不是很高。近两年针对唇读的新方法也在不断的被提出,但大多数方法提取到的唇动特征都没有很好的考虑到图片相邻帧之间的相关性、局部和全局的特征空间信息、嘴唇及其周围的细微变化以及因分辨率降低而导致的信息损失。
发明内容
本发明的目的是提供一种基于深度卷积和注意力机制的唇语识别方法,在卷积网络的基础上加入注意力机制模型,并改善其结构,提高了唇语识别率并减小了计算开支。
为实现上述目的,本发明提供了如下方案:
一种基于深度卷积和注意力机制的唇语识别方法,包括步骤:
S1)对大型唇读数据集进行预处理,获取唇部识别图像;所述大型唇读数据集中含有多个唇读视频;
S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;
S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;
S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;
S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;
S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值。
可选的,所述步骤S1中,对大型唇读数据集进行预处理,获取唇部识别图像,具体包括:
在每一轮上对输入唇读视频帧的顺序进行打乱,将其大小调整为96×96,并随机裁剪为88×88,作为3D卷积模型的输入;
在3D卷积模型每次训练迭代中选择部分视频帧,对每个视频帧以0.5的概率水平翻转转换成灰度图;
对灰度图进行归一化处理,获取唇部识别图像。
可选的,所述步骤S2中,3D卷积网络模型的构建,具体包括:
设定一层3D卷积,卷积核大小为(5,7,7),步幅为(1,2,2),填充为(2,3,3),然后进入批归一化处理,再经过一层激活函数,最后送入最大池化层处理,该池化层的内核大小为(1,3,3),步幅为(1,2,2),3D卷积计算公式如下:
Figure GDA0003688249630000031
其中:
Figure GDA0003688249630000032
为第i层中位置(x,y,z)处第j个feature map中的值,relu为激活函数,b为偏置,m为i-1层feature map连接到当前层feature map的索引,
Figure GDA0003688249630000033
中Pi、Qi、Ri分别为卷积核的宽度、高度和时间维度。
可选的,所述步骤S3中,卷积和注意力机制的混合网络模型的构建,具体包括:
经过卷积标记嵌入层处理,该层嵌入核大小为(7,7),步幅为(2,2),个数为128;
进入卷积transformer模块,该模块由卷积投影层、多头注意力层、全连接层组成,一共经过三步堆叠;其中:第一步卷积投影层核大小为(3,3),个数为128,注意力为1头,深度为1;第二步卷积投影层核大小为(3,3),个数为256,注意力为3头,深度为4;第三步卷积投影层核大小为(3,3),个数为512,注意力为6头,深度为16。
可选的,所述步骤S4中,双向门控循环单元的设定,具体包括:
设定输入维度为512,隐层维度为1024,共有3层,输出维度为2048,门控循环单元计算公式如下:
Figure GDA0003688249630000034
其中:
Figure GDA0003688249630000035
z为更新门,r为复位门,
Figure GDA0003688249630000036
为单元值,h为隐藏值,W和U分别为输入和隐藏的权重矩阵。
可选的,所述步骤S5中,将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数,具体包括:
将提取的长短期特征序列输入到多层感知机中,其结构为输入维度2048,输出维度1000,以一个展平成一维张量的形式接收,然后乘以权重矩阵,权重矩阵乘法产生输出特征,得到各个类别的置信度分数。
可选的,所述步骤S6中,基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值,具体包括:
基于各个类别的置信度分数,将获取的输出特征与真实标签送入带有标签平滑机制的交叉熵损失函数中输出识别概率值,传统的交叉熵损失函数计算公式如下:
Figure GDA0003688249630000041
其中:p为预测概率值,q为1-p,y为真实标签值;
在带有标签平滑机制的交叉熵损失函数中把q值改为:
Figure GDA0003688249630000042
其中:ε为一个小常数取为0.1,N为类别数。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明基于深度卷积和注意力机制对唇部变化进行学习,并通过双向门控循环系统对特征提取,利用多层感知机获取各个类别的置信度分数,大大提高了唇读的效率和准确率;在卷积网络的基础上加入transformer模型,并改善其结构,解决了传统方法中对特征空间信息提取不足的问题,弥补了因分辨率降低而导致的信息损失,使之更有效的应用在唇语识别中,该方法提高了唇语识别率并减小了计算开支。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于深度卷积和注意力机制的唇语识别方法的流程图;
图2为本发明实施例基于深度卷积和注意力机制的唇语识别方法的总体构架图;
图3为本发明实施例Convolutional vision Transformer结构图;
图4为本发明实施例Convolutional Transformer模块图;
图5为本发明实施例GRU结构体图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于深度卷积和注意力机制的唇语识别方法,在卷积网络的基础上加入注意力机制模型,并改善其结构,提高了唇语识别率并减小了计算开支。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明实施例提供的基于深度卷积和注意力机制的唇语识别方法,包括步骤:
S1)对大型唇读数据集进行预处理,获取唇部识别图像;所述大型唇读数据集中含有多个唇读视频;
S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;
S3)将唇部识别图像提取的时空特征输入卷积和注意力机制(transformer)的混合网络模型,进行局部和全局的空间特征提取;
S4)将提取的空间特征输入到双向门控循环单元(BiGRU),进行长短期特征序列提取;
S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;
S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值。
其中,所述步骤S1中,对大型唇读数据集进行预处理,获取唇部识别图像,具体包括:
在每一轮上对输入唇读视频帧的顺序进行打乱,将其大小调整为96×96,并随机裁剪为88×88,作为3D卷积模型的输入;
在3D卷积模型每次训练迭代中选择部分视频帧,对每个视频帧以0.5的概率水平翻转转换成灰度图;
对灰度图进行归一化处理,获取唇部识别图像。
本发明实施例以公共数据集LRW和LRW-1000为研究对象,对视频帧进行预处理。
所述步骤S2中,3D卷积网络模型的构建,具体包括:
设定一层3D卷积,卷积核大小为(5,7,7),步幅为(1,2,2),填充为(2,3,3),然后进入批归一化处理,再经过一层激活函数,最后送入最大池化层处理,该池化层的内核大小为(1,3,3),步幅为(1,2,2),3D卷积计算公式如下:
Figure GDA0003688249630000071
其中:
Figure GDA0003688249630000072
为第i层中位置(x,y,z)处第j个feature map中的值,relu为激活函数,b为偏置,m为i-1层feature map连接到当前层feature map的索引,
Figure GDA0003688249630000073
中Pi、Qi、Ri分别为卷积核的宽度、高度和时间维度。
所述步骤S3中,卷积和注意力机制的混合网络模型的构建,具体包括:
经过卷积标记嵌入层处理,该层嵌入核大小为(7,7),步幅为(2,2),个数为128;
进入卷积transformer模块,该模块由卷积投影层、多头注意力层、全连接层组成,一共经过三步堆叠;其中:第一步卷积投影层核大小为(3,3),个数为128,注意力为1头,深度为1;第二步卷积投影层核大小为(3,3),个数为256,注意力为3头,深度为4;第三步卷积投影层核大小为(3,3),个数为512,注意力为6头,深度为16。如图2至图4所示,将3D卷积初步处理的特征信息送入卷积transformer结构中并进行空间信息的进一步提取。
所述步骤S4中,双向门控循环单元(BiGRU)的设定,具体包括:
设定输入维度为512,隐层维度为1024,共有3层,输出维度为2048,门控循环单元GRU计算公式如下:
Figure GDA0003688249630000081
其中:
Figure GDA0003688249630000082
z为更新门,r为复位门,
Figure GDA0003688249630000083
为单元值,h为隐藏值,W和U分别为输入和隐藏的权重矩阵。如图5所示,特征信息输入为x。
所述步骤S5中,将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数,具体包括:
将提取的长短期特征序列输入到多层感知机中,其结构为输入维度2048,输出维度1000,即分类数1000,以一个展平成一维张量的形式接收,然后乘以权重矩阵,权重矩阵乘法产生输出特征,得到各个类别的置信度分数,这个矩阵乘法产生输出特征,即各个类别的置信度分数。
所述步骤S6中,基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值,具体包括:
基于各个类别的置信度分数,将获取的输出特征与真实标签送入带有标签平滑机制的交叉熵损失函数中输出识别概率值,传统的交叉熵损失函数计算公式如下:
Figure GDA0003688249630000084
其中:p为预测概率值,q为1-p,y为真实标签值;
在带有标签平滑机制的交叉熵损失函数中把q值改为:
Figure GDA0003688249630000091
其中:ε为一个小常数取为0.1,N为类别数。
使用标签平滑训练可以产生更好的校准网络,从而更好地去泛化网络,最终对不可见的输出数据产生更准确的预测。
本发明基于深度卷积和注意力机制对唇部变化进行学习,并通过双向门控循环系统对特征提取,利用多层感知机获取各个类别的置信度分数,大大提高了唇读的效率和准确率;在卷积网络的基础上加入transformer模型,并改善其结构,解决了传统方法中对特征空间信息提取不足的问题,弥补了因分辨率降低而导致的信息损失,使之更有效的应用在唇语识别中,该方法提高了唇语识别率并减小了计算开支。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种基于深度卷积和注意力机制的唇语识别方法,其特征在于,包括步骤:
S1)对大型唇读数据集进行预处理,获取唇部识别图像;所述大型唇读数据集中含有多个唇读视频;
S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;
所述S2中,3D卷积网络模型的构建,具体包括:
设定一层3D卷积,卷积核大小为(5,7,7),步幅为(1,2,2),填充为(2,3,3),然后进入批归一化处理,再经过一层激活函数,最后送入最大池化层处理,该池化层的内核大小为(1,3,3),步幅为(1,2,2),3D卷积计算公式如下:
Figure FDA0003688249620000011
其中:
Figure FDA0003688249620000012
为第i层中位置(x,y,z)处第j个featuremap中的值,relu为激活函数,b为偏置,m为i-1层featuremap连接到当前层featuremap的索引,
Figure FDA0003688249620000013
中Pi、Qi、Ri分别为卷积核的宽度、高度和时间维度;
S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;
所述S3中,卷积和注意力机制的混合网络模型的构建,具体包括:
经过卷积标记嵌入层处理,嵌入核大小为(7,7),步幅为(2,2),个数为128;
进入卷积transformer模块,该模块由卷积投影层、多头注意力层、全连接层组成,一共经过三步堆叠;其中:第一步卷积投影层核大小为(3,3),个数为128,注意力为1头,深度为1;第二步卷积投影层核大小为(3,3),个数为256,注意力为3头,深度为4;第三步卷积投影层核大小为(3,3),个数为512,注意力为6头,深度为16;
S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;
S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;
所述S5中,将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数,具体包括:
将提取的长短期特征序列输入到多层感知机中,其结构为输入维度2048,输出维度1000,以一个展平成一维张量的形式接收,然后乘以权重矩阵,权重矩阵乘法产生输出特征,得到各个类别的置信度分数;
S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值;
所述S6中,基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值,具体包括:
基于各个类别的置信度分数,将获取的输出特征与真实标签送入带有标签平滑机制的交叉熵损失函数中输出识别概率值,传统的交叉熵损失函数计算公式如下:
Figure FDA0003688249620000021
其中:p为预测概率值,q为1-p,y为真实标签值;在带有标签平滑机制的交叉熵损失函数中把q值改为:
Figure FDA0003688249620000031
其中:ε为一个小常数取为0.1,N为类别数。
2.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法,其特征在于,所述S1中,对大型唇读数据集进行预处理,获取唇部识别图像,具体包括:
在每一轮上对输入唇读视频帧的顺序进行打乱,将其大小调整为96×96,并随机裁剪为88×88,作为3D卷积模型的输入;
在3D卷积模型每次训练迭代中选择部分视频帧,对每个视频帧以0.5的概率水平翻转转换成灰度图;
对灰度图进行归一化处理,获取唇部识别图像。
3.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法,其特征在于,所述S4中,双向门控循环单元的设定,具体包括:
设定输入维度为512,隐层维度为1024,共有3层,输出维度为2048,门控循环单元计算公式如下:
Figure FDA0003688249620000032
其中:zt=σ(Wzxt+Uzht-1),rt=σ(Wrxt+Urht-1)
Figure FDA0003688249620000033
z为更新门,r为复位门,
Figure 4
为单元值,h为隐藏值,W和U分别为输入和隐藏的权重矩阵。
CN202110801803.7A 2021-07-15 2021-07-15 一种基于深度卷积和注意力机制的唇语识别方法 Active CN113343937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110801803.7A CN113343937B (zh) 2021-07-15 2021-07-15 一种基于深度卷积和注意力机制的唇语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110801803.7A CN113343937B (zh) 2021-07-15 2021-07-15 一种基于深度卷积和注意力机制的唇语识别方法

Publications (2)

Publication Number Publication Date
CN113343937A CN113343937A (zh) 2021-09-03
CN113343937B true CN113343937B (zh) 2022-09-02

Family

ID=77479823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110801803.7A Active CN113343937B (zh) 2021-07-15 2021-07-15 一种基于深度卷积和注意力机制的唇语识别方法

Country Status (1)

Country Link
CN (1) CN113343937B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989933B (zh) * 2021-10-29 2024-04-16 国网江苏省电力有限公司苏州供电分公司 一种在线行为识别模型训练、检测方法及系统
CN113837147B (zh) * 2021-10-29 2022-08-05 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN114581811B (zh) * 2022-01-12 2023-04-18 北京云辰信通科技有限公司 基于时空注意力机制的视觉语言识别方法和相关设备
CN114494791B (zh) * 2022-04-06 2022-07-08 之江实验室 一种基于注意力选择的transformer运算精简方法及装置
CN116580440B (zh) * 2023-05-24 2024-01-26 北华航天工业学院 基于视觉transformer的轻量级唇语识别方法
CN117392672B (zh) * 2023-12-11 2024-03-19 季华实验室 流式细胞分类模型的获取方法、分类方法及相关设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
DE112019000049T5 (de) * 2018-02-18 2020-01-23 Nvidia Corporation Für autonomes fahren geeignete objekterfassung und erfassungssicherheit
CN109858412A (zh) * 2019-01-18 2019-06-07 东北大学 一种基于混合卷积神经网络的唇语识别方法
US11210554B2 (en) * 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN111178157A (zh) * 2019-12-10 2020-05-19 浙江大学 一种基于音调的级联序列到序列模型的中文唇语识别方法
CN111339908B (zh) * 2020-02-24 2023-08-15 青岛科技大学 基于多模态信息融合与决策优化的组群行为识别方法
CN111401250A (zh) * 2020-03-17 2020-07-10 东北大学 一种基于混合卷积神经网络的中文唇语识别方法及装置
CN111753704B (zh) * 2020-06-19 2022-08-26 南京邮电大学 一种基于视频人物唇读识别的时序集中预测方法
CN112330713B (zh) * 2020-11-26 2023-12-19 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法
CN112784798B (zh) * 2021-02-01 2022-11-08 东南大学 一种基于特征-时间注意力机制的多模态情感识别方法
CN112861791B (zh) * 2021-03-11 2022-08-23 河北工业大学 一种结合图神经网络和多特征融合的唇语识别方法
CN113033452B (zh) * 2021-04-06 2022-09-16 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法

Also Published As

Publication number Publication date
CN113343937A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113343937B (zh) 一种基于深度卷积和注意力机制的唇语识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
Hao et al. A survey of research on lipreading technology
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN116580440B (zh) 基于视觉transformer的轻量级唇语识别方法
CN112307995A (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN111259785B (zh) 基于时间偏移残差网络的唇语识别方法
CN113627266A (zh) 基于Transformer时空建模的视频行人重识别方法
US11908222B1 (en) Occluded pedestrian re-identification method based on pose estimation and background suppression
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN116665695B (zh) 虚拟对象口型驱动方法、相关装置和介质
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN111539445B (zh) 一种半监督特征融合的对象分类方法及系统
CN115035508A (zh) 基于主题引导的Transformer的遥感图像字幕生成方法
CN115601562A (zh) 一种使用多尺度特征提取的锦鲤鱼检测与识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
CN114040126A (zh) 一种文字驱动的人物播报视频生成方法及装置
CN117238019A (zh) 基于时空相对变换的视频人脸表情类别识别方法和系统
CN116884412A (zh) 一种基于混合三维残差门控循环单元的唇语识别方法
CN115690917B (zh) 一种基于外观和运动智能关注的行人动作识别方法
CN111488797A (zh) 一种行人再识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yuan Quanbo

Inventor after: Wang Huijuan

Inventor after: Pu Gangqiang

Inventor before: Wang Huijuan

Inventor before: Pu Gangqiang

Inventor before: Yuan Quanbo

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230928

Address after: A07, 1st Floor, Office Building, No. 85 Huizhi Road, Longhe Economic Development Zone, Anci District, Langfang City, Hebei Province, 065000

Patentee after: Zhengji Taichuan Technology (Langfang) Co.,Ltd.

Address before: 065099 No. 133 Aimin East Road, Langfang City, Hebei Province

Patentee before: NORTH CHINA INSTITUTE OF AEROSPACE ENGINEERING

TR01 Transfer of patent right