CN110569823B - 一种基于rnn的手语识别与骨架生成方法 - Google Patents
一种基于rnn的手语识别与骨架生成方法 Download PDFInfo
- Publication number
- CN110569823B CN110569823B CN201910880965.7A CN201910880965A CN110569823B CN 110569823 B CN110569823 B CN 110569823B CN 201910880965 A CN201910880965 A CN 201910880965A CN 110569823 B CN110569823 B CN 110569823B
- Authority
- CN
- China
- Prior art keywords
- skeleton
- sequence
- sign language
- function
- rnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 68
- 238000005070 sampling Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 206010011878 Deafness Diseases 0.000 abstract description 6
- 230000006854 communication Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于RNN的手语识别与骨架生成方法,具体包括以下步骤:步骤1、使用Kinect RGB‑D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。当给定CSL语义时,利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列,方便聋人与普通人之间的沟通。
Description
技术领域
本发明属于手语识别方法技术领域,涉及一种基于RNN的手语识别与骨架生成方法。
背景技术
手语识别是一种能够将手语信息转化成语音、文字并进行朗读或显示的技术。中国手语(CSL,Chinese signal language)的自动识别和生成是聋哑人与普通人之间双向沟通的关键技术。以前的大多数研究都集中在CSL识别上。然而,CSL识别只是聋哑人和普通人之间沟通的一个方面,另一个具有挑战性的任务是教会机器自动绘制生成CSL,以便可以将普通人的想法转化成手语向聋哑人表达出来。
现有技术中,手语识别的方法主要有以下几种:
第一种,手语识别通常采用HMM(Hidden Markov Model,隐马尔科夫),这种方法在模型中引入了前一状态对当前状态的影响,通过计算输出概率最大化来实现手语的识别;第二种,连续手语识别也可采用CRF(Conditional Random Field,条件随机场),这种方法在模型中引入上下文信息,需要对训练特征进行左右扩展,并引入人工特征模板进行训练。传统方法中首先分别训练得到手语模型,然后采用逐级预测的方式对待识别手语进行识别。第三种,采用机器学习算法如SVM、BP神经网络搭建语言模型进行识别。这种需要事先人工采集并标注好数据,进行监督式学习。
现有技术中,中国手语骨架生成方法主要有以下几种:
第一种,变分自编码器(VAE:Variational Autoencode)分为编码器和解码器两个部分。其能力来源实际上是大量样本经过学习编码后,在数字层面对编码结果进行微调,再解码生成图片的过程。所生成的图片,是对原样本图的某种变形模仿。
第二种,生成对抗网络GAN(Generative adversarial networks)分为生成模型和判别模型。GAN是通过对抗过程来估计生成模型的框架。在这种框架下,需要同时训练两个网络,即一个能获取数据分布的生成模型G和一个估计数据来源于真实样本概率的判别模型D。生成器的训练目的是最大化判别器犯错误的概率,而判别器的训练过程是最小化犯错误的概率。为了构建生成模型,始终训练生成器以匹配数据分布,同时还训练鉴别器以在最小-最大优化框架中分离实际和生成的数据。
2、现有技术的客观缺点:
现有中国手语识别三种方法主要存在以下问题:虽然采用左右扩展的方式能在一定程度引入前后状态的关联,但是为了减小模型规模和复杂度,扩展大小十分有限,因此链接前后的距离不能太远,造成当前时刻对前面状态感知能力的下降;采用监督式学习,需要人工进行标注数据,数据采集工作繁琐,工作量大。并未考虑非线性扰动对识别结果的影响,当数据有小的扰动的时候,识别算法稳定性不强,每一层都需要被高强度训练。
现有中国手语骨架生成方法主要存在以下问题:没有全局优化,比不上监督学习的性能,多层失效对通用目标的表征而言,重建输入可能不是理想的指标;难以训练和转换问题,可用性差。
发明内容
本发明的目的是提供一种基于RNN的手语识别与骨架生成方法,解决了现有技术中存在的手语识别方法数据采集工作量大,和识别、骨架生成方法没有全局优化的问题。
本发明所采用的技术方案是,一种基于RNN的手语识别与骨架生成方法,具体包括以下步骤:
步骤1、使用Kinect RGB-D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;
步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;
步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。
本发明的特点还在于:
步骤1具体包括以下内容:
步骤1.1、使用Kinect RGB-D数据集,包含总共v个符号类,其中每个类包括q个骨架序列k;通过模糊C均值聚类FCM的方法将所有骨架序列k转换为T帧,即每个序列的长度为T,使得k=(k1,…ki,…kT),其中参数M表示骨架ki的关节数,其中jx i和jy i分别是第i个关节的x坐标和y坐标;通过k-means方法进行聚类骨架,产生总共F个骨架组,第i组表示为Gi(i=1,…,F),那么骨架序列k就可以表示为
K=(k1,L,kT),其中kj∈Gi,i=(1,…,F)
kj=(jx i,jy i),其中i=(1,…,M);
步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构,h=(h1,...,hT)为隐藏序列;
步骤1.2具体包括以下内容:
RNN隐藏层通常通过迭代以下两个方程计算:
Bi-LSTM中的隐藏层函数h由以下复合函数得到:
其中σ是sigmoid函数,ct是状态单元,ct-1表示上一时刻的状态信息;it是输入门,ot是输出门,ft是遗忘门,W是权重矩阵,Wki、Whi、Wci表示输入门的权重,Wkf、Whf、Wcf表示遗忘门的权重,Wkc、Whc表示状态单元的权重,Wko、Who、Wco输出门的权重;b是偏置矢量,bi表示输入偏置量,bf表示遗忘门的偏置量,bc表示状态单元的偏置量,bo表示输出门的偏置量;ht-1是上一时刻的隐藏函数,ht是当前时刻的隐藏函数,tanh表示双曲正切函数。
步骤2具体包括以下内容:
步骤2.1、根据语义标签s,识别模型可以给出对应标签s的隐藏变量h;其中s与h的分布关系为:
假设P(h|s)是多元高斯分布:
其中mh和Σh分别是隐藏变量h的均值和协方差;
使用函数来表示此计算输入符号标签s和输出分布参数,
步骤2.2、使用多元高斯分布P(h|s)的随机取样来获得随机向量hg,使得hg服从多元高斯分布,即hg~P(h|s);利用指数运算将mh和Σh转换为标准偏差参数,使用标准高斯分布N(0,I)构造随机向量hg:
hg=mh+Σh⊙N(0,I)
步骤2.3、解码hg获得每一级骨架序列生成数据dg,使用基于RNN的解码函数表示此过程:
步骤2.4具体包括以下内容:
步骤3具体包括以下内容:
本发明的有益效果是:本发明采用模糊C均值聚类算法FCM可以实现自动对样本数据进行分类,不需要人工进行标注数据,数据采集工作量小;本发明对识别、骨架生成方法进行了全局优化,识别算法稳定性强;当给定CSL语义时,利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列,方便聋人与普通人之间的沟通。
附图说明
图1是本发明一种基于RNN的手语识别与骨架生成方法的识别系统训练流程图;
图2是本发明一种基于RNN的手语识别与骨架生成方法的CSL识别和生成模型架构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于RNN的手语识别与骨架生成方法,具体包括以下步骤:
步骤1、使用Kinect RGB-D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;
步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;
步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。
步骤1具体包括以下内容:
步骤1.1、使用Kinect RGB-D数据集,包含总共v个符号类,其中每个类包括q个骨架序列k;通过模糊C均值聚类FCM的方法将所有骨架序列k转换为T帧,即每个序列的长度为T,使得k=(k1,…ki,…kT),其中参数M表示骨架ki的关节数,其中jx i和jy i分别是第i个关节的x坐标和y坐标;通过k-means方法进行聚类骨架,产生总共F个骨架组,第i组表示为Gi(i=1,…,F),那么骨架序列k就可以表示为
K=(k1,L,kT),其中kj∈Gi,i=(1,…,F)
kj=(jx i,jy i),其中i=(1,…,M);
模糊C均值聚类算法FCM的含义:在众多模糊聚类算法中,模糊C均值(FCM)算法应用最广泛且较成功,它通过优化目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类属以达到自动对样本数据进行分类的目的。
步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构,h=(h1,...,hT)为隐藏序列;
步骤1.2具体包括以下内容:
RNN隐藏层通常通过迭代以下两个方程计算:
Bi-LSTM中的隐藏层函数h由以下复合函数得到:
其中σ是sigmoid函数,ct是状态单元,ct-1表示上一时刻的状态信息;it是输入门,ot是输出门,ft是遗忘门,W是权重矩阵,Wki、Whi、Wci表示输入门的权重,Wkf、Whf、Wcf表示遗忘门的权重,Wkc、Whc表示状态单元的权重,Wko、Who、Wco输出门的权重;b是偏置矢量,bi表示输入偏置量,bf表示遗忘门的偏置量,bc表示状态单元的偏置量,bo表示输出门的偏置量;ht-1是上一时刻的隐藏函数,ht是当前时刻的隐藏函数,tanh表示双曲正切函数。
步骤2具体包括以下内容:
步骤2.1、根据语义标签s,识别模型可以给出对应标签s的隐藏变量h;其中s与h的分布关系为:
假设P(h|s)是多元高斯分布:
其中mh和Σh分别是隐藏变量h的均值和协方差;
使用函数来表示此计算输入符号标签s和输出分布参数,
步骤2.2、使用多元高斯分布P(h|s)的随机取样来获得随机向量hg,使得hg服从多元高斯分布,即hg~P(h|s);利用指数运算将mh和Σh转换为标准偏差参数,使用标准高斯分布N(0,I)构造随机向量hg:
hg=mh+Σh⊙N(0,I)
步骤2.3、解码hg获得每一级骨架序列生成数据dg,使用基于RNN的解码函数表示此过程:
步骤2.4具体包括以下内容:
步骤3具体包括以下内容:
本发明一种基于RNN的手语识别与骨架生成方法,其有益效果在于:本发明采用模糊C均值聚类算法FCM可以实现自动对样本数据进行分类,不需要人工进行标注数据,数据采集工作量小;本发明对识别、骨架生成方法进行了全局优化,识别算法稳定性强;当给定CSL语义时,利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列,方便聋人与普通人之间的沟通。
Claims (3)
1.一种基于RNN的手语识别与骨架生成方法,其特征在于,具体包括以下步骤:
步骤1、使用Kinect RGB-D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;
所述步骤1具体包括以下内容:
步骤1.1、使用Kinect RGB-D数据集,包含总共v个符号类,其中每个类包括q个骨架序列k;通过模糊C均值聚类FCM的方法将所有骨架序列k转换为T帧,即每个序列的长度为T,使得k=(k1,…ki,…kT),其中参数M表示骨架ki的关节数,其中jx i和jy i分别是第i个关节的x坐标和y坐标;通过k-means方法进行聚类骨架,产生总共F个骨架组,第i组表示为Gi(i=1,…,F),那么骨架序列k就可以表示为
K=(k1,L,kT),其中kj∈Gi,i=(1,…,F)
kj=(jx i,jy i),其中i=(1,…,M);
步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构,h=(h1,…,hT)为隐藏序列;
所述步骤1.2具体包括以下内容:
Bi-LSTM中的隐藏层函数h由以下复合函数得到:
其中σ是sigmoid函数,ct是状态单元,ct-1表示上一时刻的状态信息;it是输入门,ot是输出门,ft是遗忘门,W是权重矩阵,Wki、Whi、Wci表示输入门的权重,Wkf、Whf、Wcf表示遗忘门的权重,Wkc、Whc表示状态单元的权重,Wko、Who、Wco输出门的权重;b是偏置矢量,bi表示输入偏置量,bf表示遗忘门的偏置量,bc表示状态单元的偏置量,bo表示输出门的偏置量;ht-1是上一时刻的隐藏函数,ht是当前时刻的隐藏函数,tanh表示双曲正切函数;
步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;
所述步骤2具体包括以下内容:
步骤2.1、根据语义标签s,识别模型可以给出对应标签s的隐藏变量h;其中s与h的分布关系为:
假设P(h|s)是多元高斯分布:
其中mh和Σh分别是隐藏变量h的均值和协方差;
使用函数来表示此计算输入符号标签s和输出分布参数,
步骤2.2、使用多元高斯分布P(h|s)的随机取样来获得随机向量hg,使得hg服从多元高斯分布,即hg~P(h|s);利用指数运算将mh和Σh转换为标准偏差参数,使用标准高斯分布N(0,I)构造随机向量hg:
hg=mh+Σh⊙N(0,I)
步骤2.3、解码hg获得每一级骨架序列生成数据dg,使用基于RNN的解码函数表示此过程:
步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910880965.7A CN110569823B (zh) | 2019-09-18 | 2019-09-18 | 一种基于rnn的手语识别与骨架生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910880965.7A CN110569823B (zh) | 2019-09-18 | 2019-09-18 | 一种基于rnn的手语识别与骨架生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569823A CN110569823A (zh) | 2019-12-13 |
CN110569823B true CN110569823B (zh) | 2023-04-18 |
Family
ID=68780851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910880965.7A Active CN110569823B (zh) | 2019-09-18 | 2019-09-18 | 一种基于rnn的手语识别与骨架生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569823B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354246A (zh) * | 2020-01-16 | 2020-06-30 | 浙江工业大学 | 一种用于帮助聋哑人交流的系统及方法 |
CN111401141B (zh) * | 2020-02-25 | 2022-07-15 | 浙江大学 | 一种基于骨架的3d手势估计方法 |
CN111444820B (zh) * | 2020-03-24 | 2021-06-04 | 清华大学 | 一种基于成像雷达的手势识别方法 |
CN111340005A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法和系统 |
CN113642422A (zh) * | 2021-07-27 | 2021-11-12 | 东北电力大学 | 一种连续中文手语识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778700A (zh) * | 2017-01-22 | 2017-05-31 | 福州大学 | 一种基于変分编码器中国手语识别方法 |
CN107103311A (zh) * | 2017-05-31 | 2017-08-29 | 西安工业大学 | 一种连续手语的识别方法及其装置 |
CN108171198B (zh) * | 2018-01-11 | 2020-02-11 | 合肥工业大学 | 基于非对称多层lstm的连续手语视频自动翻译方法 |
US10289903B1 (en) * | 2018-02-12 | 2019-05-14 | Avodah Labs, Inc. | Visual sign language translation training device and method |
CN108615009B (zh) * | 2018-04-24 | 2019-07-23 | 山东师范大学 | 一种基于动态手势识别的手语翻译交流系统 |
CN109284682B (zh) * | 2018-08-21 | 2022-06-17 | 南京邮电大学 | 一种基于stt-lstm网络的手势识别方法及系统 |
CN109902583B (zh) * | 2019-01-28 | 2020-04-24 | 电子科技大学 | 一种基于双向独立循环神经网络的骨架手势识别方法 |
CN110110602A (zh) * | 2019-04-09 | 2019-08-09 | 南昌大学 | 一种基于三维残差神经网络和视频序列的动态手语识别方法 |
-
2019
- 2019-09-18 CN CN201910880965.7A patent/CN110569823B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110569823A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569823B (zh) | 一种基于rnn的手语识别与骨架生成方法 | |
Xiao et al. | Skeleton-based Chinese sign language recognition and generation for bidirectional communication between deaf and hearing people | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
Guanghui et al. | Multi-modal emotion recognition by fusing correlation features of speech-visual | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN110321418B (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
Doetsch et al. | Bidirectional decoder networks for attention-based end-to-end offline handwriting recognition | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN108256307B (zh) | 一种智能商务旅居房车的混合增强智能认知方法 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
Xu et al. | (Retracted) Method of generating face image based on text description of generating adversarial network | |
CN114756687A (zh) | 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN113516152A (zh) | 一种基于复合图像语义的图像描述方法 | |
CN114444481B (zh) | 一种新闻评论的情感分析与生成方法 | |
CN115205521A (zh) | 基于神经网络的厨余垃圾检测方法 | |
Ahammad et al. | Recognizing Bengali sign language gestures for digits in real time using convolutional neural network | |
CN114283482A (zh) | 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型 | |
CN116363712B (zh) | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
Koner et al. | Scenes and surroundings: Scene graph generation using relation transformer | |
CN114386412B (zh) | 一种基于不确定性感知的多模态命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231205 Address after: 719054 High tech Enterprise Incubation Center 708, Annex Building, Mingzhu Avenue Entrepreneurship Building, High tech Industrial Park, Yulin City, Shaanxi Province Patentee after: Yulin Zhituhui Technology Co.,Ltd. Address before: 710021 No. 2 Xuefu Road, Weiyang District, Xi'an, Shaanxi Patentee before: XI'AN TECHNOLOGICAL University |