CN112308080A - 面向指向性视觉理解和分割的图像描述预测方法 - Google Patents
面向指向性视觉理解和分割的图像描述预测方法 Download PDFInfo
- Publication number
- CN112308080A CN112308080A CN202011222105.3A CN202011222105A CN112308080A CN 112308080 A CN112308080 A CN 112308080A CN 202011222105 A CN202011222105 A CN 202011222105A CN 112308080 A CN112308080 A CN 112308080A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- directional
- language
- visual
- logit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;包括如下步骤:分别获取RGB图像在三个尺度的视觉特征:Fv1,Fv2,Fv3,以及描述语言的语言特征;将语言特征与视觉特征Fv1融合,然后进行多尺度的融合,进而通过自底而下的融合,得到新的特征为{Fm1′,Fm2′,Fm3′};利用Fm3′预测得到指向性视觉分割结果,利用Fm1′预测得到指向性视觉理解结果;给定预测得到的指向性视觉分割结果,以及指向性视觉理解结果的目标框和其对应的置信度,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。此种预测方法可提高预测精度。
Description
技术领域
本发明属于图像处理技术领域,涉及指向性视觉理解和分割,特别涉及一种面向指向性视觉理解和分割的图像描述预测方法。
背景技术
指向性视觉理解和分割,是两种基于视觉和语言的多模态任务。给定关于图像中的某个物体的描述,指向性视觉理解需要将图像中的对应目标的外接矩形计算出来,而指向性视觉分割需要将图像中的对应物体的掩膜计算出来。
在目前的方法和文献中,指向性视觉理解和分割通常被视作为两种不同的任务,从而被设计出了不同的神经网络。对于指向性视觉理解,现有的方法大多采用多阶段的神经网络。具体而言,现有的方法先利用目标检测网络提取和检测出图片中的不同物体,再通过计算指向性描述语句与物体之间的相似度,从而得到与描述最相关的物体。另外还有部分方法采用单阶段的神经网络,把语言信息嵌入到卷积神经网络中直接回归出描述物体的外接矩形。而对于指向性视觉分割,现有方法通过将语言信息与视觉神经网络进行融合,从而进一步预测出对应描述物体的掩膜。
现有的方法中,大多采用两个单任务神经网络来分别建模这两个方法,比如MMI,CMN,ParalAttn等方法用于建模指向性视觉理解,另外DMN,RRN,KWA等方法用于建模指向性视觉分割。同时少部分多任务的神经网络是基于多阶段的建模方法,比如MattNet采用基于Mask-RCNN的多任务目标检测器来同时预测出图像中所有物体的外接矩形以及掩膜,再通过语言信息与物体信息的匹配来获取与描述内容最相关的物体的外接矩形和掩膜。由于基于多阶段的网络结构极度依赖于目标检测器来提取和检测图片中的物体,这导致了它们的泛化性能较差,网络的推理时间久,同时在训练过程中两个任务之间也几乎没有起到互相促进协同的作用。
发明内容
本发明的目的,在于提供一种面向指向性视觉理解和分割的图像描述预测方法,其可提高预测精度。
为了达成上述目的,本发明的解决方案是:
一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;包括如下步骤:
步骤1,设置输入的RGB图像的大小为416×416×3,描述语言的最长文本输入设置为15;
步骤3,将语言特征的维度变成1×1×1024,将视觉特征Fv1与其进行融合得到Fm1,然后进行多尺度的融合,得到三个尺度的多模态特征{Fm1,Fm2,Fm3};进而通过自底而下的融合以更新多模态特征,得到新的特征为{Fm1′,Fm2′,Fm3′};
步骤4,利用Fm3′预测得到指向性视觉分割结果表示52×52个位置的每个位置上物体的分割结果;利用Fm1′预测得到指向性视觉理解结果分别表示13×13个位置的每个位置上预测得到的关于对象的外接矩形的中心坐标、长宽、置信度;
步骤5,给定预测得到的指向性视觉分割结果Logits,以及指向性视觉理解结果的目标框记为b和其对应的置信度记为p,其中Logits中的每个元素oi被更新为:
其中αup和αdec由下式自适应地决定:
αup=sin(p)*p
αdec=-sin(p)*p
通过上式,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。
上述步骤3中,将视觉特征Fv1与语言特征进行融合得到Fm1的公式是:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
上述步骤3中,进行多尺度的融合,得到三个尺度的多模态特征的公式是:
其中,UpSample()表示赋值函数,σ为Leaky-ReLU激活函数,[]表示两个矩阵在最后一个维度进行拼接并且i∈{2,3}。
上述步骤4中,基于训练的神经网络进行预测,所用的损失函数的计算方法是:
步骤A,通过如下线性映射得到需要预测的结果:
Logits=Sigmoid(F′m1Wls)
Logitxy=Sigmoid(F′m3Wxy)
Logitwh=exp(F′m3Wwh)
Logitconf=Sigmoid(F′m3Wconf)
而Logitxy,Logitwh,Logitconf分别为预测的物体外接矩形的中心坐标、长宽、置信度:
其中BinaryCrossEntry和SmoothL1定义为:
BinaryCrossEntry(x,x′)=x′log(x)+(1-x′)log(1-x)
lcem=-log(Es′TscEc′)
其中:
l=0.1×ls+lxy+lwh+lconf+lcem。
上述神经网络的训练过程中,使用Adam优化器,并设置初始学习率和batchsize分别为0.001和35。
采用上述方案后,本发明利用单阶段的神经网络来同时建模指向性视觉理解和指向性视觉分割两个任务,但是,由于利用单阶段神经网络来同时建模两个任务容易出现预测分歧的问题,即两个任务预测的物体可能会不一致,这大大影响了检测的精度。因此,本发明的改进点体现在:
(1)本发明采用一项基于协同能量最大化的损失函数来最大化两个任务之间的共同关注,并利用自适应的后处理方法解决单阶段多任务神经网络在建模这两个任务过程中预测不一致的关键问题,大大提高了两个任务的协同性;
(2)本发明采用一种基于单阶段的神经网络来建模指向性视觉理解和分割两个任务,同时这两个任务在训练过程中能够互相促进。
附图说明
图1是指向性视觉分割和理解图示;
图2是预测分歧的图示;
图3是单阶段协同多任务网络结构图示。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明提供一种面向指向性视觉理解和分割的图像描述预测方法,包括如下过程:
一、模型实施过程:
1.1模型的输入:
模型的输入分别为一张RGB的图像,其大小为416×416×3,以及一句对于图中某个物体的描述语言,其中模型的最长文本输入设置为15,如图1所示。
1.2视觉特征编码器:
1.3语言特征编码器:
1.4多模态多尺度的特征编码器:
如图3所示,为了得到视觉和语言的联合表示,我们将两种模态的信息进行多模态融合,首先我们将语言特征的维度变成1×1×1024,接着,我们将视觉特征Fv1与其进行融合得到Fm1,其过程如下式:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中,UpSample()表示赋值函数,[]表示两个矩阵在最后一个维度进行拼接并且i∈{2,3},由此,我们得到了三个尺度的多模态特征{Fm1,Fm2,Fm3}。为了进一步增强视觉特征,我们再通过自底而下的融合来更新多尺度多模态特征,如下式所示:
其中i∈{2,3},得到新的特征为{Fm1′,Fm2′,Fm3′}。
1.5模型的输出:
根据上一步骤得到的特征{Fm1′,Fm2′,Fm3′},我们利用Fm1′,Fm3′来分别计算指向性视觉理解和分割的结果,计算过程如下:
Logits=Sigmoid(F′m3Wls)
Logitxy=Sigmoid(F′m1Wxy)
Logitwh=exp(F′m1Wwh)
Logitconf=Sigmoid(F′m1Wconf)
其中,为可学习的权重。为指向性视觉分割结果,它表示为每个位置上(总共52×52个位置)物体的分割结果。为指向性理解的结果,他们分别表示每个位置上(总共13×13个位置)预测出来关于物体的外接矩形的中心坐标,长宽以及置信度。
1.6自适应的后处理:
如图3所示,给定指向性视觉分割分支预测得到的指向性视觉分割结果Logits,以及指向性视觉理解预测得到的目标框记为b和其对应的置信度记为p,其中Logits中的每个元素oi可以被更新为:
其中αup和αdec由下式自适应地决定:
αup=sin(p)*p
αdec=-sin(p)*p
通过上式,算法利用指向性视觉理解分支的预测结果来自适应地增强并重新得到指向性视觉分割分支的预测结果。其中,我们设置αup和αdec分别为1.5和0.5。
二、模型训练过程:
2.1损失函数的计算:
利用得到的Fm1′和Fm3′,我们分别用于建模指向性视觉理解任务和指向性视觉分割任务。我们通过线性映射得到需要预测的结果,如下式所示:
Logits=Sigmoid(F′m1Wls)
Logitxy=Sigmoid(F′m3Wxy)
Logitwh=exp(F′m3Wwh)
Logitconf=Sigmoid(F′m3Wconf)
而Logitxy,Logitwh,Logitconf分别为预测的物体外接矩形的中心坐标,长宽以及置信度。
其中BinaryCrossEntry和SmoothL1定义为:
BinaryCrossEntry(x,x′)=x′log(x)+(1-x′)log(1-x)
此外,如图2所示,我们提出了一种协同能量最大化的损失函数。首先我们将Fm1′和Fm3′通过一个基于语言的注意力模块GARAN[5]来得到注意力特征和我们设计了一项损失函数来通过优化两个注意力特征来最大化两个任务分支的共同关注。该项损失可以写成下式:
lcem=-log(Es′TscEc′)
其中:
l=0.1×ls+lxy+lwh+lconf+lcem
通过梯度下降,可优化训练模型参数。
2.2模型训练参数设置:
在训练过程中,我们使用Adam优化器,并设置初始学习率和batchsize分别为0.001和35。模型总共训练45轮,在第30,35,40轮迭代时,模型的学习率下降10倍。
2.3模型的训练:
对于模型的训练,我们首先将输入的图片和语言经过步骤一得到模型的输出结果,接着我们通过步骤2.1来计算模型输出和标注好的标签之间的损失函数,最后,我们利用损失函数的梯度反向传播来更新步骤一中的模型参数,训练和迭代过程的设置如步骤2.2所描述。最终我们完成整个模型的训练。
三、模型部署过程:
在经过步骤二的模型训练后,对于训练完毕的模型,我们将输入的图片和描述语言经过步骤一即可得到模型的输出作为模型的预测结果。
参考文献:
[1]Tsungyi Lin,Michael Maire,Serge J Belongie,James Hays,PietroPerona,Deva Ramanan,Piotr Dollar,and C Lawrence Zitnick.Microsoft coco:Commonobjects in context.In ECCV,2014.
[2]Joseph Redmon and Ali Farhadi.Yolov3:An incremental improvement.InarXiv preprint,2018.
[3]Jeffrey Pennington,Richard Socher,and Christopher Manning.Glove:Global vectors for word representation.In EMNLP,2014.
[4]Sepp Hochreiter and Jurgen Schmidhuber.1997.Long short-termmemory.Neural Computation(1997).
[5]Zhou Yiyi,Ji Rongrong,Gen Luo,Sun Xiaoshuai,Jinsong Su,Chia-WenLin,and Qi Tian.A real-time global inference network for one-stage referringexpression comprehension.In arXiv preprint,2019.
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;其特征在于包括如下步骤:
步骤1,设置输入的RGB图像的大小为416×416×3,描述语言的最长文本输入设置为15;
步骤3,将语言特征的维度变成1×1×1024,将视觉特征Fv1与其进行融合得到Fm1,然后进行多尺度的融合,得到三个尺度的多模态特征{Fm1,Fm2,Fm3};进而通过自底而下的融合以更新多模态特征,得到新的特征为{Fm1′,Fm2′,Fm3′};
步骤4,利用Fm3′预测得到指向性视觉分割结果表示52×52个位置的每个位置上物体的分割结果;利用Fm1′预测得到指向性视觉理解结果分别表示13×13个位置的每个位置上预测得到的关于对象的外接矩形的中心坐标、长宽、置信度;
步骤5,给定预测得到的指向性视觉分割结果Logits,以及指向性视觉理解结果的目标框记为b和其对应的置信度记为p,其中Logits中的每个元素oi被更新为:
其中αup和αdec由下式自适应地决定:
αup=sin(p)*p
αdec=-sin(p)*p
通过上式,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。
6.如权利要求1所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述步骤4中,基于训练的神经网络进行预测,所用的损失函数的计算方法是:
步骤A,通过如下线性映射得到需要预测的结果:
Logits=Sigmoid(F′m1Wls)
Logitxv=Sigmoid(F′m3Wxy)
Logitwh=exp(F′m3Wwh)
Logitconf=Sigmoid(F′m3Wconf)
而Logitxy,Logitwh,Logitconf分别为预测的物体外接矩形的中心坐标、长宽、置信度:
其中BinaryCrossEntry和SmoothL1定义为:
BinaryCrossEntry(x,x′)=x′log(x)+(1-x′)log(1-x)
lcem=-log(Es′TscEc′)
其中:
l=0.1×ls+lxy+lwh+lconf+lcem。
7.如权利要求6所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述神经网络的训练过程中,使用Adam优化器,并设置初始学习率和batchsize分别为0.001和35。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222105.3A CN112308080B (zh) | 2020-11-05 | 2020-11-05 | 面向指向性视觉理解和分割的图像描述预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222105.3A CN112308080B (zh) | 2020-11-05 | 2020-11-05 | 面向指向性视觉理解和分割的图像描述预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308080A true CN112308080A (zh) | 2021-02-02 |
CN112308080B CN112308080B (zh) | 2023-05-30 |
Family
ID=74325014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011222105.3A Active CN112308080B (zh) | 2020-11-05 | 2020-11-05 | 面向指向性视觉理解和分割的图像描述预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308080B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801234A (zh) * | 2021-04-12 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于神经网络的图像诗句描述生成方法、装置和设备 |
CN113128431A (zh) * | 2021-04-25 | 2021-07-16 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、介质与电子设备 |
CN113515886A (zh) * | 2021-04-28 | 2021-10-19 | 上海科技大学 | 基于地标特征卷积的视觉定位方法、系统、终端及介质 |
CN113592881A (zh) * | 2021-08-03 | 2021-11-02 | 深圳思谋信息科技有限公司 | 图片指代性分割方法、装置、计算机设备和存储介质 |
CN115019037A (zh) * | 2022-05-12 | 2022-09-06 | 北京百度网讯科技有限公司 | 对象分割方法及对应模型的训练方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877007A (zh) * | 2010-05-18 | 2010-11-03 | 南京师范大学 | 融合空间方位关系语义的遥感图像检索方法 |
CN110490880A (zh) * | 2019-08-16 | 2019-11-22 | 重庆邮电大学 | 一种基于局部视觉线索的髋关节x光图像分割方法及系统 |
US20200117951A1 (en) * | 2018-10-15 | 2020-04-16 | Ancestry.com Operations Inc. (019404) (019404) | Image captioning with weakly-supervised attention penalty |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
-
2020
- 2020-11-05 CN CN202011222105.3A patent/CN112308080B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877007A (zh) * | 2010-05-18 | 2010-11-03 | 南京师范大学 | 融合空间方位关系语义的遥感图像检索方法 |
US20200117951A1 (en) * | 2018-10-15 | 2020-04-16 | Ancestry.com Operations Inc. (019404) (019404) | Image captioning with weakly-supervised attention penalty |
CN110490880A (zh) * | 2019-08-16 | 2019-11-22 | 重庆邮电大学 | 一种基于局部视觉线索的髋关节x光图像分割方法及系统 |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
Non-Patent Citations (1)
Title |
---|
颜野;夏海缀;李旭升;何为;朱学华;张智荧;肖春雷;刘余庆;黄华;何良华;卢剑;: "基于U型卷积神经网络学习的前列腺癌影像重建模型在手术导航中的应用", 北京大学学报(医学版) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801234A (zh) * | 2021-04-12 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于神经网络的图像诗句描述生成方法、装置和设备 |
CN113128431A (zh) * | 2021-04-25 | 2021-07-16 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、介质与电子设备 |
CN113515886A (zh) * | 2021-04-28 | 2021-10-19 | 上海科技大学 | 基于地标特征卷积的视觉定位方法、系统、终端及介质 |
CN113515886B (zh) * | 2021-04-28 | 2023-11-24 | 上海科技大学 | 基于地标特征卷积的视觉定位方法、系统、终端及介质 |
CN113592881A (zh) * | 2021-08-03 | 2021-11-02 | 深圳思谋信息科技有限公司 | 图片指代性分割方法、装置、计算机设备和存储介质 |
CN113592881B (zh) * | 2021-08-03 | 2023-11-03 | 深圳思谋信息科技有限公司 | 图片指代性分割方法、装置、计算机设备和存储介质 |
CN115019037A (zh) * | 2022-05-12 | 2022-09-06 | 北京百度网讯科技有限公司 | 对象分割方法及对应模型的训练方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112308080B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902293B (zh) | 一种基于局部与全局互注意力机制的文本分类方法 | |
CN109299262B (zh) | 一种融合多粒度信息的文本蕴含关系识别方法 | |
CN112308080A (zh) | 面向指向性视觉理解和分割的图像描述预测方法 | |
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN111951805A (zh) | 一种文本数据处理方法及装置 | |
CN110083702B (zh) | 一种基于多任务学习的方面级别文本情感转换方法 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN113486669B (zh) | 应急救援输入语音的语义识别方法 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
Le et al. | An overview of deep learning in industry | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
WO2020108545A1 (zh) | 语句处理方法、语句解码方法、装置、存储介质及设备 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
Su et al. | Low-rank deep convolutional neural network for multitask learning | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 | |
CN117197569A (zh) | 图像审核方法、图像审核模型训练方法、装置和设备 | |
CN110197521B (zh) | 基于语义结构表示的视觉文本嵌入方法 | |
CN110888944A (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |