CN111259860B - 基于数据自驱动的多阶特征动态融合手语翻译方法 - Google Patents
基于数据自驱动的多阶特征动态融合手语翻译方法 Download PDFInfo
- Publication number
- CN111259860B CN111259860B CN202010096391.7A CN202010096391A CN111259860B CN 111259860 B CN111259860 B CN 111259860B CN 202010096391 A CN202010096391 A CN 202010096391A CN 111259860 B CN111259860 B CN 111259860B
- Authority
- CN
- China
- Prior art keywords
- visual
- feature
- action
- characteristic
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于数据自驱动的多阶特征动态融合手语翻译方法,包括:首先提取输入手语视频的多种视觉与动作特征,根据特征之间的多元相关性构建特征池,并根据模型在各特征下的识别概率选择最优特征;再使用数据自驱动的注意力机制进行特征优化,得到视觉与动作注意力特征;接着进行第一阶动态特征融合得到融合特征,以挖掘视觉特征与动作特征之间的互补信息;然后进行第二阶动态特征融合,根据任务状态动态计算不同特征下隐状态的得分融合权重,最后通过得分融合得到手语翻译句子。本发明能够实现对手语视频的连续句子翻译,并提高手语识别的准确性。
Description
技术领域
本发明属于多媒体信息处理领域,涉及到计算机视觉、自然语言处理、深度学习等技术,具体地说是一种基于数据自驱动的多阶特征动态融合手语翻译方法。
背景技术
早期的手语识别研究关注于离散性手语识别,其本质上是一种特殊的视频分类问题。随着视频理解技术的发展,连续性手语翻译吸引越来越多的关注。
由于视频数据复杂繁多,现有的手语翻译方法存在很多弊端,尤其是在多特征融合方面。经典的融合方法分为前端融合和后端融合。前端融合是在特征层面上进行的,而后端融合是在决策层上进行的。前端融合常采用直接的特征拼接,或加权转化,甚至映射到高维空间的融合,再输入模型计算;对于后端融合,直接将多个特征直接输入模型获得多个得分,再通过计算相似性匹配分布,或者是多分类器权重计算,基于图结构学习等方式,最终获得权重相加后的总得分。前者注重互补信息的原始保留;后者侧重各特征在决策得分层面上,对互补信息上的启发性。各有优点,也都存在一些缺点,如固定的学习参数并不灵活;传统方法在融合优化上花费了过多的时间进行复杂计算;更重要的是,无效特征可能主导融合并降低准确性。一旦将所有特征都考虑在内,融合过程将是不可逆的。不好的特征带来的负面影响无法消除,从而导致了手语翻译的结果连贯性差、精确度较低。
发明内容
本发明针对现有技术中存在的不足之处,提供一种基于数据自驱动的多阶特征动态融合手语翻译方法,以期能够实现对手语视频的连续句子翻译,并提高手语识别的准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于数据自驱动的多阶特征动态融合手语翻译方法的特点是按如下步骤进行:
步骤1、构建特征池与特征择优:
步骤1.1、从手语视频数据库任取一手语视频Q,并提取所述手语视频Q的X种视觉特征与Y种动作特征,得到视觉特征集合Fv与动作特征集合Fm;
步骤1.8、将所述X个视觉拼接特征集合F1 v,...,中所有视觉特征构成视觉特征池,视觉特征池中视觉特征的总数记为X';将所述Y个动作拼接特征集合F1 m,...,中所有动作特征构成动作特征池,动作特征池中动作特征的总数记为Y';
步骤1.9、从所述视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列从动作特征池中随机选择一个动作特征并作为最优动作特征序列其中,vi表示所述最优视觉特征序列中第i个视觉特征,1≤i≤Kv,mj表示所述最优动作特征序列中第j个动作特征,1≤j≤Km,Kv与Km分别为所述最优视觉特征序列和最优动作特征序列的总长度;
步骤2、特征优化:
步骤2.1、定义当前时刻为t,并初始化t=1;
步骤2.2、利用式(1)实施数据自驱动的注意力操作,得到t时刻的视觉注意力特征Vt和动作注意力特征Mt;
式(1)中,为t时刻所述最优视觉特征序列中第i个视觉特征vi对应的注意力权值,并有:ht-1为多阶特征动态融合手语翻译模型在t-1时刻的隐状态,当t=1时,ht-1=0,MLP(·)表示多层感知机操作;为t时刻所述最优动作特征序列中第j个视觉特征mj对应的注意力权值,并有
步骤3、第一阶特征动态融合:
根据式(2)将所述t时刻的视觉注意力特征Vt和动作注意力特征Mt结合起来,得到t时刻的融合特征Ct;
式(2)中,为向量同维度的相加操作;μt,ηt分别为所述t时刻的视觉注意力特征Vt和动作注意力特征Mt的数据自驱动融合权重,并有:[μt,ηt]=softmax(ht-1[Vt;Mt]T),其中[;]表示按行拼接操作,[·]T表示矩阵转置操作;
步骤4、第二阶特征动态融合:
式(3)中,softmax(·)代表路径选择概率,正切函数σ(·)代表路径相关性融合权重;W1,W2是两个需要学习的参数矩阵,b1,b2是两个需要学习的偏置参数;
步骤4.2、利用式(4)得到t时刻的多阶特征动态融合手语翻译模型的隐状态ht;
步骤4.3、利用式(5)得到t时刻多阶特征动态融合手语翻译模型的识别概率pt;
pt=softmax(Weht)(5)
式(5)中,We为需要学习的映射矩阵;
步骤4.4、将t+1赋值给t,并返回步骤2.2顺序执行,直到t=T为止,T为生成的手语翻译句子的总长度,从而得到识别概率序列{p1,p2,...,pT};
步骤5、在所述动作特征池中的所有Y'个动作特征中随机选择一个动作特征,并在所选择的动作特征下,计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列,并赋值给
同理,在所述视觉特征池中的所有X'个动作特征中随机选择一个视觉特征,并在所选择的视觉特征下,计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列,并赋值给
步骤7、根据式(6)得到t时刻生成的手语翻译单词yt,从而得到所述手语视频Q的手语翻译句子{y1,y2,...,yT}:
yt=argmax(pt′)(6)
式(6)中,argmax(·)表示求取识别概率中最大值对应的位置索引。
与已有技术相比,本发明的有益效果体现在:
1、本发明利用手语视频的不同视觉特征或动作特征之间的多元相关性,扩充了手语视频特征种类,并根据手语翻译模型在不同特征下的识别概率进行特征选择,挑选出性能最佳的手语视频特征,从而提高了手语翻译模型的可靠性。
2、本发明采用数据自驱动的注意力机制处理手语视频的视觉特征与动作特征,推断每个视觉特征和动作特征与前一时刻任务状态的相关性,从而增强了特征的表征能力。
3、本发明利用手语视频的视觉特征与动作特征对视频内容的不同表现方式,以自学习的方式挖掘视觉特征与动作特征之间的互补信息,提高了手语翻译模型对手语视频的理解能力。
4、本发明采用的数据自驱动特征动态融合方法,能够根据任务状态自适应地选择不同的融合模式,学习多种特征之间的相关性约束,促进了所有以视觉特征为中心、以动作特征为中心或以融合特征为中心的实体识别,从而提升了手语识别的准确性。
附图说明
图1为本发明的结构示意图;
图2为本发明的第一阶特征动态融合操作流程图;
图3为本发明的第二阶特征动态融合操作流程图。
具体实施方式
本实施例中,如图1所示,一种基于数据自驱动的多阶特征动态融合手语翻译方法包括:首先提取输入手语视频的多种视觉与动作特征,根据特征之间的多元相关性构建特征池,并根据模型在各特征下的识别概率选择最优特征;再使用数据自驱动的注意力机制进行特征优化,得到视觉与动作注意力特征;接着进行第一阶动态特征融合得到融合特征,以挖掘视觉特征与动作特征之间的互补信息;然后进行第二阶动态特征融合,根据任务状态动态计算不同特征下隐状态的得分融合权重,最后通过得分融合得到手语翻译句子;具体的说,是按如下步骤进行:
步骤1、构建特征池与特征择优:
步骤1.1、从手语视频数据库任取一手语视频Q,并提取手语视频Q的X种视觉特征与Y种动作特征,得到视觉特征集合Fv与动作特征集合Fm;卷积神经网络常用来提取视频帧的视觉特征,例如VGG网络、ResNet网络等;视频的动作特征包括光流特征、C3D特征、CDC特征等;
步骤1.8、将X个视觉拼接特征集合F1 v,...,中所有视觉特征构成视觉特征池,视觉特征池中视觉特征的总数记为X';将Y个动作拼接特征集合F1 m,...,中所有动作特征构成动作特征池,动作特征池中动作特征的总数记为Y';
步骤1.9、从视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列从动作特征池中随机选择一个动作特征并作为最优动作特征序列其中,vi表示最优视觉特征序列中第i个视觉特征,1≤i≤Kv,mj表示最优动作特征序列中第j个动作特征,1≤j≤Km,Kv与Km分别为最优视觉特征序列和最优动作特征序列的总长度;本实施例中,手语视频Q被划分为等长的视频片段,Kv=Km等于视频片段的个数;
步骤2、特征优化:
步骤2.1、定义当前时刻为t,并初始化t=1;
步骤2.2、利用式(1)实施数据自驱动的注意力操作,得到t时刻的视觉注意力特征Vt和动作注意力特征Mt;
式(1)中,为t时刻最优视觉特征序列中第i个视觉特征vi对应的注意力权值,并有:ht-1为多阶特征动态融合手语翻译模型在t-1时刻的隐状态,当t=1时,ht-1=0,MLP(·)表示多层感知机操作;为t时刻最优动作特征序列中第j个视觉特征mj对应的注意力权值,并有
步骤3、第一阶特征动态融合:
本实施例中,如图2所示,根据式(2)将t时刻的视觉注意力特征Vt和动作注意力特征Mt结合起来,得到t时刻的融合特征Ct;
式(2)中,为向量同维度的相加操作;μt,ηt分别为t时刻的视觉注意力特征Vt和动作注意力特征Mt的数据自驱动融合权重,并有:[μt,ηt]=softmax(ht-1[Vt;Mt]T),其中[;]表示按行拼接操作,[·]T表示矩阵转置操作;
步骤4、第二阶特征动态融合:
步骤4.1、本实施例中,如图3所示,将t时刻视觉注意力特征Vt、动作注意力特征Mt和融合特征Ct分别输入三个相互独立的长短期记忆人工神经网络LSTM中,得到三个对应的隐状态,并构成待融合隐状态合集Ht=[ht V;ht M;ht C];
式(3)中,softmax(·)代表路径选择概率,正切函数σ(·)代表路径相关性融合权重;W1,W2是两个需要学习的参数矩阵,b1,b2是两个需要学习的偏置参数;
步骤4.2、利用式(4)得到t时刻的多阶特征动态融合手语翻译模型的隐状态ht;
步骤4.3、利用式(5)得到t时刻多阶特征动态融合手语翻译模型的识别概率pt;
pt=softmax(Weht)(5)
式(5)中,We为需要学习的映射矩阵;在本实施例中,利用手语翻译数据库中的所有单词构建单词表,并将单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表;本实施例中,单词索引表中共有279个单词,
步骤4.4、将t+1赋值给t,并返回步骤2.2顺序执行,直到t=T为止,T为生成的手语翻译句子的总长度,本实施例中,T=Kv=Km;从而得到识别概率序列{p1,p2,...,pT};
步骤5、在动作特征池中的所有Y'个动作特征中随机选择一个动作特征,并在所选择的动作特征下,计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列,并赋值给本实施例中,采用ResNet网络提取手语视频的视觉特征为最优视觉特征;
同理,在视觉特征池中的所有X'个动作特征中随机选择一个视觉特征,并在所选择的视觉特征下,计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列,并赋值给本实施例中,采用C3D网络提取手语视频的动作特征为最优动作特征;
步骤7、根据式(6)得到t时刻生成的手语翻译单词yt,从而得到手语视频Q的手语翻译句子{y1,y2,...,yT}:
yt=argmax(pt′)(6)
式(6)中,argmax(·)表示求取识别概率中最大值对应的位置索引;本实施例中,利用构建的单词索引表将得到的手语翻译句子{y1,y2,...,yT}转化为自然语言句子。
Claims (1)
1.一种基于数据自驱动的多阶特征动态融合手语翻译方法,其特征是按如下步骤进行:
步骤1、构建特征池与特征择优:
步骤1.1、从手语视频数据库任取一手语视频Q,并提取所述手语视频Q的X种视觉特征与Y种动作特征,得到视觉特征集合Fv与动作特征集合Fm;
步骤1.9、从所述视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列从动作特征池中随机选择一个动作特征并作为最优动作特征序列其中,vi表示所述最优视觉特征序列中第i个视觉特征,1≤i≤Kv,mj表示所述最优动作特征序列中第j个动作特征,1≤j≤Km,Kv与Km分别为所述最优视觉特征序列和最优动作特征序列的总长度;
步骤2、特征优化:
步骤2.1、定义当前时刻为t,并初始化t=1;
步骤2.2、利用式(1)实施数据自驱动的注意力操作,得到t时刻的视觉注意力特征Vt和动作注意力特征Mt;
式(1)中,为t时刻所述最优视觉特征序列中第i个视觉特征vi对应的注意力权值,并有:ht-1为多阶特征动态融合手语翻译模型在t-1时刻的隐状态,当t=1时,ht-1=0,MLP(·)表示多层感知机操作;为t时刻所述最优动作特征序列中第j个视觉特征mj对应的注意力权值,并有
步骤3、第一阶特征动态融合:
根据式(2)将所述t时刻的视觉注意力特征Vt和动作注意力特征Mt结合起来,得到t时刻的融合特征Ct;
式(2)中,为向量同维度的相加操作;μt,ηt分别为所述t时刻的视觉注意力特征Vt和动作注意力特征Mt的数据自驱动融合权重,并有:[μt,ηt]=softmax(ht-1[Vt;Mt]T),其中[;]表示按行拼接操作,[·]T表示矩阵转置操作;
步骤4、第二阶特征动态融合:
式(3)中,softmax(·)代表路径选择概率,正切函数σ(·)代表路径相关性融合权重;W1,W2是两个需要学习的参数矩阵,b1,b2是两个需要学习的偏置参数;
步骤4.2、利用式(4)得到t时刻的多阶特征动态融合手语翻译模型的隐状态ht;
步骤4.3、利用式(5)得到t时刻多阶特征动态融合手语翻译模型的识别概率pt;
pt=softmax(Weht) (5)
式(5)中,We为需要学习的映射矩阵;
步骤4.4、将t+1赋值给t,并返回步骤2.2顺序执行,直到t=T为止,T为生成的手语翻译句子的总长度,从而得到识别概率序列{p1,p2,...,pT};
步骤5、在所述动作特征池中的所有Y'个动作特征中随机选择一个动作特征,并在所选择的动作特征下,计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列,并赋值给
同理,在所述视觉特征池中的所有X'个动作特征中随机选择一个视觉特征,并在所选择的视觉特征下,计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列,并赋值给
步骤7、根据式(6)得到t时刻生成的手语翻译单词yt,从而得到所述手语视频Q的手语翻译句子{y1,y2,...,yT}:
yt=argmax(p′t) (6)
式(6)中,argmax(·)表示求取识别概率中最大值对应的位置索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010096391.7A CN111259860B (zh) | 2020-02-17 | 2020-02-17 | 基于数据自驱动的多阶特征动态融合手语翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010096391.7A CN111259860B (zh) | 2020-02-17 | 2020-02-17 | 基于数据自驱动的多阶特征动态融合手语翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259860A CN111259860A (zh) | 2020-06-09 |
CN111259860B true CN111259860B (zh) | 2022-03-15 |
Family
ID=70949339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010096391.7A Active CN111259860B (zh) | 2020-02-17 | 2020-02-17 | 基于数据自驱动的多阶特征动态融合手语翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259860B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792607B (zh) * | 2021-08-19 | 2024-01-05 | 辽宁科技大学 | 基于Transformer的神经网络手语分类识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409231A (zh) * | 2018-09-27 | 2019-03-01 | 合肥工业大学 | 基于自适应隐马尔可夫的多特征融合手语识别方法 |
CN110472548A (zh) * | 2019-08-08 | 2019-11-19 | 中国科学技术大学 | 一种基于语法分类器的视频连续手语识别方法及系统 |
CN110728203A (zh) * | 2019-09-23 | 2020-01-24 | 清华大学 | 基于深度学习的手语翻译视频生成方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672418B2 (en) * | 2015-02-06 | 2017-06-06 | King Fahd University Of Petroleum And Minerals | Arabic sign language recognition using multi-sensor data fusion |
US10489639B2 (en) * | 2018-02-12 | 2019-11-26 | Avodah Labs, Inc. | Automated sign language translation and communication using multiple input and output modalities |
CN109190578B (zh) * | 2018-09-13 | 2019-10-18 | 合肥工业大学 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
-
2020
- 2020-02-17 CN CN202010096391.7A patent/CN111259860B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409231A (zh) * | 2018-09-27 | 2019-03-01 | 合肥工业大学 | 基于自适应隐马尔可夫的多特征融合手语识别方法 |
CN110472548A (zh) * | 2019-08-08 | 2019-11-19 | 中国科学技术大学 | 一种基于语法分类器的视频连续手语识别方法及系统 |
CN110728203A (zh) * | 2019-09-23 | 2020-01-24 | 清华大学 | 基于深度学习的手语翻译视频生成方法及系统 |
Non-Patent Citations (4)
Title |
---|
Chinese sign language recognition based on gray-level co-occurrence matrix and other multi-features fusion;Yulong Li等;《2009 4th IEEE Conference on Industrial Electronics and Applications》;20090630;第1569-1572页 * |
PARALLEL TEMPORAL ENCODER FOR SIGN LANGUAGE TRANSLATION;Peipei Song等;《2019 IEEE International Conference on Image Processing (ICIP)》;20190826;第1915-1919页 * |
基于Kinect 3D节点的连续HMM手语识别;沈娟等;《合肥工业大学学报(自然科学版)》;20170531;第40卷(第5期);第638-642页 * |
多目标优化的静态手语识别算法研究;赵一丹等;《计算机技术与发展》;20190228;第29卷(第2期);第54-59页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111259860A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Han et al. | A survey on metaheuristic optimization for random single-hidden layer feedforward neural network | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN106649561B (zh) | 面向税务咨询业务的智能问答系统 | |
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
CN112699247B (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习方法 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
Li et al. | Improving convolutional neural network for text classification by recursive data pruning | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
WO2022218139A1 (zh) | 融合注意力机制的个性化搜索方法和搜索系统 | |
CN115424177A (zh) | 一种基于增量学习的孪生网络目标跟踪的方法 | |
CN114357221B (zh) | 一种基于图像分类的自监督主动学习方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111563378A (zh) | 一种联合学习的多文档阅读理解实现方法 | |
CN110704665A (zh) | 一种基于视觉注意力机制的图像特征表达方法及系统 | |
CN111259860B (zh) | 基于数据自驱动的多阶特征动态融合手语翻译方法 | |
CN111582287B (zh) | 一种基于充足视觉信息与文本信息的图像描述方法 | |
CN114943216B (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |