CN113901846B - 基于时空注意力的视频引导机器翻译方法 - Google Patents

基于时空注意力的视频引导机器翻译方法 Download PDF

Info

Publication number
CN113901846B
CN113901846B CN202111081275.9A CN202111081275A CN113901846B CN 113901846 B CN113901846 B CN 113901846B CN 202111081275 A CN202111081275 A CN 202111081275A CN 113901846 B CN113901846 B CN 113901846B
Authority
CN
China
Prior art keywords
video
time
features
local
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111081275.9A
Other languages
English (en)
Other versions
CN113901846A (zh
Inventor
余正涛
姜舟
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111081275.9A priority Critical patent/CN113901846B/zh
Publication of CN113901846A publication Critical patent/CN113901846A/zh
Application granted granted Critical
Publication of CN113901846B publication Critical patent/CN113901846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及时空注意力的视频引导机器翻译方法,属于自然语言处理领域。本发明包括:构建中越可比语料数据集;使用预训练语言模型分别获得源语言句子特征和视频的全局特征以及局部特征,然后利用soft‑attention模型从源语言句子中选择出关键词,利用时空注意力获取到视频特征,根据提取视频中的特征对齐源语言和目标语言,使得源语言中的细节信息得以准确翻译,提高翻译质量。实验结果表明,本发明所提出方法不但能选择与目标语言最相关的时空片段,而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。

Description

基于时空注意力的视频引导机器翻译方法
技术领域
本发明涉及时空注意力的视频引导机器翻译方法,属于自然语言处理领域。
背景技术
视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作中,只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中仍然存在大量与目标语言无关的信息。因此,在翻译过程中,视频中的时空结构依然没有得到充分利用,从而无法有效缓解机器翻译中细节缺失或翻译错误的问题。
利用时空注意力的模型来充分利用视频中的时空信息引导机器翻译。提出的注意力模型不但能选择与目标语言最相关的时空片段,而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。
发明内容
本发明从细节缺失的角度对视频引导机器翻译中存在的问题进行了深入的研究。在机器翻译中将视频作为引导是多模态机器翻译中的一种重要的翻译方法,任务根据识别每一帧上具有空间结构和连续帧上的时间结构的特点,本发明提出了一种新的视频引导机器翻译的方法,该方法基于时空注意力机制,将局部目标信息集成到全局信息中。与现有的方法相比,本发明的方法可以关注多个突出的对象,从而产生详细准确的翻译描述。
发明技术方案:基于时空注意力的视频引导机器翻译方法,所述方法的具体步骤如下:
Step1、通过网络爬虫技术收集并构建汉越数据集,数据集包括视频以及与视频对应的平行句对,利用负采样获得非平行数据,通过人工对数据集进行标注得到汉越可比语料数据集,汉越平行数据主要来源包括汉越新闻网,微博,Facebook,Tiktok等。
Step2、通过GoogleNet获取到视频的全局特征,通过Faster R-CNN进行目标检测并获取到视频的局部特征,通过soft-attention模型从源语言句子中选择出关键词,利用提出的时空注意力模型从视频特征中选择出关键时空特征,最后将关键词和关键时空特征二者输入到目标语言解码器中。基于视频引导机器翻译,将关注的实体信息能增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、通过网络爬虫技术获取视频以及中越平行数据,数据来源包括汉越新闻网,微博,Facebook,Tiktok等。
Step1.2、对爬取的数据进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除与视频无关的话语;(3)、去除汉越不平行的句对;
Step1.3、采用人工标注,获得汉越可比语料数据集;对同一个视频的5局不同的中文描述打上5局越南语描述的标签,人工对视频与视频描述不符的数据集进行筛选。
作为本发明的进一步方案,所述步骤Step2的具体步骤如下:
Step2.1、通过Faster R-CNN对视频进行目标检测,然后利用空间注意力机制对前top-n个局部特征fli={fli1,...,flin}得到的每个帧,将每一帧转化为局部特征ψ(VL)={ψ1(VL),ψ2(VL),...,ψk(VL)},ψi(VL)通过空间注意机制对n个局部特征进行动态加权求和:
其中,vlij表示t时刻第i帧第j个局部特征变量,为t时刻的空间注意力得权重。空间注意力权重它反映了输入视频中第j个局部特征的相关性。因此,本发明设计一个函数,以LSTM解码器的前一个隐状态和第j个局部特征作为输入,并返回相关性分数/>
其中We,Ue,ze是模型要学习的参数,并且在所有时间步长上,所有局部特征所共享的参数。
当通过局部特征计算出所有后(j=1,...,n),用softmax函数对它们进行归一化,得到/>
Step2.2、通过对全局特征V[G]={v[g]1,v[g]2,...,v[g]k}和局部特征ψ(VL)={ψ1(VL),ψ2(VL),...,ψk(VL)}进行编码,编码后成为一个句子长度的时间表征每个时刻的/>的表示为全局时间表征和局部时间表征的级联:
其中是所有k个全局特征的动态加权和,/>是通过时间注意力机制的所有k个局部特征的动态加权和:
其中 在LSTM解码器的每个时间步长t上,分别计算/>并且将/>和/>作为t时刻的时间注意力权值。
Step2.3、通过设计了两个时间注意函数计算非标准化相关性得分和/>将前一个隐状态、第i个全局特征和第i个局部特征作为输入:
其中Wb,Ub,zb,/>Wc,Uc,zc是全局特征和局部特征的共享参数。然后,通过softmax函数对上式进行归一化:
Step2.4、对于全局特征,本发明采用卷积层为1024维pool5/7×7_s1层,表示为VG={vg1,vg2,...,vgk}。对于局部特征,本发明将表示VL={vl1,vl2,..,vlk}。这些局部特征由Faster R-CNN提取,在实验中,为了减少计算量和内存消耗,每帧视频提取特征个数上限设为5,因为每帧视频中包含对象个数通常小于10个。
模型和训练:本发明的视频引导机器翻译模型如图1所示。本发明使用单层LSTM单元,隐藏层大小为1024。词嵌入大小设置为512,学习率设置为0.0001,在训练过程中,所有视频引导机器翻译模型会通过最小化负对数似然估计进行端到端训练。然后,使用Adadelta算法和反向传播算法计算梯度,它们都广泛用于优化注意模型的参数更新。最后通过最大化对数似然估计参数:
N个源语言句子、视频、目标语言句子训练对为其中,/>代表输入源语言句子,/>代表对应的视频,并且每个描述目标语言句子yn的单词长度是tn。选取Bleu-4作为大多数机器翻译实验评价指标,本发明实验也将用它作为衡量实验的的参考标准。
本发明的有益效果是:
(1)本发明研究了在视频引导机器翻译任务中,引入局部特征,提高了视频帧中对多个小目标的识别和定位。
(2)本发明提出了一种用于视频引导机器翻译的时空注意力(STA)方法。通过对每一帧上的空间特征和连续帧上的时间特征分配不同的权重,本发明的方法能够捕获并保留视频中的全局信息,从而解决了翻译过程中细节缺失的问题。
附图说明
图1是本发明提出的基于时空注意力的视频引导机器翻译方法对应模型的具体示意图。
具体实施方式
实施例1:如图1所示,基于时空注意力的视频引导机器翻译方法,所述方法的具体步骤如下:
Step1、通过网络爬虫技术收集并构建汉越数据集,数据集包括视频以及与视频对应的平行句对,利用负采样获得非平行数据,通过人工对数据集进行标注得到汉越可比语料数据集,汉越平行数据主要来源包括汉越新闻网,微博,Facebook,Tiktok等。
Step2、通过GoogleNet获取到视频的全局特征,通过Faster R-CNN进行目标检测并获取到视频的局部特征,通过soft-attention模型从源语言句子中选择出关键词,利用提出的时空注意力模型从视频特征中选择出关键时空特征,最后将关键词和关键时空特征二者输入到目标语言解码器中。基于视频引导机器翻译,将关注的实体信息能增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、通过网络爬虫技术获取视频以及中越平行数据,数据来源包括汉越新闻网,微博,Facebook,Tiktok等。
Step1.2、对爬取的数据进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除与视频无关的话语;(3)、去除汉越不平行的句对;
Step1.3、采用人工标注,获得汉越可比语料数据集;对同一个视频的5局不同的中文描述打上5局越南语描述的标签,人工对视频与视频描述不符的数据集进行筛选。实验语料规模如表1所示:
表1 实验数据统计信息
作为本发明的进一步方案,所述步骤Step2的具体步骤如下:
Step2.1、通过Faster R-CNN对视频进行目标检测,然后利用空间注意力机制对前top-n个局部特征fli={fli1,...,flin}得到的每个帧,将每一帧转化为局部特征ψ(VL)={ψ1(VL),ψ2(VL),...,ψk(VL)},ψi(VL)通过空间注意机制对n个局部特征进行动态加权求和:
其中,vlij表示t时刻第i帧第j个局部特征变量,为t时刻的空间注意力得权重。空间注意力权重它反映了输入视频中第j个局部特征的相关性。因此,本发明设计一个函数,以LSTM解码器的前一个隐状态和第j个局部特征作为输入,并返回相关性分数/>
其中We,Ue,ze是模型要学习的参数,并且在所有时间步长上,所有局部特征所共享的参数。
当通过局部特征计算出所有后(j=1,...,n),用softmax函数对它们进行归一化,得到/>
Step2.2、通过对全局特征V[G]={v[g]1,v[g]2,...,v[g]k}和局部特征ψ(VL)={ψ1(VL),ψ2(VL),...,ψk(VL)}进行编码,编码后成为一个句子长度的时间表征每个时刻的/>的表示为全局时间表征和局部时间表征的级联:
其中是所有k个全局特征的动态加权和,/>是通过时间注意力机制的所有k个局部特征的动态加权和:
其中 在LSTM解码器的每个时间步长t上,分别计算/>并且将/>和/>作为t时刻的时间注意力权值。
Step2.3、通过设计了两个时间注意函数计算非标准化相关性得分和/>将前一个隐状态、第i个全局特征和第i个局部特征作为输入:
其中Wb,Ub,zb,/>Wc,Uc,zc是全局特征和局部特征的共享参数。然后,通过softmax函数对上式进行归一化:
Step2.4、对于全局特征,本发明采用卷积层为1024维pool5/7×7_s1层,表示为VG={vg1,vg2,...,vgk}。对于局部特征,本发明将表示VL={vl1,vl2,..,vlk}。这些局部特征由Faster R-CNN提取,在实验中,为了减少计算量和内存消耗,每帧视频提取特征个数上限设为5,因为每帧视频中包含对象个数通常小于10个。
模型和训练:本发明的视频引导机器翻译模型如图1所示。本发明使用单层LSTM单元,隐藏层大小为1024。词嵌入大小设置为512,学习率设置为0.0001,在训练过程中,所有视频引导机器翻译模型会通过最小化负对数似然估计进行端到端训练。然后,使用Adadelta算法和反向传播算法计算梯度,它们都广泛用于优化注意模型的参数更新。最后通过最大化对数似然估计参数:
N个源语言句子、视频、目标语言句子训练对为其中,/>代表输入源语言句子,/>代表对应的视频,并且每个描述目标语言句子yn的单词长度是tn。选取Bleu-4作为大多数机器翻译实验评价指标,本发明实验也将用它作为衡量实验的的参考标准。
为了说明本发明的效果,考虑了以下三个基线进行比较:(1)Base NMT模型:本发明只考虑机器翻译的文本信息,采用LSTM解码器模型。(2)带有全局视频特征和时间注意力的模型结构,无局部特征的方法(TA-NL)。(3)与带有时间注意力方法的全局视频特征和使用平均策略的局部特征模型方法(NTA)比较。
表2 STA模型对比实验
说明:G为GoogLeNet,fc7为Faster R-CNN fc7层提取特征,Average为每10帧提取一帧的平均策略。TA-NL:根据时间注意力对全局特征进行处理。NTA:根据时间注意力对全局特征处理,并且根据平均策略处理局部特征。TAT:对全局特征进行时空注意力处理。STA(summation):利用时空注意力对视频特征与句子特征相加的实验。STA(concat):利用时空注意力对视频特征与句子特征拼接的实验。表2为本发明在其他条件一致的前提下,对比模型均使用获得最佳性能的参数对比实验,本发明通过大量实验得出了STA算法获得了实验中最高的BLEU值,在中越语料中,得出了在与Base NMT模型相比,本发明STA方法有了大幅度提高。与TA-NL相比本发明的方法获得了1.06个BLEU值的提升,通过结果表明,本发明将局部特征融入到全局特征中确实提高了视频帧中多个小目标的识别和定位。相比较于NTA方法,STA方法获得了0.99个BLEU值的提升。通过两组实验结果表明,模型增加局部特征,是可以为结果带来改善。与VMT方法相比,本发明的STA方法获得了0.89个BLEU值得提升。与TAT的方法相比本发明的方法获得了0.97个BLEU值得提升,通过结果表明时间注意力难以区分视频帧上的小对象。因此,空间注意力是视频引导机器翻译方法的重要组成部分。本发明也通过全局时间表征和局部时间表征的两个特征进行求和与拼接的方式进行了实验,发现,拼接后的效果明显好于求和后的效果。本发明观察到,利用空间和时间信息带来得改善是互补的,当空间注意力机制和时间注意力机制同时使用时效果最好。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.基于时空注意力的视频引导机器翻译方法,其特征在于:所述方法的具体步骤如下:
Step1、构建汉越数据集,数据集包括视频以及与视频对应的平行句对,利用负采样获得非平行数据,通过人工对数据集进行标注得到汉越可比语料数据集;
Step2、获取到视频的全局特征,进行目标检测并获取到视频的局部特征,从源语言句子中选择出关键词,利用提出的时空注意力模型从视频特征中选择出关键时空特征,最后将关键词和关键时空特征二者输入到目标语言解码器中;
所述步骤Step1的具体步骤为:
Step1.1、通过网络爬虫技术获取视频以及中越平行数据;
Step1.2、对爬取的数据进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除与视频无关的话语;(3)、去除汉越不平行的句对;
Step1.3、采用人工标注,获得汉越可比语料数据集;对同一个视频的5局不同的中文描述打上5局越南语描述的标签,人工对视频与视频描述不符的数据集进行筛选;
所述步骤Step2的具体步骤如下:
Step2.1、通过Faster R-CNN对视频进行目标检测,然后利用空间注意力机制对前top-n个局部特征fli={fli1,...,flin}得到的每个帧,将每一帧转化为局部特征ψ(VL)={ψ1(VL),ψ2(VL),...,ψk(VL)},ψi(VL)通过空间注意机制对n个局部特征进行动态加权求和:
其中,vlij表示t时刻第i帧第j个局部特征变量,为t时刻的空间注意力得权重,空间注意力权重它反映了输入视频中第j个局部特征的相关性;因此,设计一个函数,以LSTM解码器的前一个隐状态和第j个局部特征作为输入,并返回相关性分数/>
其中We,Ue,ze是模型要学习的参数,并且在所有时间步长上,所有局部特征所共享的参数;
当通过局部特征计算出所有后(j=1,...,n),用softmax函数对它们进行归一化,得到/>
Step2.2、通过对全局特征V[G]={v[g]1,v[g]2,...,v[g]k}和局部特征ψ(VL)={ψ1(VL),ψ2(VL),...,ψk(VL)}进行编码,编码后成为一个句子长度的时间表征每个时刻的/>表示为全局时间表征和局部时间表征的级联:
其中是所有k个全局特征的动态加权和,/>是通过时间注意力机制的所有k个局部特征的动态加权和:
其中在LSTM解码器的每个时间步长t上,分别计算/>和/>并且将/>和/>作为t时刻的时间注意力权值;
Step2.3、通过设计了两个时间注意函数计算非标准化相关性得分和/>将前一个隐状态、第i个全局特征和第i个局部特征作为输入:
其中Wb,Ub,zb,/>Wc,Uc,zc是全局特征和局部特征的共享参数;然后,通过softmax函数对上式进行归一化:
Step2.4、对于全局特征,采用卷积层为1024维pool5/7×7_s1层,表示为VG={vg1,vg2,...,vgk};对于局部特征,将表示VL={vl1,vl2,..,vlk};这些局部特征由Faster R-CNN提取;
模型训练:在训练过程中,所有视频引导机器翻译模型通过最小化负对数似然估计进行端到端训练;然后,使用Adadelta算法和反向传播算法计算梯度,最后通过最大化对数似然估计参数:
N个源语言句子、视频、目标语言句子训练对为其中,/>代表输入源语言句子,/>代表对应的视频,并且每个描述目标语言句子yn的单词长度是tn
CN202111081275.9A 2021-09-15 2021-09-15 基于时空注意力的视频引导机器翻译方法 Active CN113901846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111081275.9A CN113901846B (zh) 2021-09-15 2021-09-15 基于时空注意力的视频引导机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111081275.9A CN113901846B (zh) 2021-09-15 2021-09-15 基于时空注意力的视频引导机器翻译方法

Publications (2)

Publication Number Publication Date
CN113901846A CN113901846A (zh) 2022-01-07
CN113901846B true CN113901846B (zh) 2024-05-24

Family

ID=79028428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111081275.9A Active CN113901846B (zh) 2021-09-15 2021-09-15 基于时空注意力的视频引导机器翻译方法

Country Status (1)

Country Link
CN (1) CN113901846B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN112257460A (zh) * 2020-09-25 2021-01-22 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法
CN113065496A (zh) * 2021-04-13 2021-07-02 湖南大学 神经网络机器翻译模型训练方法、机器翻译方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562243B2 (en) * 2017-11-17 2023-01-24 Meta Platforms, Inc. Machine-learning models based on non-local neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN112257460A (zh) * 2020-09-25 2021-01-22 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法
CN113065496A (zh) * 2021-04-13 2021-07-02 湖南大学 神经网络机器翻译模型训练方法、机器翻译方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Multi-Information Spatial–Temporal LSTM Fusion Continuous Sign Language Neural Machine Translation;Qinkun Xiao等;《IEEE Access 》;20201120;第8卷;2169-3536 *
Vatex: A large-scale, high-quality multilingual dataset for video-and-language research;X Wang等;《Proceedings of the IEEE/CVF International Conference on Computer Vision》;20191231;4581-4591 *
基于双路并行时序学习模型的手语视频翻译;李安阳等;《合肥工业大学学报(自然科学版)》;20210128;第44卷(第01期);54-60 *
基于时空特征引导的多模态机器翻译方法研究;姜舟;《CNKI昆明理工大学硕士学位论文》;20240314;1-67 *

Also Published As

Publication number Publication date
CN113901846A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN104881458B (zh) 一种网页主题的标注方法和装置
CN111291566B (zh) 一种事件主体识别方法、装置、存储介质
US20200372025A1 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN111368870A (zh) 一种基于模态内间协同多线性池化的视频时序定位方法
CN113705678B (zh) 利用词屏蔽数据增强与对抗学习的特定目标情感分析方法
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN113051368A (zh) 双塔模型训练方法、检索方法、装置及电子设备
Xiao et al. An extended attention mechanism for scene text recognition
CN115129934A (zh) 一种多模态视频理解方法
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN111914554A (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
CN112307130A (zh) 一种文档级远程监督关系抽取方法及系统
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN108428234B (zh) 基于图像分割结果评价的交互式分割性能优化方法
CN113901846B (zh) 基于时空注意力的视频引导机器翻译方法
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
Constantin et al. Hateful meme detection with multimodal deep neural networks
CN115017404A (zh) 基于压缩空间句子选择的目标新闻话题摘要方法
CN114357166A (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant