CN114254660A - 多模态翻译方法、装置、电子设备及计算机可读存储介质 - Google Patents

多模态翻译方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114254660A
CN114254660A CN202011003004.7A CN202011003004A CN114254660A CN 114254660 A CN114254660 A CN 114254660A CN 202011003004 A CN202011003004 A CN 202011003004A CN 114254660 A CN114254660 A CN 114254660A
Authority
CN
China
Prior art keywords
information
translation
scene
modal
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011003004.7A
Other languages
English (en)
Inventor
涂眉
张帆
王黎杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN202011003004.7A priority Critical patent/CN114254660A/zh
Priority to PCT/KR2021/012735 priority patent/WO2022065811A1/en
Priority to US17/479,195 priority patent/US12008336B2/en
Publication of CN114254660A publication Critical patent/CN114254660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种多模态翻译方法、装置、电子设备及计算机可读存储介质,属于自然语言处理领域,该方法包括:获取源语言的多模态输入;根据所述多模态输入确定场景信息;基于所述场景信息,采用翻译模型获取目标语言的翻译内容。本申请的多模态翻译方法可以帮助翻译模型更好的判断当前的场景,从而减少语义理解的歧义现象,提高翻译的准确性。

Description

多模态翻译方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种多模态翻译方法、装置、电子设备及计算机可读存储介质。
背景技术
自然语言处理是为实现人与计算机之间用自然语言进行有效通信的技术。神经机器翻译是最近几年提出来的一种机器翻译方法,主要是利用神经网络,实现不同语言之间翻译的技术。
多模态翻译是运用听觉、视觉、触觉等多种感觉,通过语言、图像、声音、动作等多种手段和符号资源进行交际的现象,从而将语言和其他相关的意义资源进行整合,有必要对现有的多模态翻译方法进行优化。
发明内容
本申请的目的旨在提供一种多模态翻译方法、装置、电子设备及计算机可读存储介质。
第一方面,本申请实施例提供了一种多模态翻译方法,该方法包括:
获取源语言的多模态输入;
根据所述多模态输入确定场景信息;
基于所述场景信息,采用翻译模型获取目标语言的翻译内容。
第二方面,本申请实施例提供了一种多模态翻译装置,该装置包括:
第一获取模块,用于获取源语言的多模态输入;
确定模块,用于根据所述多模态输入确定场景信息;
第二获取模块,用于基于所述场景信息,采用翻译模型获取目标语言的翻译内容。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器:
存储器,用于存储机器可读指令;
处理器,用于在执行上述机器可读指令时,执行上述第一方面所示的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机指令,计算机指令被处理器执行时实现上述第一方面所示的方法。
本申请提供的技术方案带来的有益效果是:
上述的多模态翻译方法,通过在翻译中引入场景信息,可以帮助翻译模型更好的判断当前的场景,从而减少语义理解的歧义现象,提高翻译的准确性。
进一步的,在对源语言文本进行翻译时,可以强调位置信息的作用,或将重点放到客观知识对主观知识的加强上,从而更加准确的确定目标语言的翻译内容。
进一步的,通过根据领域标签选择编码器和解码器的不同层进行解码,多个领域标签共享某些层参数,降低了内存的消耗。
进一步的,选取翻译模型在对应的领域内翻译效果更准确的层结构,即运行层进行编码和解码任务,获取翻译内容,其他的非运行层可以不执行编码或解码任务,可以在提高翻译准确率的同时,提高翻译效率。
更进一步的,通过先对原本的翻译候选词进行筛选,筛选出选择概率较大的、与场景和源语言相关的部分候选词,可以有效减少搜索计算量,提高翻译效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1示出了现有技术中的多模态翻译方法的方案的示意图;
图2示出了现有技术中的多模态翻译方法的方案的示意图;
图3示出了现有技术一示例中多模态翻译方法导致翻译错误的示意图;
图4示出了本申请实施例提供的一种多模态翻译方法的流程示意图;
图5示出了本申请实施例提供的一种多模态翻译方法的流程示意图;
图6示出了本申请实施例提供的一种获取场景特征的方案的示意图;
图7示出了本申请实施例提供的一种获取场景特征的方案的示意图;
图8示出了本申请实施例提供的一种获取场景特征的方案的示意图;
图9示出了本申请示例中提供的一种获取场景特征的方案的示意图;
图10示出了本申请实施例提供的一种多模态翻译方法的流程示意图;
图11示出了本申请实施例提供的确定运行层的方案的示意图;
图12示出了本申请实施例提供的一种多模态翻译方法的示意图;
图13示出了现有技术采用独立模型和本申请确定运行层的方案的对比示意图;
图14示出了本申请一个示例中基于层掩码确定运行层的方案的示意图;
图15示出了确定top-k候选词的方案的示意图;
图16示出了一个示例中基于场景增强的源语言词向量确定目标语言的方案的示意图;
图17示出了本申请实施例提供的一种多模态翻译方法的流程示意图;
图18示出了一个示例中场景引入器的工作流程示意图;
图19示出了一个示例中场景引入器的工作流程示意图;
图20示出了本申请一个示例提供的一种多模态翻译方法的流程示意图;
图21示出了本申请一个示例提供的一种多模态翻译方法的流程示意图;
图22示出了本申请一个示例提供的一种多模态翻译方法的流程示意图;
图23示出了本申请和现有技术的多模态翻译方法的对比示意图;
图24示出了本申请一个示例提供的一种多模态翻译方法的流程示意图;
图25示出了图24中挑选层的编码器解码器的编码解码流程;
图26示出了在多模态翻译过程中使用词汇生成器挑选top-k候选词的方案的示意图;
图27示出了本申请一个示例提供的一种多模态翻译方法的流程示意图;
图28示出了本申请一个示例中的地图应用程序界面;
图29示出了本申请提供的一个具体场景下的获取场景信息的流程示意图;
图30示出了添加场景特征前后的效果对比示意图;
图31示出了本申请使用场景引入器自动选择目标领域的方案的示意图;
图32示出了本申请一个示例提供的一种多模态翻译方法的流程示意图;
图33示出了训练集的示意图;
图34示出了现有技术和本申请的模型结构的对比示意图;
图35示出了本申请一个示例提供的一种多模态翻译方法的流程示意图;
图36示出本申请实施例提供的一种多模态翻译装置的结构示意图;
图37示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为了更好的理解本申请实施例所提供的方案,下面首先对本申请所涉及的相关技术进行简单说明。
目前的多模态输入如图1所示,包括如下两个步骤:
(1)从多模态输入(包括文本,图像,视频,音频中的至少一种)中抽取文本,如从场景图像中识别文字(STR,scene text recognition,场景文字识别),或者从音频(如语音)中识别转写文本(ASR,acoustic speech recognition,声学语音识别);
(2)将步骤一中获得的文本通过编码器和解码器翻译成目标语言。
目前的多模态翻译的问题之一在于步骤一抽取文本后将场景信息丢失了,如图2所示,上下文信息(场景信息,例如,餐厅,市场,酒店等)将丢失(例如,提取菜单上的文本时,餐厅场景信息将丢失),这样就会造成理解的歧义。如图3所示,当菜单图像中的文字被识别后,翻译器将识别出的文字
Figure BDA0002694957870000051
翻译成了“Shell”,但
Figure BDA0002694957870000052
是多义词,在餐厅中
Figure BDA0002694957870000053
应该翻译成“pork rinds”。
另一问题是内存消耗的问题。为了引入场景信息,一种翻译方法是给每一个场景标注一个领域标签,为每个领域训练一个翻译模型。假设每个领域的翻译模型140M,则训练10个领域的模型将需要1.4G的内存。这将带来很大的内存消耗。
第三个问题是翻译时延长。多模态输入需要经过文本抽取、编码器、解码器等管道式翻译过程,若用在计算能力本身不如云端的设备侧,则会带来翻译速度慢的问题。
本申请提出的解决方案:
1)本申请提出一种基于位置注意力的多模态特征融合方法
本申请与现有工作的区别点之一在于提出了基于位置注意力的多模态特征融合方法,该方法利用位置信息对多模态输入进行权重分配,抽取出对领域标签有判别性的场景特征(本申请中也可称为场景信息或领域相关场景信息),更准确的预测领域标签,从而影响翻译结果;
2)本申请提出一种基于领域标签的神经网络层选择方法
本申请提出的基于领域标签的网络选择方法针对不同的领域选择编码器和解码器的不同层进行解码。多个领域共享某些层参数,降低了内存的消耗;
3)本申请提出一种基于场景特征的候选词表剪枝方法
本申请还提出一种基于场景特征的词表剪枝方法,该方法根据场景特征对目标端候选词表进行选择,大规模降低了搜索空间,并提高了翻译速度。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图4示出了本申请实施例提供的一种多模态翻译方法的流程示意图,该方法可以应用于多模态翻译系统,多模态翻译系统可以设置于服务器中,也可以应用于终端中,如图4中所示,该方法可以包括以下步骤:
步骤S401,获取源语言的多模态输入;
其中,多模态输入包含位置信息和以下至少之一:文本、图像、音频、视频、生物信号。
其中,位置信息可以是源语言所在的位置信息,例如,源语言来源于餐厅的图像,则位置信息可以是该餐厅位置。
具体的,用于实施多模态翻译方法的服务器或终端接收到文本、图像、音频、视频中的至少一种后,若接收到文本,则直接从文本提取出待翻译的源语言文本;若接收到图像,则或通过场景文字识别提取出图像中的源语言文本;若接收到音频或视频,则通过语音识别提取出文本作为待翻译的源语言文本。
步骤S402,根据多模态输入确定领域相关场景信息。
在本申请中,领域相关场景信息也可称为场景信息。
其中,领域相关场景信息可以与多模态输入相关的领域。
具体的,系统接到图像、音频或视频等输入后,可以通过现有技术提取图像特征、音频和视频的语音特征作为多模态特征,具体确定领域相关场景信息的过程将在下文进行详细阐述。
步骤S403,基于领域相关场景信息,采用翻译模型获取目标语言的翻译内容。
具体的,可以基于领域相关场景信息,从翻译模型中确定运行层,根据翻译模型的运行层获取翻译内容;还可以基于领域相关场景信息,确定多个候选词,再根据翻译模型的输出从多个候选词中确定出翻译内容,具体确定目标语言的翻译内容的过程将在下文进详细阐述。
上述实施例中,通过在翻译中引入领域相关场景信息,可以帮助翻译模型更好的判断当前的场景,从而减少语义理解的歧义现象,提高翻译的准确性。
以下将结合附图和实施例进一步阐述领域相关场景信息的具体确定过程。
本申请实施例的一种可能的实现方式,如图5所示,步骤S402的根据多模态输入确定领域相关场景信息,可以包括:
步骤S210,根据位置信息提取位置实体语义信息,并基于其他多模态输入提取源端文本语义信息和多模态特征。
其中,位置实体语义信息可以是与位置信息相关联的特征向量。
具体的,步骤S210的根据位置信息提取位置实体语义信息,可以包括:
(1)从位置信息中提取位置关键词;
(2)确定与位置关键词相关联的关联词;
(3)查询与关联词对应的词向量,得到位置实体语义信息。
具体的,系统接到位置信息输入后,将其通过位置关键词提取出位置相关的词或者短语,系统预设有查找词向量表,查找词向量表中设置有多个相关联的关联词,每一关联词设置有对应的词向量,查询与关联词对应的词向量,得到位置实体语义信息。
在本申请中,位置实体语义信息也可称为位置特征。
例如,对于提供位置信息的文本进行词性标注,抽取其中的名词/名词短语/方位介词作为位置相关的词或者短语。例如:系统获取到位置信息文本:“肯德基(太阳宫餐厅),北京市-朝阳区-太阳宫中路12号凯德Mall F1”,经过词性标注后得到“肯德基/名词(/标点太阳宫/名词餐厅/名词)/标点,/标点北京市/名词-/标点朝阳区/名词-/标点太阳宫/名词中路/名词12号/数词凯德/名词Mall/名词F1/数词”,最后得到的位置相关的词或者短语为:“肯德基太阳宫餐厅北京市朝阳区太阳宫中路凯德Mall”;若没有获取到位置信息,则将位置特征置为预设向量,例如,将每个元素设置为1e-06的向量,大小为1x H,其中H与源语言词向量的第二维度相同;
在一些实施方式中,其他多模态输入包括文本,还包括图像、音频、视频、生物信号中的至少一种;步骤S210的基于其他多模态输入提取源端文本语义信息和多模态特征,可以包括:
(1)从其他多模态输入中提取待翻译的源语言文本;
(2)将提取的源语言文本转化为源端文本语义信息;
(3)从文本、图像、音频、视频、生物信号中的至少一种中提取多模态特征。
具体的,系统接到多模态输入,如文本、图像、音频,视频等信号之后,可以直接从文本提取出待翻译的源语言文本,或通过场景文字识别提取出图像中的源语言文本,或通过语音识别提取出文本作为待翻译的源语言文本;系统中预设有查找词向量表,其中设置有源语言文本对应的多种词语,每一词语设置有对应的词向量,将其通过查找词向量表映射为源端文本语义信息。
在本申请中,源端文本语义信息也可称为源语言词向量,或称为源语言词向量特征。
具体的,系统接到图像/音频/视频等输入后,提取图像特征或语音特征作为多模态特征;若同时输入图像和音频,则分别提取图像特征和语音特征再合并成多模态特征,合并方法为:对图像特征和语音特征分别进行线性变换后再进行归一化(normalization),最后拼接在一起。
步骤S220,基于位置实体语义信息、源端文本语义信息和多模态特征,获取场景信息。
具体的,步骤S220的基于位置实体语义信息、源端文本语义信息和多模态特征,获取场景信息,可以包括:
基于注意力网络对位置实体语义信息、源端文本语义信息和多模态特征进行融合得到融合结果,基于融合结果获取场景信息。
其中,融合可以包括对特征进行联合,即可以是对两个矩阵或向量之间进行拼接,或进行加权相加等。
其中,多模态特征包含下述至少一种:图像的边缘信息、图像的颜色信息、图像的抽象信息、音调信息、声音信息、语音信息。其中,音调信息、声音信息、语音信息可以为在语音频域上的音调信息、声音信息、语音信息。
具体的,可以采用如下公式进行融合:
F(T,I,L)=[Att(L,[T;I]);L]=[softmax([WQL;WK[T;I]])WV[T;I];L](1)
其中,L表示位置特征,T表示源语言词向量,I表示多模态特征,Att是指注意力机制,WQ,WK,WV均是可以学习的权重。
在一种实施方式中,步骤S220基于注意力网络融合位置实体语义信息、源端文本语义信息和多模态特征,得到领域相关场景信息,可以包括:
(1)将源端文本语义信息与多模态特征进行融合,得到第一融合特征;
(2)基于位置实体语义信息,使用注意力网络确定第一融合特征的权重;
(3)根据权重加权第一融合特征;
(4)将加权后的第一融合特征与位置实体语义信息进行融合,得到与领域相关场景信息。以下将结合示例进行进一步说明,如图6所示,融合得到领域相关场景信息的过程可以包括:
步骤一:将源端文本语义信息和多模态特征融合,得到第一融合特征;
步骤二:使用位置实体语义信息对步骤一生成的第一融合特征进行注意力加权;
步骤三:基于第一融合特征和步骤二生成的加权特征生成领域相关场景信息。
在本申请中,领域相关场景信息也可称为场景信息或场景特征。
如图7所示,融合层用于将源语言词向量T、多模态特征I和位置特征L融合在一起,是场景引入器中的重要部分,可以协助场景引入器确定层掩码,并将场景信息提供给场景敏感的编码器解码器以处理歧义问题。位置特征L可以帮助确认输入信息中的哪些内容对于生成领域标签很重要,基于位置特征L对融合的源语言词向量T和多模态特征I进行注意力加权,然后基于位置特征L融合加权得到的特征,以对加权得到的特征进行增强。
另外,如果在某些情况下位置特征L丢失(例如,用户未授权的应用获取位置信息),则融合层将融合源语言词向量T和多模态特征I,然后经过FFN(feed-forwardnetworks,前馈网络)层,而不是基于注意力加权并与位置特征L融合,这种方案可以在某些方面保护用户隐私。
融合层可以使用位置特征L来提取源语言词向量T和多模态特征I中更多有用的信息。
上述实施方式中,在对源语言文本进行翻译时,强调了位置信息的作用,基于位置信息更加准确的确定目标语言的翻译内容。
在其他实施方式中,还可以将重点放到客观知识对主观知识的加强上。图像、声音、位置等均为客观世界的知识,文本则是人类语言的符号,属于主观意义上的知识。
在另一种实施方式中,可以改变特征融合的顺序,步骤S220基于注意力网络融合位置实体语义信息、源端文本语义信息和多模态特征,得到领域相关场景信息,可以包括:
(1)将位置实体语义信息与多模态特征进行融合,得到第二融合特征;
(2)基于第二融合特征,使用注意力网络确定源端文本语义信息的权重;
(3)将加权后的源端文本语义信息作为领域相关场景信息。
以下将结合示例进行进一步说明,如图8所示,融合得到领域相关场景信息的过程可以包括:
步骤一:将多模态特征和位置实体语义信息进行融合,得到第二融合特征;
步骤二:使用第二融合特征对源端文本语义信息进行注意力加权;
步骤三:加权特征作为领域相关场景信息。
以下将结合具体事例对获取领域相关场景信息的具体过程进行进一步说明。
如图9所示,在一个示例中,获取领域相关场景信息的步骤,可以包括:
步骤一:系统接收到文本“it is a good day!”以及捕获了场景图像和位置信息,根据图像和位置信息获取到多模态特征、位置实体语义信息和源端文本语义信息;其中源端文本语义信息,即源语言词向量如图中信号④所示,源语言词向量的大小为[5×512],多模态特征如图中信号⑤所示,多模态特征的大小为[10×512],位置实体语义信息,即位置特征如图中信号⑥所示,位置特征的大小为[3×512];
步骤二:将步骤一中获取的源端文本语义信息和多模态特征使用位置实体语义信息进行注意力加权(如图中所示的基于位置的注意力融合),生成信号⑦-A;
步骤三:融合信号⑦-A和位置实体语义信息生成领域相关场景信息(即图中所示的基于位置进行注意力融合),即场景特征,在图9中,可以将源端文本语义信息、位置实体语义信息和多模态特征进行特征拼接,得到场景特征,场景特征的大小为[18×512]。
上述实施例阐述了获取领域相关场景信息的过程,以下将结合附图和实施例进一步阐述基于领域相关场景信息获取目标语言的翻译内容的过程。
本申请实施例的一种可能的实现方式,如图10所示,步骤S403的基于领域相关场景信息,采用翻译模型获取目标语言的翻译内容,可以包括:
步骤S310,根据领域相关场景信息确定翻译模型中的运行层。
其中,翻译模型可以包括编码器的多个编码层和解码器的多个解码层,可以分别确定出编码器的运行层和解码器的运行层。
具体的,步骤S310的根据领域相关场景信息确定翻译模型中的运行层,可以包括:
(1)根据领域相关场景信息确定领域标签。
其中,领域标签可以是与领域相关场景信息对应的词语标签,例如,可以包括餐厅、医院、工厂、公园等等领域标签。
具体地,根据领域相关场景信息确定领域标签可以包括:
a、使用卷积神经网络对领域相关场景信息进行特征提取;
b、使用上下文分类网络基于卷积神经网络的输出确定领域标签。
(2)从预定义的层掩码中选择与领域标签对应的层掩码。
在一些实施方式中,可以预先设置多个不同领域标签和层掩码之间的对应关系,当确定领域标签时,查询与所确定的领域标签对应的层掩码。
在另一些实施方式中,还可以通过结构搜索的方法自动学习标签-掩码对应关系,具体可以包括:
a、从所有的可选择的对应关系中随机采样出一种标签-掩码对应关系;比如在从独立层-共享层-独立层分别采样出“{餐厅:1-4-5-7;医院:1-4-5-7;工厂:1-4-5-7}”
b、在步骤a获得的采样关系下训练模型直到收敛,并计算验证集上的翻译质量打分;
c、重新随机采样对应关系;
d、重复步骤b和步骤c,直到验证集上的翻译质量分数最高。
也就是说,可以先随机设置领域标签和层掩码的对应关系,然后训练模型,使得随机确定的这种关系下模型的翻译质量分数最高。
(3)根据所选择的层掩码确定翻译模型中的运行层。
其中,运行层可以是翻译模型在对应的领域内翻译效果更好的层结构。
其中,层掩码可以是向量的形式,向量中的每一元素均用于表示翻译模型中的每一层是否为运行层。
例如,层掩码为(1,0,0,0,1),第一个掩码为1,可以将第1层设为运行层,第二个掩码为0,可以将第2层设置非运行层。
步骤S320,使用由运行层组成的翻译模型获取翻译内容。
具体的,选取翻译模型在对应的领域内翻译效果更准确的层结构,即运行层进行编码和解码任务,获取翻译内容,其他的非运行层可以不执行编码或解码任务,可以在提高翻译准确率的同时,提高翻译效率。
以下将结合具体示例进一步阐述运行层的确定过程。
如图11所示,根据领域相关场景信息确定翻译模型中的运行层,可以包括如下步骤:
步骤一:获取领域标签,经过层掩码选择器获得层掩码,其中层掩码选择器可以预先定义好标签-掩码对应关系,如可以接收用户预先设置的标签-掩码对应关系;层掩码是一个由0,1组成的向量,第i个值为0表示不选择第i层,为1表示选择第i层;
步骤二:若层掩码向量第i个掩码为1,则将第i层设置为实际运行层,若第i个掩码为0,则将第i层设置为不运行层;
步骤三:场景特征经过编码器和解码器实际运行层后得到解码隐藏层,该隐藏层将作为解码器softmax(输出层)的输入。
上述过程中,从1-M个编码层和1-M个解码层中,根据层掩码选取第i-k个编码运行层,即图中所示的编码器实际运行的层,并选取第i-k个个解码运行层,即图中所示的解码器实际运行的层。
如图12所示,以下将结合示例进一步阐述挑选层的编码器解码器。
在本申请中,挑选层的编码器解码器,也可以称为层选择编码器解码器,或层选择的编码器解码器。
挑选层的编码器解码器可以基于层掩码动态选择正在运行的层,并用于减小存储大小,具体可以按以下步骤工作:
1)在所有编码层和所有解码层中选择运行层并构建挑选层的编码器解码器;
2)将挑选层的编码器解码器作为通用编码器解码器运行。
现有技术对于不同领域是构建单独的模型,不同模型之间没有共享层,尽管领域不同,但某些信息提取层很常见,因此本申请可以使用一种模型通过共享层来处理所有领域,并保留一些独立层来处理不同领域之间的差异。不同的独立层也可以帮助模型集中于场景特征来减少翻译错误。
挑选层的编码器解码器有利于处理存储问题;使用层掩码来共享层以减小存储大小。
以下将进一步阐述与不同领域采用不同模型的解决方案相比,挑选层的编码器解码器可以减少模型存储的大小的原因。
如图13所示,假设C(C≥1)是正在处理的领域,这意味着领域标签、层掩码、编码器/解码器(在下面的描述中使用E/D代替)也等于C;n是每个E/D中的层号;E(r≥0)是E/D中的共享层号;r是共享层的层数;M是E/D的总层数;N是E/D中独立层的总层数。因此,M,N可以表示为以下公式:
M=(n-r)×C+r (2)
N=n×C (3)
N-M=r×(C-1) (4)
从(4)可以知道我们的解决方案可以节省r×(C-1)层存储。r≥0;C≥1,本申请的存储小于单独设置独立模型的存储。r和C越大,本申请的模型可以节省更多的存储空间。图13左侧图示出了现有技术中不同领域采用不同的独立模型的解决方案,该解决方案中每个领域采用的是独立的编码器和解码器,不会进行编码器层或解码器层的共享和复用,右侧图示出了本申请方案,本申请方案中不同领域之间可以共享某些层,并保留一些独立层来处理不同领域之间的差异,通过不同领域标签的层掩码来确定每个领域的挑选层的编码器和解码器,通过挑选层的编码器和解码器来进行翻译,得到目标语言的翻译内容。
如图14所示,在一个示例中,可以根据不同的领域标签选择不同的层掩码。图14中,如“餐厅”对应了1-4-5-6层,表示“餐厅”领域选择第1、4、5、6层进行运行,“医院”对应了2-4-5-7表示“医院”领域选择2、4、5、7层进行运行,“工厂”对应了3-4-5-8表示“工厂”领域选择3、4、5、8层进行运行。可以看到,1,2,3层是每个领域的独立层,4,5层是所有领域共享的层,6,7,8是每个领域独立的层。
该示例中可以对所有层进行编号,并使用向量表示当前层结构的逻辑。在向量中,可以设置值0和1,与每一层相对应的位置中的矢量值指示是否选择该层,0表示否,1表示是,该矢量就像一个掩码,因此我们将其称为层掩码,每个领域标签都有对应的层掩码,因此层掩码可以代表相应的领域标签。
具体的,层掩码可以由编码器解码器中的图层结构预先定义,并且在训练时不变。
上述示例中,经过层选择的翻译模型可以利用共享层的参数共享降低内存的使用,同时独享层可以保证每个类别的独有信息不丢失。
上述实施例中,通过根据领域标签选择编码器和解码器的不同层进行解码,多个领域标签共享某些层参数,降低了内存的消耗。
此外,选取翻译模型在对应的领域内翻译效果更准确的层结构,即运行层进行编码和解码任务,获取翻译内容,其他的非运行层可以不执行编码或解码任务,可以在提高翻译准确率的同时,提高翻译效率。
本申请实施例的一种可能的实现方式,步骤S403的基于领域相关场景信息,采用翻译模型获取目标语言的翻译内容,可以包括:
(1)根据领域相关场景信息确定候选词。
具体的,根据领域相关场景信息确定候选词,可以包括:
a、将多模态输入中提取的源端文本语义信息与领域相关场景信息进行融合,得到第三融合特征;
b、使用前馈神经网络对第三融合特征进行特征提取;
c、根据前馈神经网络的输出计算目标语言候选词集合中各个词语的选择概率;
d、根据目标语言候选词集合中中各个词语的选择概率确定候选词。
其中,融合可以是将源端文本语义信息与领域相关场景信息进行拼接。
在本申请中,第三融合特征也可称为场景增强的源语言词向量。
具体的,可以选取选择概率最大的预设个数的词语作为候选词,也可以选取选择概率大于预设阈值的词语作为候选词。
以下将结合具体示例对候选词的获取过程进行进一步详细阐述。
在一个示例中,如图15所示,确定候选词可以包括如下步骤:
步骤一:融合场景特征(即领域相关场景信息)和源语言词向量(即源端文本语义信息),生成融合(如拼接)后得到场景增强的源语言词向量(即第三融合特征);
步骤二:场景增强的源语言词向量经过全连接层和Sigmoid层得到全部词表的得分,全部词表包含所有目标语言单词,场景增强的源语言词向量经过全连接层和Sigmoid层得到全部词表中每个目标语言单词的选择概率,全连接层和Sigmoid层组成了词表裁剪器,也可以称为词表剪枝器;
步骤三:按得分(即选择概率)对词表排序,选出得分最高的k个词作为目标端词表,即选择K个候选词;该词表将贯穿整个翻译过程,直到下一次翻译模型的输入发生变化。
在本申请中,得分最高的k个词作为目标端词表,即选择k个候选词也可称为top-k候选词,或top-k词汇,或top-k词汇表。
(2)根据翻译模型的输出,从候选词中确定翻译内容。
具体的,根据翻译模型的输出,从候选词中确定翻译内容,可以包括:
将第三融合特征输入到翻译模型,得到翻译模型的输出词语;重复将上一次的输出词语输入到翻译模型,得到对应的输出词语,直至生成结束符,结合每一次的输出词语,即可得到翻译内容。
以下将结合具体示例对翻译内容的获取过程进行进一步详细阐述。
如图16所示,在一个示例中,获取翻译内容的具体过程包括如下步骤:
步骤一:获取与待翻译文本“it is good today!”的场景增强的源语言词向量,即融合场景特征和源语言词向量,生成拼接后得到场景增强的源语言词向量(即第三融合特征);
步骤二:将步骤一获得的第三融合特征输入到词表剪枝器(即翻译模型)中,得到得分最高的7个词作为目标端候选单词(即候选词);
步骤三:将步骤一获得的第三融合特征输入到选择运行层的编解码器(即翻译模型中的运行层),第0次迭代输入起始标志符”<s>”到选择运行层的编解码器中生成第0次迭代的解码隐藏层;
步骤四:将步骤三获得的解码隐藏层输入softmax层计算得到步骤二中的候选词的概率分布,解码隐藏层大小为[1×512],词表剪枝器输出的大小为[512×7],softmax层输出的大小为[1,7];
步骤五:根据步骤四的概率分布获得第0次迭代生成的单词“今天”;
步骤六:将步骤五生成的单词“今天”经过步骤三生成第1次迭代的解码隐藏层;
步骤七:重复步骤四~步骤六直至生成结束标识符,融合每一次生成的单词,即可得到翻译内容“今天天气很好”。
通过上述示例可以看出,经过词表剪枝器后,翻译词候选范围缩减到了与场景和源语言相关的7个词,比起原有的30000词的搜索空间,本方法的搜索空间减少,进而提高翻译速度。
上述实施例中,通过先对原本的翻译候选词进行筛选,筛选出选择概率较大的、与场景和源语言相关的部分候选词,可以有效减少搜索计算量,提高翻译效率。
为了更好地理解上述的多模态翻译方法,以下详细阐述一个本发明的多模态翻译的示例:
如图17所示,在一个示例中,本申请的多模态翻译方法包括如下步骤:
步骤一:用于实施多模态翻译方法的系统接收到多模态输入,如文本、图像(也可以称为图片)、音频(如语音)、视频等信号之后,直接从文本提取出待翻译的源语言文本,或通过场景文字识别提取出图像中的文本,或通过语音识别提取出文本作为待翻译的文本将其通过查找词向量表映射为源语言词向量,即源端文本语义信息;
步骤二:系统接到图像/音频/视频等输入后,提取图像特征或语音特征作为多模态特征;若同时输入图像和语音,则分别提取图像特征和语音特征再合并成多模态特征;
步骤三:系统接到位置信息输入后,将其通过位置关键词提取出位置相关的词或者短语,并通过查找词向量表映射为位置特征,即位置实体语义信息;
步骤四:通过场景引入器,将源语言词向量、多模态特征、位置特征融合成场景特征,即将位置实体语义信息、源端文本语义信息和多模态特征融合得到领域相关场景信息,并输出领域标签;
步骤五:场景特征和源语言词向量特征融合生成场景增强的源语言词向量,即将领域相关场景信息和源端文本语义信息融合得到第三融合特征;
步骤六:层掩码选择器接到领域标签后生成层掩码;
步骤七:场景增强的源语言词向量(即第三融合特征)和层掩码输入到编码器解码器,根据层掩码对运行的层进行选择,确定翻译模型中的运行层,组成挑选层的编码器解码器;
步骤八:输出层根据场景增强的源语言词向量(即第三融合特征)进行词表剪枝,即确定候选词;
步骤九:在剪枝的词表中生成目标语言文本,即根据所确定的候选词生成目标语言的翻译内容。
其中,图17中的各个标号对应的特征如下:
1-文字/图像/音频;
2-文字/图像/音频;
3-位置信息,例如“在凯德MALL(太阳宫店)附近”,可以从地图应用获取;
4-源语言词向量:大小为[T×隐藏单元]的浮点矩阵,其中T为源语言文本长度,隐藏单元为神经元编号,源语言词向量表示单词级别的词级源浅层语义信息;
5-多模态特征:具有[I×隐藏单元]大小的浮点矩阵,用于表示图像或一段语音,其中I是输出通道,隐藏单元是每个通道的神经元数量,多模态特征包含图像的边缘信息、图像的颜色信息和图像的抽象信息,以及在一条语音的频域上的音调信息、声音信息和语音信息中的至少一种;
6-位置特征:大小为[L×隐藏单元]的浮点向量,表示从地图应用程序获得的位置信息,其中L是信息长度,隐藏单元是神经元编号;例如,如果使用512维神经元,则“海南三亚湾”的位置可以表示为[3×512],位置特征包含位置的实体语义信息;
7-场景特征:场景特征是一个浮点矩阵,大小为[C,隐藏单元],表示融合上下文,其中C=L+T+I。L,T,I从信号4,5,6引用,场景特征包含可用于区分领域的场景信息;
8-领域标签;
9-场景增强的源语言词向量:融合上述特征4和7;
10-层挑选器:一个向量,指示正在运行的层。矢量尺寸与层号相同,例如,层掩码[1,0,0,1,1,1,0,0]表示使用了第0,3、4、5层。
在本申请中,词表剪枝确定的候选词,也可称为词汇表。
本申请的多模态翻译方法主要包括三个部分:抽取器、场景引入器和场景敏感的编码器解码器。
抽取器从给定的信息中提取特征和文本。文本可以直接获取,也可以使用STR(Scene Text Recognition,场景文字识别)技术通过图像提取,或者使用ASR(AutomaticSpeech Recognition,自动语音识别技术)技术通过音频提取;位置信息可以通过注意力模型提取。抽取器输出源语言词向量、多模态特征和位置特征。
场景引入器将获取所有抽取器的输出,同时输出场景特征和层掩码,场景特征用作附加的场景特征,而层掩码则用于设置场景敏感的编码器解码器中的模型参数。不同的领域标签对应不同的场景特征和不同的层掩码。
场景敏感的编码器解码器由挑选层的编码器解码器和基于场景输出层组成,挑选层的编码器解码器与层掩码选择器结合使用,可挑选模型中的运行层以减小存储大小。基于场景输出层用于加快计算时间和处理歧义问题。
场景引入器:它有助于解决歧义问题,用于提取场景特征和层掩码,层掩码用于使挑选层的编码器解码器使用。
场景敏感的编码器解码器:它有利于处理歧义问题、存储问题和延迟问题;使用层掩码挑选运行层以减小存储大小,并使用所筛选的词汇表来加快计算时间并消除歧义。
以下将结合示例对图17中的场景引入器进行进一步说明。
如图18所示,在一个示例中,图17中的场景引入器可以用于进行如下步骤:
步骤一:获取到多模态特征、位置特征(即位置实体语义信息)和源语言词向量(即源端文本语义信息);
步骤二:将步骤一中的特征融合,生成场景特征(即领域相关场景信息),具体的融合方式有如下两种:
方式一:将源端文本语义信息与多模态特征进行融合,得到第一融合特征;基于位置实体语义信息,使用注意力网络确定第一融合特征的权重;根据权重加权第一融合特征;将加权后的第一融合特征与位置实体语义信息进行融合,得到与领域相关场景信息。
方式二:将源端文本语义信息和多模态特征融合,得到第一融合特征;使用位置实体语义信息对步骤一生成的第一融合特征进行注意力加权;基于第一融合特征和步骤二生成的加权特征生成领域相关场景信息。
步骤三:场景特征经过卷积神经网络层,池化和拉平层,以及softmax层生成领域类别,即领域标签。
上述示例中,融合得到领域相关场景信息时,可以强调了位置信息的作用,或将重点放到客观知识对主观知识的加强上,从而更加准确的确定目标语言的翻译内容。
以下将结合示例对图17中的场景引入器进行进一步说明。
如图19所示,在一个示例中,图17中的场景引入器可以用于进行如下步骤:
步骤一:获取到多模态特征、位置特征(即位置实体语义信息)和源语言词向量(即源端文本语义信息);
步骤二:将步骤一中的特征融合,生成场景特征(即领域相关场景信息);
步骤三:领域相关场景信息经过卷积神经网络层,池化和拉平层,以及softmax层生成领域标签的分布,如图19中所示,领域标签为餐厅对应的层掩码方案1、医院对应层掩码方案2、工厂对应层掩码方案3、公园对应层掩码方案4以及博物馆对应层掩码方案5等等;根据分布选择概率最大的领域标签层掩码方案,即最终确定领域标签为餐厅,选取层掩码方案5。
上述示例中,根据领域标签选择编码器和解码器的不同层进行解码,多个领域标签共享某些层参数,降低了内存的消耗。
如图20所示,结合图19中所述的场景引入器对本申请的多模态翻译方法进行进一步阐述。
场景引入器用于提取场景特征,并为场景敏感的编码器解码器提取层掩码;将多模态特征、位置特征和源语言词向量作为输入,并通过融合层、卷积神经网络、场景分类计算领域标签分布,给出场景特征。
场景引入器按以下步骤工作:
1)通过融合层融合多模态特征、位置特征和源语言词向量,经过融合层处理后,将输出场景特征;
2)使用CNN(Convolutional Neural Networks,卷积神经网络)层从场景特征中提取深层特征;
3)通过场景分类器计算领域标签分布,场景分类器可以由池化、拉平和softmax层组成,也可以使用其他分类器。
4)通过领域标签分布选择概率最大的领域标签,然后通过层掩码选择器查找其对应的层掩码。在训练之前,所有层掩码均由场景敏感的编码器解码器结构预先定义,并且不会更改。通过层掩码得到场景敏感的编码器和解码器,基于源语言词向量和场景特征,使用场景敏感的编码器和解码器得到目标语言的翻译内容。
融合层:它有助于解决歧义问题,通过融合位置特征,从而更好地关注有用信息,并将场景特征提供给场景敏感的编码器解码器。
本申请是首次将场景引入器应用于多模态机器翻译。
如图21所示,以下将结合示例对场景敏感的编码器解码器进行进一步说明。
场景敏感的编码器解码器按以下步骤工作:
场景敏感的编码器解码器将以源语言词向量、场景特征和层掩码为输入,并输出目标语言的翻译内容。场景敏感的编码器解码器按以下步骤工作:
1)源语言词向量是编码器/解码器的通用输入;场景特征在本方案中很重要,为了增强场景特征,可以将源语言词向量和场景特征进行融合作为输入;
2)层掩码选择器输出的层掩码将应用于挑选层的编码器解码器,以便设置层参数并减小存储大小;挑选层的编码器解码器将输出解码后的特征,即图中的解码特征;
3)基于场景的输出层softmax将场景增强的源语言词向量和解码特征作为输入,并输出目标语言文本,可以处理延迟问题,以及处理歧义问题。
作为最后一个模块,场景敏感的编码器解码器在本申请的模型中扮演着重要角色。在这里,使用挑选层的编码器解码器作为存储问题的解决方案,并使用基于场景的输出层softmax作为我们的解决方案,以加快模型推理时间来处理延迟问题,并通过添加场景特征来处理歧义性问题。
1、挑选层的编码器解码器有利于处理存储问题,通过重复使用层掩码来减小存储大小;
2、基于场景的输出层softmax,有利于处理延迟问题和歧义问题;它使用筛选后的词汇表来加快推理时间并消除歧义词。
如图22所示,结合具体示例进行进一步说明。
计算时间是翻译模型的重要指标。为了加快模型计算时间,可以使用基于场景的输出层softmax生成具有top-k词汇的目标语言,即生成包括概率最大的k个候选词的目标语言,并且还可以避免歧义。它按以下步骤工作:
1)融合源语言词向量和场景特征,使用FFN层提取特征;
2)使用sigmoid函数计算总词汇量中所有单词的目标出现概率,FNN和sigmoid函数组成了词汇生成器;
3)通过提取top-k目标出现概率最大的候选词来构建Top-k词汇表;
4)基于解码特征,使用softmax计算Top-k候选词的概率,根据概率生成目标语言文本。
请注意,在每个句子翻译中,可以仅创建一次Top-k词汇表。因为在Top-k词汇中计算量比在总词汇量中小得多,所以基于场景的输出层softmax比普通softmax快得多。此外,Top-k词汇表将删除一些歧义词,以便消除歧义。
基于场景的输出层softmax有利于处理延迟问题和歧义问题,使用Top-k词汇表来加快推理时间并消除歧义词。
如图23所示,以下将对比普通softmax来说明本申请的基于场景的输出层softmax的效果。
机器翻译任务将一目了然地输出目标语言单词,以构建一个完整的句子,而解码后的功能则起着控制输出单词的逻辑顺序的作用。因此,在机器翻译任务中,解码器和softmax将被多次使用以生成最终语句。
假设一个句子中的单词数是N(N≥1),目标语言词汇量是V,Top-k词汇量是K(K<<V)。在普通softmax中得到一个单词的计算复杂度为O(V),在基于场景的输出层softmax为O(K)(O(K)<<O(V));建立Top-k词汇的计算复杂度为O(V)。注意,Top-k词汇表在一个句子翻译中只会建立一次。在普通softmax(我们将其表示为ONS)和基于场景的输出层softmax(我们将其表示为OWS)中获得最终句子的计算复杂度可以表示为以下公式:
ONS=N×O(V) (5)
OWS=O(V)+N×O(K) (6)
ONS-OWS=N×(O(V)-O(K))-O(V)=(N-1)×(O(V)-O(K))-O(K) (7)
从(7)中我们可以看到,当N=1时,ONS比OWS更小;(因为O(K)更小),但是随着N的增加,考虑到O(K)<<O(V),ONS将比OWS大得多。考虑到大多数情况N>1,基于场景的输出层softmax将比普通softmax更快。换句话说,使用基于场景的输出层softmax可以加快模型处理延迟问题的速度。
如图24所示,结合具体示例对本申请的多模态翻译方法进行进一步说明。
多模态输入:包括文本、图像、音频、视频、生物信号中的至少一种,还包括位置信息;
抽取器:从多模态输入中提取信息,如:1.从图像/音频中提取文本信息作为源语言词向量;2.从图像/音频中提取内容信息作为多模态特征;3.从位置信息中提取位置特征。
场景引入器:1.将这些信息融合在一起,并给出融合的场景特征;2.对源语言词向量所属的领域进行分类,并给出相应的层掩码。
词汇生成器:使用场景特征和源语言词向量来构建top-k词汇表。top-k词汇表将在基于场景的输出层softmax中使用,以加快模型推理时间。
挑选层的编码器解码器:1.使用层掩码确定运行层;2.翻译具有场景特征的源语言词向量,并给出解码特征。
基于场景的输出层softmax:1.代替整个词汇表,将top-k词汇设置为目标输出词汇;2.计算目标输出词汇中的单词概率,并给出最佳词作为最终输出。
输出:显示给用户的最终输出。
如图25所示,以下将结合示例对图24中的挑选层的编码器解码器的编码解码流程进行进一步说明。
编码器解码器通常基于序列到序列的结构,用于计算连续单词的流程图通常是NMT(Neural Machine Translation,神经机器翻译)的默认结构,在本申请中未明确地示出。
如图25所示,输出由词序列组成,下一个词是基于前一个词的翻译结果确定的。例如,输入是源语言“A B C D”,首先它们经过编码器,并给出场景特征,然后,带有开始标记(即<s>)嵌入的场景特征将通过解码和Softmax层,在这里得到第一个输出“a”;然后带有“<s>”和“a”的场景特征经过解码器和softmax层,在这里得到第二个输出“b”;然后,带有“<s>”,“a”和“b”的嵌入的场景特征通过解码器和softmax层,在这里我们得到第三输出“c”,如此循环,直到得到所有词“<s>a b c d”,它们都会通过解码器和Softmax层,然后将获得结束标志(即<\s>),翻译任务已完成。忽略特殊标志(<s>,<\s>)之后,将获得包含所有词(“ab c d”)的最终输出。其中,图中解码后输出的特征向量大小为[1×512],top-k词汇表可以包含top-10词汇,softmax层输出的特征大小为[512×10],如果使用现有技术中的完整词汇表,以完整词汇表中词汇个数为30000为例,则softmax层的权重为[512×30000],最终得到的翻译内容的特征大小为[1×30000]。
如图26所示,示出了在多模态翻译过程中使用词汇生成器挑选top-k候选词的方案,对于词汇生成器,它仅对一个句子起作用一次,并且此时所有单词的top-k候选词都是固定的(“a b c d”)。因此,词汇生成器使用与第二个NMT相同的输入,并且只对一个句子使用一次,可以说它处于准备阶段。对所有输出使用top-k候选词,即图中所示的top-7候选词:[<s><\s>a b c d e f g](a b c d<\s>)若不进行候选词的挑选,则循环翻译过程中,使用的候选词为[<s><\s>a b c d…x y z],因此,使用词汇生成器选取top-k候选词,在循环翻译过程中,可以有效减小计算复杂度。
如图27所示,示出了示例中本申请的多模态翻译方法,其中:
多模态输入:用户需要翻译的多模态信息,包括图像/音频,位置信息;
抽取器:从多模态输入中提取信息,并给出提取的结果,具体包括:
1.从图像/音频中提取文本信息作为源语言词向量;
2.从图像/音频中提取内容信息作为多模态特征;
3.从位置信息中提取位置特征。
场景引入器,具体用于:
1.将这些信息融合在一起,并给出融合的场景信息;
2.对源语言词向量所属的领域进行分类,并给出相应的层掩码。
词汇生成器:使用场景信息和源语言词向量来构建top-k词汇表,top-k词汇表将在词上下文softmax中使用,以加快模型推理时间;
挑选层的编码器/解码器,具体用于:
1.根据层掩码挑选运行层;
2.照常翻译具有场景特征的源语言词向量,并给出解码特征。
基于场景的softmax,具体用于:
1.代替整个词汇,将top-k词汇设置为目标输出词汇;
2.计算目标输出词汇中的单词概率,并给出最佳词作为最终输出。
输出:显示给用户的最终输出。
可以理解的是,词汇生成器中的FFN层可以更改为其他类型的层。
为了说明本申请的多模态翻译方法的效果,以下将结合试验数据进行进一步说明。
为了验证本申请的解决方案,考虑到挑选层的编码器-解码器部分是本申请解决方案中重要的部分,在一些快速实验中对该部分进行了测试。所有实验的翻译方向均为中文到英文。
为实验选择3个域(酒店,医院,市场),并在每个域中使用500,000对中英文句子进行模型训练。相对于现有技术,需要针对每个域将训练3个文本编码器-解码器模型。在基准模型中(即对照模型),编码器和解码器分别使用4层。在本申请的解决方案中,使用2层作为共享层,使用2层作为独立层,因此每个领域也分别具有4层用于编码器和解码器。表1显示了实验结果。在表1中,可以发现我们在目标域中的翻译结果,我们的模型存储大小以及每句话的推理时间都比基准模型要好。
表1:翻译效果对比
Figure BDA0002694957870000261
采用相同测试集来测试现有技术在不同领域上翻译质量,结果如表2所示。
表2:现有技术的翻译效果
方法 BLEU(宾馆) BLEU(医院l) BLEU(市场)
现有技术翻译 15.89 16.54 14.75
上表1和表2中,BLEU(Bilingual Evaluation Understudy,双语评估学习):较高的BLEU分数意味着良好的翻译质量;模型大小:模型存储大小,在现有技术中,我们将三个模型的总存储大小视为模型大小;推理时间:每个句子的模型推理时间,可以通过平均100个句子的推断时间来计算。
如图28所示,图28示出了在地图应用程序界面,用于表示:
1、位置信息可以通过某种方式访问(自己设置或从地图应用程序获取);
2、位置信息是如何描述的。具体的,获取我的位置“在凯德MALL(太阳宫店)附近”,翻译得到“around capital mall(Taiyanggong Branch)”,查询与“around capital mall(Taiyanggong Branch)”对应的向量(即图中所示的从词汇表中找到单词索引),通过嵌入矩阵获取位置特征。如图29所示,图29示出了具体场景下的翻译流程。
当用户与服务员交谈时,语言沟通出现障碍的情况下,可以关注菜单,如用户说
Figure BDA0002694957870000271
服务员可能会指着
Figure BDA0002694957870000272
用户可能会问“这个是什么”,在翻译的过程中,可以添加其他信息“Uncle’s specialty(叔叔的特色菜)”“pork rinds”,得到源语言词向量T;根据菜单得到多模态特征I;根据位置信息“aroundcapital mall(Taiyanggong Branch)(在凯德MALL(太阳宫店)附近)”得到位置特征L,经过注意力网络,可以强调位置信息的作用,因为在对“餐厅”领域的数据进行训练时,这些数据通常都与“在凯德MALL(太阳宫店)附近”一起出现。
如图30所示,图中FFN用于理解输入信息,并提取出输出信息以输入到sigmoid,它包含从源语言词向量到目标的映射逻辑,例如
Figure BDA0002694957870000274
映射到[“shell”,“pork”,“rinds”,……];图中sigmoid用于计算每个单词出现在目标语言候选词集合中出现的概率,它可以看作是对每个字从FFN层解码的逻辑。
当仅获得单词
Figure BDA0002694957870000273
时,就可以知道目标语言可能包含[“shell”,“pork”,“rinds”,“is”,…],这对于人来说很容易,对于神经网络而言同样简单。因此,我们选择FFN层作为示例来提取此映射信息,因为它简单且复杂度较小,也可以采用其他的网络层结构。
但是,当添加“餐厅”的信息时,将获得一个新的目标单词列表,例如[“猪肉”,“外皮”,“是”,…]
sigmoid和softmax之间的区别在于:sigmoid用于计算每个单词的概率,而softmax用于计算词汇中选择一个单词的概率。Sigmoid将给出所有单词的独立概率,而softmax将给出基于所有单词计算得到概率。例如,sigmoid将给出[“shell”(0.85),“pork”(0.9),“rinds”(0.87),…],每个单词的概率可以是[0,1]中的每个值;softmax将给出[“shell”(0.2),“pork”(0.35),“rinds”(0.33),…],所有单词概率的总和为1。当前的多模态NMT模型有两个阶段。
第一阶段,对所有领域使用一种NMT模型,而不考虑多领域的问题;
技术问题:翻译质量低。
第二阶段,对不同的领域使用不同的NMT模型;
技术问题:
1.需要较大的存储空间;
2.需要用户手动选择对应的领域的模型。
此外,由于NMT中均有通用的softmax层,因此这两个阶段都面临高延迟问题。
基于现有技术的两个阶段的多模态翻译模型,本申请的解决方案如下,如图31所示:
1)与第一阶段相比,本申请的解决方案具有更高的翻译质量,因为引入了场景引入器,考虑了不同的领域信息;
2)与第二阶段相比,由于采用了挑选层的编码器解码器,本申请的解决方案的模型尺寸较小,可以自动选择目标领域;
3)与它们两者相比,本申请的解决方案由于基于场景的softmax而具有较低的延迟。
如图32所示,现有技术的翻译模型中Softmax搜索整个词汇表(约30,000个)以找到最佳输出;本申请基于场景的softmax搜索较小的所选词汇(约2,000个)以找到最佳输出;这意味着基于场景的softmax比普通的softmax快得多,这就是为什么本申请的解决方案比对照模型(现有技术)速度更快的原因。
以下将结合示例阐述FFN和Sigmoid可以加快模型推断时间的原因:
假设源输入为“A B C D”,目标输出为“a b c d”,而挑选出的目标词汇表为“abcd...xyz”,因此目标词汇表的词汇量为26。
在通用模型中,对于目标输出“a b c d”中的每个单词,softmax层需要计算词汇表“abcd...xyz”中所有单词的概率;softmax层中通用模型中的计算复杂度将为26*4,其中26是词汇量,4是输出单词数。
在本申请的解决方案(基于场景的softmax)中,首先计算所有单词出现在最终输出单词中的概率;获得这些概率后,选择前k个单词,例如“abcdefg”。然后告诉softmax层,基于源语言词向量和多模态信息,只有这些单词可能会出现在输出中,因此请仅计算这些前k个单词的概率。因此,本申请的计算复杂度将为26*1+7*4,其中26*1用于选择前k个字,而7*4用于最终输出决策。
如图33所示,训练集包含许多训练语句,每个领域有500,000个训练语句,因此我们说每个领域的训练集为500,000。
对于英语语句,这些语句中出现的所有单词都构成一个词汇表。
在所有目标语句中都有30,000个不同的单词,因此单词词汇量为30,000。例如,我们有3个领域,每个领域有500,000个目标语句,因此,总共有1,500,000个目标语句,将从1,500,000个目标语句中提取词汇表。
如图34所示,针对不同的领域“餐厅”、“医院”和“工厂”,现有对照模型中不同领域独立设置编码和解码层结构,每一领域需要设置独立的8层,三个不同领域设置有24层;而在本申请中基于挑选层的编码器解码器中,不同的领域之间设置有独立层,也设置有共享层,三个不同的领域总共设置有16层。
如图35所示,在一个示例中,本申请中的多模态翻译过程可以包括如下步骤:
1,给定一个多模态输入,通过场景引入器生成场景特征以及层掩码(主要复杂度:CNN)
2,场景增强的源语言词向量输入词汇生成器可获取top-k词汇表(如top-7词汇表);(主要复杂度:[1,512]×[512,30000])
3,场景特征和源语言词向量经过挑选层的编码器以获取场景向量;
4,场景向量经过挑选层的解码器成为大小为[1×512]的矩阵h';
5,h’经过softmax获得目标词汇概率;(主要复杂度:[1,512]×[512,7]=[1,7])
6,选择最佳目标词作为解码器的下一个输入;
7,重复步骤3-6,直到产生结束标记。
本申请与现有技术对比,区别至少包括如下:
区别点1:基于注意力的多模态场景信息融合
本申请:本申请将多模态信息融合在一起,以给出领域(上下文)信息;
1-A:基于多模态输入(例如位置,图像,音频,文本)提取场景特征;
1-B:场景特征是由注意力网络融合构建的,位置信息通过更多与位置相关的部分,从而对其他特征产生影响;
1-C:使用卷积网络基于场景特征生成领域标签。
优势:本申请的领域信息更加准确,因为我考虑了多模态信息。
区别点2:层挑选的编码器-解码器
现有技术:现有技术针对不同领域建立不同的模型,随着领域数量的增加,模型的总规模将非常大,对于领域信息的使用,仅领域标签被输入编码器。
本申请:本申请提出了挑选层的编码器-解码器来缩小模型尺寸;
2-A:基于领域标签确定层掩码以确定正在运行的层,某些层可以重复使用,并且整个模型尺寸减小。
2-B:编码器同时使用场景特征和源语言词向量作为输入,以确保编码后的特征适合当前领域。
优势:本申请的模型将比现有专利的尺寸小得多,并且将更易于在设备上应用,本申请不仅在翻译中使用领域标签,而且还使用场景特征。
区别点3:基于词汇生成器的基于场景的softmax
现有技术:现有技术计算整个词汇表中每个单词的概率,计算成本较高。
本申请:本申请提出了基于词汇生成器的基于场景的softmax,以降低计算成本,从而加快推理速度。
3-A:本申请提出了一种基于场景特征的top-k词选择方法,top-k词将用于softmax层。
优势:本申请的模型比现有技术更快,并且将改善用户体验。
证明与实验
步骤1,给定位置敏感型多模态输入,预测范围
假设:位置敏感型多模态输入比单独的多模态输入可提供更好的领域预测
假设证明:
将多模态输入信息表示为M,将位置信息表示为L,我们可以将领域D在多模态输入上的条件熵写为H(D|M),将领域D在位置敏感型多模态输入上的条件熵写为H(D|M,L),则:
H(D│M)-H(D│M,L)=I(D,M,L) (8)
其中I(D,M,L)是变量D、M和L的融合信息。
根据融合信息的非负性质,
I(D,M,L)≥0
H(D│M)>H(D│M,L) (9)
根据熵衡量变量不确定性的熵性质,熵越大表示不确定性越大,可以推论出只有给定M才能预测D的不确定性要比M和L都给定。
总而言之,可以推断出位置敏感的多模式输入比单独的多模态输入可以更好地进行领域预测。
步骤2:给定领域标签和源语言,预测翻译内容
表3:翻译效果对比
Figure BDA0002694957870000311
Figure BDA0002694957870000321
如表3所示,本申请测试了领域相关场景信息对翻译效果的影响,同时测试了本申请的翻译网络对翻译效果的影响。评测结果用BLEU来表示翻译质量的好坏,BLEU越高,翻译质量越好。
基线系统为没有场景信息的transformer翻译系统。试验过程中分别测试了不同场景下的翻译质量以及翻译时间。作为对比,试验过程中还测试了若输入错误/正确的场景信息,观察各个场景下翻译质量的变化。
根据表1可以看出:
比较本发明-1和本发明-2,可以得出正确的场景信息可以得到更高的翻译质量。对于宾馆、医院、市场的翻译质量,将场景信息改成正确的信息可以提高3~4个点;
比较基线系统和本发明-2,可以得出本发明的翻译网络可以减小内存和推断时间。理论上,处理的场景越多,本申请的多模态翻译方法将比原始的transformer结构内存节省得越多。
上述的多模态翻译方法,通过在翻译中引入领域相关场景信息,可以帮助翻译模型更好的判断当前的场景,从而减少语义理解的歧义现象,提高翻译的准确性。
进一步的,在对源语言文本进行翻译时,可以强调位置信息的作用,或将重点放到客观知识对主观知识的加强上,从而更加准确的确定目标语言的翻译内容。
进一步的,通过根据领域标签选择编码器和解码器的不同层进行解码,多个领域标签共享某些层参数,降低了内存的消耗。
进一步的,选取翻译模型在对应的领域内翻译效果更准确的层结构,即运行层进行编码和解码任务,获取翻译内容,其他的非运行层可以不执行编码或解码任务,可以在提高翻译准确率的同时,提高翻译效率。
更进一步的,通过先对原本的翻译候选词进行筛选,筛选出选择概率较大的、与场景和源语言相关的部分候选词,可以有效减少搜索计算量,提高翻译效率。
上述实施例通过方法流程的角度介绍多模态翻译方法,下述通过虚拟模块的角度进行介绍,具体如下所示:
本申请实施例提供了一种多模态翻译装置360,如图36所示,该装置360可以包括第一获取模块3601、确定模块3602和第二获取模块3603,其中:
第一获取模块3601,用于获取源语言的多模态输入;
确定模块3602,用于根据多模态输入确定场景信息;
第二获取模块3603,用于基于场景信息,采用翻译模型获取目标语言的翻译内容。
本申请实施例的一种可能的实现方式,多模态输入包含位置信息和以下至少之一:文本、图像、音频、视频、生物信号。
本申请实施例的一种可能的实现方式,确定模块3602在根据多模态输入确定领域相关场景信息时,具体用于:
根据位置信息提取位置实体语义信息,并基于其他多模态输入提取源端文本语义信息和多模态特征;
基于位置实体语义信息、源端文本语义信息和多模态特征,获取场景信息。
本申请实施例的一种可能的实现方式,多模态特征包含下述至少一种:图像的边缘信息、图像的颜色信息、图像的抽象信息、音调信息、声音信息、语音信息。
本申请实施例的一种可能的实现方式,确定模块3602在基于所述位置实体语义信息、源端文本语义信息和多模态特征,获取场景信息时,具体用于:
基于注意力网络对位置实体语义信息、源端文本语义信息和多模态特征进行融合得到融合结果,基于所述融合结果获取所述场景信息。
本申请实施例的一种可能的实现方式,确定模块3602在基于注意力网络对位置实体语义信息、源端文本语义信息和多模态特征进行融合得到融合结果,基于所述融合结果获取所述场景信息时,具体用于:
将源端文本语义信息与多模态特征进行融合,得到第一融合特征;
基于位置实体语义信息,使用注意力网络确定第一融合特征的权重;
根据权重加权第一融合特征;
将加权后的第一融合特征与位置实体语义信息进行融合,得到与领域相关场景信息。
本申请实施例的一种可能的实现方式,确定模块3602在基于注意力网络对位置实体语义信息、源端文本语义信息和多模态特征进行融合得到融合结果,基于所述融合结果获取所述场景信息时,具体用于:
将位置实体语义信息与多模态特征进行融合,得到第二融合特征;
基于第二融合特征,使用注意力网络确定源端文本语义信息的权重;
将加权后的源端文本语义信息作为领域相关场景信息。
本申请实施例的一种可能的实现方式,第二获取模块3603在基于领域相关场景信息,采用翻译模型获取目标语言的翻译内容时,具体用于:
根据领域相关场景信息确定翻译模型中的运行层;
使用由运行层组成的翻译模型获取翻译内容。
本申请实施例的一种可能的实现方式,第二获取模块3603在根据领域相关场景信息确定翻译模型中的运行层时,具体用于:
根据领域相关场景信息确定领域标签;
从预定义的层掩码中选择与领域标签对应的层掩码;
根据所选择的层掩码确定翻译模型中的运行层。
本申请实施例的一种可能的实现方式,第二获取模块3603在根据领域相关场景信息确定领域标签时,具体用于:
使用卷积神经网络对领域相关场景信息进行特征提取;
使用上下文分类网络基于卷积神经网络的输出确定领域标签。
本申请实施例的一种可能的实现方式,第二获取模块3603在基于领域相关场景信息,采用翻译模型获取目标语言的翻译内容时,具体用于:
根据领域相关场景信息确定候选词;
根据翻译模型的输出,从候选词中确定翻译内容。
本申请实施例的一种可能的实现方式,第二获取模块3603在根据领域相关场景信息确定候选词时,具体用于:
将多模态输入中提取的源端文本语义信息与领域相关场景信息进行融合,得到第三融合特征;
使用前馈神经网络对第三融合特征进行特征提取;
根据前馈神经网络的输出计算目标语言候选词集合中各个词语的选择概率;
根据目标语言中各个词语的选择概率确定候选词。
上述的多模态翻译装置,通过在翻译中引入领域相关场景信息,可以帮助翻译模型更好的判断当前的场景,从而减少语义理解的歧义现象,提高翻译的准确性。
进一步的,在对源语言文本进行翻译时,可以强调位置信息的作用,或将重点放到客观知识对主观知识的加强上,从而更加准确的确定目标语言的翻译内容。
进一步的,通过根据领域标签选择编码器和解码器的不同层进行解码,多个领域标签共享某些层参数,降低了内存的消耗。
进一步的,选取翻译模型在对应的领域内翻译效果更准确的层结构,即运行层进行编码和解码任务,获取翻译内容,其他的非运行层可以不执行编码或解码任务,可以在提高翻译准确率的同时,提高翻译效率。
更进一步的,通过先对原本的翻译候选词进行筛选,筛选出选择概率较大的、与场景和源语言相关的部分候选词,可以有效减少搜索计算量,提高翻译效率。
本公开实施例的图像的多模态翻译装置可执行本公开的实施例所提供的一种图像的多模态翻译方法,其实现原理相类似,本公开各实施例中的图像的多模态翻译装置中的各模块所执行的动作是与本公开各实施例中的图像的多模态翻译方法中的步骤相对应的,对于图像的多模态翻译装置的各模块的详细功能描述具体可以参见前文中所示的对应的图像的多模态翻译方法中的描述,此处不再赘述。
上面从功能模块化的角度对本申请实施例提供的多模态翻译装置进行介绍,接下来,将从硬件实体化的角度对本申请实施例提供的电子设备进行介绍,并同时对电子设备的计算系统进行介绍。
基于与本公开的实施例中所示的方法相同的原理,本公开的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机操作指令;处理器,用于通过调用计算机操作指令执行实施例所示的多模态翻译方法。与现有技术相比,本申请中的多模态翻译方法通过在翻译中引入领域相关场景信息,可以帮助翻译模型更好的判断当前的场景,从而减少语义理解的歧义现象,提高翻译的准确性。
在一个可选实施例中提供了一种电子设备,如图37所示,图37所示的电子设备370包括:处理器3701和存储器3703。其中,处理器3701和存储器3703相连,如通过总线3702相连。可选地,电子设备370、还可以包括收发器3704。需要说明的是,实际应用中收发器3704不限于一个,该电子设备3700的结构并不构成对本申请实施例的限定。
处理器3701可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器3701也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线3702可包括一通路,在上述组件之间传送信息。总线3702可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线3702可以分为地址总线、数据总线、控制总线等。为便于表示,图37中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器3703可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器3703用于存储执行本申请方案的应用程序代码,并由处理器3701来控制执行。处理器3701用于执行存储器3703中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图37示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请中的多模态翻译方法通过在翻译中引入领域相关场景信息,可以帮助翻译模型更好的判断当前的场景,从而减少语义理解的歧义现象,提高翻译的准确性。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定模块还可以被描述为“用于确定领域相关场景信息的模块”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (15)

1.一种多模态翻译方法,其特征在于,包括:
获取源语言的多模态输入;
根据所述多模态输入确定场景信息;
基于所述场景信息,采用翻译模型获取目标语言的翻译内容。
2.根据权利要求1的多模态翻译方法,其特征在于,所述多模态输入包含位置信息和以下至少之一:文本、图像、音频、视频、生物信号。
3.根据权利要求2的多模态翻译方法,其特征在于,所述根据所述多模态输入确定场景信息,包括:
根据位置信息提取位置实体语义信息,并基于其他多模态输入提取源端文本语义信息和多模态特征;
基于所述位置实体语义信息、源端文本语义信息和多模态特征,获取所述场景信息。
4.根据权利要求3的多模态翻译方法,其特征在于,所述多模态特征包含下述至少一种:图像的边缘信息、图像的颜色信息、图像的抽象信息、音调信息、声音信息、语音信息。
5.根据权利要求3或4所述的多模态翻译方法,其特征在于,所述基于所述位置实体语义信息、源端文本语义信息和多模态特征,获取所述场景信息,包括:
基于注意力网络对位置实体语义信息、源端文本语义信息和多模态特征进行融合得到融合结果,基于所述融合结果获取所述场景信息。
6.根据权利要求5所述的多模态翻译方法,其特征在于,所述基于注意力网络对位置实体语义信息、源端文本语义信息和多模态特征进行融合得到融合结果,基于所述融合结果获取所述场景信息,包括:
将所述源端文本语义信息与所述多模态特征进行融合,得到第一融合特征;
基于所述位置实体语义信息,使用所述注意力网络确定所述第一融合特征的权重;
根据所述权重加权所述第一融合特征;
将所述加权后的第一融合特征与所述位置实体语义信息进行融合,得到与所述场景信息。
7.根据权利要求5所述的多模态翻译方法,其特征在于,所述基于注意力网络对位置实体语义信息、源端文本语义信息和多模态特征进行融合得到融合结果,基于所述融合结果获取所述场景信息,包括:
将所述位置实体语义信息与所述多模态特征进行融合,得到第二融合特征;
基于所述第二融合特征,使用所述注意力网络确定所述源端文本语义信息的权重;
将所述加权后的源端文本语义信息作为所述场景信息。
8.根据权利要求1所述的多模态翻译方法,其特征在于,所述基于所述场景信息,采用翻译模型获取目标语言的翻译内容,包括:
根据所述场景信息确定所述翻译模型中的运行层;
使用由运行层组成的翻译模型获取所述翻译内容。
9.根据权利要求8所述的多模态翻译方法,其特征在于,所述根据所述场景信息确定所述翻译模型中的运行层,包括:
根据所述场景信息确定领域标签;
从预定义的层掩码中选择与所述领域标签对应的层掩码;
根据所选择的层掩码确定所述翻译模型中的所述运行层。
10.根据权利要求9所述的多模态翻译方法,其特征在于,所述根据所述场景信息确定领域标签,包括:
使用卷积神经网络对所述场景信息进行特征提取;
使用上下文分类网络,基于所述卷积神经网络的输出确定所述领域标签。
11.根据权利要求1所述的多模态翻译方法,其特征在于,所述基于所述场景信息,采用翻译模型获取目标语言的翻译内容,包括:
根据所述场景信息确定候选词;
根据所述翻译模型的输出,从所述候选词中确定所述翻译内容。
12.根据权利要求11所述的多模态翻译方法,其特征在于,所述根据所述场景信息确定候选词,包括:
将所述多模态输入中提取的源端文本语义信息与所述场景信息进行融合,得到第三融合特征;
使用前馈神经网络对所述第三融合特征进行特征提取;
根据前馈神经网络的输出计算所述目标语言候选词集合中各个词语的选择概率;
根据所述目标语言中各个词语的选择概率确定所述候选词。
13.一种多模态翻译装置,其特征在于,包括:
第一获取模块,用于获取源语言的多模态输入;
确定模块,用于根据所述多模态输入确定场景信息;
第二获取模块,用于基于所述场景信息,采用翻译模型获取目标语言的翻译内容。
14.一种电子设备,其特征在于,所述电子设备包括处理器和存储器:
所述存储器,用于存储机器可读指令;
所述处理器,用于在执行所述机器可读指令时,执行权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机指令,所述计算机指令被处理器执行时实现权利要求1至12中任一项所述的方法。
CN202011003004.7A 2020-09-22 2020-09-22 多模态翻译方法、装置、电子设备及计算机可读存储介质 Pending CN114254660A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011003004.7A CN114254660A (zh) 2020-09-22 2020-09-22 多模态翻译方法、装置、电子设备及计算机可读存储介质
PCT/KR2021/012735 WO2022065811A1 (en) 2020-09-22 2021-09-16 Multimodal translation method, apparatus, electronic device and computer-readable storage medium
US17/479,195 US12008336B2 (en) 2020-09-22 2021-09-20 Multimodal translation method, apparatus, electronic device and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003004.7A CN114254660A (zh) 2020-09-22 2020-09-22 多模态翻译方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114254660A true CN114254660A (zh) 2022-03-29

Family

ID=80740527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003004.7A Pending CN114254660A (zh) 2020-09-22 2020-09-22 多模态翻译方法、装置、电子设备及计算机可读存储介质

Country Status (3)

Country Link
US (1) US12008336B2 (zh)
CN (1) CN114254660A (zh)
WO (1) WO2022065811A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021035381A1 (zh) * 2019-08-23 2021-03-04 北京小米移动软件有限公司 数据处理方法和装置、电子设备和计算机可读存储介质
CN114579964A (zh) * 2022-04-29 2022-06-03 成都明途科技有限公司 一种信息监测方法及装置、电子设备、存储介质
CN114860893B (zh) * 2022-07-06 2022-09-06 中国人民解放军国防科技大学 基于多模态数据融合与强化学习的智能决策方法及装置
CN114881011B (zh) * 2022-07-12 2022-09-23 中国人民解放军国防科技大学 多通道中文文本更正方法、装置、计算机设备和存储介质
CN117765423A (zh) * 2022-09-16 2024-03-26 戴尔产品有限公司 用于目标对象的处理方法、电子设备和计算机程序产品
CN115547337B (zh) * 2022-11-25 2023-03-03 深圳市人马互动科技有限公司 语音识别方法及相关产品
CN118694842A (zh) * 2023-03-21 2024-09-24 抖音视界有限公司 语音处理方法、装置及电子设备
CN116403203B (zh) * 2023-06-06 2023-08-29 武汉精臣智慧标识科技有限公司 一种标签生成方法、系统、电子设备及存储介质
CN117113091B (zh) * 2023-10-24 2024-02-13 中国科学院自动化研究所 语音翻译模型训练方法、装置、电子设备及存储介质
CN117474019B (zh) * 2023-12-27 2024-05-24 天津大学 一种视觉引导的目标端未来语境翻译方法
CN118395999B (zh) * 2024-06-27 2024-09-10 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种同声传译模型训练方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060083431A1 (en) * 2004-10-20 2006-04-20 Bliss Harry M Electronic device and method for visual text interpretation
KR20140049922A (ko) * 2012-10-18 2014-04-28 한국전자통신연구원 사용자 정보를 이용한 다국어 자동통역기의 언어인식 장치
US10191903B2 (en) 2016-09-30 2019-01-29 Microsoft Technology Licensing, Llc Customized and contextual translated content for travelers
US10846477B2 (en) * 2017-05-16 2020-11-24 Samsung Electronics Co., Ltd. Method and apparatus for recommending word
JP2019023690A (ja) * 2017-07-24 2019-02-14 富士通株式会社 言語識別装置、言語識別方法、及び言語識別プログラム
CN107368476B (zh) * 2017-07-25 2020-11-03 深圳市腾讯计算机系统有限公司 一种翻译的方法、目标信息确定的方法及相关装置
US10762306B2 (en) 2017-12-27 2020-09-01 Telenav, Inc. Computing system with a cross-locale natural language searching mechanism and method of operation thereof
CN108959274B (zh) 2018-06-27 2022-09-02 维沃移动通信有限公司 一种应用程序的翻译方法及服务器
KR102199446B1 (ko) * 2018-08-24 2021-01-06 에스케이텔레콤 주식회사 영상 컨텐츠 검색을 지원하는 영상 서비스 장치 및 영상 컨텐츠 검색 지원 방법
CN111400523A (zh) * 2018-12-14 2020-07-10 北京三星通信技术研究有限公司 基于交互输入的图像定位方法、装置、设备和存储介质
US11436825B2 (en) 2018-12-14 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for determining target object in image based on interactive input

Also Published As

Publication number Publication date
US12008336B2 (en) 2024-06-11
WO2022065811A1 (en) 2022-03-31
US20220092276A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
CN114254660A (zh) 多模态翻译方法、装置、电子设备及计算机可读存储介质
CN110795552B (zh) 一种训练样本生成方法、装置、电子设备及存储介质
JP2021067939A (ja) 音声インタラクション制御のための方法、装置、機器及び媒体
KR20190064181A (ko) 언어 모델 학습 방법 및 이를 사용하는 장치
CN112633947B (zh) 文本生成模型生成方法、文本生成方法、装置及设备
CN111402861A (zh) 一种语音识别方法、装置、设备及存储介质
CN110472255B (zh) 神经网络机器翻译方法、模型、电子终端以及存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN115762484B (zh) 用于语音识别的多模态数据融合方法、装置、设备及介质
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN112668339A (zh) 语料样本确定方法、装置、电子设备及存储介质
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN115033733A (zh) 音频文本对生成方法、电子设备和存储介质
CN114241279A (zh) 图文联合纠错方法、装置、存储介质及计算机设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN117473359A (zh) 一种摘要生成模型的训练方法及相关装置
CN116468038A (zh) 信息抽取方法、训练信息抽取模型的方法及装置
CN116484864A (zh) 一种数据识别方法及相关设备
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN114333772A (zh) 语音识别方法、装置、设备、可读存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination