CN116129902A - 一种基于跨模态对齐的语音翻译方法及系统 - Google Patents
一种基于跨模态对齐的语音翻译方法及系统 Download PDFInfo
- Publication number
- CN116129902A CN116129902A CN202211713065.1A CN202211713065A CN116129902A CN 116129902 A CN116129902 A CN 116129902A CN 202211713065 A CN202211713065 A CN 202211713065A CN 116129902 A CN116129902 A CN 116129902A
- Authority
- CN
- China
- Prior art keywords
- text
- translation
- semantic
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 10
- 230000000873 masking effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语音翻译技术领域,具体提供了一种基于跨模态对齐的语音翻译方法及系统,其中方法包括:对语音和文本模态的输入数据分别进行特征编码,提取语义表示;使用共享记忆模块将语音和文本的语义表示映射到同一空间;将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。本发明设计了模态对齐的方法,通过拉近语音和文本的语义空间,缓解了模态鸿沟问题;还可以更加有效地利用额外的语音和文本的数据,从而提升语音翻译模型的性能。本方案能够更加充分地利用语音识别和文本翻译的平行数据,减少对端到端语音翻译数据的依赖程度,在低资源语音翻译的数据场景下能够显著提升模型的翻译质量。
Description
技术领域
本发明涉及语音翻译技术领域,更具体地,涉及一种基于跨模态对齐的语音翻译方法及系统。
背景技术
语音翻译旨在将一种语言的语音翻译成另一种语言的语音或者文本。现有的语音翻译系统一般由语音识别模块、机器翻译模块等构成。这种语音翻译系统已经被广泛使用,但是这种语音翻译系统存在着错误累积、翻译时延、计算和存储资源占用较大等缺点。因此,近年来在一个模型中直接实现源语言语音到目标语言文本的端到端的语音翻译方法逐渐受到广泛关注。然而,端到端的语音翻译方法所需要的平行数据较为稀缺且难以大规模获取,现有的数据集仅包含几百个小时的语音翻译数据。另一方面,语音识别和机器翻译作为语音翻译的辅助任务,相比语音翻译通常具有更大规模的数据。如何借助语音识别和机器翻译的数据,减少对大规模语音翻译数据的依赖是一个值得研究的问题。
目前端到端的语音翻译模型的质量通常依赖于大规模高质量的语音翻译平行数据。现有端到端的语音翻译方法采用预训练、多任务学习、知识蒸馏、数据增强等方法以引入语音识别和机器翻译等相关数据辅助语音翻译模型的训练,进而提升模型的性能。
然而,现有方法对于语音识别和机器翻译等外部数据的利用有限,因为语音和文本分属于不同的模态,存在巨大的模态鸿沟问题,模型难以同时处理语音和文本模态的数据,使得两者在高维空间表示中存在偏差。
发明内容
本发明提供了一种基于跨模态对齐的语音翻译方法,包括以下步骤:
S1,对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
S2,使用共享记忆模块将语音和文本的语义表示映射到同一空间;
S3,将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
优选地,所述S1具体包括:
对于语音数据,使用原始音频信号作为输入,使用预训练的wav2vec2.0模型作为声学编码器从原始音频信号中提取声学的语义表示;
对于文本数据,原始文本首先经过分词或词汇化处理,通过查询词嵌入矩阵Embedding得到文本向量化表示作为输入,经过共享的语义编码器获得语义表示。
优选地,对于语音数据,先将语音输入预训练的wav2vec2.0模型,然后使用两层一维卷积网络CNN将长度缩减为原来的1/4,之后将缩减后的声学表示输入语义编码器获取对应的语义表示。
优选地,所述S1具体包括:
对于语音输入,在语义编码器的输出层增加CTC损失;
对于文本输入,使用掩码语言模型计算损失;
其中,CTC损失是指语音数据经过声学编码器和语义编码器预测得到的词语输出序列映射为目标转录文本路径的最大似然损失,掩码语言模型的损失是指对文本输入的部分词语进行掩码处理,即将部分词语替换为<MASK>,经过语义编码器预测得到的词语分布与掩码位置对应的真实词语之间的交叉熵损失;且在计算CTC损失和掩码语言模型中使用共享的softmax矩阵。
优选地,所述S2具体包括:使用共享记忆模块将来自语音模态和文本模态的语义表示映射到长度为|M|的定长表示;
其中,所述共享记忆模块具有|M|个可学习的模态独立的记忆查询向量Q,分别使用模态相关的语义表示作为键向量和值向量,使用多头注意力机制计算得到各模态的记忆表示。
优选地,所述S3具体包括:
文本解码器遵循标准的翻译解码器模型,以共享记忆模块的输出作为输入,并输出目标译文;
其中,基于文本翻译平行数据进行翻译解码器模型训练,此时翻译解码器模型的损失为基于少量语音翻译平行数据进行翻译解码器模型训练,此时翻译解码器模型的损失为
优选地,所述S3之后还包括步骤S4,计算多任务损失函数并计算模型更新梯度,训练模型,具体过程如下:
首先基于大规模语音识别和文本翻译平行数据训练语义编码器、共享记忆模块和解码器,使用语音识别数据计算CTC损失使用文本翻译数据计算翻译损失和掩码语言模型的损失
然后利用语音识别平行数据、文本翻译平行数据和少量语音翻译平行数据微调全部模型。
本发明还提供了一种基于跨模态对齐的语音翻译系统,所述系统用于实现基于跨模态对齐的语音翻译方法,包括:
语义编码器,用于对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
共享记忆模块,用于使用共享记忆模块将语音和文本的语义表示映射到同一空间;
文本解码器,用于将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于跨模态对齐的语音翻译方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于跨模态对齐的语音翻译方法步骤。
有益效果:本发明提供的一种基于跨模态对齐的语音翻译方法及系统,其中方法包括:对语音和文本模态的输入数据分别进行特征编码,提取语义表示;使用共享记忆模块将语音和文本的语义表示映射到同一空间;将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。本发明设计了模态对齐的方法,通过拉近语音和文本的语义空间,缓解了模态鸿沟问题;还可以更加有效地利用额外的语音和文本的数据,从而提升语音翻译模型的性能。本方案能够更加充分地利用语音识别和文本翻译的平行数据,减少对端到端语音翻译数据的依赖程度,在低资源语音翻译的数据场景下能够显著提升模型的翻译质量。
附图说明
图1为本发明提供的一种基于跨模态对齐的语音翻译方法流程图;
图2为本发明提供的一种可能的电子设备的硬件结构示意图;
图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种基于跨模态对齐的语音翻译方法,包括以下步骤:
S1,对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
S2,使用共享记忆模块将语音和文本的语义表示映射到同一空间;
S3,将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
本发明设计了一种跨模态对齐机制,实现了一种端到端的语音翻译模型,通过引入共享参数与共享记忆模块,对语音和文本模态的表示进行跨模态对齐,并利用多任务学习的方式融合CTC损失、掩码语言模型的损失、文本机器翻译的损失和语音翻译的损失等多种损失函数,并采用分阶段训练的方式优化模型的不同模块。该发明能够提高对语音识别和文本翻译等高资源相关数据利用的充分程度,缓解对低资源端到端的语音翻译平行数据的依赖,从而有效提升端到端语音翻译模型的翻译质量。
在一个具体的实施场景中,基于跨模态对齐的语音翻译方法具体包括:
步骤1:对语音和文本模态的输入数据分别进行特征编码,提取语义表示。其中,进行特征编码所使用的编码器为语音编码器。语音编码器包含一个声学编码器和一个语义编码器。对于语音数据,本发明使用原始音频信号作为输入,使用预训练的wav2vec2.0模型作为声学编码器从原始音频信号中提取声学的语义表示。
由于声学的语义表示的序列长度较长,在使用预训练的wav2vec2.0模型作为声学编码器从原始音频信号中提取声学的语义表示后,再使用了两层一维卷积网络CNN将其长度缩减为原来的1/4。之后将缩减后的声学表示输入语义编码器获取对应的语义表示Hs。
对于文本数据,原始文本首先经过分词或词汇化处理,通过查询词嵌入矩阵Embedding得到文本向量化表示作为输入,经过共享的语义编码器获得语义表示Ht。
为增强语义编码器对于语音模态和文本模态输入的编码表示能力,对于语音输入,本发明在语义编码器的输出层增加了CTC损失;对于文本输入,我们使用掩码语言模型计算损失。其中,CTC损失是指语音数据经过声学编码器和语义编码器预测得到的词语输出序列映射为目标转录文本路径的最大似然损失,掩码语言模型的损失是指对文本输入的部分词语进行掩码处理,即将部分词语替换为<MASK>。经过语义编码器预测得到的词语分布与掩码位置对应的真实词语之间的交叉熵损失。特别地,在计算CTC损失和掩码语言模型中所使用的softmax矩阵是共享的,以此隐式地增强语义编码器在对语音模态和文本模态数据进行编码时的跨模态对齐能力。
步骤2:使用共享记忆模块将语音和文本的语义表示映射到同一空间。
由于语音模态和文本模态的表示具有不同的编码长度,使得两者难以进行跨模态对齐,本发明引入了一种共享的记忆模块。该记忆模块将来自不同模态的语义表示映射到长度为|M|的定长表示。该共享记忆模块具有|M|个可学习的模态独立的记忆查询向量Q,分别使用模态相关的语义表示作为键向量和值向量,使用多头注意力机制计算得到各模态的记忆表示。具体地,
多头注意力机制的计算过程为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中,均为参数矩阵,dk为键向量的维度。
步骤3:将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
文本解码器遵循标准的翻译解码器模型,以共享记忆模块的输出作为输入(可能来自文本模态,也可能来自语音模态),并输出目标译文。其中,基于文本翻译平行数据进行语义编码器、共享记忆模块和翻译解码器模型训练,此时模型的损失为:
基于少量语音翻译平行数据进行声学编码器、共享记忆模块和翻译解码器模型训练,此时模型的损失为:
步骤4:计算多任务损失函数并更新模型梯度,训练模型。将语音输入训练好的模型即可得到翻译译文。
使用预训练与微调的方式训练整个模型。首先基于大规模语音识别和文本翻译平行数据训练语义编码器、共享记忆模块和解码器,使用语音识别数据计算CTC损失使用文本翻译数据计算翻译损失和掩码语言模型的损失之后利用语音识别平行数据、文本翻译平行数据和少量语音翻译平行数据微调全部模型。
本发明实施例还提供了一种基于跨模态对齐的语音翻译系统,所述系统用于实现基于跨模态对齐的语音翻译方法,包括:
语义编码器,用于对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
共享记忆模块,用于使用共享记忆模块将语音和文本的语义表示映射到同一空间;
文本解码器,用于将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
本发明实施例使用了一个共享的记忆模块将文本和语音模态的数据编码到等长的表示,通过将文本和语音模态的表示映射到相同的高维语义空间,以更加充分地利用语音识别和机器翻译的数据训练端到端的语音翻译模型,进而提升语音翻译模型的性能。与现有方法相比,本发明具有以下优点:
1).该发明设计了模态对齐的方法,通过拉近语音和文本的语义空间,缓解了模态鸿沟问题;
2).该发明可以更加有效地利用额外的语音和文本的数据,从而提升语音翻译模型的性能。
请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:S1,对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
S2,使用共享记忆模块将语音和文本的语义表示映射到同一空间;
S3,将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:S1,对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
S2,使用共享记忆模块将语音和文本的语义表示映射到同一空间;
S3,将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (10)
1.一种基于跨模态对齐的语音翻译方法,其特征在于,包括以下步骤:
S1,对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
S2,使用共享记忆模块将语音和文本的语义表示映射到同一空间;
S3,将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
2.根据权利要求1所述的基于跨模态对齐的语音翻译方法,其特征在于,所述S1具体包括:
对于语音数据,使用原始音频信号作为输入,使用预训练的wav2vec2.0模型作为声学编码器从原始音频信号中提取声学的语义表示;
对于文本数据,原始文本首先经过分词或词汇化处理,通过查询词嵌入矩阵Embedding得到文本向量化表示作为输入,经过共享的语义编码器获得语义表示。
3.根据权利要求2所述的基于跨模态对齐的语音翻译方法,其特征在于,对于语音数据,先将语音输入预训练的wav2vec2.0模型,然后使用两层一维卷积网络CNN将长度缩减为原来的1/4,之后将缩减后的声学表示输入语义编码器获取对应的语义表示。
4.根据权利要求1所述的基于跨模态对齐的语音翻译方法,其特征在于,所述S1具体包括:
对于语音输入,在语义编码器的输出层增加CTC损失;
对于文本输入,使用掩码语言模型计算损失;
其中,CTC损失是指语音数据经过声学编码器和语义编码器预测得到的词语输出序列映射为目标转录文本路径的最大似然损失,掩码语言模型的损失是指对文本输入的部分词语进行掩码处理,即将部分词语替换为MASK,经过语义编码器预测得到的词语分布与掩码位置对应的真实词语之间的交叉熵损失;且在计算CTC损失和掩码语言模型中使用共享的softmax矩阵。
5.根据权利要求1所述的基于跨模态对齐的语音翻译方法,其特征在于,所述S2具体包括:使用共享记忆模块将来自语音模态和文本模态的语义表示映射到长度为|M|的定长表示;
其中,所述共享记忆模块具有|M|个可学习的模态独立的记忆查询向量Q,分别使用模态相关的语义表示作为键向量和值向量,使用多头注意力机制计算得到各模态的记忆表示。
6.根据权利要求1所述的基于跨模态对齐的语音翻译方法,其特征在于,所述S3具体包括:
文本解码器遵循标准的翻译解码器模型,以共享记忆模块的输出作为输入,并输出目标译文;
其中,基于文本翻译平行数据进行翻译解码器模型训练,此时翻译解码器模型的损失为基于少量语音翻译平行数据进行翻译解码器模型训练,此时翻译解码器模型的损失为
7.根据权利要求6所述的基于跨模态对齐的语音翻译方法,其特征在于,所述S3之后还包括步骤S4,计算多任务损失函数并计算模型更新梯度,训练模型,具体过程如下:
首先基于大规模语音识别和文本翻译平行数据训练语义编码器、共享记忆模块和解码器,使用语音识别数据计算CTC损失使用文本翻译数据计算翻译损失和掩码语言模型的损失
然后利用语音识别平行数据、文本翻译平行数据和少量语音翻译平行数据微调全部模型。
8.一种基于跨模态对齐的语音翻译系统,其特征在于,所述系统用于实现如权利要求1-7任一项所述的基于跨模态对齐的语音翻译方法,包括:
语义编码器,用于对语音和文本模态的输入数据分别进行特征编码,提取语义表示;
共享记忆模块,用于使用共享记忆模块将语音和文本的语义表示映射到同一空间;
文本解码器,用于将共享记忆模块得到的语义表示输入到文本解码器中,输出目标译文。
9.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于跨模态对齐的语音翻译方法步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于跨模态对齐的语音翻译方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211713065.1A CN116129902A (zh) | 2022-12-27 | 2022-12-27 | 一种基于跨模态对齐的语音翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211713065.1A CN116129902A (zh) | 2022-12-27 | 2022-12-27 | 一种基于跨模态对齐的语音翻译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129902A true CN116129902A (zh) | 2023-05-16 |
Family
ID=86298589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211713065.1A Pending CN116129902A (zh) | 2022-12-27 | 2022-12-27 | 一种基于跨模态对齐的语音翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129902A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524955A (zh) * | 2023-07-05 | 2023-08-01 | 上海蜜度信息技术有限公司 | 语音翻译和模型训练方法、系统和电子设备 |
CN117094329A (zh) * | 2023-10-13 | 2023-11-21 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种用于解决语音歧义的语音翻译方法及装置 |
-
2022
- 2022-12-27 CN CN202211713065.1A patent/CN116129902A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524955A (zh) * | 2023-07-05 | 2023-08-01 | 上海蜜度信息技术有限公司 | 语音翻译和模型训练方法、系统和电子设备 |
CN117094329A (zh) * | 2023-10-13 | 2023-11-21 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种用于解决语音歧义的语音翻译方法及装置 |
CN117094329B (zh) * | 2023-10-13 | 2024-02-02 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种用于解决语音歧义的语音翻译方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021047286A1 (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN111382582B (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
WO2022057776A1 (zh) | 一种模型压缩方法及装置 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
CN116129902A (zh) | 一种基于跨模态对齐的语音翻译方法及系统 | |
CN110162766B (zh) | 词向量更新方法和装置 | |
CN113609965B (zh) | 文字识别模型的训练方法及装置、存储介质、电子设备 | |
CN116820429B (zh) | 代码处理模型的训练方法、装置、电子设备及存储介质 | |
WO2023226292A1 (zh) | 从文本中进行关系抽取的方法、关系抽取模型及介质 | |
CN116628171B (zh) | 一种基于预训练语言模型的病历检索方法和系统 | |
CN111814479B (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN111858984A (zh) | 一种基于注意力机制哈希检索的图像匹配方法 | |
US11615247B1 (en) | Labeling method and apparatus for named entity recognition of legal instrument | |
CN111160036B (zh) | 一种对基于神经网络的机器翻译模型的更新方法及装置 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和系统 | |
CN117131873A (zh) | 一种基于对比学习的双编码器预训练小样本关系抽取方法 | |
CN111832699A (zh) | 用于神经网络的计算高效富于表达的输出层 | |
CN115129826B (zh) | 电力领域模型预训练方法、精调方法、装置及设备 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
CN116364097A (zh) | 一种数据处理方法及装置、设备、存储介质 | |
CN114912441A (zh) | 文本纠错模型生成方法、纠错方法、系统、设备和介质 | |
CN114333795A (zh) | 语音识别方法和装置、计算机可读存储介质 | |
CN116453507B (zh) | 基于置信度模型的语音识别优化方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |