CN116805004B - 零资源跨语言对话模型训练方法、装置、设备和介质 - Google Patents
零资源跨语言对话模型训练方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116805004B CN116805004B CN202311058414.5A CN202311058414A CN116805004B CN 116805004 B CN116805004 B CN 116805004B CN 202311058414 A CN202311058414 A CN 202311058414A CN 116805004 B CN116805004 B CN 116805004B
- Authority
- CN
- China
- Prior art keywords
- data
- dialogue
- language
- language dialogue
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004821 distillation Methods 0.000 claims abstract description 61
- 238000013519 translation Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,提供一种零资源跨语言对话模型训练方法、装置、设备和介质,所述方法包括:基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型;将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据;基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练,得到零资源跨语言对话模型。本发明快速且低成本为零资源目标语言构建零资源跨语言对话模型。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种零资源跨语言对话模型训练方法、装置、设备和介质。
背景技术
目前,在进行人机对话时,多是通过某一语言的对话数据训练得到对话模型,但该对话模型只能针对单一语言进行对话,而无法进行跨语言对话。例如,通过英语的对话数据训练得到的对话模型,只能进行英语对话,而无法进行中文对话。
若需要进行跨语言对话,多通过收集多种语言的对话数据来训练得到跨语言对话模型,然而,为每种语言收集高质量的对话数据的成本通常较高,导致训练成本增加。
发明内容
本发明提供一种零资源跨语言对话模型训练方法、装置、设备和介质,用以解决现有技术中跨语言对话模型训练成本较高的缺陷。
本发明提供一种零资源跨语言对话模型训练方法,包括:
获取初始样本源语言对话数据;
基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;
基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;
将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;
基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
根据本发明提供的一种零资源跨语言对话模型训练方法,所述基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据,包括:
对所述初始样本源语言对话数据进行前向翻译,得到所述样本目标语言对话数据;
对所述样本目标语言对话数据进行后向翻译,得到样本源语言对话数据;
基于所述初始样本源语言对话数据以及所述样本源语言对话数据,构建得到所述扩充样本源语言对话数据;
基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据。
根据本发明提供的一种零资源跨语言对话模型训练方法,所述基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据,包括:
基于所述扩充样本源语言对话数据中的对话输入数据、所述样本目标语言对话数据中的对话回复数据,以及所述样本源语言对话数据中的对话输入数据,构建得到所述第一跨语言对话数据;
基于所述扩充样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本源语言对话数据中的对话回复数据,构建得到所述第二跨语言对话数据;
基于所述扩充样本源语言对话数据中的对话输入数据、所述初始样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本目标语言对话数据中的对话回复数据,构建得到所述双语平行数据。
根据本发明提供的一种零资源跨语言对话模型训练方法,所述教师模型包括第一教师模型、第二教师模型以及第三教师模型;
所述基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型,包括:
基于所述双语平行数据,以及所述扩充样本源语言对话数据,训练得到所述第一教师模型;
基于所述双语平行数据,以及所述第二跨语言对话数据,训练得到所述第二教师模型;
基于所述双语平行数据,以及所述第一跨语言对话数据,训练得到所述第三教师模型。
根据本发明提供的一种零资源跨语言对话模型训练方法,所述蒸馏对话回复数据包括第一蒸馏对话回复数据、第二蒸馏对话回复数据以及第三蒸馏对话回复数据;
所述将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据,包括:
将所述样本目标语言对话数据的对话输入数据输入至所述第一教师模型,得到所述第一蒸馏对话回复数据;
将所述样本目标语言对话数据的对话输入数据输入至所述第二教师模型,得到所述第二蒸馏对话回复数据;
将所述样本目标语言对话数据的对话输入数据输入至所述第三教师模型,得到所述第三蒸馏对话回复数据。
根据本发明提供的一种零资源跨语言对话模型训练方法,所述零资源跨语言对话模型的损失值基于如下公式确定:
;
其中,表示所述损失值,/>表示所述零资源跨语言对话模型的模型参数,/>和/>表示超参数,/>表示所述样本目标语言对话数据中的对话输入数据,/>表示所述样本目标语言对话数据中的对话回复数据,/>表示第/>个教师模型对应的蒸馏对话数据中的对话回复数据;/>表示基于所述样本目标语言对话数据训练的损失值,表示基于所述第/>个教师模型对应的蒸馏对话数据训练的损失值。
根据本发明提供的一种零资源跨语言对话模型训练方法,所述零资源跨语言对话模型包括编码器和解码器。
本发明还提供一种零资源跨语言对话模型训练装置,包括:
数据获取单元,用于获取初始样本源语言对话数据;
数据构建单元,用于基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;
第一训练单元,用于基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;
数据蒸馏单元,用于将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;
第二训练单元,用于基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述零资源跨语言对话模型训练方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述零资源跨语言对话模型训练方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述零资源跨语言对话模型训练方法。
本发明提供的零资源跨语言对话模型训练方法、装置、设备和介质,通过初始样本源语言对话数据,生成高质量的蒸馏对话回复数据,即不需要目标语言对话数据资源的情况下,实现将高资源语言的对话知识迁移到零资源目标语言,从而快速且低成本为零资源目标语言构建零资源跨语言对话模型。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的零资源跨语言对话模型训练方法的流程示意图;
图2是本发明提供的对话数据构建方法的流程示意图;
图3是本发明提供的第一教师模型的结构示意图;
图4是本发明提供的第二教师模型的结构示意图;
图5是本发明提供的第三教师模型的结构示意图;
图6是本发明提供的零资源跨语言对话模型训练装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,多通过收集多种语言的对话数据来训练得到跨语言对话模型,然而,为每种语言收集高质量的对话数据的成本通常较高,导致训练成本增加。
此外,也有在高资源语言的对话系统的前面和后面均使用翻译系统,将整个过程分解为翻译、对话和反向翻译。然而,这种管道式方法存在鲁棒性差、响应速度低和部署难度大等问题。
对此,本发明提供一种零资源跨语言对话模型训练方法。图1是本发明提供的零资源跨语言对话模型训练方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、获取初始样本源语言对话数据。
此处,初始样本源语言对话数据可以理解为数量较大且质量较高的高资源源语言对话数据。初始样本源语言对话数据是以源语言作为对话输入数据,并以源语言作为对话回复数据。
例如,源语言为英文时,初始样本源语言对话数据可以包括英文对话输入数据,以及对应的英文对话回复数据。
步骤120、基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;第一跨语言对话数据指从源语言到目标语言的对话数据,第二跨语言对话数据指从目标语言到源语言的对话数据,双语平行数据指源语言和目标语言之间的双语平行数据。
具体地,扩充样本源语言对话数据是指对初始样本源语言对话数据进行数据扩充后的对话数据。样本目标语言对话数据是指以目标语言进行对话的数据,即样本目标语言对话数据是以目标语言作为对话输入数据以及以目标语言作为对话回复数据,其可以是对初始样本源语言对话数据进行前向翻译后得到的。
第一跨语言对话数据指从源语言到目标语言的对话数据,即以源语言作为对话输入数据,以目标语言作为对话回复数据。第二跨语言对话数据指从目标语言到源语言的对话数据,即以目标语言作为对话输入数据,以源语言作为对话回复数据。
此外,双语平行数据指源语言和目标语言之间的双语平行数据,即包括源语言的对话输入数据以及将源语言的对话输入数据译文为目标语言的对话输入数据,和/或,源语言的对话回复数据以及将源语言的对话回复数据译文为目标语言的对话回复数据。例如,源语言为英文,目标语言为中文时,则双语平行数据包括英文对话输入数据以及对应翻译的中文对话输入数据,和/或,英文对话回复数据以及对应翻译的中文对话回复数据。
在一些具体实施方式中,可以对初始样本源语言对话数据进行前向翻译,获取样本目标语言对话数据,以及对样本目标语言对话数据进行后向翻译,得到样本源语言对话数据,基于初始样本源语言对话数据、样本目标语言对话数据以及样本源语言对话数据,构建得到第一跨语言对话数据、第二跨语言对话数据以及双语平行数据。
步骤130、基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型。
步骤140、将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据。
具体地,蒸馏对话回复数据是指样本目标语言对话输入数据对应的目标语言对话回复数据。
在一些具体实施方式中,可以基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,对初始教师模型进行训练,得到教师模型。由于教师模型学习有扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种对话数据信息,和双语平行数据信息,从而教师模型能够基于样本目标语言对话数据的对话输入数据,生成质量较高的蒸馏对话回复数据。
由此可见,本发明实施例通过初始样本源语言对话数据,生成高质量的蒸馏对话回复数据,即不需要目标语言对话数据资源的情况下,实现将高资源语言的对话知识迁移到零资源目标语言,从而快速为零资源目标语言构建零资源跨语言对话模型。
步骤150、基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
在一些具体实施方式中,可以将样本目标语言对话数据的对话输入数据输入至初始零资源跨语言对话模型,得到初始零资源跨语言对话模型输出的样本目标语言对话数据的预测对话回复数据,基于预测对话回复数据以及蒸馏对话回复数据确定初始零资源跨语言对话模型的损失函数,并基于该损失函数对初始零资源跨语言对话模型进行训练,得到零资源跨语言对话模型,从而零资源跨语言对话模型可以应用于目标语言的端到端的对话。
本发明实施例提供的零资源跨语言对话模型训练方法,通过初始样本源语言对话数据,生成高质量的蒸馏对话回复数据,即不需要目标语言对话数据资源的情况下,实现将高资源语言的对话知识迁移到零资源目标语言,从而快速且低成本为零资源目标语言构建零资源跨语言对话模型。
基于上述实施例,基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据,包括:
对初始样本源语言对话数据进行前向翻译,得到样本目标语言对话数据;
对样本目标语言对话数据进行后向翻译,得到样本源语言对话数据;
基于初始样本源语言对话数据以及样本源语言对话数据,构建得到扩充样本源语言对话数据;
基于扩充样本源语言对话数据、样本目标语言对话数据以及样本源语言对话数据,构建得到第一跨语言对话数据、第二跨语言对话数据以及双语平行数据。
在一些具体实施方式中,可以将初始样本源语言对话数据按照轮次进行切分,得到高资源源语言对话数据集,其中/>表示第轮对话输入数据,/>表示对话回复数据,/>。
接着,如图2所示,利用高资源语言H到目标语言Z的机器翻译系统将/>前向翻译为样本目标语言对话数据/>,其中/>和/>分别是由/>和/>翻译而来的。利用目标语言Z到高资源语言H的到机器翻译系统将样本目标语言对话数据/>后向翻译为样本源语言对话数据,其中/>和/>分别是由/>和/>翻译而来的。在获取样本源语言对话数据以及初始样本源语言对话数据的基础上,得到扩充样本源语言对话数据/>,其中/>表示/>的对话输入数据,/>表示/>的对话回复数据。第t轮的对话输入数据表示为,/>表示源语言H在第t轮的回复/>。同理,,/>为在第t轮给定/>的回复/>。
最后,基于扩充样本源语言对话数据、样本目标语言对话数据以及样本源语言对话数据,构建得到第一跨语言对话数据、第二跨语言对话数据以及双语平行数据。
基于上述任一实施例,基于扩充样本源语言对话数据、样本目标语言对话数据以及样本源语言对话数据,构建得到第一跨语言对话数据、第二跨语言对话数据以及双语平行数据,包括:
基于扩充样本源语言对话数据中的对话输入数据、样本目标语言对话数据中的对话回复数据,以及样本源语言对话数据中的对话输入数据,构建得到第一跨语言对话数据;
基于扩充样本源语言对话数据中的对话回复数据、样本目标语言对话数据中的对话输入数据,以及样本源语言对话数据中的对话回复数据,构建得到第二跨语言对话数据;
基于扩充样本源语言对话数据中的对话输入数据、初始样本源语言对话数据中的对话回复数据、样本目标语言对话数据中的对话输入数据,以及样本目标语言对话数据中的对话回复数据,构建得到双语平行数据。
如图2所示,样本目标语言对话数据,其中/>表示样本目标语言对话数据的对话输入数据,/>表示样本目标语言对话数据的对话回复数据;第一跨语言对话数据(源语言H到目标语言Z的跨语言对话训练数据);第二跨语言对话数据(目标语言Z到源语言H的跨语言对话训练数据)/>;双语平行数据(源语言H和目标语言Z之间的双语平行数据)/>。
由此可见,本发明实施例利用初始样本源语言对话数据、高资源语言H到目标语言Z的机器翻译系统以及目标语言Z到高资源语言H的到机器翻译系统,生成多种类型的对话数据(扩充样本源语言对话数据、样本目标语言对话数据、第一跨语言对话数据、第二跨语言对话数据以及双语平行数据),而不需要额外搜集资源较少的目标语言对话数据,降低了零资源跨语言对话模型训练成本。
基于上述任一实施例,教师模型包括第一教师模型、第二教师模型以及第三教师模型;
基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型,包括:
基于双语平行数据,以及扩充样本源语言对话数据,训练得到第一教师模型;
基于双语平行数据,以及第二跨语言对话数据,训练得到第二教师模型;
基于双语平行数据,以及第一跨语言对话数据,训练得到第三教师模型。
在一些具体实施方式中,如图3所示,第一教师模型包括三个子系统:目标语言Z到源语言H的翻译系统、源语言H的对话系统/>以及源语言H到目标语言Z的翻译系统/>。采用双语平行数据分别训练得到目标语言Z到源语言H的翻译系统以及源语言H到目标语言Z的翻译系统/>,采用扩充样本源语言对话数据训练得到源语言H的对话系统/>。
如图4所示,第二教师模型包括两个子系统:目标语言Z到源语言H的跨语言对话系统以及源语言H到目标语言Z的翻译系统/>。采用第二跨语言对话数据训练得到目标语言Z到源语言H的跨语言对话系统/>,采用双语平行数据分别训练得到源语言H到目标语言Z的翻译系统/>。
如图5所示,第三教师模型包括两个子系统:目标语言Z到源语言H的翻译系统以及源语言H到目标语言Z的跨语言对话系统/>。采用第一跨语言对话数据训练得到源语言H到目标语言Z的跨语言对话系统/>,采用双语平行数据分别训练得到目标语言Z到源语言H的翻译系统/>。
基于上述任一实施例,蒸馏对话回复数据包括第一蒸馏对话回复数据、第二蒸馏对话回复数据以及第三蒸馏对话回复数据;
将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据,包括:
将样本目标语言对话数据的对话输入数据输入至第一教师模型,得到第一蒸馏对话回复数据;
将样本目标语言对话数据的对话输入数据输入至第二教师模型,得到第二蒸馏对话回复数据;
将样本目标语言对话数据的对话输入数据输入至第三教师模型,得到第三蒸馏对话回复数据。
在一些具体实施方式中,如图3所示,将样本目标语言对话数据的对话输入数据输入到目标语言Z到源语言H的翻译系统/>,得到/>对应的源语言对话输入数据/>,并将/>输入至源语言H的对话系统/>,得到/>对应的源语言对话回复数据/>,将/>输入至源语言H到目标语言Z的翻译系统/>,得到第一蒸馏对话回复数据/>。
如图4所示,将样本目标语言对话数据的对话输入数据输入到目标语言Z到源语言H的跨语言对话系统/>,得到/>对应的源语言对话回复数据/>,将/>输入至源语言H到目标语言Z的翻译系统/>,得到第二蒸馏对话回复数据/>。
如图5所示,将样本目标语言对话数据的对话输入数据输入到目标语言Z到源语言H的翻译系统/>,得到/>对应的源语言对话输入数据/>,将/>输入至源语言H到目标语言Z的跨语言对话系统/>,得到第三蒸馏对话回复数据/>。
进一步地,与/>构成第一蒸馏对话数据/>,/>与/>构成第二蒸馏对话数据/>,/>与/>构成第三蒸馏对话数据,第一蒸馏对话数据、第二蒸馏对话数据以及第三蒸馏对话数据共同对初始零资源跨语言对话模型进行训练,得到零资源跨语言对话模型。
由此可见,本发明实施例通过三个教师模型,能够对样本目标语言对话数据的对话输入数据进行不同形式转换,进而得到不同形式的蒸馏对话回复数据,以丰富零资源跨语言对话模型的训练集,提高零资源跨语言对话模型的训练效果。
基于上述任一实施例,零资源跨语言对话模型的损失值基于如下公式确定:
;
其中,表示损失值,/>表示零资源跨语言对话模型的模型参数,/>和/>表示超参数,/>表示样本目标语言对话数据中的对话输入数据,/>表示样本目标语言对话数据中的对话回复数据,/>表示第/>个教师模型对应的蒸馏对话数据中的对话回复数据,;/>表示基于样本目标语言对话数据训练的损失值,表示基于第/>个教师模型对应的蒸馏对话数据训练的损失值。
基于上述任一实施例,零资源跨语言对话模型包括编码器和解码器。
在一些具体实施方式中,零资源跨语言对话模型包括编码器和解码器,零资源跨语言对话模型可以基于Transformer模型构建得到。
下面对本发明提供的零资源跨语言对话模型训练装置进行描述,下文描述的零资源跨语言对话模型训练装置与上文描述的零资源跨语言对话模型训练方法可相互对应参照。
基于上述任一实施例,本发明还提供一种零资源跨语言对话模型训练装置,如图6所示,该装置包括:
数据获取单元610,用于获取初始样本源语言对话数据;
数据构建单元620,用于基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;
第一训练单元630,用于基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;
数据蒸馏单元640,用于将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;
第二训练单元650,用于基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
图7是本发明提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、存储器(memory)720、通信接口(Communications Interface)730和通信总线740,其中,处理器710,存储器720,通信接口730通过通信总线740完成相互间的通信。处理器710可以调用存储器720中的逻辑指令,以执行零资源跨语言对话模型训练方法,该方法包括:获取初始样本源语言对话数据;基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
此外,上述的存储器720中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的零资源跨语言对话模型训练方法,该方法包括:获取初始样本源语言对话数据;基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的零资源跨语言对话模型训练方法,该方法包括:获取初始样本源语言对话数据;基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种零资源跨语言对话模型训练方法,其特征在于,包括:
获取初始样本源语言对话数据;
基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;
基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;
将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;
基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型;
所述基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据,包括:
对所述初始样本源语言对话数据进行前向翻译,得到所述样本目标语言对话数据;
对所述样本目标语言对话数据进行后向翻译,得到样本源语言对话数据;
基于所述初始样本源语言对话数据以及所述样本源语言对话数据,构建得到所述扩充样本源语言对话数据;
基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据;
所述基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据,包括:
基于所述扩充样本源语言对话数据中的对话输入数据、所述样本目标语言对话数据中的对话回复数据,以及所述样本源语言对话数据中的对话输入数据,构建得到所述第一跨语言对话数据;
基于所述扩充样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本源语言对话数据中的对话回复数据,构建得到所述第二跨语言对话数据;
基于所述扩充样本源语言对话数据中的对话输入数据、所述初始样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本目标语言对话数据中的对话回复数据,构建得到所述双语平行数据。
2.根据权利要求1所述的零资源跨语言对话模型训练方法,其特征在于,所述教师模型包括第一教师模型、第二教师模型以及第三教师模型;
所述基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型,包括:
基于所述双语平行数据,以及所述扩充样本源语言对话数据,训练得到所述第一教师模型;
基于所述双语平行数据,以及所述第二跨语言对话数据,训练得到所述第二教师模型;
基于所述双语平行数据,以及所述第一跨语言对话数据,训练得到所述第三教师模型。
3.根据权利要求2所述的零资源跨语言对话模型训练方法,其特征在于,所述蒸馏对话回复数据包括第一蒸馏对话回复数据、第二蒸馏对话回复数据以及第三蒸馏对话回复数据;
所述将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据,包括:
将所述样本目标语言对话数据的对话输入数据输入至所述第一教师模型,得到所述第一蒸馏对话回复数据;
将所述样本目标语言对话数据的对话输入数据输入至所述第二教师模型,得到所述第二蒸馏对话回复数据;
将所述样本目标语言对话数据的对话输入数据输入至所述第三教师模型,得到所述第三蒸馏对话回复数据。
4.根据权利要求2所述的零资源跨语言对话模型训练方法,其特征在于,所述零资源跨语言对话模型的损失值基于如下公式确定:
;
其中,表示所述损失值,/>表示所述零资源跨语言对话模型的模型参数,/>和/>表示超参数,/>表示所述样本目标语言对话数据中的对话输入数据,/>表示所述样本目标语言对话数据中的对话回复数据,/>表示第/>个教师模型对应的蒸馏对话数据中的对话回复数据;/>表示基于样本目标语言对话数据训练的损失值,/>表示基于第/>个教师模型对应的蒸馏对话数据训练的损失值。
5.根据权利要求1所述的零资源跨语言对话模型训练方法,其特征在于,所述零资源跨语言对话模型包括编码器和解码器。
6.一种零资源跨语言对话模型训练装置,其特征在于,包括:
数据获取单元,用于获取初始样本源语言对话数据;
数据构建单元,用于基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;
第一训练单元,用于基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;
数据蒸馏单元,用于将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;
第二训练单元,用于基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型;
所述基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据,包括:
对所述初始样本源语言对话数据进行前向翻译,得到所述样本目标语言对话数据;
对所述样本目标语言对话数据进行后向翻译,得到样本源语言对话数据;
基于所述初始样本源语言对话数据以及所述样本源语言对话数据,构建得到所述扩充样本源语言对话数据;
基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据;
所述基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据,包括:
基于所述扩充样本源语言对话数据中的对话输入数据、所述样本目标语言对话数据中的对话回复数据,以及所述样本源语言对话数据中的对话输入数据,构建得到所述第一跨语言对话数据;
基于所述扩充样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本源语言对话数据中的对话回复数据,构建得到所述第二跨语言对话数据;
基于所述扩充样本源语言对话数据中的对话输入数据、所述初始样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本目标语言对话数据中的对话回复数据,构建得到所述双语平行数据。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述零资源跨语言对话模型训练方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述零资源跨语言对话模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311058414.5A CN116805004B (zh) | 2023-08-22 | 2023-08-22 | 零资源跨语言对话模型训练方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311058414.5A CN116805004B (zh) | 2023-08-22 | 2023-08-22 | 零资源跨语言对话模型训练方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116805004A CN116805004A (zh) | 2023-09-26 |
CN116805004B true CN116805004B (zh) | 2023-11-14 |
Family
ID=88079658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311058414.5A Active CN116805004B (zh) | 2023-08-22 | 2023-08-22 | 零资源跨语言对话模型训练方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116805004B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
CN111274813A (zh) * | 2018-12-05 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 语言序列标注方法、装置存储介质及计算机设备 |
CN112100354A (zh) * | 2020-09-16 | 2020-12-18 | 北京奇艺世纪科技有限公司 | 人机对话方法、装置、设备及存储介质 |
CN112560510A (zh) * | 2020-12-10 | 2021-03-26 | 科大讯飞股份有限公司 | 翻译模型训练方法、装置、设备及存储介质 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
US11062704B1 (en) * | 2018-12-21 | 2021-07-13 | Cerner Innovation, Inc. | Processing multi-party conversations |
CN113312453A (zh) * | 2021-06-16 | 2021-08-27 | 哈尔滨工业大学 | 一种面向跨语言对话理解的模型预训练系统 |
CN113919368A (zh) * | 2021-10-11 | 2022-01-11 | 北京大学 | 一种基于多语言建模的低资源对话生成方法及系统 |
CN114077843A (zh) * | 2022-01-04 | 2022-02-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 翻译模型训练方法、翻译方法、电子设备和存储介质 |
CN114936567A (zh) * | 2022-05-26 | 2022-08-23 | 清华大学 | 一种基于知识蒸馏的无监督机器翻译质量预估方法和装置 |
CN115204412A (zh) * | 2022-07-15 | 2022-10-18 | 润联软件系统(深圳)有限公司 | 基于知识蒸馏的问答模型压缩方法、装置及相关设备 |
CN115270826A (zh) * | 2022-09-30 | 2022-11-01 | 北京澜舟科技有限公司 | 多语言翻译模型构建方法、翻译方法及计算机存储介质 |
CN115438678A (zh) * | 2022-11-08 | 2022-12-06 | 苏州浪潮智能科技有限公司 | 机器翻译方法、装置、电子设备及存储介质 |
CN115688774A (zh) * | 2021-07-28 | 2023-02-03 | 阿里巴巴新加坡控股有限公司 | 语言数据的处理方法、装置、存储介质及电子设备 |
CN115906854A (zh) * | 2022-12-26 | 2023-04-04 | 支付宝(杭州)信息技术有限公司 | 一种基于多级对抗的跨语言命名实体识别模型训练方法 |
CN116306906A (zh) * | 2023-02-24 | 2023-06-23 | 科大讯飞(上海)科技有限公司 | 一种翻译模型训练方法、语音翻译方法及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527270B2 (en) * | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
-
2023
- 2023-08-22 CN CN202311058414.5A patent/CN116805004B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274813A (zh) * | 2018-12-05 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 语言序列标注方法、装置存储介质及计算机设备 |
US11062704B1 (en) * | 2018-12-21 | 2021-07-13 | Cerner Innovation, Inc. | Processing multi-party conversations |
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
CN112100354A (zh) * | 2020-09-16 | 2020-12-18 | 北京奇艺世纪科技有限公司 | 人机对话方法、装置、设备及存储介质 |
CN112560510A (zh) * | 2020-12-10 | 2021-03-26 | 科大讯飞股份有限公司 | 翻译模型训练方法、装置、设备及存储介质 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN113312453A (zh) * | 2021-06-16 | 2021-08-27 | 哈尔滨工业大学 | 一种面向跨语言对话理解的模型预训练系统 |
CN115688774A (zh) * | 2021-07-28 | 2023-02-03 | 阿里巴巴新加坡控股有限公司 | 语言数据的处理方法、装置、存储介质及电子设备 |
CN113919368A (zh) * | 2021-10-11 | 2022-01-11 | 北京大学 | 一种基于多语言建模的低资源对话生成方法及系统 |
CN114077843A (zh) * | 2022-01-04 | 2022-02-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 翻译模型训练方法、翻译方法、电子设备和存储介质 |
CN114936567A (zh) * | 2022-05-26 | 2022-08-23 | 清华大学 | 一种基于知识蒸馏的无监督机器翻译质量预估方法和装置 |
CN115204412A (zh) * | 2022-07-15 | 2022-10-18 | 润联软件系统(深圳)有限公司 | 基于知识蒸馏的问答模型压缩方法、装置及相关设备 |
CN115270826A (zh) * | 2022-09-30 | 2022-11-01 | 北京澜舟科技有限公司 | 多语言翻译模型构建方法、翻译方法及计算机存储介质 |
CN115438678A (zh) * | 2022-11-08 | 2022-12-06 | 苏州浪潮智能科技有限公司 | 机器翻译方法、装置、电子设备及存储介质 |
CN115906854A (zh) * | 2022-12-26 | 2023-04-04 | 支付宝(杭州)信息技术有限公司 | 一种基于多级对抗的跨语言命名实体识别模型训练方法 |
CN116306906A (zh) * | 2023-02-24 | 2023-06-23 | 科大讯飞(上海)科技有限公司 | 一种翻译模型训练方法、语音翻译方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116805004A (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134968B (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
CN108170649B (zh) | 一种基于dcgan深度网络的汉字字库生成方法及装置 | |
CN105183720B (zh) | 基于rnn模型的机器翻译方法和装置 | |
EP3497630A1 (en) | Processing sequences using convolutional neural networks | |
WO2019226954A1 (en) | Training sequence generation neural networks using quality scores | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN110555213B (zh) | 文本翻译模型的训练方法、文本翻译方法及装置 | |
CN109670190B (zh) | 翻译模型构建方法和装置 | |
CN111144140B (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
CN111144137B (zh) | 机器翻译后编辑模型语料的生成方法及装置 | |
WO2018067495A1 (en) | Processing text sequences using neural networks | |
CN116805004B (zh) | 零资源跨语言对话模型训练方法、装置、设备和介质 | |
CN116226676B (zh) | 适用于极端环境的机床故障预测模型生成方法及相关设备 | |
CN112241629A (zh) | 结合rpa及ai的拼音标注文本生成方法及装置 | |
CN116484809A (zh) | 基于人工智能的文本处理方法及装置 | |
JP2023078411A (ja) | 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品 | |
CN115438678A (zh) | 机器翻译方法、装置、电子设备及存储介质 | |
CN112686059B (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
CN112686060B (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
JP7207571B2 (ja) | 学習データ生成方法、学習データ生成装置及びプログラム | |
JP2021184316A (ja) | データをラベリングするための方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム | |
CN115908775A (zh) | 化学结构式的识别方法、装置、存储介质及电子设备 | |
CN110147556B (zh) | 一种多向神经网络翻译系统的构建方法 | |
CN116167434B (zh) | 一种弱监督视觉语言预训练模型的训练方法和装置 | |
CN117149987B (zh) | 多语言对话状态追踪模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |