CN113505571A - 一种面向神经机器翻译的数据选择及训练方法 - Google Patents
一种面向神经机器翻译的数据选择及训练方法 Download PDFInfo
- Publication number
- CN113505571A CN113505571A CN202110868021.5A CN202110868021A CN113505571A CN 113505571 A CN113505571 A CN 113505571A CN 202110868021 A CN202110868021 A CN 202110868021A CN 113505571 A CN113505571 A CN 113505571A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- model
- monolingual
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000013519 translation Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000001537 neural effect Effects 0.000 title claims abstract description 51
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 3
- 230000014616 translation Effects 0.000 description 53
- 230000009193 crawling Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种面向神经机器翻译的数据选择及训练方法,步骤为:构建单语语料库;对单语语料进行清洗过滤、分词、子词切分预处理,作为训练数据;使用训练数据通过语言模型微调预训练模型;将两种语言的单语数据输入编码,比较编码的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料;使用预训练模型的分词和子词切分方法处理伪平行语料,使用预训练模型初始化神经机器翻译框架的编码器参数;使用处理后的伪平行语料对神经机器翻译模型进行预训练;使用真正的双语数据微调神经机器翻译模型。本发明解决了低资源语言双语数据不足的问题,将预训练模型应用于神经机器翻译模型中,加快模型的收敛速度,提高模型的鲁棒性。
Description
技术领域
本发明涉及一种机器翻译数据处理技术,具体为一种面向神经机器翻译的数据选择及训练方法。
背景技术
神经机器翻译是深度学习在自然语言处理方面的巨大成功。它的性能明显优于统计机器翻译,并且在几种语言对上的性能均达到了人类翻译水平。这样的突破很大程度上取决于大规模双语句子对的可用性。由于收集这样的双语句子对的成本很高,因此在绝大多数语言对上,尤其是对于资源匮乏的语言,神经机器翻译的成功尚未完全实现。通过仅使用单语种数据训练神经机器翻译模型可以解决这一问题。尽管通过人工翻译收集双语句子对的成本很高,但注意到Web上存在许多弱配对的双语文档。例如,同一主题的不同语言的文章,但是它们并不是逐句翻译的,因为它们可能是由不同的人独立创建的。通过探索从弱配对文档中学习神经机器翻译模型的方法可知,弱配对的文档比双语句子对更容易获得,这种弱配对的文档涵盖了多种不同的语言。
预训练方法是指通过海量的通用数据训练得到一个基础模型,这种通用且充分的数据能够鼓励模型在相同领域的下游任务上拥有很好的泛化能力。之后,针对下游任务,使用任务特定的数据对预训练好的模型进行微调,使模型更关注任务相关的特征,在该任务上具有更好的表现。在任务特定的数据量较小的情况下,预训练方法能够有效提升模型性能,而且由于预训练模型已经具备了通用的特征提取能力,微调模型能够达到更快的收敛速度和更强的鲁棒性。
在计算机视觉领域,预训练方法已经被广泛应用。然而在自然语言处理领域人们对于预训练方法的研究才刚刚开始。研究人员们提出了多种基于语言模型的预训练方法,比如ELMo、GPT和BERT等,这些预训练方法能够有效地应用于命名实体识别、问答、情感分析和语义角色标注等多个任务上,而且都达到了当前最好的性能。然而,神经机器翻译模型和现有的预训练模型的网络结构并不完全匹配,因此无法直接将预训练模型应用到神经机器翻译模型中。
发明内容
针对现有技术中低资源等双语数据获取困难影响神经机器翻译性能等不足,本发明要解决的技术问题是提供一种面向神经机器翻译的单语数据据选择及训练方法,利用预训练模型中存在丰富的语义信息,通过预训练模型对获得的弱匹配的可比较单语数据进行数据选择,获得伪双语数据,从而训练高质量的神经机器翻译模型。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种面向神经机器翻译的数据选择及训练方法,包括以下步骤:
1)构建单语语料库;
2)对单语语料进行清洗过滤、分词、子词切分预处理,作为训练数据;
3)使用训练数据通过语言模型微调预训练模型;
4)将两种语言的单语数据输入编码,比较编码的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料;
5)使用预训练模型的分词和子词切分方法处理伪平行语料,使用预训练模型初始化神经机器翻译框架的编码器参数;
6)使用处理后的伪平行语料对神经机器翻译模型进行预训练;
7)使用真正的双语数据微调神经机器翻译模型,完成训练过程。
步骤1)中,构建单语语料库,具体为:
101)对于要使用的单语数据,分为两部分,一是可比较的单语数据,二是不相关的单语数据;
102)可比较的单语数据通过在语料库中获得或则网络爬取的方式,不相关的单语数据通过单语数据库获得,并加入单语语料库。
步骤3)中,使用训练数据通过语言模型微调预训练模型,具体为:将预处理后两种语言的单语数据混合后打乱顺序,利用语言模型任务对预训练模型的参数进行修正。
步骤4)中,将两种语言的单语数据输入预训练模型中,比较编码的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料,具体为:
401)将可比较单语数据输入预训练模型中,比较编码后的两种单语数据的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料;
402)将单语数据库中两种语言的单语数据输入预训练模型中,比较编码后的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料。
步骤5)中,使用预训练模型的分词和子词切分方法处理伪平行语料,具体为:使用预训练模型的语料预处理方法来处理伪平行语料,包括分词和字词切分方法,并使用预训练模型的词表减小神经机器翻译模型和预训练模型的差异。
步骤6)中,使用处理后的伪平行语料对神经机器翻译模型进行预训练,具体为:在预训练的过程中,采用0.0001~0.0005的学习率对模型的参数进行更新,使神经机器翻译模型收敛到更好的效果。
本发明具有以下有益效果及优点:
1.本发明提出了面向神经机器翻译的数据选择及训练方法,通过使用预训练模型对可比较的单语数据进行数据选择得到伪双语数据,从而解决低资源语言双语数据不足的问题,将预训练模型应用于神经机器翻译模型中,并且可以加快模型的收敛速度,提高模型的鲁棒性。
2.相比现有的数据选择方法,本发明可以通过预训练模型进行数据选择,并将预训练模型使用到机器翻译模型中,充分利用了预训练模型的潜力,提高了预训练方法带来的收益。
附图说明
图1为本发明方法流程图;
图2为本发明中使用预训练模型选择伪双语数据的图示。
具体实施方式
在神经机器翻译中,在某些语言中达到接近人类水平的性能的神经机器翻译强烈依赖大量的并行句子,这阻碍了其在资源匮乏的语言对中的适用性。本发明利用海量的弱匹配单语语料,使用预训练模型进行数据选择,然后使用得到的伪双语数据预训练神经机器翻译模型,最后使用真正的双语数据训练神经机器翻译模型,从而显著提高模型的翻译质量。
下面结合说明书附图对本发明作进一步阐述。
如图1所示,本发明一种面向神经机器翻译的数据选择及训练方法包括以下步骤:
1)构建单语语料库;
2)对单语语料进行清洗过滤、分词、子词切分预处理,作为训练数据;
3)使用训练数据通过语言模型微调预训练模型;
4)将两种语言的单语数据输入编码,比较编码的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料;
5)使用预训练模型的分词和子词切分方法处理伪平行语料,使用预训练模型初始化神经机器翻译框架的编码器参数;
6)使用处理后的伪平行语料对神经机器翻译模型进行预训练;
7)使用真正的双语数据微调神经机器翻译模型,完成训练过程。
步骤1)中,构建单语语料库,具体为:
101)对于要使用的单语数据,分为两部分,一是可比较的单语数据,二是不相关的单语数据;
102)可比较的单语数据通过在语料库中获得或则网络爬取的方式,不相关的单语数据通过单语数据库获得,并加入单语语料库。
步骤2)中,对单语语料进行清洗过滤、分词、子词切分预处理,在翻译任务中,源语句子和目标语句子的长度一般不会相差太多,而文档中前句和后句之间的长度却没有任何约束,相差很大,去除长度大于250个字符的句子,并且使用长度比过滤去除长度比大于1:1.5的句对。
步骤3)中,使用训练数据通过语言模型微调预训练模型,具体为:将预处理后两种语言的单语数据混合后打乱顺序,利用语言模型任务对预训练模型的参数进行修正。
如图2所示,步骤4)中,将两种语言的单语数据输入预训练模型中,比较编码的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料,具体为:
401)将可比较单语数据输入预训练模型中,比较编码后的两种单语数据的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料;
402)将单语数据库中两种语言的单语数据输入预训练模型中,比较编码后的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料。
步骤5)中,使用预训练模型的分词和子词切分方法处理伪平行语料,具体为:使用预训练模型的语料预处理方法来处理伪平行语料,包括分词和字词切分方法,并使用预训练模型的词表减小神经机器翻译模型和预训练模型的差异。
本步骤中,使用预训练模型初始化神经机器翻译模型的编码器,使得神经机器模型和预训练模型的架构一致。
步骤6)中,使用处理后的伪平行语料对神经机器翻译模型进行预训练,具体为:在预训练的过程中,采用0.0001~0.0005的学习率对模型的参数进行更新,从而让神经机器翻译模型收敛到更好的效果。
步骤7)中,使用伪双语数据预训练神经机器翻译模型后,使用真正的双语数据微调神经机器翻译模型,具体步骤与步骤6相同。
下面以英语到德语的翻译为例,对本发明训练过程进行说明。首先通过爬取维基百科和一些新闻网站来获取可比语料,并通过爬取方式得到海量的单语语料。其次,通过长度比过滤、去除特殊符号等方式对语料进行过滤,然后进行分词、字词切分操作。利用处理好的单语数据来微调预训练模型BERT的参数,使预训练模型在本数据上的效果更好。之后,利用预训练模型分别对两种语言的句子进行编码,得到每个句子对应的向量,选择两种语言中相似度较高的句子对加入到伪平行语料中。
为了更好地利用预训练模型,采用预训练模型来初始化神经机器翻译模型的编码器的参数,使神经机器翻译模型初始阶段就具备一定的能力。使用上述流程中选取的伪平行语料来训练神经机器翻译模型,再通过少量的真正双语语料来微调模型,从而完成最终的翻译过程。
在IWSLT英德和德英翻译任务上验证了本专利的有效性,实验结果如表1所示。基础方法只适用真正双语语料训练,而本专利方法则是通过上述所述方法进行训练,相比基础方法在两个语言对的翻译性能上均有了显著提升,分别为英德方向提升了1.68,德英方向提升了1.92。
英德 | 德英 | |
基础方法 | 28.3 | 34.31 |
本专利方法 | 29.98 | 36.23 |
表1
在使用本发明方法进行解码时,首先使用神经机器翻译模型的编码器对源语句子进行编码,再通过解码器解码生成目标语言句子,具体为:
在编码器的输入层,将源语言句子每个位置的词嵌入和位置嵌入进行加和,使用编码器对该句子进行编码,提取源语言句子中包含的信息。然后,在解码器的输入层,将起始符对应的词嵌入和位置嵌入加和送入到解码器中,通过贪婪搜索或者束搜索的方式生成目标语言句子的第一个词。重复此过程多次,直到整个句子解码完成,便得到了目标语言的翻译结果。
通过以上解码过程进行验证,可知:利用本发明训练方法得到的神经机器翻译模型可以充分利用海量的单语数据,显著提高模型的翻译性能。
Claims (6)
1.一种面向神经机器翻译的数据选择及训练方法,其特征在于包括以下步骤:
1)构建单语语料库;
2)对单语语料进行清洗过滤、分词、子词切分预处理,作为训练数据;
3)使用训练数据通过语言模型微调预训练模型;
4)将两种语言的单语数据输入编码,比较编码的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料;
5)使用预训练模型的分词和子词切分方法处理伪平行语料,使用预训练模型初始化神经机器翻译框架的编码器参数;
6)使用处理后的伪平行语料对神经机器翻译模型进行预训练;
7)使用真正的双语数据微调神经机器翻译模型,完成训练过程。
2.按权利要求1所述的面向神经机器翻译的数据选择及训练方法,其特征在于:步骤1)中,构建单语语料库,具体为:
101)对于要使用的单语数据,分为两部分,一是可比较的单语数据,二是不相关的单语数据;
102)可比较的单语数据通过在语料库中获得或则网络爬取的方式,不相关的单语数据通过单语数据库获得,并加入单语语料库。
3.按权利要求1所述的面向神经机器翻译的数据选择及训练方法,其特征在于:步骤3)中,使用训练数据通过语言模型微调预训练模型,具体为:将预处理后两种语言的单语数据混合后打乱顺序,利用语言模型任务对预训练模型的参数进行修正。
4.按权利要求1所述的面向神经机器翻译的数据选择及训练方法,其特征在于:步骤4)中,将两种语言的单语数据输入预训练模型中,比较编码的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料,具体为:
401)将可比较单语数据输入预训练模型中,比较编码后的两种单语数据的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料;
402)将单语数据库中两种语言的单语数据输入预训练模型中,比较编码后的两种单语的向量相似度,将相似度最高的两句并入伪双语数据中,构建伪平行语料。
5.按权利要求1所述的面向神经机器翻译的数据选择及训练方法,其特征在于:步骤5)中,使用预训练模型的分词和子词切分方法处理伪平行语料,具体为:使用预训练模型的语料预处理方法来处理伪平行语料,包括分词和字词切分方法,并使用预训练模型的词表减小神经机器翻译模型和预训练模型的差异。
6.按权利要求1所述的面向神经机器翻译的数据选择及训练方法,其特征在于:步骤6)中,使用处理后的伪平行语料对神经机器翻译模型进行预训练,具体为:在预训练的过程中,采用0.0001~0.0005的学习率对模型的参数进行更新,使神经机器翻译模型收敛到更好的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110868021.5A CN113505571A (zh) | 2021-07-30 | 2021-07-30 | 一种面向神经机器翻译的数据选择及训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110868021.5A CN113505571A (zh) | 2021-07-30 | 2021-07-30 | 一种面向神经机器翻译的数据选择及训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113505571A true CN113505571A (zh) | 2021-10-15 |
Family
ID=78015202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110868021.5A Withdrawn CN113505571A (zh) | 2021-07-30 | 2021-07-30 | 一种面向神经机器翻译的数据选择及训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505571A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2661535A1 (en) * | 2006-08-18 | 2008-02-21 | National Research Council Of Canada | Means and method for training a statistical machine translation system |
US20160004691A1 (en) * | 2013-01-25 | 2016-01-07 | Harbin Institute Of Technology | Parameter adjustment method used for statistical machine translation |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
CN110489624A (zh) * | 2019-07-12 | 2019-11-22 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
CN111709254A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 融合单语语言模型的汉越伪平行语料生成方法 |
CN111859994A (zh) * | 2020-06-08 | 2020-10-30 | 北京百度网讯科技有限公司 | 机器翻译模型获取及文本翻译方法、装置及存储介质 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112287695A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 |
CN112633018A (zh) * | 2020-12-28 | 2021-04-09 | 内蒙古工业大学 | 一种基于数据增强的蒙汉神经机器翻译方法 |
CN113111667A (zh) * | 2021-04-13 | 2021-07-13 | 沈阳雅译网络技术有限公司 | 一种基于多语言模型的低资源语言生成伪数据的方法 |
-
2021
- 2021-07-30 CN CN202110868021.5A patent/CN113505571A/zh not_active Withdrawn
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2661535A1 (en) * | 2006-08-18 | 2008-02-21 | National Research Council Of Canada | Means and method for training a statistical machine translation system |
US20160004691A1 (en) * | 2013-01-25 | 2016-01-07 | Harbin Institute Of Technology | Parameter adjustment method used for statistical machine translation |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
CN110489624A (zh) * | 2019-07-12 | 2019-11-22 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
CN111709254A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 融合单语语言模型的汉越伪平行语料生成方法 |
CN111859994A (zh) * | 2020-06-08 | 2020-10-30 | 北京百度网讯科技有限公司 | 机器翻译模型获取及文本翻译方法、装置及存储介质 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112287695A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN112633018A (zh) * | 2020-12-28 | 2021-04-09 | 内蒙古工业大学 | 一种基于数据增强的蒙汉神经机器翻译方法 |
CN113111667A (zh) * | 2021-04-13 | 2021-07-13 | 沈阳雅译网络技术有限公司 | 一种基于多语言模型的低资源语言生成伪数据的方法 |
Non-Patent Citations (2)
Title |
---|
曹宜超;高翊;李淼;冯韬;王儒敬;付莎;: "基于单语语料和词向量对齐的蒙汉神经机器翻译研究", 中文信息学报, no. 02, 15 February 2020 (2020-02-15), pages 30 - 35 * |
苏依拉;孙晓骞;巴图其其格;仁庆道尔吉;: "基于对偶学习的西里尔蒙古语-汉语机器翻译研究", 计算机应用与软件, no. 01, 12 January 2020 (2020-01-12), pages 178 - 184 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382580B (zh) | 一种面向神经机器翻译的编码器-解码器框架预训练方法 | |
Sanchez et al. | ICFHR2016 competition on handwritten text recognition on the READ dataset | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
Freitag et al. | Fast domain adaptation for neural machine translation | |
Pouget-Abadie et al. | Overcoming the curse of sentence length for neural machine translation using automatic segmentation | |
CN111178094B (zh) | 一种基于预训练的稀缺资源神经机器翻译训练方法 | |
CN109948152A (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN111241816B (zh) | 一种新闻标题自动生成方法 | |
CN112257453A (zh) | 融合关键词和语义特征的汉越文本相似度计算方法 | |
CN113408535B (zh) | 一种基于中文字符级特征和语言模型的ocr纠错方法 | |
CN109977199A (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN112287695A (zh) | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN109145946B (zh) | 一种智能图像识别和描述方法 | |
Marukatat et al. | Sentence recognition through hybrid neuro-markovian modeling | |
Kišš et al. | AT-ST: self-training adaptation strategy for OCR in domains with limited transcriptions | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN116167362A (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN115114940A (zh) | 一种基于课程化预训练的机器翻译风格的迁移方法和系统 | |
CN112989848B (zh) | 一种领域适应医学文献神经机器翻译模型的训练方法 | |
Belay et al. | The effect of normalization for bi-directional amharic-english neural machine translation | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211015 |