CN109684648B - 一种多特征融合的古今汉语自动翻译方法 - Google Patents
一种多特征融合的古今汉语自动翻译方法 Download PDFInfo
- Publication number
- CN109684648B CN109684648B CN201910033155.8A CN201910033155A CN109684648B CN 109684648 B CN109684648 B CN 109684648B CN 201910033155 A CN201910033155 A CN 201910033155A CN 109684648 B CN109684648 B CN 109684648B
- Authority
- CN
- China
- Prior art keywords
- ancient
- word
- translation
- chinese
- modern chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005773 Enders reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种多特征融合的古今汉语自动翻译方法。步骤如下:1)采集文言文及其现代文译文数据、文言文词表和现代汉语单语语料数据。2)数据清洗并使用句子对齐方法构建古今汉语平行语料库。3)使用中文分词工具,对现代文和古文进行分词。4)对古文语料进行主题建模,生成主题‑词分布及词‑主题条件概率分布。5)使用现代汉语单语语料训练得到现代汉语语言模型;使用古今汉语平行语料得到其对齐词典。6)以基于注意力的循环神经网络翻译模型为基础,融合语言模型与对齐词典等统计机器翻译特征,使用古今汉语平行句对及词主题序列训练模型;7)用户输入待翻译文言文,利用6)步训练得到模型获取现代文译文。
Description
技术领域
本发明涉及自然语言处理领域中的主题模型、语言模型、机器翻译领域,具体涉及一种多特征融合的古今汉语自动翻译方法。
背景技术
中国历史源远流长,为后人留下了卷帙浩繁的古文典籍,这些古籍见证了中华文明的历史,记录并传承了丰厚的历史和文化内涵。然而,古籍一般使用文言文书写,文字较为简练,与如今我们使用的白话文差异较大,普通人难以读懂。为此,古汉语学者开始经典古籍的翻译工作,但仅依靠数量稀少的学者无法完成全部古籍的翻译。
机器翻译(Machine Translation,MT)就是利用计算机实现了不同自然语言间自动转换的过程。机器翻译可以分为两大方向:一是基于统计的机器方法,其基本思想是从统计学的角度利用大规模平行双语语料库来学习翻译规则和翻译形式等知识,在此基础上建立翻译模型。但是统计机器翻译需要进行词对齐、短语抽取和句法分析等预处理工作,每个环节的错误将会逐步累计影响后续的翻译质量。二是基于神经网络的机器翻译,目前已成为机器翻译领域的研究热点。神经网络翻译使用编码器-解码器(Encoder-Decoder)框架,对翻译概率进行建模。其编码器将输入的源语言序列转化成一个连续、稠密的向量,其解码器将该向量解码成对应的目标语言序列,实现了源语言和目标语言间的映射。
神经网络机器翻译方法翻译效果已超越基于统计的机器翻译,一般应用于大规模的平行语料中,比如英德、英法等达到百万数量级的双语语料对。然而目前古今汉语语料库的建设正处于起步阶段,仅部分研究机构公布了古汉语单语语料库。
发明内容
本发明的目的一是利用互联网上古今汉语对齐篇及句子对齐技术完成古今汉语平行语料库的构建,二是实现多特征融合的神经网络翻译模型,对基于注意力的循环神经网络翻译模型进行改进,在其编码器端实现多序列信息编码,将更多特征知识编码入语义向量,在其解码器端融合语言模型与对齐词典,缓解未登录词问题;三是使用古今汉语平行句对训练多特征融合的神经网络翻译模型,得到古今汉语自动翻译模型,能将输入的文言文自动转换成对应现代文。
为实现上述目的,本发明采用如下技术方案:
一种多特征融合的古今汉语自动翻译方法,包括以下步骤:
1)采集古今汉语平行篇章;从输入法词库和汉语词典采集词表数据,词表数据经筛选过滤获得专有词语建立文言文词表;采集现代汉语单语语料数据;
2)对古今汉语平行篇章进行简繁转换、特殊符号去除、去重处理,使用句子对齐方法对古今汉语平行篇章进行处理,从而构建句子级对齐的古今汉语平行语料库;
3)使用中文分词工具,对古今汉语平行语料库中的现代文句子进行分词,同时使用文言文词表初始化分词工具后对古今汉语平行语料库中的古文句子进行分词;
4)基于主题模型对所有分词后的古文句子组成的古文语料进行建模,生成主题-词分布及词-主题条件概率分布,得到词序列对应的词主题序列;
5)使用现代汉语单语语料数据训练得到现代汉语语言模型;使用词对齐工具对古今汉语平行语料库进行处理,得到对齐词典;
6)以基于注意力的循环神经网络翻译模型为基础,在编码器端进行多序列信息并行编码,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,使用古今汉语平行语料库及词主题序列训练该模型;
7)用户输入待翻译文言文,根据步骤2)进行简繁转换、特殊符号去除处理;根据步骤3)进行分词处理,利用步骤4)得到其对应词主题序列,最后利用步骤6)训练得到的模型获取现代文译文。
更具体的,所述的中文分词工具使用Python的Jieba工具;基于注意力的循环神经网络翻译模型构建使用PyTorch工具。
优选的,所述的步骤2)中,使用句子对齐方法对古今汉语平行篇章进行处理,具体为:
步骤2-1:利用基于长度特征的句子对齐方法,将段落中句子数量视作段落长度,并通过对数线性模型结合段落对齐模式和共现汉字特征,用动态规划的方法对古今汉语平行篇章进行段落对齐;
步骤2-2:基于步骤2-1中的段落对齐语料,利用句子对齐方法完成对齐。
优选的,所述的步骤4)中的主题模型具体设置为:
使用LDA主题模型,设置主题数K=50,超参数α=0.1,β=0.01。
优选的,所述步骤5)中的训练得到现代汉语语言模型所使用工具为开源语言模型工具KenLM,使用Modified Kneser-ney smoothing平滑方法,训练得到现代汉语四元语言模型;所述步骤5)词对齐工具使用GIZA++工具。
优选的,所述神经网络翻译模型为基于注意力的循环神经网络,采用Bahdanau提出的注意力机制,网络参数设置如下:
优选的,所述的步骤6)中,在编码器端进行多序列信息并行编码,具体为:
将古文句子的词序列及步骤4)中得到词主题序列共同进行编码,编码器端输出向量的计算公式表示为:
式中,||表示向量拼接;|K|表示输入特征序列的数量;ht表示t时刻的源语言词汇对应神经单元的输出状态;mkt表示第k个特征序列当前时刻对应神经元的输出状态;f表示非线性激活函数。
优选的,所述的步骤6)中,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,用于解决未登录词(Unknown Word,UNK)的问题,具体步骤为:
步骤6-1:获取UNK对齐信息:当Decoder端解码产生UNK时,基于注意力机制,获得UNK所对齐的源语言词语;
步骤6-2:生成翻译候选项:根据步骤6-1中得到UNK对齐的源语言词语,遍历步骤5)得到的对齐词典,生成翻译候选项;
步骤6-3:确认目标语言词:若步骤6-2中无翻译候选项,直接将UNK对应的源语言词作为翻译词;若步骤6-2中有多个翻译候选项,综合互译概率和语言模型得分来确定最终的翻译结果。
本发明相对于现有技术的有益效果为:
1)提出了一种新的基于特征融合的层次句子对齐方法。使用手工标注语料进行实验,与基于长度特征的句子对齐方法相比,本方法得到句子对齐准确率有所提高,并基于此方法完成古今汉语平行语料库的构建。
2)提出了一种多特征融合的神经网络翻译方法,相比于基于注意力的循环神经网络翻译方法,本方法将主题模型、统计机器翻译特征融合神经网络,不仅解决了未登录词问题,也提高了翻译性能。
3)采用平行语料库训练翻译模型,随着数据集的扩大,模型性能会得到提升。
4)本发明所阐述方法具有一般性,可适用于构建不同领域的双语自动翻译任务。
附图说明
图1为一种多特征融合的古今汉语翻译方法的整体流程图;
图2为神经网络翻译方法解决未登录词的流程图。
具体实施方式
以下结合具体实例以及附图对本发明作进一步详细说明。
如图1和2所示,本发明一种多特征融合的古今汉语翻译方法包括以下步骤:
1)使用Python的Requests工具和BeautifulSoup工具从互联网上文言文阅读网站如古诗文、易文言等,采集文言文及其现代文译文数据;采集输入法词库、汉语词典等词表数据,经筛选过滤获得历史人物、地名、朝代等专有词语建立文言文词表;采集人民日报语料、维基百科中文语料等现代汉语单语语料数据;
2)对数据进行清洗加工,具体包括基于正则的去噪与译文提取、基于SimHash算法的去重、基于规则的格式化等。其中,基于规则的格式化用于将网络采集原始语料加工为统一的格式,具体包括简繁转换、特殊去除、标点符号转换等步骤。然后使用基于多特征融合的层次句子对齐方法完成古今汉语平行篇章的句子对齐工作,从而构建句子级对齐的古今汉语平行语料库;
3)使用Jieba中文分词工具,对现代文句子进行分词;添加步骤1)中构建文言文词表作为用户词典,对古文句子进行分词。
4)使用古文语料训练LDA模型,得到主题-词分布及词-主题条件概率分布,将词-主题条件概率分布中概率最高的主题作为该词的主题,从而得到词序列对应的词主题序列。
5)使用现代汉语单语语料训练KenLM得到现代汉语四元语言模型;使用GIZA++工具对古今汉语平行语料进行词对齐处理,得到双语对齐概率词典。
6)以基于注意力的循环神经网络翻译模型为基础,在编码器端对词序列及其对应词主题序列信息并行编码,将两个输出向量拼接后作为最终向量输出,其公式如下:
式中,||表示向量拼接;|K|表示输入特征序列的数量;ht表示t时刻的源语言词汇对应神经单元的输出状态;mkt表示第k个特征序列当前时刻对应神经元的输出状态;f表示非线性激活函数。
7)在神经网络翻译模型的解码器端融合语言模型与对齐词典等统计机器翻译特征,用于解决未登录词问题,其实施流程见图2。
8)以上步骤完成整个翻译模型的构建,我们使用步骤3)得到已分词双语平行语料及步骤4)中得到词序列语料完成翻译模型的训练过程。
7)在神经网络模型翻译阶段,将用户输入待翻译文言文根据步骤2)和3)进行清洗与分词处理,利用步骤4)得到其对应词主题序列,最后利用步骤8)中训练得到模型获取现代文译文。
下面以实施例为基础,对上述方法做进一步说明,实施例中省略的步骤均按照上述方法进行实现。
实施例
文言文原文:且游猎旬日不回,中外情何以堪?
现代文译文:而且去游玩打猎十天不回来,朝廷内外人们的心情怎么受得了?
利用开源的中文分词工具Jieba分词进行分词,使用文言文词表初始化用户词典,分词结果如下:
且|游猎|旬日|不回|,|中外|情|何以堪|?
结合LDA主题模型,根据其生成的词-主题条件概率分布,得到文言文原文词序列对应主题序列,如下所示:
且/23|游猎/25|旬日/10|不回/11|,/26|中外/25|情/19|何以堪/39|?/24
以“且/23”为例,其中的数字表示“且”对应的主题。
利用构建的古今汉语平行语料库,训练多特征融合的循环神经网络,得到翻译模型。将上述文言文词序列及主题序列送入模型中,将每个词表示为50000维的one-hot向量,使用训练得到参数矩阵将其映射为1000维特征向量,参与整个翻译过程。
最后将得到翻译结果返回给用户,为“而且游猎十多天不会,朝廷内外的情况只怎能忍受得了?”。
Claims (5)
1.一种多特征融合的古今汉语自动翻译方法,其特征在于包括以下步骤:
1)采集古今汉语平行篇章;从输入法词库和汉语词典采集词表数据,词表数据经筛选过滤获得专有词语建立文言文词表;采集现代汉语单语语料数据;
2)对古今汉语平行篇章进行简繁转换、特殊符号去除、去重处理,使用句子对齐方法对古今汉语平行篇章进行处理,从而构建句子级对齐的古今汉语平行语料库;
所述的步骤2)中,使用句子对齐方法对古今汉语平行篇章进行处理,具体为:
步骤2-1:利用基于长度特征的句子对齐方法,将段落中句子数量视作段落长度,并通过对数线性模型结合段落对齐模式和共现汉字特征,用动态规划的方法对古今汉语平行篇章进行段落对齐;
步骤2-2:基于步骤2-1中的段落对齐语料,利用基于长度特征的句子对齐方法完成对齐;
3)使用中文分词工具,对古今汉语平行语料库中的现代文句子进行分词,同时使用文言文词表初始化分词工具后对古今汉语平行语料库中的古文句子进行分词;
4)基于主题模型对所有分词后的古文句子组成的古文语料进行建模,生成主题-词分布及词-主题条件概率分布,得到词序列对应的词主题序列;
5)使用现代汉语单语语料数据训练得到现代汉语语言模型;使用词对齐工具对古今汉语平行语料库进行处理,得到对齐词典;
6)以基于注意力的循环神经网络翻译模型为基础,在编码器端进行多序列信息并行编码,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,使用古今汉语平行语料库及词主题序列训练该模型;
步骤6)中,在编码器端进行多序列信息并行编码,具体为:
将古文句子的词序列及步骤4)中得到词主题序列共同进行编码,编码器端输出向量的计算公式表示为:
式中,||表示向量拼接;|K|表示输入特征序列的数量;ht表示t时刻的源语言词汇对应神经单元的输出状态;mkt表示第k个特征序列当前时刻对应神经元的输出状态;f表示非线性激活函数;
所述的步骤6)中,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,用于解决UNK问题,具体步骤为:
步骤6-1:获取UNK对齐信息:当Decoder端解码产生UNK时,基于注意力机制,获得UNK所对齐的源语言词语;
步骤6-2:生成翻译候选项:根据步骤6-1中得到UNK对齐的源语言词语,遍历步骤5)得到的对齐词典,生成翻译候选项;
步骤6-3:确认目标语言词:若步骤6-2中无翻译候选项,直接将UNK对应的源语言词作为翻译词;若步骤6-2中有多个翻译候选项,综合互译概率和语言模型得分来确定最终的翻译结果;
7)用户输入待翻译文言文,根据步骤2)进行简繁转换、特殊符号去除处理;根据步骤3)进行分词处理,利用步骤4)得到其对应词主题序列,最后利用步骤6)训练得到的模型获取现代文译文。
2.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述的中文分词工具使用Python的Jieba工具;基于注意力的循环神经网络翻译模型构建使用PyTorch工具。
3.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述的步骤4)中的主题模型具体设置为:
使用LDA主题模型,设置主题数K=50,超参数α=0.1,β=0.01。
4.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于,所述步骤5)中的训练得到现代汉语语言模型所使用工具为开源语言模型工具KenLM,使用Modified Kneser-ney smoothing平滑方法,训练得到现代汉语四元语言模型;
所述步骤5)词对齐工具使用GIZA++工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910033155.8A CN109684648B (zh) | 2019-01-14 | 2019-01-14 | 一种多特征融合的古今汉语自动翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910033155.8A CN109684648B (zh) | 2019-01-14 | 2019-01-14 | 一种多特征融合的古今汉语自动翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684648A CN109684648A (zh) | 2019-04-26 |
CN109684648B true CN109684648B (zh) | 2020-09-01 |
Family
ID=66192310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910033155.8A Active CN109684648B (zh) | 2019-01-14 | 2019-01-14 | 一种多特征融合的古今汉语自动翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684648B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298045B (zh) * | 2019-05-31 | 2023-03-24 | 北京百度网讯科技有限公司 | 机器翻译方法、装置、设备及存储介质 |
CN110187780B (zh) * | 2019-06-10 | 2023-07-21 | 北京百度网讯科技有限公司 | 长文本预测方法、装置、设备和存储介质 |
CN110362820B (zh) * | 2019-06-17 | 2022-11-01 | 昆明理工大学 | 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 |
CN110263353B (zh) * | 2019-06-25 | 2023-10-13 | 北京金山数字娱乐科技有限公司 | 一种机器翻译方法及装置 |
CN110502759B (zh) * | 2019-07-15 | 2022-07-19 | 昆明理工大学 | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 |
CN110427619B (zh) * | 2019-07-23 | 2022-06-21 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
US11288452B2 (en) | 2019-07-26 | 2022-03-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof |
CN110633354B (zh) * | 2019-07-29 | 2022-12-02 | 重庆文理学院 | 一种基于古诗词语科向量化的输入式文言文剖析系统 |
CN111259652B (zh) * | 2020-02-10 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 双语语料句对齐方法、装置、可读存储介质和计算机设备 |
CN111401078A (zh) * | 2020-03-17 | 2020-07-10 | 江苏省舜禹信息技术有限公司 | 神经网络文本翻译模型的运行方法、装置、设备、及介质 |
CN111581964A (zh) * | 2020-04-24 | 2020-08-25 | 西安交通大学 | 一种汉语古籍的主题分析方法 |
CN111581992B (zh) * | 2020-06-05 | 2023-04-07 | 信阳农林学院 | 一种汉语语言教学方法及系统 |
CN111859998A (zh) * | 2020-06-18 | 2020-10-30 | 北京百度网讯科技有限公司 | 篇章翻译的方法、装置、电子设备和可读存储介质 |
CN112257461A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制的xml文档翻译及评价方法 |
CN112417897B (zh) * | 2020-11-30 | 2023-04-07 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN113033220A (zh) * | 2021-04-15 | 2021-06-25 | 沈阳雅译网络技术有限公司 | 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 |
CN113723117B (zh) * | 2021-07-29 | 2024-04-30 | 北京搜狗科技发展有限公司 | 一种翻译模型的训练方法、装置和用于翻译模型训练的装置 |
CN116070643B (zh) * | 2023-04-03 | 2023-08-15 | 武昌理工学院 | 一种古文到英文的固定风格翻译方法及系统 |
CN116992894B (zh) * | 2023-09-26 | 2024-01-16 | 北京澜舟科技有限公司 | 一种机器翻译模型的训练方法和计算机可读存储介质 |
CN118153566B (zh) * | 2024-05-09 | 2024-07-19 | 华东交通大学 | 一种段落大意引导的汉语篇章结构分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290616A (zh) * | 2008-06-11 | 2008-10-22 | 中国科学院计算技术研究所 | 一种统计机器翻译方法和系统 |
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
CN103678565A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于自引导方式的领域自适应句子对齐系统 |
CN104360996A (zh) * | 2014-11-27 | 2015-02-18 | 武汉传神信息技术有限公司 | 双语文本的句子对齐方法 |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
CN108549629A (zh) * | 2018-03-19 | 2018-09-18 | 昆明理工大学 | 一种结合相似度和图匹配的老-汉双语句子对齐方法 |
CN108829685A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于单语语料库训练的蒙汉互译方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193915B (zh) * | 2011-06-03 | 2012-11-28 | 南京大学 | 一种计算机中译英翻译中基于分词网的词对齐融合方法 |
CN104268133B (zh) * | 2014-09-11 | 2018-02-13 | 北京交通大学 | 机器翻译方法及系统 |
CN104991890A (zh) * | 2015-07-15 | 2015-10-21 | 昆明理工大学 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
CN105868187B (zh) * | 2016-03-25 | 2018-05-08 | 北京语言大学 | 多译本平行语料库的构建方法 |
CN106096727B (zh) * | 2016-06-02 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的网络模型构造方法及装置 |
CN106776540A (zh) * | 2016-11-23 | 2017-05-31 | 清华大学 | 一种自由化文本生成方法 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
CN107229611B (zh) * | 2017-05-18 | 2020-06-30 | 大连大学 | 一种基于词对齐的历史典籍分词方法 |
CN108537246A (zh) * | 2018-02-28 | 2018-09-14 | 成都优译信息技术股份有限公司 | 一种平行语料按翻译质量进行分类的方法及系统 |
CN109033094A (zh) * | 2018-07-18 | 2018-12-18 | 五邑大学 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
-
2019
- 2019-01-14 CN CN201910033155.8A patent/CN109684648B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290616A (zh) * | 2008-06-11 | 2008-10-22 | 中国科学院计算技术研究所 | 一种统计机器翻译方法和系统 |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN103678565A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于自引导方式的领域自适应句子对齐系统 |
CN104360996A (zh) * | 2014-11-27 | 2015-02-18 | 武汉传神信息技术有限公司 | 双语文本的句子对齐方法 |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
CN108549629A (zh) * | 2018-03-19 | 2018-09-18 | 昆明理工大学 | 一种结合相似度和图匹配的老-汉双语句子对齐方法 |
CN108829685A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于单语语料库训练的蒙汉互译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109684648A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684648B (zh) | 一种多特征融合的古今汉语自动翻译方法 | |
CN109948152B (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
Zhang et al. | Understanding subtitles by character-level sequence-to-sequence learning | |
CN109815476B (zh) | 一种基于中文语素和拼音联合统计的词向量表示方法 | |
Hamed et al. | Deep learning approach for translating arabic holy quran into italian language | |
Xing et al. | A convolutional neural network for aspect-level sentiment classification | |
CN114386417A (zh) | 一种融入词边界信息的中文嵌套命名实体识别方法 | |
CN116955594A (zh) | 语义融合预训练模型构建方法及跨语言摘要生成方法和系统 | |
Tian et al. | Tod-da: Towards boosting the robustness of task-oriented dialogue modeling on spoken conversations | |
Lyons | A review of Thai–English machine translation | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN114972907A (zh) | 基于强化学习和对比学习的图像语义理解及文本生成 | |
Sun | [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology | |
Lo et al. | Cool English: A grammatical error correction system based on large learner corpora | |
Belay et al. | The effect of normalization for bi-directional amharic-english neural machine translation | |
Bensalah et al. | Arabic machine translation based on the combination of word embedding techniques | |
Moukafih et al. | Improving machine translation of arabic dialects through multi-task learning | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
Gamal et al. | Survey of arabic machine translation, methodologies, progress, and challenges | |
Sumanathilaka et al. | Swa-bhasha: Romanized sinhala to sinhala reverse transliteration using a hybrid approach | |
Shi | Algorithmic Translation Correction Mechanisms: An End-to-end Algorithmic Implementation of English-Chinese Machine Translation | |
Verma et al. | A Novel Framework for Ancient Text Translation Using Artificial Intelligence | |
CN112749566A (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
Cao et al. | MC-TCMNER: A Multi-modal Fusion Model Combining Contrast Learning Method for Traditional Chinese Medicine NER | |
Lv et al. | StyleBERT: Chinese pretraining by font style information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |