CN109684648A - 一种多特征融合的古今汉语自动翻译方法 - Google Patents

一种多特征融合的古今汉语自动翻译方法 Download PDF

Info

Publication number
CN109684648A
CN109684648A CN201910033155.8A CN201910033155A CN109684648A CN 109684648 A CN109684648 A CN 109684648A CN 201910033155 A CN201910033155 A CN 201910033155A CN 109684648 A CN109684648 A CN 109684648A
Authority
CN
China
Prior art keywords
chinese
word
modern
model
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910033155.8A
Other languages
English (en)
Other versions
CN109684648B (zh
Inventor
张引
陈琴菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910033155.8A priority Critical patent/CN109684648B/zh
Publication of CN109684648A publication Critical patent/CN109684648A/zh
Application granted granted Critical
Publication of CN109684648B publication Critical patent/CN109684648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明公开了一种多特征融合的古今汉语自动翻译方法。步骤如下:1)采集文言文及其现代文译文数据、文言文词表和现代汉语单语语料数据。2)数据清洗并使用句子对齐方法构建古今汉语平行语料库。3)使用中文分词工具,对现代文和古文进行分词。4)对古文语料进行主题建模,生成主题‑词分布及词‑主题条件概率分布。5)使用现代汉语单语语料训练得到现代汉语语言模型;使用古今汉语平行语料得到其对齐词典。6)以基于注意力的循环神经网络翻译模型为基础,融合语言模型与对齐词典等统计机器翻译特征,使用古今汉语平行句对及词主题序列训练模型;7)用户输入待翻译文言文,利用6)步训练得到模型获取现代文译文。

Description

一种多特征融合的古今汉语自动翻译方法
技术领域
本发明涉及自然语言处理领域中的主题模型、语言模型、机器翻译领域,具体涉及一种多特征融合的古今汉语自动翻译方法。
背景技术
中国历史源远流长,为后人留下了卷帙浩繁的古文典籍,这些古籍见证了中华文明的历史,记录并传承了丰厚的历史和文化内涵。然而,古籍一般使用文言文书写,文字较为简练,与如今我们使用的白话文差异较大,普通人难以读懂。为此,古汉语学者开始经典古籍的翻译工作,但仅依靠数量稀少的学者无法完成全部古籍的翻译。
机器翻译(Machine Translation,MT)就是利用计算机实现了不同自然语言间自动转换的过程。机器翻译可以分为两大方向:一是基于统计的机器方法,其基本思想是从统计学的角度利用大规模平行双语语料库来学习翻译规则和翻译形式等知识,在此基础上建立翻译模型。但是统计机器翻译需要进行词对齐、短语抽取和句法分析等预处理工作,每个环节的错误将会逐步累计影响后续的翻译质量。二是基于神经网络的机器翻译,目前已成为机器翻译领域的研究热点。神经网络翻译使用编码器-解码器(Encoder-Decoder)框架,对翻译概率进行建模。其编码器将输入的源语言序列转化成一个连续、稠密的向量,其解码器将该向量解码成对应的目标语言序列,实现了源语言和目标语言间的映射。
神经网络机器翻译方法翻译效果已超越基于统计的机器翻译,一般应用于大规模的平行语料中,比如英德、英法等达到百万数量级的双语语料对。然而目前古今汉语语料库的建设正处于起步阶段,仅部分研究机构公布了古汉语单语语料库。
发明内容
本发明的目的一是利用互联网上古今汉语对齐篇及句子对齐技术完成古今汉语平行语料库的构建,二是实现多特征融合的神经网络翻译模型,对基于注意力的循环神经网络翻译模型进行改进,在其编码器端实现多序列信息编码,将更多特征知识编码入语义向量,在其解码器端融合语言模型与对齐词典,缓解未登录词问题;三是使用古今汉语平行句对训练多特征融合的神经网络翻译模型,得到古今汉语自动翻译模型,能将输入的文言文自动转换成对应现代文。
为实现上述目的,本发明采用如下技术方案:
一种多特征融合的古今汉语自动翻译方法,包括以下步骤:
1)采集古今汉语平行篇章;从输入法词库和汉语词典采集词表数据,词表数据经筛选过滤获得专有词语建立文言文词表;采集现代汉语单语语料数据;
2)对古今汉语平行篇章进行简繁转换、特殊符号去除、去重处理,使用句子对齐方法对古今汉语平行篇章进行处理,从而构建句子级对齐的古今汉语平行语料库;
3)使用中文分词工具,对古今汉语平行语料库中的现代文句子进行分词,同时使用文言文词表初始化分词工具后对古今汉语平行语料库中的古文句子进行分词;
4)基于主题模型对所有分词后的古文句子组成的古文语料进行建模,生成主题-词分布及词-主题条件概率分布,得到词序列对应的词主题序列;
5)使用现代汉语单语语料数据训练得到现代汉语语言模型;使用词对齐工具对古今汉语平行语料库进行处理,得到对齐词典;
6)以基于注意力的循环神经网络翻译模型为基础,在编码器端进行多序列信息并行编码,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,使用古今汉语平行语料库及词主题序列训练该模型;
7)用户输入待翻译文言文,根据步骤2)进行简繁转换、特殊符号去除处理;根据步骤3)进行分词处理,利用步骤4)得到其对应词主题序列,最后利用步骤6)训练得到的模型获取现代文译文。
更具体的,所述的中文分词工具使用Python的Jieba工具;基于注意力的循环神经网络翻译模型构建使用PyTorch工具。
优选的,所述的步骤2)中,使用句子对齐方法对古今汉语平行篇章进行处理,具体为:
步骤2-1:利用基于长度特征的句子对齐方法,将段落中句子数量视作段落长度,并通过对数线性模型结合段落对齐模式和共现汉字特征,用动态规划的方法对古今汉语平行篇章进行段落对齐;
步骤2-2:基于步骤2-1中的段落对齐语料,利用句子对齐方法完成对齐。
优选的,所述的步骤4)中的主题模型具体设置为:
使用LDA主题模型,设置主题数K=50,超参数α=0.1,β=0.01。
优选的,所述步骤5)中的训练得到现代汉语语言模型所使用工具为开源语言模型工具KenLM,使用Modified Kneser-ney smoothing平滑方法,训练得到现代汉语四元语言模型;所述步骤5)词对齐工具使用GIZA++工具。
优选的,所述神经网络翻译模型为基于注意力的循环神经网络,采用Bahdanau提出的注意力机制,网络参数设置如下:
优选的,所述的步骤6)中,在编码器端进行多序列信息并行编码,具体为:
将古文句子的词序列及步骤4)中得到词主题序列共同进行编码,编码器端输出向量的计算公式表示为:
式中,||表示向量拼接;|K|表示输入特征序列的数量;ht表示t时刻的源语言词汇对应神经单元的输出状态;mkt表示第k个特征序列当前时刻对应神经元的输出状态;f表示非线性激活函数。
优选的,所述的步骤6)中,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,用于解决未登录词(Unknown Word,UNK)的问题,具体步骤为:
步骤6-1:获取UNK对齐信息:当Decoder端解码产生UNK时,基于注意力机制,获得UNK所对齐的源语言词语;
步骤6-2:生成翻译候选项:根据步骤6-1中得到UNK对齐的源语言词语,遍历步骤5)得到的对齐词典,生成翻译候选项;
步骤6-3:确认目标语言词:若步骤6-2中无翻译候选项,直接将UNK对应的源语言词作为翻译词;若步骤6-2中有多个翻译候选项,综合互译概率和语言模型得分来确定最终的翻译结果。
本发明相对于现有技术的有益效果为:
1)提出了一种新的基于特征融合的层次句子对齐方法。使用手工标注语料进行实验,与基于长度特征的句子对齐方法相比,本方法得到句子对齐准确率有所提高,并基于此方法完成古今汉语平行语料库的构建。
2)提出了一种多特征融合的神经网络翻译方法,相比于基于注意力的循环神经网络翻译方法,本方法将主题模型、统计机器翻译特征融合神经网络,不仅解决了未登录词问题,也提高了翻译性能。
3)采用平行语料库训练翻译模型,随着数据集的扩大,模型性能会得到提升。
4)本发明所阐述方法具有一般性,可适用于构建不同领域的双语自动翻译任务。
附图说明
图1为一种多特征融合的古今汉语翻译方法的整体流程图;
图2为神经网络翻译方法解决未登录词的流程图。
具体实施方式
以下结合具体实例以及附图对本发明作进一步详细说明。
如图1和2所示,本发明一种多特征融合的古今汉语翻译方法包括以下步骤:
1)使用Python的Requests工具和BeautifulSoup工具从互联网上文言文阅读网站如古诗文、易文言等,采集文言文及其现代文译文数据;采集输入法词库、汉语词典等词表数据,经筛选过滤获得历史人物、地名、朝代等专有词语建立文言文词表;采集人民日报语料、维基百科中文语料等现代汉语单语语料数据;
2)对数据进行清洗加工,具体包括基于正则的去噪与译文提取、基于SimHash算法的去重、基于规则的格式化等。其中,基于规则的格式化用于将网络采集原始语料加工为统一的格式,具体包括简繁转换、特殊去除、标点符号转换等步骤。然后使用基于多特征融合的层次句子对齐方法完成古今汉语平行篇章的句子对齐工作,从而构建句子级对齐的古今汉语平行语料库;
3)使用Jieba中文分词工具,对现代文句子进行分词;添加步骤1)中构建文言文词表作为用户词典,对古文句子进行分词。
4)使用古文语料训练LDA模型,得到主题-词分布及词-主题条件概率分布,将词-主题条件概率分布中概率最高的主题作为该词的主题,从而得到词序列对应的词主题序列。
5)使用现代汉语单语语料训练KenLM得到现代汉语四元语言模型;使用GIZA++工具对古今汉语平行语料进行词对齐处理,得到双语对齐概率词典。
6)以基于注意力的循环神经网络翻译模型为基础,在编码器端对词序列及其对应词主题序列信息并行编码,将两个输出向量拼接后作为最终向量输出,其公式如下:
式中,||表示向量拼接;|K|表示输入特征序列的数量;ht表示t时刻的源语言词汇对应神经单元的输出状态;mkt表示第k个特征序列当前时刻对应神经元的输出状态;f表示非线性激活函数。
7)在神经网络翻译模型的解码器端融合语言模型与对齐词典等统计机器翻译特征,用于解决未登录词问题,其实施流程见图2。
8)以上步骤完成整个翻译模型的构建,我们使用步骤3)得到已分词双语平行语料及步骤4)中得到词序列语料完成翻译模型的训练过程。
7)在神经网络模型翻译阶段,将用户输入待翻译文言文根据步骤2)和3)进行清洗与分词处理,利用步骤4)得到其对应词主题序列,最后利用步骤8)中训练得到模型获取现代文译文。
下面以实施例为基础,对上述方法做进一步说明,实施例中省略的步骤均按照上述方法进行实现。
实施例
文言文原文:且游猎旬日不回,中外情何以堪?
现代文译文:而且去游玩打猎十天不回来,朝廷内外人们的心情怎么受得了?
利用开源的中文分词工具Jieba分词进行分词,使用文言文词表初始化用户词典,分词结果如下:
且|游猎|旬日|不回|,|中外|情|何以堪|?
结合LDA主题模型,根据其生成的词-主题条件概率分布,得到文言文原文词序列对应主题序列,如下所示:
且/23|游猎/25|旬日/10|不回/11|,/26|中外/25|情/19|何以堪/39|?/24
以“且/23”为例,其中的数字表示“且”对应的主题。
利用构建的古今汉语平行语料库,训练多特征融合的循环神经网络,得到翻译模型。将上述文言文词序列及主题序列送入模型中,将每个词表示为50000维的one-hot向量,使用训练得到参数矩阵将其映射为1000维特征向量,参与整个翻译过程。
最后将得到翻译结果返回给用户,为“而且游猎十多天不会,朝廷内外的情况只怎能忍受得了?”。

Claims (8)

1.一种多特征融合的古今汉语自动翻译方法,其特征在于包括以下步骤:
1)采集古今汉语平行篇章;从输入法词库和汉语词典采集词表数据,词表数据经筛选过滤获得专有词语建立文言文词表;采集现代汉语单语语料数据;
2)对古今汉语平行篇章进行简繁转换、特殊符号去除、去重处理,使用句子对齐方法对古今汉语平行篇章进行处理,从而构建句子级对齐的古今汉语平行语料库;
3)使用中文分词工具,对古今汉语平行语料库中的现代文句子进行分词,同时使用文言文词表初始化分词工具后对古今汉语平行语料库中的古文句子进行分词;
4)基于主题模型对所有分词后的古文句子组成的古文语料进行建模,生成主题-词分布及词-主题条件概率分布,得到词序列对应的词主题序列;
5)使用现代汉语单语语料数据训练得到现代汉语语言模型;使用词对齐工具对古今汉语平行语料库进行处理,得到对齐词典;
6)以基于注意力的循环神经网络翻译模型为基础,在编码器端进行多序列信息并行编码,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,使用古今汉语平行语料库及词主题序列训练该模型;
7)用户输入待翻译文言文,根据步骤2)进行简繁转换、特殊符号去除处理;根据步骤3)进行分词处理,利用步骤4)得到其对应词主题序列,最后利用步骤6)训练得到的模型获取现代文译文。
2.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述的中文分词工具使用Python的Jieba工具;基于注意力的循环神经网络翻译模型构建使用PyTorch工具。
3.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述的步骤2)中,使用句子对齐方法对古今汉语平行篇章进行处理,具体为:
步骤2-1:利用基于长度特征的句子对齐方法,将段落中句子数量视作段落长度,并通过对数线性模型结合段落对齐模式和共现汉字特征,用动态规划的方法对古今汉语平行篇章进行段落对齐;
步骤2-2:基于步骤2-1中的段落对齐语料,利用基于长特特征的句子对齐方法完成对齐。
4.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述的步骤4)中的主题模型具体设置为:
使用LDA主题模型,设置主题数K=50,超参数α=0.1,β=0.01。
5.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于,所述步骤5)中的训练得到现代汉语语言模型所使用工具为开源语言模型工具KenLM,使用Modified Kneser-ney smoothing平滑方法,训练得到现代汉语四元语言模型;
所述步骤5)词对齐工具使用GIZA++工具。
6.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述神经网络翻译模型为基于注意力的循环神经网络,网络参数设置如下:
7.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述的步骤6)中,在编码器端进行多序列信息并行编码,具体为:
将古文句子的词序列及步骤4)中得到词主题序列共同进行编码,编码器端输出向量的计算公式表示为:
式中,||表示向量拼接;|K|表示输入特征序列的数量;ht表示t时刻的源语言词汇对应神经单元的输出状态;mkt表示第k个特征序列当前时刻对应神经元的输出状态;f表示非线性激活函数。
8.根据权利要求1所述的一种多特征融合的古今汉语自动翻译方法,其特征在于所述的步骤6)中,在解码器端融合统计机器翻译特征中的语言模型与对齐词典,用于解决UNK问题,具体步骤为:
步骤6-1:获取UNK对齐信息:当Decoder端解码产生UNK时,基于注意力机制,获得UNK所对齐的源语言词语;
步骤6-2:生成翻译候选项:根据步骤6-1中得到UNK对齐的源语言词语,遍历步骤5)得到的对齐词典,生成翻译候选项;
步骤6-3:确认目标语言词:若步骤6-2中无翻译候选项,直接将UNK对应的源语言词作为翻译词;若步骤6-2中有多个翻译候选项,综合互译概率和语言模型得分来确定最终的翻译结果。
CN201910033155.8A 2019-01-14 2019-01-14 一种多特征融合的古今汉语自动翻译方法 Active CN109684648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910033155.8A CN109684648B (zh) 2019-01-14 2019-01-14 一种多特征融合的古今汉语自动翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910033155.8A CN109684648B (zh) 2019-01-14 2019-01-14 一种多特征融合的古今汉语自动翻译方法

Publications (2)

Publication Number Publication Date
CN109684648A true CN109684648A (zh) 2019-04-26
CN109684648B CN109684648B (zh) 2020-09-01

Family

ID=66192310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910033155.8A Active CN109684648B (zh) 2019-01-14 2019-01-14 一种多特征融合的古今汉语自动翻译方法

Country Status (1)

Country Link
CN (1) CN109684648B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110187780A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 长文本预测方法、装置、设备和存储介质
CN110263353A (zh) * 2019-06-25 2019-09-20 北京金山数字娱乐科技有限公司 一种机器翻译方法及装置
CN110298045A (zh) * 2019-05-31 2019-10-01 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110427619A (zh) * 2019-07-23 2019-11-08 西南交通大学 一种基于多通道融合与重排序的中文文本自动校对方法
CN110502759A (zh) * 2019-07-15 2019-11-26 昆明理工大学 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN110633354A (zh) * 2019-07-29 2019-12-31 重庆文理学院 一种基于古诗词语科向量化的输入式文言文剖析系统
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111401078A (zh) * 2020-03-17 2020-07-10 江苏省舜禹信息技术有限公司 神经网络文本翻译模型的运行方法、装置、设备、及介质
CN111581964A (zh) * 2020-04-24 2020-08-25 西安交通大学 一种汉语古籍的主题分析方法
CN111581992A (zh) * 2020-06-05 2020-08-25 信阳农林学院 一种汉语语言教学方法及系统
CN111859998A (zh) * 2020-06-18 2020-10-30 北京百度网讯科技有限公司 篇章翻译的方法、装置、电子设备和可读存储介质
CN112257461A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于注意力机制的xml文档翻译及评价方法
WO2021017951A1 (en) * 2019-07-26 2021-02-04 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof
CN112417897A (zh) * 2020-11-30 2021-02-26 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN113033220A (zh) * 2021-04-15 2021-06-25 沈阳雅译网络技术有限公司 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法
CN113723117A (zh) * 2021-07-29 2021-11-30 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置和用于翻译模型训练的装置
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统
CN116992894A (zh) * 2023-09-26 2023-11-03 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN102193915A (zh) * 2011-06-03 2011-09-21 南京大学 一种计算机中译英翻译中基于分词网的词对齐融合方法
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN104268133A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
CN105868187A (zh) * 2016-03-25 2016-08-17 北京语言大学 多译本平行语料库的构建方法
CN106776540A (zh) * 2016-11-23 2017-05-31 清华大学 一种自由化文本生成方法
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107423290A (zh) * 2017-04-19 2017-12-01 厦门大学 一种基于层次结构的神经网络机器翻译模型
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108537246A (zh) * 2018-02-28 2018-09-14 成都优译信息技术股份有限公司 一种平行语料按翻译质量进行分类的方法及系统
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
US20180268296A1 (en) * 2016-06-02 2018-09-20 Tencent Technology (Shenzhen) Company Limited Machine learning-based network model building method and apparatus
CN108829685A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于单语语料库训练的蒙汉互译方法
CN109033094A (zh) * 2018-07-18 2018-12-18 五邑大学 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN102193915A (zh) * 2011-06-03 2011-09-21 南京大学 一种计算机中译英翻译中基于分词网的词对齐融合方法
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN104268133A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
CN105868187A (zh) * 2016-03-25 2016-08-17 北京语言大学 多译本平行语料库的构建方法
US20180268296A1 (en) * 2016-06-02 2018-09-20 Tencent Technology (Shenzhen) Company Limited Machine learning-based network model building method and apparatus
CN106776540A (zh) * 2016-11-23 2017-05-31 清华大学 一种自由化文本生成方法
CN107423290A (zh) * 2017-04-19 2017-12-01 厦门大学 一种基于层次结构的神经网络机器翻译模型
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108537246A (zh) * 2018-02-28 2018-09-14 成都优译信息技术股份有限公司 一种平行语料按翻译质量进行分类的方法及系统
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN108829685A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于单语语料库训练的蒙汉互译方法
CN109033094A (zh) * 2018-07-18 2018-12-18 五邑大学 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHEN, QINFEI: "Incorporating Knowledge Graph Embeddings into Topic Modeling", 《31ST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
QINFEI CHEN: "Mining coherent topics in documents using word embeddings and", 《ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE》 *
全丽丽: "面向含有专业未登录词英汉平行语料句对齐的研究", 《中国优秀硕士学位论文全文数据库》 *
宋继华: "古今汉语平行语料库的语料构建", 《现代教育技术》 *
杜健: "融合统计机器翻译特征的蒙汉神经网络机器翻译技术", 《中国优秀硕士学位论文全文数据库》 *
牛翊童: "基于汉越双语平行语料库的词对齐方法研究", 《中国优秀硕士学位论文全文数据库》 *
王雍凯: "融合多特征的汉缅双语主题模型构建方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298045B (zh) * 2019-05-31 2023-03-24 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质
CN110298045A (zh) * 2019-05-31 2019-10-01 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质
CN110187780A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 长文本预测方法、装置、设备和存储介质
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110362820B (zh) * 2019-06-17 2022-11-01 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110263353B (zh) * 2019-06-25 2023-10-13 北京金山数字娱乐科技有限公司 一种机器翻译方法及装置
CN110263353A (zh) * 2019-06-25 2019-09-20 北京金山数字娱乐科技有限公司 一种机器翻译方法及装置
CN110502759A (zh) * 2019-07-15 2019-11-26 昆明理工大学 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN110502759B (zh) * 2019-07-15 2022-07-19 昆明理工大学 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN110427619A (zh) * 2019-07-23 2019-11-08 西南交通大学 一种基于多通道融合与重排序的中文文本自动校对方法
CN110427619B (zh) * 2019-07-23 2022-06-21 西南交通大学 一种基于多通道融合与重排序的中文文本自动校对方法
US11288452B2 (en) 2019-07-26 2022-03-29 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof
WO2021017951A1 (en) * 2019-07-26 2021-02-04 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof
CN110633354A (zh) * 2019-07-29 2019-12-31 重庆文理学院 一种基于古诗词语科向量化的输入式文言文剖析系统
CN110633354B (zh) * 2019-07-29 2022-12-02 重庆文理学院 一种基于古诗词语科向量化的输入式文言文剖析系统
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111259652B (zh) * 2020-02-10 2023-08-15 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111401078A (zh) * 2020-03-17 2020-07-10 江苏省舜禹信息技术有限公司 神经网络文本翻译模型的运行方法、装置、设备、及介质
CN111581964A (zh) * 2020-04-24 2020-08-25 西安交通大学 一种汉语古籍的主题分析方法
CN111581992A (zh) * 2020-06-05 2020-08-25 信阳农林学院 一种汉语语言教学方法及系统
CN111581992B (zh) * 2020-06-05 2023-04-07 信阳农林学院 一种汉语语言教学方法及系统
CN111859998A (zh) * 2020-06-18 2020-10-30 北京百度网讯科技有限公司 篇章翻译的方法、装置、电子设备和可读存储介质
CN112257461A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于注意力机制的xml文档翻译及评价方法
CN112417897A (zh) * 2020-11-30 2021-02-26 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN113033220A (zh) * 2021-04-15 2021-06-25 沈阳雅译网络技术有限公司 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法
CN113723117A (zh) * 2021-07-29 2021-11-30 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置和用于翻译模型训练的装置
CN113723117B (zh) * 2021-07-29 2024-04-30 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置和用于翻译模型训练的装置
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统
CN116070643B (zh) * 2023-04-03 2023-08-15 武昌理工学院 一种古文到英文的固定风格翻译方法及系统
CN116992894A (zh) * 2023-09-26 2023-11-03 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质
CN116992894B (zh) * 2023-09-26 2024-01-16 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质

Also Published As

Publication number Publication date
CN109684648B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN109684648A (zh) 一种多特征融合的古今汉语自动翻译方法
Zhu et al. CAN-NER: Convolutional attention network for Chinese named entity recognition
Zhang et al. Understanding subtitles by character-level sequence-to-sequence learning
CN109948152B (zh) 一种基于lstm的中文文本语法纠错模型方法
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN111144410B (zh) 一种跨模态的图像语义提取方法、系统、设备及介质
Hamed et al. Deep learning approach for translating arabic holy quran into italian language
CN110750646A (zh) 一种旅店评论文本的属性描述提取方法
CN115062634A (zh) 一种基于多语言平行语料库的医学术语提取方法及系统
CN113469163B (zh) 一种基于智能纸笔的医疗信息记录方法和装置
CN111222329A (zh) 句向量训练方法及模型、句向量预测方法及系统
Seva et al. WBI at CLEF eHealth 2018 Task 1: Language-independent ICD-10 Coding using Multi-lingual Embeddings and Recurrent Neural Networks.
Al-Thanyyan et al. Simplification of Arabic text: A hybrid approach integrating machine translation and transformer-based lexical model
Lo et al. Cool English: A grammatical error correction system based on large learner corpora
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
Yu et al. Rich short text conversation using semantic-key-controlled sequence generation
CN115438220A (zh) 一种噪音鲁棒学习的跨语言跨模态检索方法及装置
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
Qu et al. CoupGAN: Chinese couplet generation via encoder–decoder model and adversarial training under global control
Adriyendi A rapid review of image captioning
Zhang et al. A character-level sequence-to-sequence method for subtitle learning
Zhang et al. PQAC-WN: constructing a wordnet for Pre-Qin ancient Chinese

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant