CN109033094A - 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 - Google Patents
一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 Download PDFInfo
- Publication number
- CN109033094A CN109033094A CN201810789097.7A CN201810789097A CN109033094A CN 109033094 A CN109033094 A CN 109033094A CN 201810789097 A CN201810789097 A CN 201810789097A CN 109033094 A CN109033094 A CN 109033094A
- Authority
- CN
- China
- Prior art keywords
- vernacular
- writing
- writings
- sequence
- classical chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 63
- 238000003062 neural network model Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 71
- 230000015654 memory Effects 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000006403 short-term memory Effects 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 abstract description 3
- 230000008713 feedback mechanism Effects 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 40
- 210000004218 nerve net Anatomy 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统,通过使用一个长短时记忆网络构成的编码器对输入的文言文进行编码;使用由另一个长短时记忆网络构成的解码器对上述编码进行解码,生成对应的白话文翻译;将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比,将误差归一化后传递给编码器;经过多次迭代直到模型收敛;将需要翻译的文言文输入神经网络模型中,将网络的输出作为上述对应的白话文翻译。本发明采用基于序列到序列的人工神经网络模型来训练文言文白话文互译语料,通过翻译误差反馈机制实现训练参数的拟合,达到文言文与白话文互译的效果,满足广大用户和企业对文言文白话文翻译的实际需求。
Description
技术领域
本发明涉及一种自然语言处理技术领域,尤其是一种基于序列到序列神经网络模型的文言文白话文互译方法及系统。
背景技术
文言文是用“文言”这种古代书面语写成的文章。所谓“文言”,是汉语书面语的一种,产生于先秦时期,因此,文言文首先是指古代秦汉时期所写的文章,也包括后代作家模仿秦汉语言而写成的文章。从外延来看,“文言文”指古代诗、词、曲、小说以外的各体文章,主要包括散体文、赋与骈文等。几千年中华文化的核心都蕴含在文言文中,它是中华文化数千年延绵不断的主要原因之一,也是中国古人的信仰、价值观的载体。可以说,文言文就是中华文化基因图谱。
然而,近代以来,人们多以白话文进行书写、表达、著书立说,普通人每天接触的都是白话文,丧失了对文言文的阅读、书写、表达的能力。文言文具有文字简约,内容深刻,表达精准,典雅高贵,节奏铿锵等特点,是我们传承中华文化、提高自身修养不可或缺的要素。利用先进的计算机技术将文言文自动转换成白话文,有助于人们对古典文献的学习和运用;同时,利用计算机技术将白话文转换成相应的文言文,帮助人们将自己的思想用文言文的形式表达出来,同样具有广泛的需求和应用价值。因此,对文言文和白话文进行互译是一项意义深远、价值明显的课题,是自然语言处理、机器翻译等人工智能技术新的应用领域。文言文白话文互译的主要目的是应用自然语言处理技术和机器翻译技术,将数字化的文言文文本输入给计算机,计算机自动输出对应的白话文翻译文本,将数字化的白话文文本输入给计算机,计算机自动输出对应的文言文翻译文本。
随着网络信息技术的不断发展,尤其是大数据、云计算、移动互联网等技术在中国的飞速发展,互联网上积累了大量的白话文和文言文信息,人们的需求不再仅限于对已有的文言文的阅读和理解,越来越多的人希望能够在不同的场合运用和书写属于自己的文言文。同时,由于文言文存在学习门槛,伴随着人工智能、机器学习、自然语言处理技术的不断发展和信息系统应用范围的不断深化,尤其是机器翻译技术的日趋成熟,很多人希望借助计算机辅助进行文言文和白话文之间的互相翻译。也就是说,人们不仅希望看到一篇文言文,能够知道它所表达的意思,也希望将自己用白话文表达的意思能够用文言文的形式表现出来。由此看出,文言文白话文互译系统具有较大的应用需求和行业前景。
发明内容
针对现有技术的不足,本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统,本发明通过使用一个长短时记忆网络(Long Short-Term MemoryNetwork,LSTM网络)构成的编码器对输入的文言文进行编码;然后使用由另一个长短时记忆网络构成的解码器对上述编码进行解码,生成对应的白话文翻译;接下来,将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比,将误差归一化后传递给编码器;经过多次迭代直到模型收敛或迭代次数达到阈值;最后,将需要翻译的文言文输入到上述由两个长短时记忆网络(一个编码器,一个解码器)构成的序列到序列神经网络模型中,将网络的输出作为上述对应的白话文翻译。
本发明的技术方案为:一种基于序列到序列神经网络模型的文言文白话文互译方法,包括以下步骤:
S1)、使用一个长短时记忆网络作为编码器,使用另一个长短时记忆网络作为译码器,通过编码器的输出作为译码器的输入将编码器和译码器拼接成一个序列到序列神经网络模型;
S2)、将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分;
S3)、将训练集的文言文输入到一个序列到序列神经网络模型中,将模型的输出与训练集中该文言文对应的白话文翻译作对比,将模型的翻译误差经过归一化后回传给模型的输入层,进行多次迭代训练,同时,使用验证集验证模型的训练效果,当模型在验证集上达到收敛或迭代次数达到阈值时,停止训练;
S4)、将测试集中的文言文输入到训练完成的序列到序列神经网络模型中,得到测试集中文言文对应的白话文翻译;
S5)、同样的,将训练集的白话文输入到另一个序列到序列神经网络模型中,将模型的输出与训练集中该白话文对应的文言文翻译作对比,将模型的翻译误差经过归一化后回传给模型的输入层,进行多次迭代训练;
同时,使用验证集验证模型的训练效果,当模型在验证集上达到收敛或迭代次数达到阈值时,停止训练;
S6)、将测试集中的白话文输入到训练完成的序列到序列神经网络模型中,得到测试集中白话文对应的文言文翻译。
上述方法中,步骤S1)中,使用一个长短时记忆网络作为编码器,使用另一个长短时记忆网络作为译码器,具体如下:长短时记忆网络(Long Short-Term Memory network,LSTM)是一种改进型的循环神经网络,通过特殊的开关门机制,它避免了普通循环神经网络存在的梯度消失问题,能够高效的学习长距离的依赖关系,在分析过程中,一个长短时记忆网络以句子序列为输入,以句子的分布式表示即句子的编码为输出,被称为编码器;另一个长短时记忆网络以上述句子编码为输入,以新的句子序列为输出,被称为译码器。
上述方法中,步骤S1)中,序列到序列神经网络模型,具体如下:
上述编码器与译码器组合在一起构成序列到序列神经网络模型,即模型的输入是句子序列,输出也是对应的句子序列;序列到序列神经网络模型结合相应的语料,能够捕捉到输入句子序列的句法、语义信息,并生成语义尽可能相同的句子序列。
上述方法中,步骤S2)中,将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分,具体如下:
搜集文言文著作以及对应的白话文译文,分别采用人工方式对文言文和白话文译文进行分句和分词,去除过于短小的、无实际语义的句子,构建文言文白话文互译语料;
然后,将上述语料分为训练集、验证集和测试集三部分,分配的比例为6:2:2或8:1:1;其中,训练集的作用是拟合序列到序列神经网络模型的参数,达到训练模型的目的;
验证集的作用是在通过训练集训练出多个模型后,为了能达到最佳效果的模型;
测试集的作用是通过训练集和验证集训练得到最优模型后,使用测试集进行模型预测。
上述技术方案中,步骤S5)中,将训练集的白话文输入到另一个序列到序列神经网络模型中,具体如下:
将上述人工搜集的文言文白话文互译语料中白话文作为另一个序列到序列神经网络模型的输入,模型对应的输出与语料中的文言文进行对比,计算训练误差。
本发明还提供一种基于序列到序列神经网络模型的文言文白话文互译系统,所述系统包括:
白话文分句分词模块,用于将文言文白话文互译语料中的白话文文档分成句子,再将句子切分成词汇序列;
文言文分句分词模块,用于将文言文白话文互译语料中的文言文文档分成句子,再将句子切分成词汇序列;
文言文到白话文翻译模块,通过训练序列到序列神经网络模型,将文言文翻译成白话文;
白话文到文言文翻译模块,通过训练另一个序列到序列神经网络模型,将白话文翻译成文言文。
本发明的有益效果为:本发明采用基于序列到序列的人工神经网络模型来训练文言文白话文互译语料,通过翻译误差反馈机制实现训练参数的拟合,达到文言文与白话文互译的效果,满足广大用户和企业对文言文白话文翻译的实际需求。
本发明通过使用两个独立的序列到序列神经网络模型分别完成文言文到白话文的翻译和白话文到文言文的翻译,整个系统实现文言文与白话文的互译。
其中,序列到序列神经网络模型是指输入输出都是序列的一类神经网络模型,如上文中将文言文句子(序列)作为输入,将对应的白话文句子(序列)作为输出。此类神经网络模型多由两个循环神经网络构成,一个循环神经网络负责编码,称为编码器;一个循环神经网络负责解码,称为解码器。本发明使用的长短时记忆网络是循环神经网络的一种。
附图说明
图1为本发明的一种基于序列到序列神经网络模型的文言文白话文互译方法的流程示意图;
图2为本发明的一个文言文分句、分词结果示意图;
图3为本发明的一个白话文分句、分词结果示意图;
图4为本发明的一个文言文翻译成白话文的结果示意图;
图5为本发明基于序列到序列神经网络模型的文言文白话文互译系统的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
本发明提供一种基于序列到序列神经网络模型的文言文白话文互译方法及系统,本发明通过使用一个长短时记忆网络(Long Short-Term Memory Network,LSTM网络)构成的编码器对输入的文言文进行编码;然后使用由另一个长短时记忆网络构成的解码器对上述编码进行解码,生成对应的白话文翻译;接下来,将生成的白话文翻译与上述输入的文言文的人工标注的白话文翻译进行对比,将误差归一化后传递给编码器;经过多次迭代直到模型收敛或迭代次数达到阈值;最后,将需要翻译的文言文输入到上述由两个长短时记忆网络(一个编码器,一个解码器)构成的序列到序列神经网络模型中,将网络的输出作为上述对应的白话文翻译。
如图1所示,该文言文白话文互译方法,包括以下步骤:
S1)、使用一个长短时记忆网络作为编码器,使用另一个长短时记忆网络作为译码器,通过编码器的输出作为译码器的输入将编码器和译码器拼接成一个序列到序列神经网络模型;
S2)、将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分;
S3)、将训练集的文言文输入到一个序列到序列神经网络模型中,将模型的输出与训练集中该文言文对应的白话文翻译作对比,将模型的翻译误差经过归一化后回传给模型的输入层,进行多次迭代训练,同时,使用验证集验证模型的训练效果,当模型在验证集上达到收敛或迭代次数达到阈值时,停止训练;
S4)、将测试集中的文言文输入到训练完成的序列到序列神经网络模型中,得到测试集中文言文对应的白话文翻译;
S5)、同样的,将训练集的白话文输入到另一个序列到序列神经网络模型中,将模型的输出与训练集中该白话文对应的文言文翻译作对比,将模型的翻译误差经过归一化后回传给模型的输入层,进行多次迭代训练;
同时,使用验证集验证模型的训练效果,当模型在验证集上达到收敛或迭代次数达到阈值时,停止训练;
S6)、将测试集中的白话文输入到训练完成的序列到序列神经网络模型中,得到测试集中白话文对应的文言文翻译。
上述方法中,步骤S1)中,使用一个长短时记忆网络作为编码器,使用另一个长短时记忆网络作为译码器,具体如下:长短时记忆网络(Long Short-Term Memory network,LSTM)是一种改进型的循环神经网络,通过特殊的开关门机制,它避免了普通循环神经网络存在的梯度消失问题,能够高效的学习长距离的依赖关系,在分析过程中,一个长短时记忆网络以句子序列为输入,以句子的分布式表示即句子的编码为输出,被称为编码器;另一个长短时记忆网络以上述句子编码为输入,以新的句子序列为输出,被称为译码器。
上述方法中,步骤S1)中,序列到序列神经网络模型,具体如下:
上述编码器与译码器组合在一起构成序列到序列神经网络模型,即模型的输入是句子序列,输出也是对应的句子序列;序列到序列神经网络模型结合相应的语料,能够捕捉到输入句子序列的句法、语义信息,并生成语义尽可能相同的句子序列。
上述方法中,步骤S2)中,将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分,具体如下:
搜集诸如《论语》、《道德经》等文言文著作、以及对应的白话文译文,分别采用人工方式对文言文和白话文译文进行分句和分词,去除过于短小的、无实际语义的句子,构建文言文白话文互译语料;
然后,将上述语料分为训练集、验证集和测试集三部分,分配的比例根据语料规模不同而不同,分配的比例为6:2:2或8:1:1;其中,训练集的作用是拟合序列到序列神经网络模型的参数,达到训练模型的目的;
验证集的作用是在通过训练集训练出多个模型后,为了能达到最佳效果的模型;
测试集的作用是通过训练集和验证集训练得到最优模型后,使用测试集进行模型预测。
上述技术方案中,步骤S5)中,将训练集的白话文输入到另一个序列到序列神经网络模型中,具体如下:
之前步骤描述了将文言文翻译成白话文的系统设计方法,而利用白话文生成语义相近或相同的文言文的系统设计方法同样需要使用一个序列到序列神经网络模型,所不同的是,将上述人工搜集的文言文白话文互译语料中白话文作为另一个序列到序列神经网络模型的输入,模型对应的输出与语料中的文言文进行对比,计算训练误差。
如图2所示,对于待分析的句子“故兵贵胜,不贵久。故知兵之将,生民之司命,国家安危之主也。”
具体实施步骤如下:首先,采用基于规则的方法对上述文言文文档进行分句,结果如下:“第一句:故兵贵胜,不贵久。
第二句:故知兵之将,生民之司命,国家安危之主也。”。
然后,将第一句输入到分词软件中进行分词,分词结果如下:“故兵贵胜,不贵久。”。将第二句输入到分词软件中进行分词,分词结果如下:“故知兵之将,生民之司命,国家安危之主也。”。
最后,人工修订后的分词结果,第一句的修订结果为:“故兵贵胜,不贵久。”,第二句的修订结果为:“故知兵之将,生民之司命,国家安危之主也。”,即图2所示的结果。
对于待分析的句子,即图2中文言文文档的白话文翻译,“因此,用兵贵在速战速决,而不宜旷日持久。所以,懂得战争特点的将帅,是民众生死的掌握者,国家安危的主宰。”。具体实施步骤如下:
首先,采用基于规则的方法对上述白话文文档进行分句,结果如下:“第一句:因此,用兵贵在速战速决,而不宜旷日持久。第二句:所以,懂得战争特点的将帅,是民众生死的掌握者,国家安危的主宰。”。然后,将第一句输入到分词软件中进行分词,分词结果如下:“因此,用兵贵在速战速决,而不宜旷日持久。”,将第二句输入到分词软件中进行分词,分词结果如下:“所以,懂得战争特点的将帅,是民众生死的掌握者,国家安危的主宰。”。最后,人工修订后的分词结果,第一句不需要修订,第二句的修订结果为:“所以,懂得战争特点的将帅,是民众生死的掌握者,国家安危的主宰。”,即图3所示的结果。
如图4所示,输入系统的是以句子为单位的经过分词的文言文句子,经过基于序列到序列的文言文到白话文翻译子系统,输出对应的白话文翻译结果。
如图5所示,基于序列到序列神经网络模型的文言文白话文互译系统包括:
白话文分句分词模块,用于将文言文白话文互译语料中的白话文文档分成句子,再将句子切分成词汇序列;
文言文分句分词模块,用于将文言文白话文互译语料中的文言文文档分成句子,再将句子切分成词汇序列;
文言文到白话文翻译模块,通过训练序列到序列神经网络模型,将文言文翻译成白话文;
白话文到文言文翻译模块,通过训练另一个序列到序列神经网络模型,将白话文翻译成文言文。
本发明通过使用两个独立的序列到序列神经网络模型分别完成文言文到白话文的翻译和白话文到文言文的翻译,整个系统实现文言文与白话文的互译。
其中,序列到序列神经网络模型是指输入输出都是序列的一类神经网络模型,如上文中将文言文句子(序列)作为输入,将对应的白话文句子(序列)作为输出。此类神经网络模型多由两个循环神经网络构成,一个循环神经网络负责编码,称为编码器;一个循环神经网络负责解码,称为解码器。本发明使用的长短时记忆网络是循环神经网络的一种。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (6)
1.一种基于序列到序列神经网络模型的文言文白话文互译方法,其特征在于,包括以下步骤:
S1)、使用一个长短时记忆网络作为编码器,使用另一个长短时记忆网络作为译码器,通过编码器的输出作为译码器的输入将编码器和译码器拼接成一个序列到序列神经网络模型;
S2)、将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分;
S3)、将训练集的文言文输入到一个序列到序列神经网络模型中,将模型的输出与训练集中该文言文对应的白话文翻译作对比,将模型的翻译误差经过归一化后回传给模型的输入层,进行多次迭代训练,同时,使用验证集验证模型的训练效果,当模型在验证集上达到收敛或迭代次数达到阈值时,停止训练;
S4)、将测试集中的文言文输入到训练完成的序列到序列神经网络模型中,得到测试集中文言文对应的白话文翻译;
S5)、同样的,将训练集的白话文输入到另一个序列到序列神经网络模型中,将模型的输出与训练集中该白话文对应的文言文翻译作对比,将模型的翻译误差经过归一化后回传给模型的输入层,进行多次迭代训练;
同时,使用验证集验证模型的训练效果,当模型在验证集上达到收敛或迭代次数达到阈值时,停止训练;
S6)、将测试集中的白话文输入到训练完成的序列到序列神经网络模型中,得到测试集中白话文对应的文言文翻译。
2.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法,其特征在于:步骤S1)中,使用一个长短时记忆网络作为编码器,使用另一个长短时记忆网络作为译码器,具体如下:长短时记忆网络(Long Short-Term Memory network,LSTM)为改进型的循环神经网络,通过特殊的开关门机制,能够避免普通循环神经网络存在的梯度消失问题,能够高效的学习长距离的依赖关系,在分析过程中,一个长短时记忆网络以句子序列为输入,以句子的分布式表示即句子的编码为输出,被称为编码器;另一个长短时记忆网络以上述句子编码为输入,以新的句子序列为输出,被称为译码器。
3.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法,其特征在于:步骤S1)中,序列到序列神经网络模型,具体如下:
上述编码器与译码器组合在一起构成序列到序列神经网络模型,即模型的输入是句子序列,输出也是对应的句子序列;序列到序列神经网络模型结合相应的语料,能够捕捉到输入句子序列的句法、语义信息,并生成语义尽可能相同的句子序列。
4.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法,其特征在于:步骤S2)中,将人工搜集的文言文白话文互译语料按照一定比例分为训练集、验证集和测试集三部分,具体如下:
搜集文言文著作以及对应的白话文译文,分别采用人工方式对文言文和白话文译文进行分句和分词,去除过于短小的、无实际语义的句子,构建文言文白话文互译语料;
然后,将上述语料分为训练集、验证集和测试集三部分,分配的比例为6:2:2或8:1:1;其中,训练集的作用是拟合序列到序列神经网络模型的参数,达到训练模型的目的;
验证集的作用是在通过训练集训练出多个模型后,为了能达到最佳效果的模型;
测试集的作用是通过训练集和验证集训练得到最优模型后,使用测试集进行模型预测。
5.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译方法,其特征在于:步骤S5)中,将训练集的白话文输入到另一个序列到序列神经网络模型中,具体如下:
将上述人工搜集的文言文白话文互译语料中白话文作为另一个序列到序列神经网络模型的输入,模型对应的输出与语料中的文言文进行对比,计算训练误差。
6.根据权利要求1所述的一种基于序列到序列神经网络模型的文言文白话文互译系统,其特征在于,包括:
白话文分句分词模块,用于将文言文白话文互译语料中的白话文文档分成句子,再将句子切分成词汇序列;
文言文分句分词模块,用于将文言文白话文互译语料中的文言文文档分成句子,再将句子切分成词汇序列;
文言文到白话文翻译模块,通过训练序列到序列神经网络模型,将文言文翻译成白话文;
白话文到文言文翻译模块,通过训练另一个序列到序列神经网络模型,将白话文翻译成文言文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810789097.7A CN109033094A (zh) | 2018-07-18 | 2018-07-18 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810789097.7A CN109033094A (zh) | 2018-07-18 | 2018-07-18 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109033094A true CN109033094A (zh) | 2018-12-18 |
Family
ID=64643774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810789097.7A Pending CN109033094A (zh) | 2018-07-18 | 2018-07-18 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033094A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN109783825A (zh) * | 2019-01-07 | 2019-05-21 | 四川大学 | 一种基于神经网络的古文翻译方法 |
CN111581992A (zh) * | 2020-06-05 | 2020-08-25 | 信阳农林学院 | 一种汉语语言教学方法及系统 |
CN112767918A (zh) * | 2020-12-30 | 2021-05-07 | 中国人民解放军战略支援部队信息工程大学 | 俄汉语音翻译方法、俄汉语音翻译装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN107239449A (zh) * | 2017-06-08 | 2017-10-10 | 锦州医科大学 | 一种英语识别方法和翻译方法 |
DE202017105835U1 (de) * | 2016-09-26 | 2018-01-02 | Google Inc. | Neuronale Maschinenübersetzungssysteme |
CN107832310A (zh) * | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及系统 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
KR20180064808A (ko) * | 2016-12-06 | 2018-06-15 | 한국전자통신연구원 | 입력 텍스트를 자동으로 확장하는 시스템 및 방법 |
CN108256257A (zh) * | 2018-01-31 | 2018-07-06 | 南京航空航天大学 | 一种基于编码-解码神经网络模型的功率放大器行为建模方法 |
-
2018
- 2018-07-18 CN CN201810789097.7A patent/CN109033094A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
DE202017105835U1 (de) * | 2016-09-26 | 2018-01-02 | Google Inc. | Neuronale Maschinenübersetzungssysteme |
KR20180064808A (ko) * | 2016-12-06 | 2018-06-15 | 한국전자통신연구원 | 입력 텍스트를 자동으로 확장하는 시스템 및 방법 |
CN107239449A (zh) * | 2017-06-08 | 2017-10-10 | 锦州医科大学 | 一种英语识别方法和翻译方法 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN107832310A (zh) * | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及系统 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108256257A (zh) * | 2018-01-31 | 2018-07-06 | 南京航空航天大学 | 一种基于编码-解码神经网络模型的功率放大器行为建模方法 |
Non-Patent Citations (4)
Title |
---|
ILYA SUTSKEVER 等: "Sequence to Sequence Learning with Neural Networks", 《ARXIV》 * |
机器之心: "如何为神经机器翻译配置编码器-解码器模型?", 《机器之心》 * |
李梦洁 等: "基于PyTorch的机器翻译算法的实现", 《计算机技术与发展》 * |
申志鹏: "基于注意力神经网络的蒙汉机器翻译系统的研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783825A (zh) * | 2019-01-07 | 2019-05-21 | 四川大学 | 一种基于神经网络的古文翻译方法 |
CN109783825B (zh) * | 2019-01-07 | 2020-04-28 | 四川大学 | 一种基于神经网络的古文翻译方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN111581992A (zh) * | 2020-06-05 | 2020-08-25 | 信阳农林学院 | 一种汉语语言教学方法及系统 |
CN111581992B (zh) * | 2020-06-05 | 2023-04-07 | 信阳农林学院 | 一种汉语语言教学方法及系统 |
CN112767918A (zh) * | 2020-12-30 | 2021-05-07 | 中国人民解放军战略支援部队信息工程大学 | 俄汉语音翻译方法、俄汉语音翻译装置及存储介质 |
CN112767918B (zh) * | 2020-12-30 | 2023-12-01 | 中国人民解放军战略支援部队信息工程大学 | 俄汉语音翻译方法、俄汉语音翻译装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdullah et al. | SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning | |
Muhammad et al. | Naijasenti: A nigerian twitter sentiment corpus for multilingual sentiment analysis | |
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN109033094A (zh) | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 | |
CN107832400A (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN103970666B (zh) | 一种软件重复缺陷报告检测的方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN110083710A (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN109299865A (zh) | 基于语义分析的心理测评系统及方法、信息数据处理终端 | |
CN101799849A (zh) | 采用计算机实现的非障碍性自动心理咨询方法 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN106909572A (zh) | 一种问答知识库的构建方法和装置 | |
CN109993227A (zh) | 自动添加国际疾病分类编码的方法、系统、装置和介质 | |
CN112883286A (zh) | 基于bert的新冠肺炎疫情微博情感分析方法、设备、介质 | |
CN106528731A (zh) | 一种敏感词过滤方法及系统 | |
Sang et al. | Qualitative data analysis approaches | |
Qi et al. | DuReadervis: A Chinese dataset for open-domain document visual question answering | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
Zhu et al. | Statistical learning for semantic parsing: A survey | |
Zhao | Research and design of automatic scoring algorithm for English composition based on machine learning | |
Patel et al. | Approaches of anonymisation of an SMS corpus | |
CN117252255B (zh) | 一种面向辅助决策的灾害应急知识图谱构建方法 | |
CN103019924B (zh) | 输入法智能性评测系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181218 |