CN111178060A - 一种基于语言模型的韩语分词还原方法 - Google Patents

一种基于语言模型的韩语分词还原方法 Download PDF

Info

Publication number
CN111178060A
CN111178060A CN201911323649.6A CN201911323649A CN111178060A CN 111178060 A CN111178060 A CN 111178060A CN 201911323649 A CN201911323649 A CN 201911323649A CN 111178060 A CN111178060 A CN 111178060A
Authority
CN
China
Prior art keywords
korean
data
word segmentation
training
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911323649.6A
Other languages
English (en)
Inventor
杜权
徐萍
朱靖波
肖桐
张春良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yaze Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN201911323649.6A priority Critical patent/CN111178060A/zh
Publication of CN111178060A publication Critical patent/CN111178060A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种基于语言模型的韩语分词还原方法,包括以下步骤:1)语言模型训练:使用Unigram的方法对韩语单语数据进行语言模型训练,得到一个韩语的语言模型用于后续分词还原操作;2)双语数据分词:训练一个翻译系统,使用分词工具对双语训练数据进行分词;3)翻译模型训练:使用步骤1)生成的语言模型对数据进行分词处理后,将分词后的数据输入到神经网络模型中开始训练模型至模型收敛;4)译文分词还原:使用步骤3)训练得到的翻译系统对测试语句进行翻译,将得到的韩语译文合并为标准韩语的书写方式。本发明能够缓解韩语数据中单词含义颗粒度较大、数据稀疏等问题,有效提高了目标语为韩语的机器翻译的译文质量。

Description

一种基于语言模型的韩语分词还原方法
技术领域
本发明涉及一种语言处理中的分词还原技术,具体为一种基于语言模型的韩语分词还原方法。
背景技术
“词”是语言中能够独立运用的最小语言单位,机器翻译的训练过程中通常都是将词作为基本单位进行训练的,任何语言在进行机器翻译的训练前都需要对数据进行分词处理,将完整的句子分为多个连续词语的组合,然后再对其进行机器翻译的训练。
常见的分词方式有两种:一种是类似英文的屈折语,句子中的单词之间以空格分隔,这类数据在分词时可以使用基于标点的分词方式,只需要将句子中的标点符号与单词分开即可;另一种分词方式适用于数据中不包含空格的语言,例如中文、日语等语言,对于这种类型语言,需要借助词典和语言模型在句子中找到合适的词语边界,实现句子的切分。
韩语的分词方式比较特殊,完整的韩语句子中存在着以空格为标记的词的边界信息,符合基于标点的分词规则;但同时,韩语数据中每两个空格之间的内容不是一个单词,而是长度较长的一个短语,例如如下的韩语例句:
Figure BDA0002327797190000011
(中译文:在会议室举行员工会议。)
在上述例句中只有两个空格,如果仅使用基于标点的分词方法对其进行分词所得到的结果为:
Figure BDA0002327797190000012
这种分词方法达到了把标点与单词分开的目的,但是分词结果中每个词的颗粒度过大、表达的信息较多,会造成数据稀疏的现象。
韩语中两个空格之间的长短语有多种组合的可能,具体如下:
1)复合名词由多个名词组合而成;
2)韩语用特殊的标识符来标识主语和宾语,标识符用来构成主语和宾语的成分,或者构成句子成分;
3)带有汉字词干的谓语是由汉字词干和表示谓语的词尾组成的。
除了上述提到的组合方式外,韩语还有许多其他短语组合的方式。因此,为了对韩语数据进行更详细的处理,对韩语数据中词的边界重新界定是很有必要的。通常可以采用二次分词操作的方法对韩语数据进行二次切分:首先使用基于标点的分词方式对韩语数据进行切分,将韩语数据中的标点符号与单词分开;然后使用高质量的词典或语言模型对初次分词的结果进行二次分词,将韩语数据中的长短语切分为颗粒度更小的单词;最后得到的分词结果中词语边界清晰,含义粒度也更小。使用这种二次分词的方法对上述例句进行分词,结果如下:
Figure BDA0002327797190000021
二次分词使得韩语数据中词语的含义粒度更小,每个单词都能独立出来,有利于减缓数据稀疏的情况,能够有效的提升机器翻译的质量。但是机器翻译的译文语训练数据紧密相关,使用上述二次分词后的数据进行训练得到的机器翻译系统译出的韩语译文中词语的含义粒度也比较小,译文是由多个连续词语组成的,这种书写方式与标准的韩语书写方式不同,严重影响了韩语译文的阅读。因此,如何将翻译后的韩语单词合并为原有粒度大小的韩语短语也是一项十分重要的内容。
传统的分词还原方式有两种,一种是针对基于标点的分词方法进行还原的方式,这种方式只去掉单词与标点之间的空格,其余空格保留;另一种是针对基于词典的分词方法进行还原的方式,该方式通过将句子中所有的空格全部去掉来还原成完整的句子。第一种分词还原的方式无法将二次分词的内容还原回去,句子的颗粒度依然很小,还原后的译文不是一个可读的连贯语句;若是按照第二种方式进行还原,需要将句子中的空格全部去掉,还原后的译文与标准的韩语数据不符,严重的影响了韩语语句的可读性。由于韩语所特有的特点,以上两种分词还原方式都无法完成韩语译文还原的目的,使用任一种方式进行分词还原都无法得到令人满意的顺畅可读的韩语语句。
目前能够满足上述要求的韩语分词还原方法尚未见报。
发明内容
针对现有分词还原方式无法针对翻译后的韩语这种颗粒度较大的语言进行还原等不足,本发明要解决的问题是提供一种基于语言模型的分词还原方法,该方法能够对韩语这种颗粒度较大的语言进行分词后的再还原处理。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于语言模型的韩语分词还原方法,包括以下步骤:
1)语言模型训练:使用Unigram的方法对韩语单语数据进行语言模型训练,得到一个韩语的语言模型用于后续分词还原操作;
2)双语数据分词:训练一个翻译系统,使用分词工具对双语训练数据进行分词;
3)翻译模型训练:使用步骤1)生成的语言模型对数据进行分词处理后,将分词后的数据输入到神经网络模型中开始训练模型至模型收敛;
4)译文分词还原:使用步骤3)训练得到的翻译系统对测试语句进行翻译,将得到的韩语译文合并为标准韩语的书写方式。
2.根据权利要求1所述的基于语言模型的韩语分词还原方法,其特征在于步骤1)语言模型训练为:
101)输入韩语数据,使用基于标点的分词方式对韩语数据进行分词;
102)遍历分词后数据中的每个单词并放入韩语词典,记录单词在韩语词典中出现的频率;
103)根据韩语单词在韩语词典中出现的数量,计算每个单词在韩语词典中出现的概率,即为生成的语言模型;
104)对语言模型中的概率值做平滑处理。
步骤2)中,使用分词工具对双语训练数据进行分词,具体分词步骤如下:
201)对于源语言,根据不同的语言选择不同的分词方法:若是原始数据中的句子有空格,使用基于标点的分词方式对数据进行分词;若是类似中文这种句子中没有空格的数据,使用基于词典或是语言模型的分词方式对其进行分词;
202)对于目标语韩语数据,首先使用基于标点的分词方式,将韩语数据中的标点符号与韩语字符之间用空格分开;
203)使用标准的韩语词典对步骤202)中韩语数据的分词结果进行二次分词,将韩语数据中的短语分为更细颗粒度的词。
步骤4)中,将得到的韩语译文合并为标准韩语的书写方式,步骤如下:
401)使用机器翻译系统对源语言进行翻译,得到的韩语译文结构与二次分词后的韩语训练数据类型相同;
402)使用步骤1)训练得到的韩语语言模型对韩语译文进行合并,将401)中翻译系统输出的韩语译文中的多个单词合并为短语的格式;
403)将步骤402)中合并的韩语译文中的标点符号与韩语单词之间的空格去掉,形成为标准韩语的格式;
404)将步骤403)中还原后的标准格式的韩语译文返回并输出。
步骤402)中,分词合并的过程如下:
40201)翻译系统输出单词序列;
40202)使用语言模型计算该单词序列所有可能出现的合并方式的概率;
40203)步骤40202)中打分最高的合并路径作为最优的分词还原路径;
40204)将还原后的译文返回步骤403)并输出。
本发明具有以下有益效果及优点:
1.本发明提出的基于语言模型的韩语分词还原方法允许在目标语是韩语的机器翻译训练前对韩语数据进行二次分词,能够缓解韩语数据中单词含义颗粒度较大、数据稀疏等问题,有效提高了目标语为韩语的机器翻译的译文质量。
2.本发明方法能够根据韩语语言模型对韩语译文中的单词序列进行还原,还原后的译文语句通顺流畅,能够符合标准韩语的阅读和书写规则,有效提升了韩语译文的质量。
3.本发明提出的基于语言模型的韩语分词还原方法概念通俗易懂、操作简单,具有速度快、准确率高、还原后译文语句流畅等优点,进一步提高韩语机器翻译系统的质量。
附图说明
图1为本发明方法涉及的基于语言模型的韩语分词还原方法整体流程图;
图2为本发明方法涉及的对韩语译文进行分词还原的步骤图示;
图3为本发明方法涉及的分词还原的具体过程例句图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明通过使用韩语数据训练得到的语言模型为机器翻译系统输出的译文进行分词还原处理,图1为总体流程图,具体步骤如下:
1)语言模型训练:使用Unigram的方法对韩语单语数据进行语言模型训练,得到一个韩语的语言模型用于后续分词还原操作;
2)双语数据分词:训练一个翻译系统,使用分词工具对双语训练数据进行分词;
3)翻译模型训练:使用步骤1)生成的语言模型对数据进行分词处理后,将分词后的数据输入到神经网络模型中开始训练模型至模型收敛;
4)译文分词还原:使用步骤3)训练得到的翻译系统对测试语句进行翻译,将得到的韩语译文合并为标准韩语的书写方式。
步骤1)中,语言模型训练为:
101)输入韩语数据,使用基于标点的分词方式对韩语数据进行分词;
102)遍历分词后数据中的每个单词并放入韩语词典,记录单词在韩语词典中出现的频率;
103)根据韩语单词在韩语词典中出现的数量,计算每个单词在韩语词典中出现的概率,即为生成的语言模型;
104)对语言模型中的概率值做平滑处理。
语言模型是从单语数据中抽象出来的数学模型,它描述了一个单词序列上的概率分布,能够提供单词序列的概率化表示,也可以根据计算一句话的概率来判断这句话在语法上是否通顺。对于序列w1,w2,......,wn,语言模型就是计算该序列的概率,即P(w1,w2,......,wn),其概率的计算公式可以表示为:
argmaxP(w1,w2,.......wn)=P(w1)P(w2|w1)P(w3|w1,w2)...
使用Unigram的方法,只需要考虑当前词的出现频率即可计算得到当前训练数据的语言模型。使用韩语的单语数据进行训练可以得到一个韩语语言模型,该模型不仅能够描述韩语数据中单词在语句中的分布,也能够用于计算韩语数据中不同字符组合得到的句子概率来选择更加通顺、流畅的韩语语句。
步骤104)中,当使用测试数据进行测试时,由于数据稀疏的存在,若是测试数据中出现语言模型中不出在的单词,会导致整句话的概率值计算为0,为了避免这种情况的出现,需要对语言模型进行平滑处理,把训练样本中出现的单词的概率适当减小,然后将减小得到的概率密度分配给训练语料中没有出现过的单词。
图2为使用韩语语言模型对韩语译文进行分词还原的步骤例句图示,对韩语译文进行分词还原的具体步骤如下:
步骤2)中,使用分词工具对双语训练数据进行分词,具体分词步骤如下:
201)对于源语言,根据不同的语言选择不同的分词方法:若是原始数据中的句子有空格,使用基于标点的分词方式对数据进行分词;若是类似中文这种句子中没有空格的数据,使用基于词典或是语言模型的分词方式对其进行分词;
202)对于目标语韩语数据,首先使用基于标点的分词方式,将韩语数据中的标点符号与韩语字符之间用空格分开;
203)使用标准的韩语词典对步骤202)中韩语数据的分词结果进行二次分词,将韩语数据中的短语分为更细颗粒度的词。
步骤4)中,将得到的韩语译文合并为标准韩语的书写方式,步骤如下:
401)使用机器翻译系统对源语言进行翻译,得到的韩语译文结构与二次分词后的韩语训练数据类型相同;
402)使用步骤1)训练得到的韩语语言模型对韩语译文进行合并,将401)中翻译系统输出的韩语译文中的多个单词合并为短语的格式;
403)将步骤402)中合并的韩语译文中的标点符号与韩语单词之间的空格去掉,形成为标准韩语的格式;
404)将步骤403)中还原后的标准格式的韩语译文返回并输出。
步骤402)中,分词合并的过程如下:
40201)翻译系统输出单词序列:
Figure BDA0002327797190000051
40202)使用语言模型计算该单词序列所有可能出现的合并方式的概率,图3中画出了部分可能出现的还原路径;
40203)步骤40202)中打分最高的合并路径作为最优的分词还原路径,即图中用粗箭头连接的路径,选择该句作为还原后的译文;
Figure BDA0002327797190000052
40204)将还原后的译文返回步骤403)并输出。
本发明提出的基于语言模型的韩语分词还原方法允许在目标语是韩语的机器翻译训练前对韩语数据进行二次分词,能够缓解韩语数据中单词含义颗粒度较大、数据稀疏等问题,有效提高了目标语为韩语的机器翻译的译文质量。本发明方法灵活简单,具有速度快、准确率高、还原后译文语句流畅等优点,可以方便的嵌入到神经机器翻译系统的训练过程中,实现神经机器翻译模型中对韩语译文质量的高要求,进一步提高韩语机器翻译译文的质量。

Claims (5)

1.一种基于语言模型的韩语分词还原方法,其特征在于包括以下步骤:
1)语言模型训练:使用Unigram的方法对韩语单语数据进行语言模型训练,得到一个韩语的语言模型用于后续分词还原操作;
2)双语数据分词:训练一个翻译系统,使用分词工具对双语训练数据进行分词;
3)翻译模型训练:使用步骤1)生成的语言模型对数据进行分词处理后,将分词后的数据输入到神经网络模型中开始训练模型至模型收敛;
4)译文分词还原:使用步骤3)训练得到的翻译系统对测试语句进行翻译,将得到的韩语译文合并为标准韩语的书写方式。
2.根据权利要求1所述的基于语言模型的韩语分词还原方法,其特征在于步骤1)语言模型训练为:
101)输入韩语数据,使用基于标点的分词方式对韩语数据进行分词;
102)遍历分词后数据中的每个单词并放入韩语词典,记录单词在韩语词典中出现的频率;
103)根据韩语单词在韩语词典中出现的数量,计算每个单词在韩语词典中出现的概率,即为生成的语言模型;
104)对语言模型中的概率值做平滑处理。
3.根据权利要求1所述的基于语言模型的韩语分词还原方法,其特征在于步骤2)中,使用分词工具对双语训练数据进行分词,具体分词步骤如下:
201)对于源语言,根据不同的语言选择不同的分词方法:若是原始数据中的句子有空格,使用基于标点的分词方式对数据进行分词;若是类似中文这种句子中没有空格的数据,使用基于词典或是语言模型的分词方式对其进行分词;
202)对于目标语韩语数据,首先使用基于标点的分词方式,将韩语数据中的标点符号与韩语字符之间用空格分开;
203)使用标准的韩语词典对步骤202)中韩语数据的分词结果进行二次分词,将韩语数据中的短语分为更细颗粒度的词。
4.根据权利要求1所述的基于语言模型的韩语分词还原方法,其特征在于步骤4)中,将得到的韩语译文合并为标准韩语的书写方式,步骤如下:
401)使用机器翻译系统对源语言进行翻译,得到的韩语译文结构与二次分词后的韩语训练数据类型相同;
402)使用步骤1)训练得到的韩语语言模型对韩语译文进行合并,将401)中翻译系统输出的韩语译文中的多个单词合并为短语的格式;
403)将步骤402)中合并的韩语译文中的标点符号与韩语单词之间的空格去掉,形成为标准韩语的格式;
404)将步骤403)中还原后的标准格式的韩语译文返回并输出。
5.根据权利要求4所述的基于语言模型的韩语分词还原方法,其特征在于步骤402)中,分词合并的过程如下:
40201)翻译系统输出单词序列;
40202)使用语言模型计算该单词序列所有可能出现的合并方式的概率;
40203)步骤40202)中打分最高的合并路径作为最优的分词还原路径;
40204)将还原后的译文返回步骤403)并输出。
CN201911323649.6A 2019-12-20 2019-12-20 一种基于语言模型的韩语分词还原方法 Withdrawn CN111178060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911323649.6A CN111178060A (zh) 2019-12-20 2019-12-20 一种基于语言模型的韩语分词还原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911323649.6A CN111178060A (zh) 2019-12-20 2019-12-20 一种基于语言模型的韩语分词还原方法

Publications (1)

Publication Number Publication Date
CN111178060A true CN111178060A (zh) 2020-05-19

Family

ID=70657617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911323649.6A Withdrawn CN111178060A (zh) 2019-12-20 2019-12-20 一种基于语言模型的韩语分词还原方法

Country Status (1)

Country Link
CN (1) CN111178060A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016322A (zh) * 2020-08-28 2020-12-01 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法
CN112765977A (zh) * 2021-01-11 2021-05-07 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050036300A (ko) * 2003-10-15 2005-04-20 한국전자통신연구원 외래어 판별 방법
CN102023970A (zh) * 2009-09-14 2011-04-20 株式会社东芝 获得语言模型概率及构建语言模型的方法和装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103020034A (zh) * 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050036300A (ko) * 2003-10-15 2005-04-20 한국전자통신연구원 외래어 판별 방법
CN102023970A (zh) * 2009-09-14 2011-04-20 株式会社东芝 获得语言模型概率及构建语言模型的方法和装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103020034A (zh) * 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐凯旋: "面向韩语的主题爬虫及韩语分词研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016322A (zh) * 2020-08-28 2020-12-01 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法
CN112016322B (zh) * 2020-08-28 2023-06-27 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法
CN112765977A (zh) * 2021-01-11 2021-05-07 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置
CN112765977B (zh) * 2021-01-11 2023-12-12 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置

Similar Documents

Publication Publication Date Title
CN109840331B (zh) 一种基于用户词典的神经机器翻译方法
US20180089169A1 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
Xu et al. Sentence segmentation using IBM word alignment model 1
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法
Tennage et al. Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation
Mrinalini et al. Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems
Sajjad et al. Comparing two techniques for learning transliteration models using a parallel corpus
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
Raj et al. An Artificial Neural Network Approach for Sentence Boundary Disambiguation in Urdu Language Text.
Finch et al. A bayesian model of transliteration and its human evaluation when integrated into a machine translation system
Zhu Optimized Chinese pronunciation prediction by component-based statistical machine translation
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT
Okuno et al. An ensemble model of word-based and character-based models for Japanese and Chinese input method
Paul et al. Word segmentation for dialect translation
Afli et al. From Arabic user-generated content to machine translation: integrating automatic error correction
Dinh Building an annotated English-Vietnamese parallel corpus
JP3820452B2 (ja) 対応付け装置及びプログラム
Jin et al. Automatic Extraction of English-Chinese Transliteration Pairs using Dynamic Window and Tokenizer
Nehrdich SansTib, a Sanskrit-Tibetan parallel corpus and bilingual sentence embedding model
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
Srithirath et al. An approach to Lao-English rule based machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Du Quan

Inventor after: Xu Ping

Inventor before: Du Quan

Inventor before: Xu Ping

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200519