CN101882158A - 基于上下文的译文自动调序方法 - Google Patents
基于上下文的译文自动调序方法 Download PDFInfo
- Publication number
- CN101882158A CN101882158A CN 201010210245 CN201010210245A CN101882158A CN 101882158 A CN101882158 A CN 101882158A CN 201010210245 CN201010210245 CN 201010210245 CN 201010210245 A CN201010210245 A CN 201010210245A CN 101882158 A CN101882158 A CN 101882158A
- Authority
- CN
- China
- Prior art keywords
- sentence
- translation
- polysemant
- adjusting method
- mathematical model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于上下文的译文自动调序方法,包括以下步骤:获取由包含多义词的第一预设语种句子组成的训练语料库,在该语料库的每个句子中标注了其中多义词的第二预设语种译文;提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;将向量表示形式的句子所形成的文件,训练一个用于分类的数学模型,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。本发明实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。
Description
技术领域
本发明涉及模式识别和自然语言处理技术领域,特别涉及一种基于上下文的译文自动调序方法。
背景技术
现有的在线电子词典,如金山词霸,采用的技术是存储已有的纸版词典,如“简明英汉词典”、“现代英汉综合大词典”等。该方法存在的问题是,当实现“即指即译”功能时,只是简单的按照词典罗列出的英语单词所对应汉语翻译词顺序,而无法根据当前英语单词所在的上下文,动态的调整翻译词的顺序。下面以英语名词bank为例,进行说明:
Welcome to Bank of America.
This walk follows the Thames west from B arnes bridge,keeping tothe north bank of the Thames.
很显然,在一句话中,bank应指“银行”,而第二句话则为“河岸”。但现有的技术没有实现自动的调整翻译词顺序。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何实现对多义词译文的顺序、即时自动调整。
(二)技术方案
为了达到上述目的,本发明提供了一种基于上下文的译文自动调序方法,包括以下步骤:
S1,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标注了其中多义词的第二预设语种译文;
S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;
S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;
S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。
其中,所述用于分类的数学模型为带概率输出的数学模型。
其中,所述带概率输出的数学模型为支持向量机。
其中,利用核函数进行步骤S3的训练过程,所述核函数为支持向量机中的线性核。
其中,所述相邻词为与多义词紧挨的前后各三个词。
其中,所述第一预设语种为英文,第二预设语种为中文。
(三)有益效果
本发明的技术方案通过将动态调序问题视作分类问题,利用多义词出现的上下文的单词为特征对数学模型进行训练,实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。
附图说明
图1是本发明实施例的方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的主要思想是将动态调序问题视作分类问题,利用多义词出现的上下文的单词为特征,来实现对翻译词顺序的自动调整。本发明实施例的方法的步骤如图1所示:
S1、获得训练语料库。搜集大量的多义词出现的句子。对多义词在句子中的每一次出现,由人工标注好正确的翻译词。经过人工标注的这些句子构成训练语料库。可以将针对现代英语,主要选择新闻文章(比如1999-2009,共计10年的纽约时报;或者英国国家语料库、英文网站的文章等),对文章中的每一个多义词标注正确的中文翻译。这里涉及的一个问题是词典的选择,第一可以选择任何一部已有的英汉词典;第二可以选择多部英汉词典,综合其中的翻译词。
S2、特征提取。根据这些训练语料库,提取每个多义词每次出现的相邻词作为特征。之所以这么做,其语言学原理是“观其伴,知其意”(You shall know a word by the company it keeps)(参见文献[Firth,1957])。其实除了多义词出现的周围的词外,还可以提取许多特征,比如周围词的词性;若多义词是动词,则往往需要判断在当前句子中是否有宾语和主语,如果有是哪个词等等。但本发明主要适用于在线词典,它能够获得的上下文很短,且需要很快的响应时间(秒级),而得到动词的主语和宾语,需要获得比较长的上下文,且需要花费额外时间对上下文进行句法分析,因此这里仅选择相邻词作为特征。这也是我们的一个特色。然后对同一多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式:
以bank为例,bank出现的一句话,对应下面的一行:
1 6:1 42:1 52:1 59:1 63:1 67:1
1 6:1 24:1 30:1 42:1 43:1 59:1
2 129:1 146:1 148:1 161:1 202:1 205:1
…
其中,每一行行首的数字表示类别号码(比如“1”对应“河岸”,“2”对应“银行”)。“x:1”表示第x个特征在当前句子中出现。这些向量表示,构成多义名词bank的训练文件。可将该文件命名为bank_n_train.txt。
S3、训练模型。针对每个多义词,利用这些特征,训练一个用于分类的数学模型。准确的说,是训练这些模型的参数,我们可以对所有的多义词都使用相同的数学模型,比如支持向量机(Support VectorMachines,SVM)。但不同的多义词,所用特征不同,训练出的参数各不相同。目前可以用于分类的数学模型非常多,比如贝叶斯、决策表、最大熵、支持向量机。在此需要一个带概率输出的数学模型,上述几个模型都带概率输出,但实验表明支持向量机效果最好,所以选择使用它。
SVM的数学原理可以参考文献[Vapnik,1995]。目前已经有许多开源软件实现了SVM。在此采用一种实现版本:lib-svm(参见文献[Chang and Lin 2001])。
训练时,只需输入步骤S2中的文件bank_n_train.txt,然后调用lib-svm的命令:
svmtrain-t0-b1 bank_n_train.txt bank_n.model
其中“-t0”表示使用的是SVM中的线性核,“-b1”表示预测时需要概率信息。bank_n.model是执行该命令后,为名词bank得到的模型文件。使用什么样的核函数,将对预测结果产生很大影响。可以选择的核函数很多,比如高斯核、多项式核,实验表明线性核效果最好。关于核函数可以参考文献[Jin et al.,2008]。
S4、完成调序。利用此分类模型,对多义词在一个句子中的出现,预测各个翻译词可能为正确翻译的概率,并按照概率从大到小顺序排列。
仍以bank为例,有了模型文件bank_n.model以后,我们就可以对bank的任意一次出现,进行翻译词预测了。当鼠标指向bank时,获取bank出现前后各三个词,并用向量表示,不妨表示为:
1 8:1 12:1 13:1 46:1 53:1 69:1
存入bank_test.txt
然后调用lib-svm的命令:
svm-predict.exe-b1 bank_test.txt bank_n.model bank_n.out
则bank_n.out中就会存放bank的翻译词1和2对应的概率,如:
1 0.3
2 0.7
我们将根据这个结果进行显示“1.银行 2河岸”而不是词典中默认的顺序“1.河岸2银行”。因为判定为类别1的概率(0.3)(译成“河岸”的概率)小于判定为2的概率(0.7)(译成“银行”的概率)。如果两个概率相等,都是0.5,可以仍然保持词典顺序不变。
以上提到的参考文献如下:
[Firth,1957]John R.Firth,A synopsis of linguistic theory 1930-55.In Studies in Linguistic Analysis(Special Volume of the PhilologicalSociety),Oxford.The Philological Society.1957,pp.1-32.
[Vapnik,1995]Vladimir N.Vapnik.The Nature of StatisticalLearning Theory.Springer-Verlag,New York,1995.
[Chang and Lin 2001]Chih-Chung Chang and Chih-Jen Lin,LIBSVM:a library for support vector machines.
[Jin et al.,2008]Peng Jin,Fuxin Li,Danqing Zhu,Yufang Wu andShiwen Yu.Exploiting External Knowledge Sources to ImproveKernel-based Word Sense Disambiguation,Proceedings of IEEEInternational Conference on Natural Language Processing andKnowledge Engineering(IEEE NLP-KE).2008.pp.222-227.
本发明实施例通过将动态调序问题视作分类问题,利用多义词出现的上下文的单词作为特征对数学模型进行训练,实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于上下文的译文自动调序方法,其特征在于,包括以下步骤:
S1,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标注了其中多义词的第二预设语种译文;
S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;
S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;
S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。
2.如权利要求1所述的基于上下文的译文自动调序方法,其特征在于,所述用于分类的数学模型为带概率输出的数学模型。
3.如权利要求2所述的基于上下文的译文自动调序方法,其特征在于,所述带概率输出的数学模型为支持向量机。
4.如权利要求3所述的基于上下文的译文自动调序方法,其特征在于,利用核函数进行步骤S3的训练过程,所述核函数为支持向量机中的线性核。
5.如权利要求1所述的基于上下文的译文自动调序方法,其特征在于,所述相邻词为与多义词紧挨的前后各三个词。
6.如权利要求1~5任一项所述的基于上下文的译文自动调序方法,其特征在于,所述第一预设语种为英文,第二预设语种为中文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010210245 CN101882158A (zh) | 2010-06-22 | 2010-06-22 | 基于上下文的译文自动调序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010210245 CN101882158A (zh) | 2010-06-22 | 2010-06-22 | 基于上下文的译文自动调序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101882158A true CN101882158A (zh) | 2010-11-10 |
Family
ID=43054172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010210245 Pending CN101882158A (zh) | 2010-06-22 | 2010-06-22 | 基于上下文的译文自动调序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101882158A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677642A (zh) * | 2015-12-31 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种机器翻译语序调整方法 |
CN105955956A (zh) * | 2016-05-05 | 2016-09-21 | 中国科学院自动化研究所 | 一种汉语隐式篇章关系识别方法 |
CN107408112A (zh) * | 2015-05-18 | 2017-11-28 | 谷歌公司 | 用于翻译的协调用户词选择和所选词的上下文信息的获得 |
CN108920467A (zh) * | 2018-08-01 | 2018-11-30 | 北京三快在线科技有限公司 | 多义词词义学习方法及装置、搜索结果显示方法 |
CN111090753A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 分类模型的训练方法、分类方法、装置、计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334768A (zh) * | 2008-08-05 | 2008-12-31 | 北京学之途网络科技有限公司 | 一种利用计算机对词义进行排歧的方法、系统及检索方法 |
CN101390091A (zh) * | 2006-02-27 | 2009-03-18 | 日本电气株式会社 | 语言处理设备、语言处理方法、以及语言处理程序 |
-
2010
- 2010-06-22 CN CN 201010210245 patent/CN101882158A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101390091A (zh) * | 2006-02-27 | 2009-03-18 | 日本电气株式会社 | 语言处理设备、语言处理方法、以及语言处理程序 |
CN101334768A (zh) * | 2008-08-05 | 2008-12-31 | 北京学之途网络科技有限公司 | 一种利用计算机对词义进行排歧的方法、系统及检索方法 |
Non-Patent Citations (3)
Title |
---|
《术语标准化与信息技术》 20040331 冯志伟 词义排歧方法研究 第31-37页 1-6 , 第1期 2 * |
《计算机应用》 20060630 谈文蓉等 一种基于贝叶斯分类与机读词典的多义词排歧方法 第1389-1391,1395页 1-6 第26卷, 第6期 2 * |
《计算机时代》 20090731 王达等 贝叶斯模型在词义消歧中的应用 第63-64页 1-6 , 第7期 2 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107408112A (zh) * | 2015-05-18 | 2017-11-28 | 谷歌公司 | 用于翻译的协调用户词选择和所选词的上下文信息的获得 |
CN107408112B (zh) * | 2015-05-18 | 2020-11-27 | 谷歌有限责任公司 | 用于翻译的协调用户词选择和所选词的上下文信息的获得 |
CN105677642A (zh) * | 2015-12-31 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种机器翻译语序调整方法 |
CN105955956A (zh) * | 2016-05-05 | 2016-09-21 | 中国科学院自动化研究所 | 一种汉语隐式篇章关系识别方法 |
CN105955956B (zh) * | 2016-05-05 | 2019-01-22 | 中国科学院自动化研究所 | 一种汉语隐式篇章关系识别方法 |
CN108920467A (zh) * | 2018-08-01 | 2018-11-30 | 北京三快在线科技有限公司 | 多义词词义学习方法及装置、搜索结果显示方法 |
CN108920467B (zh) * | 2018-08-01 | 2021-04-27 | 北京三快在线科技有限公司 | 多义词词义学习方法及装置、搜索结果显示方法 |
CN111090753A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 分类模型的训练方法、分类方法、装置、计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baldwin et al. | Translation by machine of complex nominals: Getting it right | |
US20130041647A1 (en) | Method for disambiguating multiple readings in language conversion | |
CN102662937A (zh) | 自动翻译系统及其自动翻译方法 | |
CN101882158A (zh) | 基于上下文的译文自动调序方法 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
Huang et al. | Words without boundaries: Computational approaches to Chinese word segmentation | |
WO2014189400A1 (en) | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets | |
CN113918031A (zh) | 使用子字符信息进行中文标点恢复的系统和方法 | |
Rosner et al. | A tagging algorithm for mixed language identification in a noisy domain. | |
Nongmeikapam et al. | A transliteration of CRF based Manipuri POS tagging | |
Saloot et al. | Noisy text normalization using an enhanced language model | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
Phadte et al. | Towards normalising Konkani-English code-mixed social media text | |
Lu et al. | An automatic spelling correction method for classical mongolian | |
Saha et al. | Word clustering and word selection based feature reduction for MaxEnt based Hindi NER | |
JP5454763B2 (ja) | 文の対中の単語対応付装置及びそのコンピュータプログラム | |
Saito et al. | Multi-language named-entity recognition system based on HMM | |
Lee et al. | Automatic construction of real‐world‐based typing‐error test dataset | |
Lu et al. | Language model for Mongolian polyphone proofreading | |
Altenbek et al. | Identification of basic phrases for kazakh language using maximum entropy model | |
Zhu et al. | Single character Chinese named entity recognition | |
Zhang et al. | Normalization of homophonic words in chinese microblogs | |
Petasis et al. | Using machine learning techniques for part-of-speech tagging in the Greek language | |
Kumbhar et al. | Language Identification and Transliteration approaches for Code-Mixed Text. | |
Yusuf et al. | HindiWSD: A package for word sense disambiguation in Hinglish & Hindi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20101110 |