CN101882158A - 基于上下文的译文自动调序方法 - Google Patents

基于上下文的译文自动调序方法 Download PDF

Info

Publication number
CN101882158A
CN101882158A CN 201010210245 CN201010210245A CN101882158A CN 101882158 A CN101882158 A CN 101882158A CN 201010210245 CN201010210245 CN 201010210245 CN 201010210245 A CN201010210245 A CN 201010210245A CN 101882158 A CN101882158 A CN 101882158A
Authority
CN
China
Prior art keywords
sentence
translation
polysemant
adjusting method
mathematical model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010210245
Other languages
English (en)
Inventor
宋刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN YORK INFORMATION TECHNOLOGY Co Ltd
Original Assignee
HUNAN YORK INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN YORK INFORMATION TECHNOLOGY Co Ltd filed Critical HUNAN YORK INFORMATION TECHNOLOGY Co Ltd
Priority to CN 201010210245 priority Critical patent/CN101882158A/zh
Publication of CN101882158A publication Critical patent/CN101882158A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于上下文的译文自动调序方法,包括以下步骤:获取由包含多义词的第一预设语种句子组成的训练语料库,在该语料库的每个句子中标注了其中多义词的第二预设语种译文;提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;将向量表示形式的句子所形成的文件,训练一个用于分类的数学模型,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。本发明实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。

Description

基于上下文的译文自动调序方法
技术领域
本发明涉及模式识别和自然语言处理技术领域,特别涉及一种基于上下文的译文自动调序方法。
背景技术
现有的在线电子词典,如金山词霸,采用的技术是存储已有的纸版词典,如“简明英汉词典”、“现代英汉综合大词典”等。该方法存在的问题是,当实现“即指即译”功能时,只是简单的按照词典罗列出的英语单词所对应汉语翻译词顺序,而无法根据当前英语单词所在的上下文,动态的调整翻译词的顺序。下面以英语名词bank为例,进行说明:
Welcome to Bank of America.
This walk follows the Thames west from B arnes bridge,keeping tothe north bank of the Thames.
很显然,在一句话中,bank应指“银行”,而第二句话则为“河岸”。但现有的技术没有实现自动的调整翻译词顺序。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何实现对多义词译文的顺序、即时自动调整。
(二)技术方案
为了达到上述目的,本发明提供了一种基于上下文的译文自动调序方法,包括以下步骤:
S1,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标注了其中多义词的第二预设语种译文;
S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;
S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;
S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。
其中,所述用于分类的数学模型为带概率输出的数学模型。
其中,所述带概率输出的数学模型为支持向量机。
其中,利用核函数进行步骤S3的训练过程,所述核函数为支持向量机中的线性核。
其中,所述相邻词为与多义词紧挨的前后各三个词。
其中,所述第一预设语种为英文,第二预设语种为中文。
(三)有益效果
本发明的技术方案通过将动态调序问题视作分类问题,利用多义词出现的上下文的单词为特征对数学模型进行训练,实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。
附图说明
图1是本发明实施例的方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的主要思想是将动态调序问题视作分类问题,利用多义词出现的上下文的单词为特征,来实现对翻译词顺序的自动调整。本发明实施例的方法的步骤如图1所示:
S1、获得训练语料库。搜集大量的多义词出现的句子。对多义词在句子中的每一次出现,由人工标注好正确的翻译词。经过人工标注的这些句子构成训练语料库。可以将针对现代英语,主要选择新闻文章(比如1999-2009,共计10年的纽约时报;或者英国国家语料库、英文网站的文章等),对文章中的每一个多义词标注正确的中文翻译。这里涉及的一个问题是词典的选择,第一可以选择任何一部已有的英汉词典;第二可以选择多部英汉词典,综合其中的翻译词。
S2、特征提取。根据这些训练语料库,提取每个多义词每次出现的相邻词作为特征。之所以这么做,其语言学原理是“观其伴,知其意”(You shall know a word by the company it keeps)(参见文献[Firth,1957])。其实除了多义词出现的周围的词外,还可以提取许多特征,比如周围词的词性;若多义词是动词,则往往需要判断在当前句子中是否有宾语和主语,如果有是哪个词等等。但本发明主要适用于在线词典,它能够获得的上下文很短,且需要很快的响应时间(秒级),而得到动词的主语和宾语,需要获得比较长的上下文,且需要花费额外时间对上下文进行句法分析,因此这里仅选择相邻词作为特征。这也是我们的一个特色。然后对同一多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式:
以bank为例,bank出现的一句话,对应下面的一行:
1 6:1 42:1 52:1 59:1 63:1 67:1
1 6:1 24:1 30:1 42:1 43:1 59:1
2 129:1 146:1 148:1 161:1 202:1 205:1
其中,每一行行首的数字表示类别号码(比如“1”对应“河岸”,“2”对应“银行”)。“x:1”表示第x个特征在当前句子中出现。这些向量表示,构成多义名词bank的训练文件。可将该文件命名为bank_n_train.txt。
S3、训练模型。针对每个多义词,利用这些特征,训练一个用于分类的数学模型。准确的说,是训练这些模型的参数,我们可以对所有的多义词都使用相同的数学模型,比如支持向量机(Support VectorMachines,SVM)。但不同的多义词,所用特征不同,训练出的参数各不相同。目前可以用于分类的数学模型非常多,比如贝叶斯、决策表、最大熵、支持向量机。在此需要一个带概率输出的数学模型,上述几个模型都带概率输出,但实验表明支持向量机效果最好,所以选择使用它。
SVM的数学原理可以参考文献[Vapnik,1995]。目前已经有许多开源软件实现了SVM。在此采用一种实现版本:lib-svm(参见文献[Chang and Lin 2001])。
训练时,只需输入步骤S2中的文件bank_n_train.txt,然后调用lib-svm的命令:
svmtrain-t0-b1 bank_n_train.txt bank_n.model
其中“-t0”表示使用的是SVM中的线性核,“-b1”表示预测时需要概率信息。bank_n.model是执行该命令后,为名词bank得到的模型文件。使用什么样的核函数,将对预测结果产生很大影响。可以选择的核函数很多,比如高斯核、多项式核,实验表明线性核效果最好。关于核函数可以参考文献[Jin et al.,2008]。
S4、完成调序。利用此分类模型,对多义词在一个句子中的出现,预测各个翻译词可能为正确翻译的概率,并按照概率从大到小顺序排列。
仍以bank为例,有了模型文件bank_n.model以后,我们就可以对bank的任意一次出现,进行翻译词预测了。当鼠标指向bank时,获取bank出现前后各三个词,并用向量表示,不妨表示为:
1 8:1 12:1 13:1 46:1 53:1 69:1
存入bank_test.txt
然后调用lib-svm的命令:
svm-predict.exe-b1 bank_test.txt bank_n.model bank_n.out
则bank_n.out中就会存放bank的翻译词1和2对应的概率,如:
1 0.3
2 0.7
我们将根据这个结果进行显示“1.银行 2河岸”而不是词典中默认的顺序“1.河岸2银行”。因为判定为类别1的概率(0.3)(译成“河岸”的概率)小于判定为2的概率(0.7)(译成“银行”的概率)。如果两个概率相等,都是0.5,可以仍然保持词典顺序不变。
以上提到的参考文献如下:
[Firth,1957]John R.Firth,A synopsis of linguistic theory 1930-55.In Studies in Linguistic Analysis(Special Volume of the PhilologicalSociety),Oxford.The Philological Society.1957,pp.1-32.
[Vapnik,1995]Vladimir N.Vapnik.The Nature of StatisticalLearning Theory.Springer-Verlag,New York,1995.
[Chang and Lin 2001]Chih-Chung Chang and Chih-Jen Lin,LIBSVM:a library for support vector machines.
[Jin et al.,2008]Peng Jin,Fuxin Li,Danqing Zhu,Yufang Wu andShiwen Yu.Exploiting External Knowledge Sources to ImproveKernel-based Word Sense Disambiguation,Proceedings of IEEEInternational Conference on Natural Language Processing andKnowledge Engineering(IEEE NLP-KE).2008.pp.222-227.
本发明实施例通过将动态调序问题视作分类问题,利用多义词出现的上下文的单词作为特征对数学模型进行训练,实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于上下文的译文自动调序方法,其特征在于,包括以下步骤:
S1,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标注了其中多义词的第二预设语种译文;
S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;
S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;
S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。
2.如权利要求1所述的基于上下文的译文自动调序方法,其特征在于,所述用于分类的数学模型为带概率输出的数学模型。
3.如权利要求2所述的基于上下文的译文自动调序方法,其特征在于,所述带概率输出的数学模型为支持向量机。
4.如权利要求3所述的基于上下文的译文自动调序方法,其特征在于,利用核函数进行步骤S3的训练过程,所述核函数为支持向量机中的线性核。
5.如权利要求1所述的基于上下文的译文自动调序方法,其特征在于,所述相邻词为与多义词紧挨的前后各三个词。
6.如权利要求1~5任一项所述的基于上下文的译文自动调序方法,其特征在于,所述第一预设语种为英文,第二预设语种为中文。
CN 201010210245 2010-06-22 2010-06-22 基于上下文的译文自动调序方法 Pending CN101882158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010210245 CN101882158A (zh) 2010-06-22 2010-06-22 基于上下文的译文自动调序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010210245 CN101882158A (zh) 2010-06-22 2010-06-22 基于上下文的译文自动调序方法

Publications (1)

Publication Number Publication Date
CN101882158A true CN101882158A (zh) 2010-11-10

Family

ID=43054172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010210245 Pending CN101882158A (zh) 2010-06-22 2010-06-22 基于上下文的译文自动调序方法

Country Status (1)

Country Link
CN (1) CN101882158A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677642A (zh) * 2015-12-31 2016-06-15 成都数联铭品科技有限公司 一种机器翻译语序调整方法
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN107408112A (zh) * 2015-05-18 2017-11-28 谷歌公司 用于翻译的协调用户词选择和所选词的上下文信息的获得
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN111090753A (zh) * 2018-10-24 2020-05-01 马上消费金融股份有限公司 分类模型的训练方法、分类方法、装置、计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334768A (zh) * 2008-08-05 2008-12-31 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、系统及检索方法
CN101390091A (zh) * 2006-02-27 2009-03-18 日本电气株式会社 语言处理设备、语言处理方法、以及语言处理程序

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101390091A (zh) * 2006-02-27 2009-03-18 日本电气株式会社 语言处理设备、语言处理方法、以及语言处理程序
CN101334768A (zh) * 2008-08-05 2008-12-31 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、系统及检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《术语标准化与信息技术》 20040331 冯志伟 词义排歧方法研究 第31-37页 1-6 , 第1期 2 *
《计算机应用》 20060630 谈文蓉等 一种基于贝叶斯分类与机读词典的多义词排歧方法 第1389-1391,1395页 1-6 第26卷, 第6期 2 *
《计算机时代》 20090731 王达等 贝叶斯模型在词义消歧中的应用 第63-64页 1-6 , 第7期 2 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408112A (zh) * 2015-05-18 2017-11-28 谷歌公司 用于翻译的协调用户词选择和所选词的上下文信息的获得
CN107408112B (zh) * 2015-05-18 2020-11-27 谷歌有限责任公司 用于翻译的协调用户词选择和所选词的上下文信息的获得
CN105677642A (zh) * 2015-12-31 2016-06-15 成都数联铭品科技有限公司 一种机器翻译语序调整方法
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN105955956B (zh) * 2016-05-05 2019-01-22 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN108920467B (zh) * 2018-08-01 2021-04-27 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN111090753A (zh) * 2018-10-24 2020-05-01 马上消费金融股份有限公司 分类模型的训练方法、分类方法、装置、计算机存储介质

Similar Documents

Publication Publication Date Title
Baldwin et al. Translation by machine of complex nominals: Getting it right
US20130041647A1 (en) Method for disambiguating multiple readings in language conversion
CN102662937A (zh) 自动翻译系统及其自动翻译方法
CN101882158A (zh) 基于上下文的译文自动调序方法
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
Huang et al. Words without boundaries: Computational approaches to Chinese word segmentation
WO2014189400A1 (en) A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
Rosner et al. A tagging algorithm for mixed language identification in a noisy domain.
Nongmeikapam et al. A transliteration of CRF based Manipuri POS tagging
Saloot et al. Noisy text normalization using an enhanced language model
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
Phadte et al. Towards normalising Konkani-English code-mixed social media text
Lu et al. An automatic spelling correction method for classical mongolian
Saha et al. Word clustering and word selection based feature reduction for MaxEnt based Hindi NER
JP5454763B2 (ja) 文の対中の単語対応付装置及びそのコンピュータプログラム
Saito et al. Multi-language named-entity recognition system based on HMM
Lee et al. Automatic construction of real‐world‐based typing‐error test dataset
Lu et al. Language model for Mongolian polyphone proofreading
Altenbek et al. Identification of basic phrases for kazakh language using maximum entropy model
Zhu et al. Single character Chinese named entity recognition
Zhang et al. Normalization of homophonic words in chinese microblogs
Petasis et al. Using machine learning techniques for part-of-speech tagging in the Greek language
Kumbhar et al. Language Identification and Transliteration approaches for Code-Mixed Text.
Yusuf et al. HindiWSD: A package for word sense disambiguation in Hinglish & Hindi

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20101110