CN103020046B

CN103020046B - 基于人名起源分类的人名音译方法

Info

Publication number: CN103020046B
Application number: CN201210566217.XA
Authority: CN
Inventors: 赵铁军; 李婷婷; 张春越; 曹海龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2016-04-20
Anticipated expiration: 2032-12-24
Also published as: CN103020046A; WO2014101629A1; KR20150128656A

Abstract

基于人名起源分类的人名音译方法，它涉及一种翻译系统。本发明解决了中英人名音译中不同起源国家人名的音译模式不一致问题。本方法如下：一、人名起源分类；二、线性插值系统融合。本发明提出的方法将logistic多分类回归模型应用到人名起源分类中，并根据人名构成用字特征的特征模板进行人名起源分类；对于每一种起源的人名类别训练一个特定的音译(翻译)模型，再对多个音译模型的结果进行系统融合，实现双语人名互译。

Description

基于人名起源分类的人名音译方法

技术领域

本发明涉及一种翻译系统。

背景技术

互联网成为人们生活中不可或缺的一部分，它已经是人类信息获取、相互交流、信息传播的一个最重要的途径。我们每天都依靠互联网从中获取需要的生活服务、工作研究等信息。为了能在互联网的海量数据中更快更准更智能的为用户提供信息，信息检索、信息抽取、问答系统等技术成为近年来研究的重点。随着互联网带来的信息交流革命，人们的信息交流和获取已经不单单局限在单一语言中，能够跨语言处理互联网信息已经成为一种迫切需求，这种需要在新闻、金融等领域中显得尤为迫切。因此，机器翻译、跨语言检索、跨语言问答等技术的研究变得越来越重要。在这些研究之中，命名实体的翻译是这些技术的一个重要且基础的问题。人名，作为命名实体的一个重要的组成部分，具有相当强的表达能力，是一篇文档中的关键信息之一。但由于其开放性，人名常常是自然语言处理和机器翻译中未登陆词的主要成分。因此，正确地、自动地翻译人名将是一个有意义的工作，并且对于人工翻译也有一定的指导作用。

人名翻译主要依据发音相似来进行，因此也叫做人名的音译。音译在上世纪90年代开始发展，至今已经有十几年的研究积累，主要有基于音素的和基于字素的两类方法，前者依赖语音学的知识，后者则直接在字素之间建模，而综合使用这两类方法则称之为混合音译方法。具体地，基于音素的音译方法借助一个统一的语音学表示方法作为中间转换轴(这个中间轴的表示符号常称为音素)，实现源语言到音素、音素到目标语言的转换，所以该方法也叫中轴法或基于语音的音译方法。基于语音的方法因为需要做字素到音素、音素到字素多步转换，每个转换过程都有可能出错，会使得错误累加。同时该方法依赖于具体的语言，每种语言对用到的中间发音单元不同，每种语言对都需要构建自己的音素表，所以方法是不可扩展的。为了克服基于语音的方法的上述缺点，受到机器翻译中词对齐的启发，研究人员直接对源和目标语言间的字素构建音译模型，这类方法也被称作直接音译或者基于字素的音译方法。后来有研究者综合利用这两类方法，提出了混合音译的方法，将基于字素和语音的音译方法相结合，使用线性插值等多种系统融合方法对两种音译结果进行混合。由于基于字素的方法独立于具体的语言对，并且性能较好，成为音译的主要研究方法。

尽管研究者提出了很多的音译方法，但在影响音译效果的诸多因素中，人名起源还尚未引起足够的重视。以中文人名-英文人名音译为例，注意这里的中文人名指的用中文汉字书写的人名，英文人名指的是用英文字母书写的人名。比如“德川家康”是一个日本起源的人名，它的英文翻译是“TokugawaIeyasu”，韩国起源的人名“卢武铉”的音译“RohMoo-hyun”，这些中文人名的音译(翻译)与通常说的基于发音相似的中-英音译区别很大。因此，如果对这些人名的起源不加以区分，而直接使用训练出来的单一模型对这类人名进行互译则得不到正确结果，同时他们的存在还会影响模型对中、英起源人名的音译。综上，基于人名起源分类的音译研究是一个十分重要的问题。

发明内容

本发明的目的是为了解决中英人名音译中不同起源国家人名的音译模式不一致问题，提供了一种基于人名起源分类的人名音译方法。

基于人名起源分类的人名音译方法按照以下步骤进行：

一、人名起源分类：

根据人名起源特征模板采用logistic回归模型，进行计算：

P (Y = k | x) = \frac{\exp (w_{k} * x)}{1 + Σ_{k = 1}^{K - 1} \exp (w_{k} * x)},

k＝1，2，...，K-1公式一

P (Y = K | x) = \frac{1}{1 + Σ_{k = 1}^{K - 1} \exp (w_{k} * x)}

公式二

公式一和公式二中K的值是6，Y为1-6，其中1表示中国，2表示英美，3表示阿拉伯，4表示俄国，5表示日本，6表示韩国，x为人名起源特征模板，P表示起源的概率，w是特征的权重向量；

步骤一中所述的人名起源特征模板为中文人名起源特征模板或英文人名起源特征模板；

中文人名起源特征模板为语言模型、字的TF-IDF、长度和姓氏；

语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型；长度为汉字字符数；姓氏为姓氏置信度，姓氏置信度为姓氏出现的次数除以出现的总次数所得的商，并根据商值划分为20个等级。

所谓整合n-gram模型是指为了防止该类特征数量过于庞大，而基于最小方差将n-gram的概率特征值划分到1-100个区间上，形成100个特征，所述中文人名起源特征模板中采用SRILM工具训练语言模型，其中每个n-gram都有概率，n为1、2或3，统计所有n-gram概率的一维分布，根据这个分布划分出100个区间，这100个区间是对n-gram特征的一个聚类，每个区间代表一个类别，每个区间内的方差和最小，区间平均值间的方差和最大，利用n-gram的数据求100个区间的分界点：

λ = \underset{λ}{\arg \min} (0.7 * \underset{x_{i} &Element; X_{j}}{Σ} {(x_{i} - y_{j})}^{2} - 0.3 * Σ_{i = 1}^{99} {(y_{i} - y_{i + 1})}^{2})

公式三

公式三中λ代表100个分界点的集合，x_i代表每一个n-gram的概率值，y_j代表第j个分界区间的平均值。这样在语言模型上就得到300个特征。

字的TF-IDF为“名”单字TF和“名”单字IDF，根据人名语料统计出人名常用字并记录每个常用字的字频，得到6类人名常用字表，然后用下面的两个公式计算TF和IDF：

{TF}_{i} = \frac{x_{i}}{Σ_{i = 1}^{i = N} x_{i}}

公式四

{IDF}_{i} = \log_{2} \frac{6}{{DF}_{i}}

公式五

在公式四及公式五中，x代表第i个字在训练语料中的字频，分母是字表中所有字在训练语料中全部的出现次数，N代表字表中字的个数，DF表示包含i的人名起源类别数；类似于语言模型，将TF和IDF划分到100个区间，得到200个特征。

英文人名起源特征模板为字符语言模型、音节的语言模型、音节的TF-IDF和长度，

语言模型为整合2-gram模型、整合3-gram模型和整合4-gram模型，音节的语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型，所述整合n-gram模型是防止该类特征数量过于庞大，而基于最小方差将n-gram的概率特征值划分到1-100个区间上，形成100个特征；长度为字符个数和音节个数，并且采用下述的方法将英文切分成音节：

1、将‘x’替换成‘ks’；

2、{a，o，e，i，u}是基本的元音字符，y如果在辅音后面当作元音处理；

3、当‘w’前面是‘a，e，o’且后面不是‘h’的时候，‘w’和之前的元音当作一个新的元音符号；

4、除了{iu，eo，io，oi，ia，ui，ua，uo}外，其余的连续的元音当作一个新的元音符号处理；

5、将挨着的辅音分开，将元音和紧跟着的辅音分开；

6、辅音和其后的元音形成一个音节，其他的孤立元音和辅音作为单独的音节；

音节的TF-IDF为音节的TF和音节的IDF，根据人名语料统计出人名常用音节并记录每个常用音节的频率，得到6类人名常用音节表，然后用下面的两个公式计算TF和IDF：

{TF}_{i} = \frac{x_{i}}{Σ_{i = 1}^{i = N} x_{i}}

公式四

{IDF}_{i} = \log_{2} \frac{6}{{DF}_{i}}

公式五

在公式四及公式五中，x代表第i个字在训练语料中的音节的频率，分母是字表中所有音节在训练语料中全部的出现次数，N代表字表中音节的个数，DF表示包含i音节的人名起源类别数。

二、线性插值系统融合：

公式六

Q(0，$)＝0公式七

Q (t, p) = \underset{t - 4 \leq t^{'} \leq t}{\max_{t, t^{'}}} {φ (x_{t^{'} + 1}^{t}, p^{'}, p) + Q (t^{'}, p)}

公式八

Q (T + 1, $) = \max_{p^{'}} {φ ($, p^{'}, $) + Q (T, p^{'})}

公式九

公式七、公式八和公式九中T代表的是翻译结果，P代表的是翻译的结果T的概率，t代表翻译到源语言的第几个位置。在公式六中，λ_i代表S属于起源i的概率。公式六是多系统融合的策略，公式七、八、九是解码算法。

因为根据人名起源分了多个类别，在每个类别上就可以训练得到一个音译的模型；为了能更充分的利用这些音译模型，本发明根据实际的实验数据提出了一个策略。对于待翻译的人名会先判断该人名所属的起源类别；用户可以指定人名的起源类型，如果用户没有人为指定人名的起源，系统会调用分类模型计算出人名属于每个起源类别的概率，然后根据人名起源分类模型的结果，动态的利用多个音译系统结果进行融合，如公式六所示。

具体的策略如下：

1)如果用户指定了人名起源，那么人名属于该起源的概率是1，属于其他起源的概率是0；

2)如果用户没有指定就调用起源分类系统计算，可以得到属于每个起源的概率；

3)如果人名隶属于某个起源的概率大于一个值A(显然A值是大于0.5)，则只分配给相应的音译模型得到结果；

4)否则，将人名分配给隶属概率大于B值的那些模型；

5)如果使用了4)中的方法音译，对每个模型的结果进行线性插值，每个模型的权重等价于人名隶属于该起源的概率。以中英的音译为例，系统中的A和B取值分别在0.72和0.15附近效果较好(这是个经验值，与训练语料也有关系)。

音译采用的模型是基于短语的翻译系统，用在音译中忽略其调序功能。

本发明应用的整个音译系统按照前端、中间控制层、后台系统的三个层次分布。前端就是用户与后台音译系统进行交互的界面，负责接受用户输入的人名和命令并传送给控制层，然后接受控制层返回的结果和信号。中间层负责连接前端和后台，根据前端的输入和信号量控制后台的系统，同时接受后台的运行结果反馈给前端界面。后台的系统主要是人名起源的分类系统、人名音译系统。前端界面是网页的形式，主要用html和css实现。

人名起源的分类采用的是logistic回归模型的原理，在多元logistic回归模型中分类概率的计算如前面的公式一和公式二；模型参数训练是根据极大似然估计的原理得到需要最优化的等式，然后采用Newton-Raphson求解特征权重值。

本发明提出了一种根据人名构成用字特征进行人名起源分类，并融合多个不同起源的音译模型的输出结果，实现双语人名互译的方法。在双语人名音译中，训练语料人名的起源通常是包含多个国家的；不同国家间语言的发音和翻译准则各不相同，因此在做双语人名互译的时候根据人名的起源进行分类训练翻译模型将对翻译结果有很大的帮助。

本发明提出的方法将logistic多分类回归模型应用到人名起源分类中，并根据人名构成用字特征的特征模板进行人名起源分类；对于每一种起源的人名类别训练一个特定的音译(翻译)模型，再对多个音译模型的结果进行系统融合，实现双语人名互译。

本发明方法的主要发明内容是在人名起源分类和线性插值系统融合这两点。

本专利首次将logistic回归模型用到人名起源分类中，选用该模型主要是因为它能方便地进行特征的增加、删除和修改。

具体实施方式

本发明技术方案不局限于以下所列举具体实施方式，还包括各具体实施方式间的任意组合。

具体实施方式一：本实施方式中基于人名起源分类的人名音译方法按照以下步骤进行：

一、人名起源分类：

根据人名起源特征模板采用logistic回归模型，进行计算：

P (Y = k | x) = \frac{\exp (w_{k} * x)}{1 + Σ_{k = 1}^{K - 1} \exp (w_{k} * x)},

k＝1，2，...，K-1公式一

P (Y = K | x) = \frac{1}{1 + Σ_{k = 1}^{K - 1} \exp (w_{k} * x)}

公式二

语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型，所述整合n-gram模型是防止该类特征数量过于庞大，而基于最小方差将n-gram的概率特征值划分到1-100个区间上，形成100个特征；长度为汉字字符数；姓氏为姓氏置信度，姓氏置信度为姓氏出现的次数除以出现的总次数所得的商；

{TF}_{i} = \frac{x_{i}}{Σ_{i = 1}^{i = N} x_{i}}

公式四

{IDF}_{i} = \log_{2} \frac{6}{{DF}_{i}}

公式五

在公式四及公式五中，x代表第i个字在训练语料中的字频，分母是字表中所有字在训练语料中全部的出现次数，N代表字表中字的个数，DF表示包含i的人名起源类别数；

1、将‘x’替换成‘ks’；

5、将挨着的辅音分开，将元音和紧跟着的辅音分开；

{TF}_{i} = \frac{x_{i}}{Σ_{i = 1}^{i = N} x_{i}}

公式四

{IDF}_{i} = \log_{2} \frac{6}{{DF}_{i}}

公式五

在公式四及公式五中，x代表第i个字在训练语料中的音节的频率，分母是字表中所有音节在训练语料中全部的出现次数，N代表字表中音节的个数，DF表示包含i音节的人名起源类别数；

二、线性插值系统融合：

公式六

Q(0，$)＝0公式七

Q (t, p) = \underset{t - 4 \leq t^{'} \leq t}{\max_{t, t^{'}}} {φ (x_{t^{'} + 1}^{t}, p^{'}, p) + Q (t^{'}, p)}

公式八

Q (T + 1, $) = \max_{p^{'}} {φ ($, p^{'}, $) + Q (T, p^{'})}

公式九

公式七、公式八和公式九中T代表的是翻译结果，P代表的是翻译的结果概率，t代表翻译到源语言的第几个位置，在公式六中，λ_i代表S属于起源i的概率，公式六是多系统融合的策略，公式七、八、九是解码算法。

具体实施方式二：本实施方式与具体实施方式一不同的是步骤一所述中文人名起源特征模板中采用SRILM工具训练语言模型，其中每个n-gram都有概率，n为1、2或3，统计所有n-gram概率的一维分布，根据这个分布划分出100个区间，这100个区间是对n-gram特征的一个聚类，每个区间代表一个类别，每个区间内的方差和最小，区间平均值间的方差和最大，利用n-gram的数据求100个区间的分界点：

λ = \underset{λ}{\arg \min} (0.7 * \underset{x_{i} &Element; X_{j}}{Σ} {(x_{i} - y_{j})}^{2} - 0.3 * Σ_{i = 1}^{99} {(y_{i} - y_{i + 1})}^{2})

公式三

公式三中λ代表100个分界点的集合，x_i代表每一个n-gram的概率值，y_j代表第j个分界区间的平均值。TF和IDF取值区间划分也采用同样的方式。

姓氏置信度特征：在中文人名中姓氏是比较固定的常用的是百家姓，我们在“人民日报1998年”语料中抽取人名提取出其中的姓氏几百多个，人工对其中的每个姓氏进行置信度标注，这个置信度是人工定义的。认为姓氏“龚、廖、覃”等字的置信度就高于“李、王、周”，而“白、石、钱”等字的姓氏置信度更低；他们置信度的区分是根据这些字在人名日报中“作为姓氏出现的次数”/“出现的总次数”的值计算的；同样类似于n-gram的特征聚类方法将姓氏置信度分为20个等级。

其他与具体实施方式一相同。

采用下述实验验证本发明效果：

1、用户在交互界面输入待翻译人名，可以指定也可以不指定具体的类别；这里以输入人名”德川家康”不指定国籍起源(实际上这个人名起源于日本)为例。

2、形成人名的特征向量X：

2.1根据输入人名和现有的知识，形成人名”德川家康”的分类向量X：这里得到{德、川、家、康、德川、川家、家康、德川家、川家康}在语言模型中的概

率，并根据分界点分别映射1-gram\2-gram\3-gram的100个区间上得到中文区间号{86、30、51、63、31、12、43、5、7}，日文区间好{51、70、81、53、11、42、43、5、7}，欧美{85、3、19、33、11、5、23、5、7}等等6个国家上的特征值。

2.2、计算{德、川、家、康}这几个字的TF和IDF，映射到IDF的100个区间上得到区间号{14、57、85、41}；得到TF在中国{3、15、7}、日本{50、32、76、21}等6个国家的TF值。

2.3、因为默认第一个字是姓，其余字是名；所以计算{德}的姓氏置信度得到属于执行度等级{1}，共20个等级，等级越高置信度越大。

2.4、计算人名的长度是{4}。

2.5、根据上面2.1-2.4步中得到的特征信息，给特征向量X中相应的位置设为1，其余没有命中的特征置0。

3、根据公式一和公式二，计算出人名属于某个类的概率并归一化，最终得到归一化后的概率向量(0.23，0.07，0.08，0.05，0.43，0.14)，其中1表示中国，2表示英美，3表示阿拉伯，4表示俄国，5表示日本，6表示韩国。

4、根据多系统融合的翻译策略公式六，我们选择1：中国、5：日本、6：韩国模型进行解码；根据三个系统的融合最终排在第一位的音译结果是”tokugawaleyasu”、第二位的音译结果是”tokuwavasu”、第三位的是”dekuanjiaking”，并将排在第一位的结果返回给用户。可见混合的模型有助于得到正确的翻译结果。

Claims

1.基于人名起源分类的人名音译方法，其人名起源分类特征、方法和多系统融合方法按照以下步骤进行：

一、人名起源分类：

根据人名起源特征模板采用logistic回归模型，进行计算：

P (Y = k | x) = \frac{\exp (w_{k} * x)}{1 + Σ_{k = 1}^{K - 1} \exp (w_{k} * x)}, k = 1, 2, ..., K - 1

公式一

P (Y = K | x) = \frac{1}{1 + Σ_{k = 1}^{K - 1} \exp (w_{k} * x)}

公式二

公式一和公式二中K的值是6，Y为1-6，其中1表示中国，2表示英美，3表示阿拉伯，4表示俄国，5表示日本，6表示韩国，x为人名起源特征模板，P表示起源的概率，w_k是特征的权重向量；

语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型，上述模型是防止该类特征数量过于庞大，而基于最小方差将n-gram的概率特征值划分到100个区间上，形成100个特征；长度为中文人名的汉字字符数；姓氏特征为姓氏置信度，姓氏置信度为根据人名语料统计某字作为姓氏出现的次数除以该字出现的总次数所得的商；

字的TF-IDF为“名”单字的TF和“名”单字的IDF，根据人名语料统计出人名常用字并记录每个常用字的字频，得到6类人名常用字表，然后用下面的两个公式计算TF和IDF：

{TF}_{i} = \frac{{x^{'}}_{i}}{Σ_{i = 1}^{N} {x^{'}}_{i}}

公式三

{IDF}_{i} = \log_{2} \frac{6}{{DF}_{i}}

公式四

在公式三及公式四中，x’_i代表第i个字在训练语料中的字频，公式三的分母是字表中所有字在训练语料中全部的出现次数，N代表字表中字的个数，DF_i表示包含第i个字的人名起源类别数；

字符语言模型为整合2-gram模型、整合3-gram模型和整合4-gram模型，音节的语言模型为整合1-gram模型、整合2-gram模型和整合3-gram模型，上述模型是防止该类特征数量过于庞大，而基于最小方差将n-gram的概率特征值划分到100个区间上，形成100个特征；长度为字符个数和音节个数，并且采用下述的方法将英文切分成音节：

1、将‘x’替换成‘ks’；

2、{a,o,e,i,u}是基本的元音字符，y如果在辅音后面当作元音处理；

3、当‘w’前面是‘a,e,o’且后面不是‘h’的时候，‘w’和之前的元音当作一个新的元音符号；

4、除了{iu,eo,io,oi,ia,ui,ua,uo}，其余的连续的元音当作一个新的元音符号处理；

5、将挨着的辅音分开，将元音和紧跟着的辅音分开；

{TF}^{'}_{j} = \frac{{x^{''}}_{j}}{Σ_{j = 1}^{N^{'}} {x^{''}}_{j}}

公式五

{IDF}^{'}_{j} = \log_{2} \frac{6}{{DF}^{'}_{j}}

公式六

在公式五及公式六中，x”_j代表第j个音节在训练语料中的音节的频率，公式五的分母是字表中所有音节在训练语料中全部的出现次数，N’代表字表中音节的个数，DF’_j表示包含第j个音节的人名起源类别数；

二、线性插值系统融合：

公式七

Q(0,$)＝0公式八

公式九

公式十

公式七、公式八、公式九和公式十中p代表的是翻译结果，P代表的是翻译结果的概率，t代表翻译到源语言的第几个位置，在公式七中，λ_k代表S属于起源k的概率，公式七是多系统融合的策略，公式八、九、十是解码算法。

2.根据权利要求1所述的基于人名起源分类的人名音译方法，其特征在于步骤一所述中文人名起源特征模板中采用SRILM工具训练语言模型，其中每个n-gram都有概率，n为1、2、3或4，统计所有n-gram概率的一维分布，根据这个分布划分出100个区间，这100个区间是对n-gram特征的一个聚类，每个区间代表一个类别，每个区间内的方差和最小，区间平均值间的方差和最大，利用n-gram的数据求100个区间的分界点：

β = \underset{β}{argmin} (0.7 * \underset{x^{'''} &Element; {x^{'''}}_{j}}{Σ} {(x^{'''} &Element; - y_{j})}^{2} - 0.3 * Σ_{i = 1}^{99} {(y_{i} - y_{i + 1})}^{2})

公式十一

公式十一中β代表100个分界点的集合，x”’_j代表落在第j个n-gram概率分段区间中的n-gram值的集合，x”’是集合中的元素，表示一个n-gram的概率值，y_j代表第j个分界区间的平均值。