CN115455986A

CN115455986A - 一种西班牙语地名翻译方法、装置、设备及介质

Info

Publication number: CN115455986A
Application number: CN202211160544.5A
Authority: CN
Inventors: 毛曦; 马维军; 王继周; 高武俊; 杜川; 王章朋; 杨雪姣
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2022-02-28
Filing date: 2022-09-22
Publication date: 2022-12-09
Also published as: NL2031111B1

Abstract

本发明涉及一种西班牙语地名翻译方法、装置、设备及介质，所述方法具体包括：获取原始地名词组；对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名；对所述地名通名进行通名意译，得到意译结果，所述通名意译为按照西班牙语通名所指的地理实体类别进行翻译；对所述地名专名进行专名音译，得到音译结果，所述专名音译为按照西汉音译表中字母组合进行翻译；将所述意译结果和所述音译结果进行结合，得到结合结果；对所述结合结果进行整体地名翻译，得到地名。通过本发明可以将自动完成西班牙语地名翻译，减少地名生成时的人力消耗，并提高翻译效率。

Description

一种西班牙语地名翻译方法、装置、设备及介质

技术领域

本发明涉及翻译技术领域，特别是涉及一种西班牙语地名翻译方法、装置、设备及介质。

背景技术

地名翻译指的是将某一个地理实体在某一种语言上的表达转化为另一种语言的表达。地名自动翻译或称机器地名翻译，是机器翻译中命名实体翻译的一部分。然而该部分是所有命名实体翻译中最难的一项。首先，地名组成复杂，不同尺度下的地名构成具有很大差别。其次，地名的翻译需要考虑的因素较多，所以，相关研究较多通用机器翻译均不能独立的解决地名的翻译问题。而且，目前业界并没相关的专门西班牙语地名自动翻译产品，只能由人工进行翻译，效率低下。

因此，如何设计一种能够减少地名生成时的人力消耗，并提高翻译效率的西班牙语地名翻译方法、装置、设备及介质，成本本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种西班牙语地名翻译方法、装置、设备及介质，通过本发明，可以将自动完成西班牙语地名翻译，减少地名生成时的人力消耗，并提高翻译效率。

为实现上述目的，本发明提供了如下方案：

一种西班牙语地名翻译方法，该方法包括以下步骤：

获取原始地名词组；

对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名；

对所述地名通名进行意译，得到意译结果；

对所述地名专名进行音译，得到音译结果；

将所述意译结果和所述音译结果进行结合，得到结合结果；

对所述结合结果进行整体地名翻译，得到地名。

本发明还提供了一种西班牙语地名翻译装置，该装置包括：

原始地名词组获取模块，用于获取原始地名词组；

地名通专名区分模块，用于对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名；

通名意译模块，用于对所述地名通名进行通名意译，得到意译结果，所述通名意译为按照西班牙语通名所指的地理实体类别进行翻译；

专名音译模块，用于对所述地名专名进行专名音译，得到音译结果，所述专名音译为按照西汉音译表中字母组合进行翻译；

结合模块，用于将所述意译结果和所述音译结果进行结合，得到结合结果；

整体地名翻译模块，用于对所述结合结果进行整体地名翻译，得到地名。

本发明还提供了一种西班牙语地名翻译设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如上述所述的西班牙语地名翻译方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述所述方法的步骤。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种西班牙语地名翻译方法、装置、设备及介质，所述方法具体包括：获取原始地名词组；对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名；对所述地名通名进行通名意译，得到意译结果，所述通名意译为按照西班牙语通名所指的地理实体类别进行翻译；对所述地名专名进行专名音译，得到音译结果，所述专名音译为按照西汉音译表中字母组合进行翻译；将所述意译结果和所述音译结果进行结合，得到结合结果；对所述结合结果进行整体地名翻译，得到地名。通过本发明可以将自动完成西班牙语地名翻译，减少地名生成时的人力消耗，并提高翻译效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本发明的主旨。

图1为本发明实施例1提供的一种西班牙语地名翻译方法的流程图；

图2为提取地名通名模式示意图；

图3为地名“Isle of west burrafirth”结构树图；

图4为“Isle of west burrafirth”地名短语结构树；

图5为“Isla of oeste águila”地名短语结构树；

图6为本发明实施例2提供的一种西班牙语地名翻译装置的结构图；

图7为计算设备的架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

请参阅图1，本发明提供了一种西班牙语地名翻译方法，该方法包括以下步骤：

S1：获取原始地名词组；

S2：对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名；通常来说，地名被分为地名通名和地名专名，地名通名是概括某种地物共性(类别)的通用词，起定性作用；地名专名是指代某一地理实体并用以区分同类地物的专用词，起定位作用。

S3：对所述地名通名进行意译，得到意译结果；

S4：对所述地名专名进行音译，得到音译结果；

S5：将所述意译结果和所述音译结果进行结合，得到结合结果；

S6：对所述结合结果进行整体地名翻译，得到地名。

在步骤S1“获取原始地名词组”之后，还包括：

对所述原始地名词组进行预处理，得到预处理后的地名词组，具体包括：

将所述原始地名词组中地名格式不当或冠词不当的词组去除。

在步骤S2中，对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名，具体包括：

S21：分别统计构成地名的词出现的频率和词与词之间有序词对共现的频率；

S22：根据所述构成地名的词出现的频率和所述词与词之间有序词对共现的频率，计算任意有序词对的互信息，计算公式如下所示：

其中，MI_ab为任意有序词对(a,b)的互信息，P_ab为任意有序词对(a,b)共现的频率，P_a为构成地名的任意词a出现的频率，P_b为构成地名的任意词b出现的频率；

S23：判断所述任意有序词对共现的频率是否大于第一预设阈值，且所述任意有序词对的互信息是否大于第二预设阈值，得到第一判断结果；

S24：若所述第一判断结果为是，则将所述原始地名词组中满足所述任意有序词对共现的频率大于第一预设阈值，且所述任意有序词对的互信息大于第二预设阈值的有序词对记录到集合G中；

S25：根据所述集合G，构建有向无环图；

S26：根据所述有向无环图得到若干个地名通名模板；所述地名通名模板为每一条路径按照访问节点对应的词生成的模板；

S27：根据若干个所述地名通名模板对所述原始地名词组进行结构分解，得到地名短语结构树；所述结构分解具体包括：选取若干个所述地名通名模板来不重、不漏、不交叉地覆盖所述原始地名词组中的每个词，使得选取的若干个所述地名通名模块的概率对数之和最大；

S28：基于所述地名短语结构树，将非叶子节点所代表的词视为地名通名，将叶子节点所代表的的词视为地名专名。

如图2所示，是在进行通专名区分，从而获取地名数据源中的通名模板，通名模板获取的同时也能获取通名的意译结果，针对图1的举例地名，Birmingham New StreetRailway Station在翻译时，选取railway station作为这条地名的通名模板，翻译是***火车站，Birmingham New Street会作为专名进行翻译，最终的地名的翻译会组合专名音译与通名意译结果。

在本实施例中，将构成地名的词看作随机变量，从地名语料中，以每条地名为单位，分别统计构成地名的词出现频率(即P_a或P_b)与词与词之间的共现频率(即P_ab)。在统计完成后，对于任意的有序词对(a,b)计算其互信息

设定合适阈值组T后，将P_ab＞T₁且MI_ab＞T₂的有序词对(a,b)记录到集合G中，T₁是针对待翻译数据源中词a与词b共现频率的一个选取的阈值，T₂是词a与词b的互信息的一个选取的阈值，之后再次遍历所有句子，对于每一个句子构成一个有向无环图，句子中的词当作图上的点：对于句子中的有序词对(a,b)若(a,b)∈G那么就给图上添加一条“a-->b”的有向边。找出图上所有的路径，对于每一条路径按照访问节点对应的词生成一个地名通名模板(如果跨过了相邻节点，那么就插入一个占位符)。统计各个地名通名模板的频率，将候选地名通名模板按频率降序排列，设定合适的阈值，取频率大于阈值的作为地名通名模板即可，最终得到地名通名模板库。

b)给定的一条输入地名词组，利用所得到的地名通名模板库，实现地名词组的结构分解从而生成地名结构树。为了实现对地名词组的结构分解，借鉴句法分析的“投射性(projective)假设”。本实施例对地名提出如下假设：

1、地名是由若干个地名通名模板构成，这些模板互不交叉；

2、地名通名模板的占位符部分也是一个地名通名模板；

3、每个单独的词可以看成是一个特殊的地名通名模板。

基于以上假设，本发明提出了地名词组结构分解方法：找一系列的地名通名模板来不重、不漏、不交叉地覆盖地名词组中的每个词，使得这些地名通名模板的概率对数之和最大。具体来说可以分为两步：

1、扫描出地名条目中所有可能出现的地名通名模板情况；

2、按照所有可能出现的地名通名模板，遍历所有符合地名翻译规则的结构分解方案，对于每种分解方案计算其对数频率(即对频率取对数)：分解方案中所有模板概率对数之和。寻找对数频率最大的分解方案，作为分解结果，并生成地名短语结构树。如图3和图4所示。

在地名短语结构树中，基于结构分解的假设，将非叶子节点所代表的词视为通名地名词，将叶子节点所代表的词视为候选的专名地名词。从而对于地名短语结构树的叶子节点对应的词，通过分类的方式来完成地名通专名识别。

在步骤S4中，对所述地名专名进行专名音译，得到音译结果，具体包括：

S41：采用基于最小熵的字母组合划分方法对所述地名专名进行划分，得到划分结果；

S42：将所述划分结果按照规则译写为汉字，得到音译结果；所述规则为国家标准《外语地名汉字译写导则》制定的西汉译写表。

在步骤S41中，采用基于最小熵的字母组合划分方法对所述地名专名进行划分，得到划分结果，具体包括：

从所述地名专名中得到字母组合分布；

根据所述字母组合分布计算不同字母组合分布划分的平均字母熵值，平均字母熵值通过下式计算：

其中，E为平均字母熵，P(x)代表字母组合x在语料中出现的概率分布，l_x代表该字母组合长度，Θ代表字母组合构成的集合；

通过比较各字母组合分布划分的平均字母熵值，得出最小化熵值；

通过所述最小化熵值确定字母划分结果。

具体的，地名专名音译流程分为四步：地名输入、字母组合划分、字母组合汉字译写和结果输出。

a)地名输入：将西班牙语地名专名词组输入至专名音译(字母组合划分)模型。

b)字母组合划分：基于最小熵的字母组合划分方法，将地名单词中的字母进行字母组合的划分，字母组合划分需要尽可能的少划分出字母组合，以达到音译的尽可能简短的要求。比如对于单词字母串ánade，候选切分为á\na\de，án\a\de，分别记为ψ1，ψ2；假设各音节出现频率为á：0.015，na：0.02，de：0.003，án：0.01a：0.03，。则ψ1，ψ2音标熵分别为6.74、7.74比特。则ψ1：á\na\de选择为最终切分结果。

在该环节，采用基于最小熵的字母组合划分方法。该方法以最小熵为指导，对单词字母进行无监督学习，从原始语料中得到字母组合分布。并根据字母组合分布来计算给定字母组合串中不同字母组合划分的熵值，通过最小化熵值来唯一确定其字母组合结果。

熵是对变量所包含的信息量的度量，对于一个随机变量x，其概率密度函数(分布)为P，则该随机变量的熵为E＝-∫P(x)logP(x)，在离散的情况下可以表示为E＝-∑P(x)logP(x)。最小熵原理则是通过对概率密度函数(分布)的修改，使得熵E最小化，实现变量包含的冗余信息最少。

在本发明中，首先定义一个平均字母熵E＝-∑_x∈ΓP(x)logP(x)，其中，P(x)代表字母组合x在语料中出现的概率分布，Γ代表字母组合构成的集合。那么当字母构成字母组合时，平均字母熵可以表示为：

该方法通过寻找一个字母组合划分集合Θ以及该划分的概率分布P(x)使得E最小。

在得到字母组合划分集合Θ以及该划分的概率分布P情况下，对于给定的字母串：

s＝s₁s₂...s_n,s_n∈Γ

其中，s_n表示字母，s表示字母串。本发明先利用最短路径法分词法得到前几个最短的切分方式Ψ，通过比较这几种切分方式所得出的字母组合熵，即ψ＝argmin_ψ∈Ψ-∑_x∈ψlogP(x)，选取熵最小的一个作为最终的切分结果。

c)字母组合汉字译写：将字母组合按照某种规则译写为汉字的过程，从而得到翻译结果。目前该规则主要使用的是国家标准(《外语地名汉字译写导则》(GB/T17693.3-1999))制定的西汉译写表。

d)结果输出：将最终结果进行输出。

在步骤S5中，将所述意译结果和所述音译结果进行结合，得到结合结果，具体包括：

利用英文语法到中文语法的映射规则完成所述意译结果和所述音译结果的结合。

在步骤S6中，对所述结合结果进行整体地名翻译，得到地名，具体包括：

S61：利用西汉词典获得每个所述地名通名模板的翻译；

S62：根据每个所述地名通名模板的翻译对所述结合结果进行解析，得到所述结合结果的地名层次语法结构；

S63：根据“自底向上”的原则，将地名层次语法结构逐层将西班牙语地名要素转换为中文地名要素，从而实现地名翻译。

例如“Isle of west burrafirth”，其地名短语结构树如图5所示，其中涉及两个通名模式，Isla of[X]、oeste[X]，西汉辞典确定其翻译为：[X]岛、西[X]，águila音译结果为阿吉拉。其嵌套意译翻译过程为：

1.Isla of[oesteáguila]->[oesteáguila]岛

2.[oeste[águila]]岛->[西[águila]]岛

3.[西[águila]]岛->[西[阿吉拉]]岛

4.[西[阿吉拉]]岛->西阿吉拉岛。

综上所述，通过本发明可以将自动完成西班牙语地名翻译，减少地名生成时的人力消耗，并提高翻译效率。

实施例2：

请参阅图6，本发明提供了一种西班牙语地名翻译装置，该装置包括：

原始地名词组获取模块M1，用于获取原始地名词组；

地名通专名区分模块M2，用于对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名；

通名意译模块M3，用于对所述地名通名进行通名意译，得到意译结果，所述通名意译为按照西班牙语通名所指的地理实体类别进行翻译；

专名音译模块M4，用于对所述地名专名进行专名音译，得到音译结果，所述专名音译为按照西汉音译表中字母组合进行翻译；

结合模块M5，用于将所述意译结果和所述音译结果进行结合，得到结合结果；

整体地名翻译模块M6，用于对所述结合结果进行整体地名翻译，得到地名。

此外，根据本发明实施例的方法或装置也可以借助于图7所示的计算设备的架构来实现。图7示出了该计算设备的架构。如图7所示，计算设备可以包括总线1、一个或至少两个CPU 2、只读存储器(ROM)3、随机存取存储器(RAM)4、连接到网络的通信端口5、输入/输出组件6、硬盘7等。计算设备中的存储设备，例如存储器3或硬盘7可以存储本发明提供的目标检测方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备还可以包括用户界面8。当然，图7所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图7示出的计算设备中的一个或至少两个组件。

根据本发明的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种西班牙语地名翻译方法，其特征在于，包括以下步骤：

获取原始地名词组；

对所述地名通名进行意译，得到意译结果；

对所述地名专名进行音译，得到音译结果；

将所述意译结果和所述音译结果进行结合，得到结合结果；

对所述结合结果进行整体地名翻译，得到地名。

2.根据权利要求1所述的西班牙语地名翻译方法，其特征在于，在步骤“获取原始地名词组”之后，还包括：

3.根据权利要求1所述的西班牙语地名翻译方法，其特征在于，对所述原始地名词组进行地名的通专名区分，得到地名通名和地名专名，具体包括：

分别统计构成地名的词出现的频率和词与词之间有序词对共现的频率；

根据所述构成地名的词出现的频率和所述词与词之间有序词对共现的频率，计算任意有序词对的互信息，计算公式如下所示：

判断所述任意有序词对共现的频率是否大于第一预设阈值，且所述任意有序词对的互信息是否大于第二预设阈值，得到第一判断结果；

若所述第一判断结果为是，则将所述原始地名词组中满足所述任意有序词对共现的频率大于第一预设阈值，且所述任意有序词对的互信息大于第二预设阈值的有序词对记录到集合G中；

根据所述集合G，构建有向无环图；

根据所述有向无环图得到若干个地名通名模板；所述地名通名模板为每一条路径按照访问节点对应的词生成的模板；

根据若干个所述地名通名模板对所述原始地名词组进行结构分解，得到地名短语结构树；所述结构分解具体包括：选取若干个所述地名通名模板来不重、不漏、不交叉地覆盖所述原始地名词组中的每个词，使得选取的若干个所述地名通名模块的概率对数之和最大；

基于所述地名短语结构树，将非叶子节点所代表的词视为地名通名，将叶子节点所代表的的词视为地名专名。

4.根据权利要求1所述的西班牙语地名翻译方法，其特征在于，对所述地名专名进行专名音译，得到音译结果，具体包括：

采用基于最小熵的字母组合划分方法对所述地名专名进行划分，得到划分结果；

将所述划分结果按照规则译写为汉字，得到音译结果；所述规则为国家标准《外语地名汉字译写导则》制定的西汉译写表。

5.根据权利要求4所述的西班牙语地名翻译方法，其特征在于，所述采用基于最小熵的字母组合划分方法对所述地名专名进行划分，得到划分结果，具体包括：

从所述地名专名中得到字母组合分布；

通过所述最小化熵值确定字母划分结果。

6.根据权利要求1所述的西班牙语地名翻译方法，其特征在于，将所述意译结果和所述音译结果进行结合，得到结合结果，具体包括：

7.根据权利要求3所述的西班牙语地名翻译方法，其特征在于，对所述结合结果进行整体地名翻译，得到地名，具体包括：

利用西汉词典获得每个所述地名通名模板的翻译；

根据每个所述地名通名模板的翻译对所述结合结果进行解析，得到所述结合结果的地名层次语法结构；

根据所述地名层次语法结构逐层将西班牙语地名要素转换为中文地名要素。

8.一种西班牙语地名翻译装置，其特征在于，包括：

原始地名词组获取模块，用于获取原始地名词组；

9.一种西班牙语地名翻译设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求1-7任一项所述的西班牙语地名翻译方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。