CN115310458A

CN115310458A - 一种人名翻译方法、系统、设备及计算机可读存储介质

Info

Publication number: CN115310458A
Application number: CN202210949527.3A
Authority: CN
Inventors: 苑聪虎
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-08

Abstract

本发明公开了一种人名翻译方法、系统、设备及计算机可读存储介质，所述方法包括以下步骤：根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式；根据收集的越南姓氏以及越南人名对应的英文字母，将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据；利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器；通过正则表达式找中文中以大写字母开头连续两个单词以上的姓名。本发明能正确转换成中文人名，极大的提高越南人名翻译的准确度，提高越南语的机器翻译水平。

Description

一种人名翻译方法、系统、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其是涉及应用于用于将越南语中的数字翻译成中文的技术，具体地说，涉及一种人名翻译方法、系统、设备及计算机可读存储介质。

背景技术

现有各种网络中的翻译引擎都会出现很多越南人名不能翻译成中文的情况，这种情况是翻译引擎在训练过程中对于数据中不存在的人名可能不能翻译成中文，从而影响中文整体的阅读，而且对于人名并不是能用数据穷举覆盖的。

有鉴于此特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种人名翻译方法、系统、设备及计算机可读存储介质，能正确转换成中文人名，极大的提高越南人名翻译的准确度，提高越南语的机器翻译水平。

第一方面，为解决上述技术问题，本发明采用技术方案的基本构思是：

一种人名翻译方法，所述方法包括以下步骤：

步骤1：根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式；

步骤2：根据收集的越南姓氏以及越南人名对应的英文字母，将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据；

步骤3：利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器；

步骤4：通过正则表达式找中文中以大写字母开头连续两个单词以上的姓名。

在上述任一方案中优选的实施例中，在所述根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式之前，还包括：

步骤5：收集越南姓氏数据；

步骤6：根据所述越南姓氏数据，获取所述越南姓氏的越南字母。

在上述任一方案中优选的实施例中，所述收集越南姓氏数据，还包括：

步骤51：收集越南人名中固定翻译的名字。

在上述任一方案中优选的实施例中，所述将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据，还包括：

将步骤2中找到的人名放入fixed_name查询是否为固定翻译，若是，则返回查找结果，则结束；

将步骤2中人名查询是否存在越南语中，若不存在，则结束。

在上述任一方案中优选的实施例中，所述利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器，包括：

利用性别识别分类器对步骤2中中查询到的越南语人名分类，并利用fixed_name对姓转换，last_man_name或者last_women_name进行名字转换，若所有越南词均转换成汉字返回转换后汉字，否则结束。

第二方面，一种人名翻译系统，包括：

第一获取模块，用于根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式；

转换模块，用于根据收集的越南姓氏以及越南人名对应的英文字母，将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据；

训练模块，用于利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器；

计算模块，用于通过正则表达式找中文中以大写字母开头连续两个单词以上的姓名。

在上述任一方案中优选的实施例中，所述的人名翻译系统，还包括：

收集模块，用于收集越南姓氏数据；

第二获取模块，用于根据所述越南姓氏数据，获取所述越南姓氏的越南字母。

分类模块，用于利用性别识别分类器对查询到的越南语人名分类，并利用fixed_name对姓转换，last_man_name或者last_women_name进行名字转换，若所有越南词均转换成汉字返回转换后汉字，否则结束。

第三方面，一种人名翻译设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现所述的人名翻译方法。

第四方面，一种计算机可读计算机可读存储介质，所述计算机可读存储介质中存储有程序，该程序被处理器执行时实现所述的人名翻译方法。

与现有技术相比，本申请实施例的人名翻译方法，通过利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器，能正确转换成中文人名，极大的提高越南人名翻译的准确度，提高越南语的机器翻译水平。

下面结合附图对本发明的具体实施方式作进一步详细的描述。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分，本领域技术人员应该理解的是，这些附图未必是按比例绘制的，在附图中：

图1为本申请实施例人名翻译方法的流程示意图。

图2为本申请实施例人名翻译系统示意图。

图3为本申请实施例人名翻译设备示意图。

需要说明的是，这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本申请下述实施例以人名翻译方法为例进行详细说明本申请的方案，但是此实施例并不能限制本申请保护范围。

实施例

如图1所示，本发明提供了一种人名翻译方法，所述方法包括以下步骤：

在本发明实施例所述的人名翻译方法中，通过利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器，能正确转换成中文人名，极大的提高越南人名翻译的准确度，提高越南语的机器翻译水平。越南语字母是基于拉丁字母演变而成的。越南语字母有9个变音符号，其中4个变音符号用来添加元音，另外5个符号表示声调(平声调(第1调)无声调符号)。越南语在一个元音上经常有两个变音符号，这也是越南语文字最明显的特征之一。另外，还有10个二合字母(CH、GH、GI、KH、NG、NH、PH、QU、TH、TR)、一个三合字母(NGH)。这些二合和三合字母以前被看成单独的字母，在旧词典中被分项列出。现在已不再作为独立字母排列，例如“CH”在现今的词典中被排在“CA”和“CO”之间。越南语本身并不使用“F”、“J”、“W”、“Z”，但会用在外来语中。“W”有时会在缩写中代替“∪’”。除此以外，在非正式写作中，“W”、“F”、“J”有时用以代替“QU”、“PH”、“GI”。

在本发明实施例所述的人名翻译方法中，拼写和发音的对应关系有时颇为复杂。有些情况下，同一字母可代表几个音，同一个音又可用多于一个字母表达。字母y和字母i在多数情况下等同，而且未有规则说明何时用哪个字母。即使该标准不适用于双元音、三元音和已被豁免的一些专有名字，部分人仍然把阮姓由

改成

Thúy(常见女性名字,即翠)变成Thúi(“臭”)。现在，这种改用i的做法只在科学刊物和教科书出现，多数人以及媒体仍用以往的拼法。字母大多源于葡萄牙语字母，其中二合字母“gh”和“gi”源自意大利语字母(如：ghetto、Giuseppe)，字母“c”、“k”、“qu”源自希腊字母和拉丁字母。受到汉语书写系统的影响，如该发音本来是一个汉字，会以空格分开书写。在过去，在多音节字中的音节会用连字号连着，但现在已不再如此；连字号只会在外来词中看到。一个音节包含最多3部分，由左至右顺序为：一个可选的起首辅音(或者没有)；一个必须的元音(韵腹)，在需要时有音调符号放在上面或下面；一个可选的韵尾，为以下几个之一：c,ch,m,n,ng,nh,p,t，或者没有。

在本发明实施例中，在所述根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式之前，还包括：

步骤5：收集越南姓氏数据，收集越南人名中固定翻译的名字；

在本发明实施例中，所述将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据，还包括：

将步骤2中人名查询是否存在越南语中，若不存在，则结束。

在本发明实施例中，所述利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器，包括：

例如，以line_vi:

ban Kinh

Thanh

line_zh:经济委员会主席Vu Hong Thanh为例子说明

(1)用Find_name方法找到Vu Hong Thanh；

(2)利用last_man_name和last_women_name查找Vu，Hong,Thanh对应的越南单词

(3)根据(2)中得出的越南语单词生成查找line_vi中的单词

然后可以查询到

(4)利用fixed_name查找

是否是固定翻译人名，若是则返回查找结果，若不是则利用gender_classification对(3)中得出的原文中人名进行性别分类；

(5)根据(4)中分类结果用f_name得出

作为姓氏的中文“武”，在last_man_name中查询出

Thanh，分别对应“鸿”，“清”；

(6)从(5)中得到的中文名字替换(1)中得到的Vu Hong Thanh，得到最后的结果经济委员会主席武鸿清并返回。

如图2所示，一种人名翻译系统，包括：

收集模块，用于收集越南姓氏数据；

图3为本发明实施例提供的一种人名翻译设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性人名翻译设备的框图。图3显示的人名翻译设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，人名翻译设备以通用计算设备的形式表现。人名翻译设备的组件可以包括但不限于：一个或者多个处理器或者处理单元，存储器，连接不同系统组件(包括存储器和处理单元)的总线。

总线表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

人名翻译设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被人名翻译设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器。人名翻译设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块的程序/实用工具，可以存储在例如存储器中，这样的程序模块包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。

人名翻译设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信，还可与一个或者多个使得用户能与该人名翻译设备交互的设备通信，和/或与使得该人名翻译设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，人名翻译设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器通过总线与人名翻译设备的其它模块通信。应当明白，尽管图中未示出，可以结合人名翻译设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元通过运行存储在存储器中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例提供的堆叠分裂的处理方法。也即：根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式；根据收集的越南姓氏以及越南人名对应的英文字母，将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据；利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器；通过正则表达式找中文中以大写字母开头连续两个单词以上的姓名。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，该程序被处理器执行时实现如本发明任意实施例所述的堆叠分裂的处理方法，该方法包括：

根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式；

根据收集的越南姓氏以及越南人名对应的英文字母，将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据；

利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器；

通过正则表达式找中文中以大写字母开头连续两个单词以上的姓名。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质，例如可以是，但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种人名翻译方法，所述方法包括以下步骤：

2.根据权利要求1所述的人名翻译方法，其特征在于，在所述根据越南姓氏的越南字母获取对应的英文字母，并将越南人名单词的越南字母转为英文字母形式之前，还包括：

步骤5：收集越南姓氏数据；

3.根据权利要求2所述的人名翻译方法，其特征在于：所述收集越南姓氏数据，还包括：

步骤51：收集越南人名中固定翻译的名字。

4.根据权利要求3所述的人名翻译方法，其特征在于：所述将越南姓氏以及越南人名，转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据，还包括：

将步骤2中人名查询是否存在越南语中，若不存在，则结束。

5.根据权利要求4所述的人名翻译方法，其特征在于：所述利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器，包括：

6.一种人名翻译系统，其特征在于：包括：

7.根据权利要求6所述的人名翻译系统，其特征在于：还包括：

收集模块，用于收集越南姓氏数据；

8.根据权利要求7所述的人名翻译系统，其特征在于：所述训练模块，包括：

9.一种人名翻译设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的人名翻译方法。

10.一种计算机可读计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序，该程序被处理器执行时实现如权利要求1-7中任一所述的人名翻译方法。