CN107861953A

CN107861953A - 一种名称自动翻译系统及方法

Info

Publication number: CN107861953A
Application number: CN201710996791.1A
Authority: CN
Inventors: 贾仰理; 张振领; 克里斯托弗·洛奇; 朱利安·洛奇; 位通
Original assignee: Liaocheng University
Current assignee: Shenzhen Senyiyang Technology Co ltd
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2018-03-30
Anticipated expiration: 2037-10-19
Also published as: CN107861953B

Abstract

本发明提供了一种名称自动翻译系统及方法，该系统包括：数据预处理模块、拼音汉字映射库、中英词汇映射库、特定领域与情感字词库和基于多策略的自动翻译模块；所述数据预处理模块接收用户输入的数据并将数据发送给基于多策略的自动翻译模块，所述数据包括名称和该名称对应物品所属的领域信息和用户倾向；所述用户倾向包括三个维度的权重值：语音权重值、语义权重值、特定领域与情感权重值；所述拼音汉字映射库存放拼音汉字之间的关联关系；所述中英词汇映射库存放中英词汇之间的关联关系；所述特定领域与情感字词库存放特定领域的字和词汇；所述基于多策略的自动翻译模块实现基于语音、语义与领域情感策略的名称自动翻译、排序与寻优。

Description

一种名称自动翻译系统及方法

技术领域

本发明属于自然语言处理(自动翻译)领域，具体涉及一种名称自动翻译系统及方法。

背景技术

一个翻译质量高的名称，可以给人以美妙的感受，而一个不合时宜的翻译名称，则会让人望而却步。同一个名称在不同的语言习惯和文化背景中，其涵义也许会发生完全不同的理解。全球众多的国家拥有不同的文化，其语言体系也大不相同，同一个名称在不同的语言习惯和文化背景中，其涵义也许会发生完全不同的理解。因此对名称的翻译进行研究，具有十分重要的意义。

目前主流的名称翻译大多基于手工方式，采取音译、意译。音译直接、简易、又具有异国情调，特别是在中国的饮食文化和通信方面尤为突出，如:pudding(布丁)、pizza(比萨饼)、toast(土司面包)、chocolate(巧克力)、hamburger(汉堡包)、salad(沙拉)等等：另外，一些名称的翻译考虑到了感情色彩，很多都是使用带有感情色彩的美好祝愿的词来进行命名的，在汉语中，用诸如帅、酷、俊、壮等来形容男性；用美、靓、倩、兰、芳、柔等词形容女性。而英文中也有不少这样的例子，如用beautiful、lovely、natural、strong、healthy等词作企业产品的名称。这些带有浓烈情感色彩的形容词一般都能诱发消费者的积极消费行为，提高企业营销的效率。最具代表性就是化妆品的名称，这类名称经常会使用这样的译名，如雅芳(Avon)、雅倩(Arch)、Olay(玉兰油)等知名的化妆品品牌，这些品牌在原来的语言环境中本来只是很平淡的一个词，并没有太多的含义，但在进行中文翻译时，由于考虑到用户群的特点，使用了受女性消费者喜欢的雅、兰等描绘女性美的译名，从而显得很有意义，给人一种典雅、洁丽的美感。这种聪明地借助特定词语的翻译法，无疑极大地促进了产品的营销力度，从而让消费者很容易因为名称而对产品产生好感，有助于提高企业产品的营销效率。类似的例子还有宝马(BMW)、Goldlion(金利来)等品牌。

通过这些正反两个方面的例子可以看出，名称的翻译方法亟需改进，其固有特点需要我们在翻译中综合考虑语音、语义、特定领域与情感、文化等因素，但各国语言词汇库庞大，如何综合考虑多种因素对词汇库进行筛选是一个庞大的工作。

因此，手工方式虽然可以实现一些名称的翻译，但这种传统的人工翻译手段往往速度非常慢，并且翻译质量很难保证。一些如百度翻译、谷歌翻译等的自动翻译软件，注重意译，不能很好的用于名称的翻译。为了改变传统翻译行业的生产方式，提高译员的翻译效率和翻译质量，名称翻译行业需要一种辅助翻译系统，能够综合考虑中英文语音、语义和特定领域、情感等策略，借助计算机算法自动对中英语言词汇库进行筛选出一个规模相对很小的候选集合，并进行排序，从而大大提高名称翻译的效率和质量。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种名称自动翻译系统及方法，根据名称自身固有的客观特点和中英语言特点，综合语音、语义、特定领域与情感等多种翻译策略，根据用户需求自动为中英名称互译提供排序后的备选名称，提高翻译质量和效率。

本发明是通过以下技术方案实现的：

一种名称自动翻译系统，包括：数据预处理模块、拼音汉字映射库、中英词汇映射库、特定领域与情感字词库和基于多策略的自动翻译模块；

所述数据预处理模块接收用户输入的数据并将数据发送给基于多策略的自动翻译模块，所述数据包括名称和该名称对应物品所属的领域信息和用户倾向；所述用户倾向包括三个维度的权重值：语音权重值、语义权重值、特定领域与情感权重值；

所述拼音汉字映射库存放拼音汉字之间的关联关系；

所述中英词汇映射库存放中英词汇之间的关联关系；

所述特定领域与情感字词库存放特定领域的字和词汇；

所述基于多策略的自动翻译模块对数据预处理模块发送来的数据进行处理，利用所述拼音汉字映射库、中英词汇映射库、特定领域与情感字词库以及用户输入的语音权重值、语义权重值、特定领域与情感权重值，将接收到的名称根据其意义、处理后的音节和特定领域给出该名称对应的候选词库。

所述数据预处理模块对语音进行音节的拆分，并根据语种的发音特点推荐相似音节，然后将音节的拆分和相似音节发送给名称多策略自动翻译模块；

所述特定领域与情感字词库具体如下：将所有字词按特定领域分别存放，并将每一特定领域的字词按照情感强烈程度进行分级，对每个分级中的字词分别赋予领域与情感值。

所述基于多策略的自动翻译模块包括三个子模块：语音翻译子模块、语义翻译子模块、特定领域与情感翻译子模块，每个子模块均能够产生备选词库；语义翻译模块、语音翻译模块或特定领域与情感策略翻译模块分别与用户输入的语音权重值、语义权重值、特定领域与情感权重值一一对应，当对应的权重值为非零时，选择该权重值对应的子模块。

所述语音翻译子模块进行语音翻译：在拼音汉字映射库中分别对音节的拆分和相似音节进行搜索，根据搜索到的汉字或词或单词与原音节的相似程度，采用两者的Levensthein距离值作为语音距离值，如果一个名称拆出多个音节，则将所有音节进行组合，各音节的距离值的数学平均值即为整个翻译词与原词的语音距离值。

所述语义翻译子模块进行语义翻译：在中英词汇映射库中查找与原名称词义接近的词并进行跨语言语义距离计算，得到其与原词的语义距离值。

所述特定领域与情感翻译子模块进行情感与领域词搜索：在特定领域与情感字词库中查找该特定领域所对应的所有一级和二级字词，将它们及它们的排列组合作为特定领域与情感候选词库。

利用上述系统实现的翻译方法，包括以下步骤：

a)根据用户输入的语音权重值、语义权重值、特定领域与情感权重值进行候选语种词汇搜索，并获得查找到的词汇的语音距离值、语义距离值和特定领域与情感值。

b)根据语音权重值、语义权重值、特定领域与情感权重值、语音距离值、语义距离值和特定领域与情感值，获得各个候选词的推荐优先度。

其中步骤a)包括以下子步骤：

(1)开始；

(2)获得用户输入的原词、特定领域和语音权重值、语义权重值、特定领域与情感权重值；

(3)如果语音权重值非零，对原词进行音节分解，并搜索各音节对应的候选字、词，并入语音候选词库，并计算其与原词的语音距离值，转入步骤b)；

(4)如果语义权重值非零，对原词意义相近的候选字、词进行搜索，并入语义候选词库，并计算这些候选字词与原词的语义距离值，转入步骤b)；

(5)如果特定领域与情感权重值非零，对原词领域情感词进行搜索，并入特定领域与情感候选词库，并根据字词所标注级别获得这些候选字词的领域与情感值。

其中步骤b)步骤如下：

根据用户输入的语音权重值、语义权重值、特定领域与情感权重值以及步骤a)中的步骤(3)、(4)、(5)计算得到的语音距离值、语义距离值和特定领域与情感值，计算与原词的总距离，并按照总距离进行排序即得到候选词库，在候选词库中，总距离越小的候选词的推荐优先度越高。

所述计算总距离是利用下面的公式实现的：

其中，d为总距离，w_p，w_c，w_s分别为语音，语义和领域与策略权重值，d_p，d_c，d_s分别为语音距离、语义距离和领域与情感值，并且满足：

0≤w_p≤1,0≤w_s≤1,0≤w_c≤1和w_p+w_s+w_c＝1。

与现有技术相比，本发明的有益效果是：

(1)本发明借助拼音汉字映射库、中英词汇映射库、特定领域与情感词汇库，综合考虑语音、语义、特定领域与情感策略，为全面的名称译名寻优提供了基础。

(2)本发明实现了翻译名称的自动搜索、距离计算和推荐优先度计算方法，改变了人工翻译的片面、繁琐、工作量巨大的缺点，提供了自动化处理手段。

附图说明

图1为本发明所述名称自动翻译系统的组成结构图。

图2为名称多策略自动翻译模块的工作流程图。

图3为语音翻译子模块的工作流程图。

图4为语义翻译子模块的工作流程图。

图5为特定领域与情感策略翻译子模块的工作流程图。

图6为涉及两种或三种翻译策略的组合与交叉计算流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明根据名称自身固有的客观特点与计算机的高速运算特点而提出一种基于多重策略的名称自动翻译系统，也涉及到该自动翻译系统所采用的算法和对应数据库。

本发明所述名称自动翻译与手工翻译方式相比，能够实现基于语音、语义、特定领域与情感三个维度上自动搜索并筛选和推荐候选词，筛选更全面并有助于发现最优选项，为名称的翻译提供服务。

与一般翻译系统相比，该系统针对名称的翻译，除了可以进行语义的翻译，还根据名称系统的具体特点综合考虑语音与特定领域与情感，实现更全、更准、更优的翻译。

如图1所示，本发明的名称自动翻译系统，包括：数据预处理模块，拼音汉字映射库、中英词汇映射库、特定领域与情感词汇库，基于多策略的自动翻译模块。执行翻译功能的流程根据用户倾向(权重值)与名称对应物品所属的特定领域，进行一种或多种翻译子模块的候选字词搜索，对距离和领域情感值进行计算，综合分析与优化排序，输出备选结果。

其中，数据预处理模块，用于接收用户输入数据，所述数据具体包括翻译原名称和该名称对应物品所属领域信息和用户倾向；所述用户倾向包括三个维度的权重值：语音权重值、语义权重值、特定领域与情感权重值；在语音权重值非零的情况下，进行音节的拆分，并根据语种的发音特点推荐相似音节。将这些数据传递给名称多策略自动翻译模块。在具体实现上，这部分功能也可以并入到自动翻译模块。

拼音汉字映射库，用于存放拼音汉字之间的关联关系；

中英词汇映射库，用于存放中英词汇之间的关联关系；

特定领域与情感字词库，用于存放特定领域的字和词汇。

特定领域与情感字词库的设计方案为：所有字词按领域分别存放，每一领域的字词按照情感强烈程度标注为4级。若字词为该领域核心正面描述字词，则标注为1级，二级字词为该领域一般正面描述字词，三级字词为该领域一般中性字词，四级字词为该领域负面字词。该分级字词库的建立可采取半自动化方式建立，例如，首先使用Word2Vec等工具对领域语料库的字词进行向量化，然后可以使用Positive和Negative等属性对积极情感字词和消极情感字词进行筛选，提供初步的积极或消极情感候选字词。最终的分级应由语言学专家或大众人工进行判断和归类，可以采取专家多人打分取平均或大众网评的方式进行。为方便计算，可以对每个分级中的字词赋领域和情感值，例如一级字词情感策略值为5，二级字词为10等。这样每个字词都有其领域和情感值，该值必要时与语音距离，语义距离做归一化处理。

基于多策略的自动翻译模块：对数据预处理模块传递的原名称、特定领域、用户倾向进行处理，借助拼音汉字映射库、中英词汇映射库、特定领域与情感词汇库以及用户输入的语音、语义、特定领域与情感三个维度的权重值，将接收到的名称根据其意义、处理后的音节和特定领域给出该名称对应的推荐翻译名称。进一步：该自动翻译模块分为语音翻译子模块、语义翻译子模块、特定领域与情感翻译子模块。根据用户输入的语音、语义、特定领域与情感三个维度的权重可以进行独立或综合的翻译。

自动翻译模块的工作流程如图2所示，

根据用户输入的该项权重值是否为零，选择语义翻译模块、语音翻译模块或特定领域与情感策略翻译模块中的部分或全部。各部分会产生备选词库，根据这些候选词与原名称的距离和它们之间的交叉情况，重新计算距离，并根据距离进行排序，产生备选词库。

语音翻译部分如图3所示。当语音权重值非零时，进行语音翻译。对数据预处理产生的音节分解和联想的音节分别进行搜索，搜索时需要调用拼音汉字映射库。当将英语翻译为汉语时，该库的结构如表1所示：

表1

音节ID、音节具有一一对应关系，但一个音节ID(音节)可能对应多个汉字。这些汉字要有对应的ID。

音节ID即音节身份标识号码：用于定义音节的唯一标识；

音节：音节本身；

对应汉字或词：为该音节对应的汉字或词。每个字或词具有自己的ID，即对应汉字或词ID。

根据搜索到的汉字/词与原音节的相似程度，可以给出一个度量值，该度量值可以由计算两者的Levensthein距离值得出。如果一个名称拆出多个音节，可以将所有音节进行组合，各音节距离值的平均为整个翻译词与原词的距离值。

当将汉语名称翻译为英语时，该库的结构如表2所示：

音节ID
	音节
单词ID1
	单词1
单词ID2
	单词2
……

表2

同样，汉字根据其拼音可以拆分出一个或多个音节，每个音节有一个唯一的ID，该ID与音节具有一一对应关系，但一个音节ID(音节)或音节组合可能对应多个单词。这些单词也要有对应的ID。

音节ID即音节身份标识号码：用于定义音节的唯一标识；

音节：音节本身；

单词：为该音节对应的单词。每个单词具有自己的ID，即对应单词ID。

根据搜索到的单词与原音节的相似程度，可以给出一个度量值，该度量值同样可以由两者的Levensthein距离值给出。如果一个名称拆出多个音节，可以将所有音节进行组合，各音节与原词对应音节Levensthein距离值的数学平均值为整个翻译词与原词的距离值。

如图4所示，当语义权重值非零时，进行语义翻译。调用词典，查找与原名称词义接近的词并计算与原词的距离。跨语言语义距离计算方案为：基于Word2Vec算法和两种语言的语料库，分别计算得到源语言与目标语言的词向量与各自语言的向量空间，根据词典单词的对应关系，计算两个向量空间的转换矩阵，从而建立一个跨语言的向量空间及原词与目标词在此空间上的词向量。基于两个词的词向量，可以计算它们的余弦距离。查找需要调用中英词汇映射库。该库可以包含多种语言对应关系的数据表以实现多个语言之间的映射。

该库由多个数据表组成，当进行汉语名称到其他语言名称翻译时用到的数据表结构如表3所示：

中文词ID
	英文单词1ID
英文单词2ID
	……

表3

一个中文词可能映射多个英文单词。基于跨语言语义距离计算方案，可以分别计算这些词语与原中文词之间的距离。

当进行其他名称到汉语名称翻译时用到的数据表结构如下表4所示：

表4

一个英文单词可能映射汉语的多个字词。基于跨语言距离计算方案，同样可以分别计算这些字词与原单词之间的距离。

当进行其他两种语言的名称进行翻译时，调用该相应语言单词映射表即可。

当遇到本身没有含义的词时，这时不进行语义翻译。

如图5所示，当情感策略权重值非零时，进行情感与领域词搜索。需要调用情感策略字词库。该库的结构如表5所示：

字/词ID
	字/词领域ID
字/词类别

表5

当单独进行情感策略搜索时，可根据特定领域，查找该领域ID所对应的所有一级和二级字词，将它们及它们的简单排列组合作为候选词。

如图6所示，当用户输入的语音、语义和特定领域与情感的权重值有两种或三种值非零时，需要考虑两种或三种翻译策略的组合与交叉计算。

例如，当语音、语义、特定领域与情感对应权重值都非零，需要综合进行语音、语义、特定领域与情感三种策略的翻译。这种情况下，其技术方案为：首先，分别对名称进行语音、语义、特定领域与情感的翻译，得到对应的语音候选词库、语义候选词库、特定领域与情感候选词库，然后再对这些所有的候选词分别计算其与原名称的语音距离，语义距离和特定领域与情感值，在此基础上可以计算出其与原名称的总距离；语音距离可由计算候选词与原词音节的Levensthein距离值得到，语义距离根据跨语言语义距离计算方案得到，特定领域与情感值可以根据候选词所属的领域与情感的类别计算得到。在得到语音距离、语义距离和领域与情感值的基础上可以计算出其与原名称的总距离，计算公式为：

其中，w_p，w_c，w_s分别为语音，语义和领域与策略权重值，d_p，d_c，d_s分别为语音距离、语义距离和领域与情感值。并且满足：

0≤w_p≤1,0≤w_s≤1,0≤w_c≤1和w_p+w_s+w_c＝1

对于所有候选词，可以按总距离进行排序。

特殊情况，当只有两个选项的权重值非零时，例如，当语音、特定领域与情感对应权重值非零，而语义的权重值为零时，需要进行语音、领域与情感两种策略的翻译。这种情况下，其技术方案为：首先，基于语音、领域与情感策略分别对名称进行翻译，得到对应的语音候选词库和领域情感候选词，然后对这两类候选词库里面的词分别计算其与原名称的语音距离，该距离可由计算两者音节的Levensthein距离值得到，同时，可以根据候选词所属的领域与情感的类别计算其领域与情感值，在得到语音距离和领域与情感值的基础上可以计算出其与原名称的总距离，计算公式简化为：

其中，w_p，w_s分别为语音和领域与策略权重值，d_p，d_s分别为语音距离和领域与情感值。并且满足：

0≤w_p≤1,0≤w_s≤1,和w_p+w_s＝1。

利用上述系统实现的翻译方法，包括以下步骤：

a)根据用户输入的三个维度的权重进行候选语种(中文/英文)词汇搜索，并对查找到的词汇给出领域情感值及其与原名称的语音、语义距离值。

b)根据权重、距离值和领域情感值，计算各个候选词的推荐优先度。

其中步骤a)包括以下子步骤：

(1)开始；

(2)获得用户输入的原词、特定领域和语音、语义、特定领域与情感三维权重值；

(4)如果语义权重值非零，对原词意义相近的候选字、词进行搜索，并入语义候选词库，并计算这些候选字词与原词的距离值，转入步骤b)；

(5)如果特定领域与情感策略维度权重值非零，对原词领域情感词进行搜索，并入特定领域与情感策略候选词库，并根据字词所标注级别(一级还是二级)，计算这些候选字词情感度值。

其中步骤b)步骤如下：

根据用户输入的语音、语义、特定领域与情感三维权重值以及步骤a)中的步骤(3)、(4)、(5)计算的结果，计算总距离，并按照总距离排序，确定一定数目最终候选词(例如20)及这些词的推荐优先度。推荐优先度可由总距离的定量值转换为定性值，例如强烈推荐，优先推荐，推荐。也可以根据(3)(4)(5)计算的结果分别给出语音翻译策略优先(语义/情感翻译策略优先类似)的推荐优先度。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形(例如，中法语言互译，英法语言互译等)，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种名称自动翻译系统，其特征在于：所述名称自动翻译系统包括：数据预处理模块、拼音汉字映射库、中英词汇映射库、特定领域与情感字词库和基于多策略的自动翻译模块；

所述拼音汉字映射库存放拼音汉字之间的关联关系；

所述中英词汇映射库存放中英词汇之间的关联关系；

所述特定领域与情感字词库存放特定领域的字和词汇；

2.根据权利要求1所述的名称自动翻译系统，其特征在于：所述数据预处理模块对语音进行音节的拆分，并根据语种的发音特点推荐相似音节，然后将音节的拆分和相似音节发送给名称多策略自动翻译模块。

3.根据权利要求2所述的名称自动翻译系统，其特征在于：所述特定领域与情感字词库具体如下：将所有字词按特定领域分别存放，并将每一特定领域的字词按照情感强烈程度进行分级，对每个分级中的字词分别赋予领域与情感值。

4.根据权利要求3所述的名称自动翻译系统，其特征在于：所述基于多策略的自动翻译模块包括三个子模块：语音翻译子模块、语义翻译子模块、特定领域与情感翻译子模块，每个子模块均能够产生备选词库；语义翻译模块、语音翻译模块或特定领域与情感策略翻译模块分别与用户输入的语音权重值、语义权重值、特定领域与情感权重值一一对应，当对应的权重值为非零时，选择该权重值对应的子模块。

5.根据权利要求4所述的名称自动翻译系统，其特征在于：所述语音翻译子模块进行语音翻译：在拼音汉字映射库中分别对音节的拆分和相似音节进行搜索，根据搜索到的汉字或词或单词与原音节的相似程度，采用两者的Levensthein距离值作为语音距离值，如果一个名称拆出多个音节，则将所有音节进行组合，各音节的距离值的数学平均值即为整个翻译词与原词的语音距离值；

所述语义翻译子模块进行语义翻译：在中英词汇映射库中查找与原名称词义接近的词并进行跨语言语义距离计算，得到其与原词的语义距离值；

6.一种利用权利要求1至5所述的名称自动翻译系统实现的翻译方法，其特征在于：所述方法包括以下步骤：

7.根据权利要求6所述的方法，其特征在于：所述步骤a)包括以下子步骤：

(1)开始；

8.根据权利要求7所述的方法，其特征在于：所述步骤b)如下：

根据用户输入的语音权重值、语义权重值、特定领域与情感权重值以及步骤a)中的步骤(3)、(4)、(5)计算得到的语音距离值、语义距离值和特定领域与情感值，计算总距离，并按照总距离进行排序即得到候选词库，在候选词库中，总距离越小的候选词的推荐优先度越高。

9.根据权利要求8所述的方法，其特征在于：所述计算总距离是利用下面的公式实现的：

0≤w_p≤1,0≤w_s≤1,0≤w_c≤1和

w_p+w_s+w_c＝1。