CN111626066A

CN111626066A - 一种基于大数据的段落翻译系统及其方法

Info

Publication number: CN111626066A
Application number: CN202010463822.9A
Authority: CN
Inventors: 辛钧意
Original assignee: 辛钧意
Current assignee: Chongqing Liuhua Network Technology Co.,Ltd.
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04
Anticipated expiration: 2040-05-27
Also published as: CN111626066B

Abstract

本发明公开了一种基于大数据的段落翻译系统及其方法，所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块，所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别，所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统，所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言，所述待翻译段落获取模块包括段落采集模块、关键词提取模块和段落归类模块，所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型。

Description

一种基于大数据的段落翻译系统及其方法

技术领域

本发明涉及大数据领域，具体是一种基于大数据的段落翻译系统及其方法。

背景技术

近年来，随着科学技术的发展，人工智能在不同地区、不同级别的智能大会以及其他科技成果交流场合大放异彩，成为人们讨论的热点话题，而人工智能翻译更是热点中的焦点但是人工智能翻译的产品。但是现有的人工智能翻译系统翻译质量层次不齐，从种类众多的翻译系统中选取最佳的翻译版本效率较低。

发明内容

本发明的目的在于提供一种基于大数据的段落翻译系统及其方法，以解决现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于大数据的段落翻译系统，所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块，所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别，所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统，所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言。

较优化地，所述待翻译段落获取模块包括段落采集模块、关键词提取模块、段落归类模块，所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型，所述关键词提取模块用于确定待翻译段落中的各个关键词以及每个关键词所属的行业类别，所述段落归类模块用于统计待翻译段落中的关键词所属最多的行业类别，将关键词所属最多的行业类别作为所述待翻译段落的行业类别。

较优化地，所述优选翻译系统选取模块包括句落划分模块、优选句落选取模块和优选系统选取模块，所述句落划分模块用于将待翻译段落划分成若干个待翻译句落，所述优选句落选取模块包括专业词汇采集模块、文献数据库搜索模块、句落稀有情况统计模块、难度情况统计模块和难度情况排序模块，所述专业词汇采集模块用于采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇，所述文献数据库搜索模块用于搜索统计专业词汇以及专业词汇的目标语言在语言类型为源语言的文献数据库中的出现情况，所述句落稀有情况统计模块根据文献数据库搜索模块的统计结果统计每个待翻译句落中的综合稀有指数，所述难度情况统计模块用于统计每个待翻译句落中的词汇情况以及每个待翻译句落中停顿情况，并结合每个待翻译句落中的综合稀有指数计算每个待翻译句落的难度指数，所述难度情况排序模块将待翻译句落按照难度指数从大到小的顺序排序，选取排序第一的待翻译句落为优选翻译句落；所述优选系统选取模块采集对优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译，根据人工翻译与各个翻译系统人工智能翻译的相似度选取优选翻译系统；所述最佳翻译目标语言选取模块包括目标语言相似度比较模块和目标语言排序模块，所述目标语言相似度比较模块用于比较其中一个优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度，并据此计算所选翻译系统的综合相似度，所述目标语言排序模块将所有优选翻译系统按照综合相似度从大到小的顺序排序，选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。

一种基于大数据的段落翻译方法，所述翻译方法包括以下步骤：

步骤S1：获取待翻译段落，确定所述待翻译段落的源语言、目标语言类型以及所述待翻译段落的所属行业类别；

步骤S2：根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统；

步骤S3：各个优选翻译系统分别将待翻译段落从源语言翻译成目标语言，比较各个优选翻译系统翻译的目标语言，并从中选取最佳翻译目标语言。

较优化地，所述步骤S1进一步包括：

确定待翻译段落中的各个关键词以及每个关键词所属的行业类别；

统计所述待翻译段落中的关键词所属最多的行业类别，将关键词所属最多的行业类别作为所述待翻译段落的行业类别。

较优化地，所述步骤S2包括：

步骤S21：将待翻译段落划分成若干个待翻译句落，根据多维数据从待翻译句落中选取优选翻译句落；

步骤S22：采集对所述优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译，比较所述人工翻译与所述各个翻译系统人工智能翻译的相似度，将相似度按照从大到小的顺序排序，选取排序前三名的翻译系统为优选翻译系统。

较优化地，所述步骤S21中将待翻译段落划分成若干个待翻译句落进一步包括：将相邻两个划分符号之间词汇划分为一个待翻译句落，其中，所述划分符号包括句号、问号和感叹号。

较优化地，所述步骤S3进一步包括：选取其中一个优选翻译系统为待评估优选翻译系统，分别比较待评估优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度，

则该待评估优选翻译系统的综合相似度K＝u1+u2,其中，u1为待评估优选翻译系统与其中一个优选翻译系统翻译出来的目标语言的相似度，u2为待评估优选翻译系统与另一个优选翻译系统翻译出来的目标语言的相似度，

计算所有优选翻译系统为待评估优选翻译系统时的综合相似度，并将所有优选翻译系统按照综合相似度从大到小的顺序排序，选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。

较优化地，所述步骤S21中根据多维数据从待翻译句落中选取优选翻译句落包括：

步骤S211：采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇，并确定待翻译段落中的词汇数量B_m；

步骤S212：在语言类型为源语言的文献数据库中搜索优选文献，其中，如果一篇文献中包含有某个专业词汇，那么该篇文献为该专业词汇的优选文献，

统计所有专业词汇的优选文献的篇数M以及每个专业词汇的优选文献篇数N，

在各个专业词汇的优选文献中筛选出包含出现专业词汇的目标语言的文献并统计相应的文献篇数P，

分别计算每个专业词汇的稀度指数

r＝0.4*N/M+0.6*P/N；

计算每个待翻译句落中的综合稀有指数

其中，j表示待翻译句落中专业词汇的个数，r_j表示待翻译句落中第i个专业词汇的稀有指数，t_i表示第i个专业词汇在待翻译段落中出现的频数，t_z表示所有专业词汇在待翻译段落中出现的频数之和；

步骤S213：统计每个待翻译句落中的词汇数量B_m、待翻译句落中的判别符号的个数D_m以及待翻译段落中判别符号的个数D_z，

分别计算每个待翻译句落的难度指数

M＝0.22*B_m/B_z+0.25*D_m/D_z+0.53*X，

其中，所述判别符号包括逗号、顿号、分号、冒号和破折号；

步骤S214：将待翻译句落按照难度指数从大到小的顺序排序，选取排序第一的待翻译句落为优选翻译句落。

与现有技术相比，本发明的有益效果是：本发明通过从待翻译的段落中选取翻译难度较高的句落来进行人工翻译和人工智能翻译系统翻译，接着比较人工翻译和人工智能翻译系统翻译的相似度，选取几个与人工翻译相似度较高的翻译系统翻译整个待翻译段落，最后再从完整的翻译版本中选取质量较高的翻译版本，在保证选取翻译版本质量的同时提高了选取翻译版本的效率；本发明还从句落的专业词汇稀有度情况、句落的词汇数量情况以及词汇的划分符号情况等多维角度来分析选取优选翻译句落，提高了所选取的优选翻译句落的合理性。

附图说明

图1为本发明一种基于大数据的段落翻译系统的模块示意图；

图2为本发明一种基于大数据的段落翻译方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～2，本发明实施例中，一种基于大数据的段落翻译系统，所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块，所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别，所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统，所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言。

所述待翻译段落获取模块包括段落采集模块、关键词提取模块、段落归类模块，所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型，所述关键词提取模块用于确定待翻译段落中的各个关键词以及每个关键词所属的行业类别，所述段落归类模块用于统计待翻译段落中的关键词所属最多的行业类别，将关键词所属最多的行业类别作为所述待翻译段落的行业类别。

所述优选翻译系统选取模块包括句落划分模块、优选句落选取模块和优选系统选取模块，所述句落划分模块用于将待翻译段落划分成若干个待翻译句落，所述优选句落选取模块包括专业词汇采集模块、文献数据库搜索模块、句落稀有情况统计模块、难度情况统计模块和难度情况排序模块，所述专业词汇采集模块用于采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇，所述文献数据库搜索模块用于搜索统计专业词汇以及专业词汇的目标语言在语言类型为源语言的文献数据库中的出现情况，所述句落稀有情况统计模块根据文献数据库搜索模块的统计结果统计每个待翻译句落中的综合稀有指数，所述难度情况统计模块用于统计每个待翻译句落中的词汇情况以及每个待翻译句落中停顿情况，并结合每个待翻译句落中的综合稀有指数计算每个待翻译句落的难度指数，所述难度情况排序模块将待翻译句落按照难度指数从大到小的顺序排序，选取排序第一的待翻译句落为优选翻译句落；所述优选系统选取模块采集对优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译，根据人工翻译与各个翻译系统人工智能翻译的相似度选取优选翻译系统；所述最佳翻译目标语言选取模块包括目标语言相似度比较模块和目标语言排序模块，所述目标语言相似度比较模块用于比较其中一个优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度，并据此计算所选翻译系统的综合相似度，所述目标语言排序模块将所有优选翻译系统按照综合相似度从大到小的顺序排序，选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。

步骤S1：获取待翻译段落，确定所述待翻译段落的源语言、目标语言类型以及所述待翻译段落的所属行业类别：

统计所述待翻译段落中的关键词所属最多的行业类别，将关键词所属最多的行业类别作为所述待翻译段落的行业类别；

步骤S2：根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统：

步骤S21：将待翻译段落划分成若干个待翻译句落，根据多维数据从待翻译句落中选取优选翻译句落：

将待翻译段落划分成若干个待翻译句落进一步包括：将相邻两个划分符号之间词汇划分为一个待翻译句落，其中，所述划分符号包括句号、问号和感叹号；

根据多维数据从待翻译句落中选取优选翻译句落包括：

分别计算每个专业词汇的稀度指数

r＝0.4*N/M+0.6*P/N；

计算每个待翻译句落中的综合稀有指数

分别计算每个待翻译句落的难度指数

M＝0.22*B_m/B_z+0.25*D_m/D_z+0.53*X，

步骤S3：各个优选翻译系统分别将待翻译段落从源语言翻译成目标语言，选取其中一个优选翻译系统为待评估优选翻译系统，分别比较待评估优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度，

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于大数据的段落翻译系统，其特征在于：所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块，所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别，所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统，所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言。

2.根据权利要求1所述的一种基于大数据的段落翻译系统，其特征在于：所述待翻译段落获取模块包括段落采集模块、关键词提取模块和段落归类模块，所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型，所述关键词提取模块用于确定待翻译段落中的各个关键词以及每个关键词所属的行业类别，所述段落归类模块用于统计待翻译段落中的关键词所属最多的行业类别，将关键词所属最多的行业类别作为所述待翻译段落的行业类别。

3.根据权利要求2所述的一种基于大数据的段落翻译系统，其特征在于：所述优选翻译系统选取模块包括句落划分模块、优选句落选取模块和优选系统选取模块，所述句落划分模块用于将待翻译段落划分成若干个待翻译句落，所述优选句落选取模块包括专业词汇采集模块、文献数据库搜索模块、句落稀有情况统计模块、难度情况统计模块和难度情况排序模块，所述专业词汇采集模块用于采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇，所述文献数据库搜索模块用于搜索统计专业词汇以及专业词汇的目标语言在语言类型为源语言的文献数据库中的出现情况，所述句落稀有情况统计模块根据文献数据库搜索模块的统计结果统计每个待翻译句落中的综合稀有指数，所述难度情况统计模块用于统计每个待翻译句落中的词汇情况以及每个待翻译句落中停顿情况，并结合每个待翻译句落中的综合稀有指数计算每个待翻译句落的难度指数，所述难度情况排序模块将待翻译句落按照难度指数从大到小的顺序排序，选取排序第一的待翻译句落为优选翻译句落；所述优选系统选取模块采集对优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译，根据人工翻译与各个翻译系统人工智能翻译的相似度选取优选翻译系统。

4.根据权利要求3所述的一种基于大数据的段落翻译系统，其特征在于：所述最佳翻译目标语言选取模块包括目标语言相似度比较模块和目标语言排序模块，所述目标语言相似度比较模块用于比较其中一个优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度，并据此计算所选翻译系统的综合相似度，所述目标语言排序模块将所有优选翻译系统按照综合相似度从大到小的顺序排序，选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。

5.一种基于大数据的段落翻译方法，其特征在于：所述翻译方法包括以下步骤：

6.根据权利要求5所述的一种基于大数据的段落翻译方法，其特征在于：所述步骤S1进一步包括：

7.根据权利要求5所述的一种基于大数据的段落翻译方法，其特征在于：所述步骤S2包括：

8.根据权利要求7所述的一种基于大数据的段落翻译方法，其特征在于：所述步骤S21中将待翻译段落划分成若干个待翻译句落进一步包括：将相邻两个划分符号之间词汇划分为一个待翻译句落，其中，所述划分符号包括句号、问号和感叹号。

9.根据权利要求7所述的一种基于大数据的段落翻译方法，其特征在于：所述步骤S3进一步包括：

选取其中一个优选翻译系统为待评估优选翻译系统，分别比较待评估优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度，

10.根据权利要求7所述的一种基于大数据的段落翻译方法，其特征在于：所述步骤S21中根据多维数据从待翻译句落中选取优选翻译句落包括：

分别计算每个专业词汇的稀度指数

r＝0.4*N/M+0.6*P/N；

计算每个待翻译句落中的综合稀有指数

分别计算每个待翻译句落的难度指数

M＝0.22*B_m/B_z+0.25*D_m/D_z+0.53*X，