CN107665193A

CN107665193A - 用于翻译的大样本获取方法

Info

Publication number: CN107665193A
Application number: CN201710860889.4A
Authority: CN
Inventors: 曾传德
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-02-06

Abstract

本发明公开了用于翻译的大样本获取方法，包括以下步骤：设置翻译数据库，所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文；需要采集翻译样本时，选取样本原文，并在翻译数据库中选取与样本原文最相似的翻译原文；将样本原文和与将同一应征者完成的样本译文和翻译译文同时提取出来，并将翻译译文与翻译数据库中的翻译译文进行对比；如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值，则将该应征者完成的样本译文和原文样本放入翻译数据库。本发明用于翻译的大样本获取方法，由于的翻译原文与样本原文相似，则可以认为该应征者可以有效的完成样本原文的翻译工作，从而保证了翻译样本的质量，非常适合机器学习。

Description

用于翻译的大样本获取方法

技术领域

本发明涉及计算机技术领域，具体涉及用于翻译的大样本获取方法。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。同时，机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。

虽然机器翻译通过机器学习可以达到很好的翻译水平，但是机器学习需要大量的翻译样本，获取大量的翻译样本需要很高的人力成本，并且获取的翻译样本质量参差不齐，不适合机器学习。

发明内容

本发明所要解决的技术问题是现有的机器学习需要大量的翻译样本，获取大量的翻译样本需要很高的人力成本，并且获取的翻译样本质量参差不齐，不适合机器学习，目的在于提供用于翻译的大样本获取方法，解决上述问题。

本发明通过下述技术方案实现：

用于翻译的大样本获取方法，包括以下步骤：S1：设置翻译数据库，所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文；S2：需要采集翻译样本时，选取样本原文，并在翻译数据库中选取与样本原文最相似的翻译原文；S3：将样本原文和与S2选出的翻译原文公布至公开平台，并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文；同一应征者必须完成一份样本译文和翻译译文；S4：将同一应征者完成的样本译文和翻译译文同时提取出来，并将翻译译文与翻译数据库中的翻译译文进行对比；如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值，则将该应征者完成的样本译文和原文样本放入翻译数据库。

现有技术中，虽然机器翻译通过机器学习可以达到很好的翻译水平，但是机器学习需要大量的翻译样本，获取大量的翻译样本需要很高的人力成本，并且获取的翻译样本质量参差不齐，不适合机器学习。本发明应用时，先设置翻译数据库，所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文，需要采集翻译样本时，选取样本原文，并在翻译数据库中选取与样本原文最相似的翻译原文，然后将样本原文和与S2选出的翻译原文公布至公开平台，并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文；同一应征者必须完成一份样本译文和翻译译文，通过公开平台上的应征者提供样本原文对应的译文，从而降低成本，而将同一应征者完成的样本译文和翻译译文同时提取出来，并将翻译译文与翻译数据库中的翻译译文进行对比；如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值，则将该应征者完成的样本译文和原文样本放入翻译数据库。当应征者完成的翻译译文与翻译数据库中的翻译译文的相似时，由于的翻译原文与样本原文相似，则可以认为该应征者可以有效的完成样本原文的翻译工作，从而保证了翻译样本的质量，非常适合机器学习。

进一步的，步骤S2包括以下子步骤：解析样本原文和翻译原文的句法树，并得出样本原文和翻译原文的句法树之间的纳真值TP，误报值FP，去真值FN；根据下式得出样本原文和翻译原文的相似值，相似值最大的翻译原文为与样本原文最相似的翻译原文；上文所述TP为纳真值，FP为误报值，FN为去真值，R为召回率，P为结构准确率，F为相似值。

本发明应用时，通过这种方式来分析相似度，可以有效的分析出最相似的翻译原文，从而提高了样本译文获取的质量。

进一步的，本发明还包括以下步骤：S5：对翻译数据库中的翻译原文和与翻译译文进行机器学习。

进一步的，步骤S4还包括以下子步骤：如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于通过阈值，且大于封禁阈值，则再次发送样本原文和翻译原文给该应征者。

进一步的，步骤S4还包括以下子步骤：如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于封禁阈值，则将该应征者封禁。

本发明应用时，将相似度小于封禁阈值的应征者可以视为不具备样本原文翻译的能力，从而将其封禁，提高了样本译文获取的质量。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明用于翻译的大样本获取方法，由于的翻译原文与样本原文相似，则可以认为该应征者可以有效的完成样本原文的翻译工作，从而保证了翻译样本的质量，非常适合机器学习。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

本发明用于翻译的大样本获取方法，包括以下步骤：S1：设置翻译数据库，所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文；S2：需要采集翻译样本时，选取样本原文，并在翻译数据库中选取与样本原文最相似的翻译原文；S3：将样本原文和与S2选出的翻译原文公布至公开平台，并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文；同一应征者必须完成一份样本译文和翻译译文；S4：将同一应征者完成的样本译文和翻译译文同时提取出来，并将翻译译文与翻译数据库中的翻译译文进行对比；如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值，则将该应征者完成的样本译文和原文样本放入翻译数据库。步骤S2包括以下子步骤：解析样本原文和翻译原文的句法树，并得出样本原文和翻译原文的句法树之间的纳真值TP，误报值FP，去真值FN；根据下式得出样本原文和翻译原文的相似值，相似值最大的翻译原文为与样本原文最相似的翻译原文；上文所述TP为纳真值，FP为误报值，FN为去真值，R为召回率，P为结构准确率，F为相似值。本发明还包括以下步骤：S5：对翻译数据库中的翻译原文和与翻译译文进行机器学习。步骤S4还包括以下子步骤：如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于通过阈值，且大于封禁阈值，则再次发送样本原文和翻译原文给该应征者。步骤S4还包括以下子步骤：如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于封禁阈值，则将该应征者封禁。

本实施例实施时，先设置翻译数据库，所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文，需要采集翻译样本时，选取样本原文，并在翻译数据库中选取与样本原文最相似的翻译原文，然后将样本原文和与S2选出的翻译原文公布至公开平台，并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文；同一应征者必须完成一份样本译文和翻译译文，通过公开平台上的应征者提供样本原文对应的译文，从而降低成本，而将同一应征者完成的样本译文和翻译译文同时提取出来，并将翻译译文与翻译数据库中的翻译译文进行对比；如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值，则将该应征者完成的样本译文和原文样本放入翻译数据库。当应征者完成的翻译译文与翻译数据库中的翻译译文的相似时，由于的翻译原文与样本原文相似，则可以认为该应征者可以有效的完成样本原文的翻译工作，从而保证了翻译样本的质量，非常适合机器学习。通过这种方式来分析相似度，可以有效的分析出最相似的翻译原文，从而提高了样本译文获取的质量。将相似度小于封禁阈值的应征者可以视为不具备样本原文翻译的能力，从而将其封禁，提高了样本译文获取的质量。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.用于翻译的大样本获取方法，其特征在于，包括以下步骤：

S1：设置翻译数据库，所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文；

S2：需要采集翻译样本时，选取样本原文，并在翻译数据库中选取与样本原文最相似的翻译原文；

S3：将样本原文和与S2选出的翻译原文公布至公开平台，并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文；同一应征者必须完成一份样本译文和翻译译文；

S4：将同一应征者完成的样本译文和翻译译文同时提取出来，并将翻译译文与翻译数据库中的翻译译文进行对比；如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值，则将该应征者完成的样本译文和原文样本放入翻译数据库。

2.根据权利要求1所述的用于翻译的大样本获取方法，其特征在于，步骤S2包括以下子步骤：

解析样本原文和翻译原文的句法树，并得出样本原文和翻译原文的句法树之间的纳真值TP，误报值FP，去真值FN；

根据下式得出样本原文和翻译原文的相似值，相似值最大的翻译原文为与样本原文最相似的翻译原文；

上文所述TP为纳真值，FP为误报值，FN为去真值，R为召回率，P为结构准确率，F为相似值。

3.根据权利要求1所述的用于翻译的大样本获取方法，其特征在于，还包括以下步骤：

S5：对翻译数据库中的翻译原文和与翻译译文进行机器学习。

4.根据权利要求1所述的用于翻译的大样本获取方法，其特征在于，步骤S4还包括以下子步骤：

如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于通过阈值，且大于封禁阈值，则再次发送样本原文和翻译原文给该应征者。

5.根据权利要求4所述的用于翻译的大样本获取方法，其特征在于，步骤S4还包括以下子步骤：

如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于封禁阈值，则将该应征者封禁。