CN107665193A - 用于翻译的大样本获取方法 - Google Patents
用于翻译的大样本获取方法 Download PDFInfo
- Publication number
- CN107665193A CN107665193A CN201710860889.4A CN201710860889A CN107665193A CN 107665193 A CN107665193 A CN 107665193A CN 201710860889 A CN201710860889 A CN 201710860889A CN 107665193 A CN107665193 A CN 107665193A
- Authority
- CN
- China
- Prior art keywords
- translation
- original text
- sample
- mrow
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了用于翻译的大样本获取方法,包括以下步骤:设置翻译数据库,所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文;需要采集翻译样本时,选取样本原文,并在翻译数据库中选取与样本原文最相似的翻译原文;将样本原文和与将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则将该应征者完成的样本译文和原文样本放入翻译数据库。本发明用于翻译的大样本获取方法,由于的翻译原文与样本原文相似,则可以认为该应征者可以有效的完成样本原文的翻译工作,从而保证了翻译样本的质量,非常适合机器学习。
Description
技术领域
本发明涉及计算机技术领域,具体涉及用于翻译的大样本获取方法。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
虽然机器翻译通过机器学习可以达到很好的翻译水平,但是机器学习需要大量的翻译样本,获取大量的翻译样本需要很高的人力成本,并且获取的翻译样本质量参差不齐,不适合机器学习。
发明内容
本发明所要解决的技术问题是现有的机器学习需要大量的翻译样本,获取大量的翻译样本需要很高的人力成本,并且获取的翻译样本质量参差不齐,不适合机器学习,目的在于提供用于翻译的大样本获取方法,解决上述问题。
本发明通过下述技术方案实现:
用于翻译的大样本获取方法,包括以下步骤:S1:设置翻译数据库,所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文;S2:需要采集翻译样本时,选取样本原文,并在翻译数据库中选取与样本原文最相似的翻译原文;S3:将样本原文和与S2选出的翻译原文公布至公开平台,并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文;同一应征者必须完成一份样本译文和翻译译文;S4:将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则将该应征者完成的样本译文和原文样本放入翻译数据库。
现有技术中,虽然机器翻译通过机器学习可以达到很好的翻译水平,但是机器学习需要大量的翻译样本,获取大量的翻译样本需要很高的人力成本,并且获取的翻译样本质量参差不齐,不适合机器学习。本发明应用时,先设置翻译数据库,所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文,需要采集翻译样本时,选取样本原文,并在翻译数据库中选取与样本原文最相似的翻译原文,然后将样本原文和与S2选出的翻译原文公布至公开平台,并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文;同一应征者必须完成一份样本译文和翻译译文,通过公开平台上的应征者提供样本原文对应的译文,从而降低成本,而将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则将该应征者完成的样本译文和原文样本放入翻译数据库。当应征者完成的翻译译文与翻译数据库中的翻译译文的相似时,由于的翻译原文与样本原文相似,则可以认为该应征者可以有效的完成样本原文的翻译工作,从而保证了翻译样本的质量,非常适合机器学习。
进一步的,步骤S2包括以下子步骤:解析样本原文和翻译原文的句法树,并得出样本原文和翻译原文的句法树之间的纳真值TP,误报值FP,去真值FN;根据下式得出样本原文和翻译原文的相似值,相似值最大的翻译原文为与样本原文最相似的翻译原文; 上文所述TP为纳真值,FP为误报值,FN为去真值,R为召回率,P为结构准确率,F为相似值。
本发明应用时,通过这种方式来分析相似度,可以有效的分析出最相似的翻译原文,从而提高了样本译文获取的质量。
进一步的,本发明还包括以下步骤:S5:对翻译数据库中的翻译原文和与翻译译文进行机器学习。
进一步的,步骤S4还包括以下子步骤:如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于通过阈值,且大于封禁阈值,则再次发送样本原文和翻译原文给该应征者。
进一步的,步骤S4还包括以下子步骤:如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于封禁阈值,则将该应征者封禁。
本发明应用时,将相似度小于封禁阈值的应征者可以视为不具备样本原文翻译的能力,从而将其封禁,提高了样本译文获取的质量。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明用于翻译的大样本获取方法,由于的翻译原文与样本原文相似,则可以认为该应征者可以有效的完成样本原文的翻译工作,从而保证了翻译样本的质量,非常适合机器学习。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明用于翻译的大样本获取方法,包括以下步骤:S1:设置翻译数据库,所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文;S2:需要采集翻译样本时,选取样本原文,并在翻译数据库中选取与样本原文最相似的翻译原文;S3:将样本原文和与S2选出的翻译原文公布至公开平台,并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文;同一应征者必须完成一份样本译文和翻译译文;S4:将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则将该应征者完成的样本译文和原文样本放入翻译数据库。步骤S2包括以下子步骤:解析样本原文和翻译原文的句法树,并得出样本原文和翻译原文的句法树之间的纳真值TP,误报值FP,去真值FN;根据下式得出样本原文和翻译原文的相似值,相似值最大的翻译原文为与样本原文最相似的翻译原文;上文所述TP为纳真值,FP为误报值,FN为去真值,R为召回率,P为结构准确率,F为相似值。本发明还包括以下步骤:S5:对翻译数据库中的翻译原文和与翻译译文进行机器学习。步骤S4还包括以下子步骤:如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于通过阈值,且大于封禁阈值,则再次发送样本原文和翻译原文给该应征者。步骤S4还包括以下子步骤:如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于封禁阈值,则将该应征者封禁。
本实施例实施时,先设置翻译数据库,所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文,需要采集翻译样本时,选取样本原文,并在翻译数据库中选取与样本原文最相似的翻译原文,然后将样本原文和与S2选出的翻译原文公布至公开平台,并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文;同一应征者必须完成一份样本译文和翻译译文,通过公开平台上的应征者提供样本原文对应的译文,从而降低成本,而将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则将该应征者完成的样本译文和原文样本放入翻译数据库。当应征者完成的翻译译文与翻译数据库中的翻译译文的相似时,由于的翻译原文与样本原文相似,则可以认为该应征者可以有效的完成样本原文的翻译工作,从而保证了翻译样本的质量,非常适合机器学习。通过这种方式来分析相似度,可以有效的分析出最相似的翻译原文,从而提高了样本译文获取的质量。将相似度小于封禁阈值的应征者可以视为不具备样本原文翻译的能力,从而将其封禁,提高了样本译文获取的质量。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.用于翻译的大样本获取方法,其特征在于,包括以下步骤:
S1:设置翻译数据库,所述翻译数据库包括翻译原文和与翻译原文对应的翻译译文;
S2:需要采集翻译样本时,选取样本原文,并在翻译数据库中选取与样本原文最相似的翻译原文;
S3:将样本原文和与S2选出的翻译原文公布至公开平台,并公开征集样本原文对应的样本译文和翻译原文对应的翻译译文;同一应征者必须完成一份样本译文和翻译译文;
S4:将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则将该应征者完成的样本译文和原文样本放入翻译数据库。
2.根据权利要求1所述的用于翻译的大样本获取方法,其特征在于,步骤S2包括以下子步骤:
解析样本原文和翻译原文的句法树,并得出样本原文和翻译原文的句法树之间的纳真值TP,误报值FP,去真值FN;
根据下式得出样本原文和翻译原文的相似值,相似值最大的翻译原文为与样本原文最相似的翻译原文;
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>R</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>T</mi>
<mi>P</mi>
</mrow>
<mrow>
<mi>T</mi>
<mi>P</mi>
<mo>+</mo>
<mi>F</mi>
<mi>N</mi>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>P</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>T</mi>
<mi>P</mi>
</mrow>
<mrow>
<mi>T</mi>
<mi>P</mi>
<mo>+</mo>
<mi>F</mi>
<mi>P</mi>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>F</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mn>2</mn>
<mi>P</mi>
<mi>R</mi>
</mrow>
<mrow>
<mi>P</mi>
<mo>+</mo>
<mi>r</mi>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
上文所述TP为纳真值,FP为误报值,FN为去真值,R为召回率,P为结构准确率,F为相似值。
3.根据权利要求1所述的用于翻译的大样本获取方法,其特征在于,还包括以下步骤:
S5:对翻译数据库中的翻译原文和与翻译译文进行机器学习。
4.根据权利要求1所述的用于翻译的大样本获取方法,其特征在于,步骤S4还包括以下子步骤:
如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于通过阈值,且大于封禁阈值,则再次发送样本原文和翻译原文给该应征者。
5.根据权利要求4所述的用于翻译的大样本获取方法,其特征在于,步骤S4还包括以下子步骤:
如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于封禁阈值,则将该应征者封禁。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710860889.4A CN107665193A (zh) | 2017-09-21 | 2017-09-21 | 用于翻译的大样本获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710860889.4A CN107665193A (zh) | 2017-09-21 | 2017-09-21 | 用于翻译的大样本获取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107665193A true CN107665193A (zh) | 2018-02-06 |
Family
ID=61098206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710860889.4A Withdrawn CN107665193A (zh) | 2017-09-21 | 2017-09-21 | 用于翻译的大样本获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107665193A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836529A (zh) * | 2021-02-19 | 2021-05-25 | 北京沃东天骏信息技术有限公司 | 生成目标语料样本的方法和装置 |
-
2017
- 2017-09-21 CN CN201710860889.4A patent/CN107665193A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836529A (zh) * | 2021-02-19 | 2021-05-25 | 北京沃东天骏信息技术有限公司 | 生成目标语料样本的方法和装置 |
CN112836529B (zh) * | 2021-02-19 | 2024-04-12 | 北京沃东天骏信息技术有限公司 | 生成目标语料样本的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105930314B (zh) | 基于编码-解码深度神经网络的文本摘要生成系统及方法 | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN107704453A (zh) | 一种文字语义分析方法、文字语义分析终端及存储介质 | |
CN111310480B (zh) | 一种基于英语枢轴的弱监督汉越双语词典构建方法 | |
CN104484343B (zh) | 一种对微博进行主题发现与追踪的方法 | |
CN104391885B (zh) | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 | |
CN105843965A (zh) | 一种基于url主题分类的深层网络爬虫表单填充方法和装置 | |
CN108363704A (zh) | 一种基于统计短语表的神经网络机器翻译语料扩展方法 | |
CN103778243A (zh) | 一种领域术语抽取方法 | |
CN106021433A (zh) | 一种商品评论数据的口碑分析方法和装置 | |
CN103605644B (zh) | 一种基于相似度匹配的枢轴语言翻译方法和装置 | |
CN104391924A (zh) | 一种混合音视频检索方法及系统 | |
CN103970898A (zh) | 一种基于多级规则库的信息提取方法及装置 | |
CN107896335A (zh) | 基于大数据技术的视频检测和评级方法 | |
CN103150409B (zh) | 一种用户检索词推荐的方法及系统 | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN102073678A (zh) | 一种网站信息分析系统及其方法 | |
CN105528341B (zh) | 具有领域定制功能的术语译文挖掘系统及方法 | |
CN103646117B (zh) | 一种基于链接的双语平行网页识别方法及系统 | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
CN107665193A (zh) | 用于翻译的大样本获取方法 | |
CN105808561A (zh) | 一种从网页中提取摘要的方法和装置 | |
CN103793444B (zh) | 用户需求获取方法 | |
Sridhar et al. | A Scalable Approach to Building a Parallel Corpus from the Web. | |
CN107562739A (zh) | 适用于机器学习的采集系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180206 |
|
WW01 | Invention patent application withdrawn after publication |