CN109359306B - 基于重复句检测的翻译校正方法与系统 - Google Patents
基于重复句检测的翻译校正方法与系统 Download PDFInfo
- Publication number
- CN109359306B CN109359306B CN201811199856.0A CN201811199856A CN109359306B CN 109359306 B CN109359306 B CN 109359306B CN 201811199856 A CN201811199856 A CN 201811199856A CN 109359306 B CN109359306 B CN 109359306B
- Authority
- CN
- China
- Prior art keywords
- correction
- translation
- sentences
- sentence
- repeated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 141
- 238000001514 detection method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000014616 translation Effects 0.000 description 108
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于重复句检测的翻译质量校正方法,该方法基于检测到的重复句,对已经完成的翻译成果进行多种方式的质量校正,从而保证翻译成果中的重复句的翻译结果的一致准确性。多种方式的翻译结果质量校正方式可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正方式;也可以事先设置不同校正方式的优先级,当不同的校正方式给出的校正结果不一致的,选择优先级最高的校正方式给出的结果;当至少两个不同校正方式给出的校正结果一致时,直接采用该一致的校正结果。
Description
技术领域
本申请涉及翻译技术领域,尤其涉及一种基于重复句检测的翻译校正方法与系统。
背景技术
在一些特定场合,翻译人员必须保证翻译结果的高度准确性和统一性,而不允许随意变化。在这些场合中,相同语境中的相同句子的翻译结果必须统一,不管是同一个人翻译还是不同人翻译,在最后的整体翻译结果中,对于同一个句子的翻译结果也应当保持相当程度上的一致性,以体现翻译结果的严肃和公正。这些场合主要包括涉及法律的文书、涉外合同、政府公告/新闻稿、专业教科书等。
涉外合同中包含大量的重复模板语句、涉及法律的文书例如涉外专利由于撰写特点也存在大量的重复语句,如果不能保持前后同一重复句子的翻译一致性,将极大的损害其权威性。
然而,在当前的翻译工作中,针对上述特定场合的翻译需求,翻译人员很难一开始就做到保证同一个句子的翻译前后一致,因为无法预判是否存在同一个句子,更无法预知其他人对同一个句子的翻译结果是否与自己一致。
通常情况下只能先完成各自翻译任务,后续再进行处理。然而,目前的后续处理都是纯人工进行,耗时费力;即使可以采用计算机代替人工,但是其针对的翻译量巨大,效率极低。
发明内容
本发明的技术方案至少从以下几个方面解决了上述问题。
在本发明的第一个方面,提供了一种基于重复句检测的翻译质量校正方法,该方法基于检测到的重复句,对已经完成的翻译成果进行校正,从而保证翻译成果中的重复句的翻译结果的一致准确性。
这里,已有的翻译成果,包括翻译前的语料和对应的翻译后的语料。
发明人经过长期的翻译工作意识到,对于已经完成的翻译成果,需要校正的部分仅仅是一小部分特定的重复句子,大部分句子是不需要校正的的。因此本发明的第一个要解决的问题是如何高效快速的检测出潜在的需要校正的重复句。
首先,本发明需要设置一个关注数据库,所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库。不同领域的翻译材料包括不同的需要关注的特定词汇,例如,枪械翻译中需要关注的词汇包括Magazine (弹匣),因为有可能存在翻译人员将其错误翻译为“杂志”的情形。这可以由相关领域的翻译专家提供,或者事先预置;
其次,本发明需要设置一个关注阈值范围。所述关注阈值范围是指潜在的可能存在重复的句子的长度范围。过短的句子,其翻译难度较低,具备一定水平的翻译人员通常不会出现不一致的错误;过长的句子,其翻译相对慎重,翻译人员通常需要交叉比对才会给出结果,并且其通常不会大量重复出现,因此,其不被视为潜在的需要校正的目标。
接下来,本发明需要在已有的翻译结果中查找满足条件的句子,检测出重复句子。
满足条件包括:
翻译结果中的当前句子长度;和或;当前句子是否包含关注数据库中的词汇。
这里包括两个步骤:
(1)首先查找出满足上述条件的句子,构成满足条件的句子集;
(2)从满足条件的句子集合中,检测出重复句子。
由于步骤(1)的存在,本发明检测重复句子的工作量得到了大大降低;
这里,检测出重复句子,包括:
从所述翻译前的语料中检测出重复句子,和/或,从所述对应的翻译后的语料中检测出重复句子;
如果从所述翻译前的语料中检测出重复句子,则需要判断这些重复句子对应的翻译后的语料中的翻译结果是否一致;
从所述对应的翻译后的语料中检测出重复句子,则需要判断这些重复句子对应的翻译前的语料中的句子是否相同。
当然,作为一个优选,本发明的技术方案还可以省略上述判断步骤,因为最终的目的都是为了保持重复句子的翻译结果一致,因此,可以不用判断已有的结果是否一致,直接进入后续校正步骤(即使原有的重复句子的翻译结果完全一致,也可以完成校正工作)。
作为本发明的另一个创新点,校正步骤采用如下方式进行校正:
◆自动校正:采用人工智能系统自动完成校正。
所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;
◆交叉比对校正:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;
◆专家校正:专家提供当前重复句子的翻译结果作为一致的统一结果。
在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。
通过上述方式,所有的校正资源都可以被利用起来,不同的翻译员可以充分发表自己的意见,多头并进的完成校正工作。
上述多种方式的翻译结果质量校正方式可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正方式;也可以事先设置不同校正方式的优先级,当不同的校正方式给出的校正结果不一致的,选择优先级最高的校正方式给出的结果;当至少两个不同校正方式给出的校正结果一致时,直接采用该一致的校正结果。
在本发明的第二个方面,提供了一种翻译质量校正系统,所述系统采用计算机组件配置实现,自动完成翻译成果的质量校正。
所述系统包括如下配置:
(1)前置条件设置模块,所述前置条件设置模块用于设置重复句检测的前置条件;
(2)重复句检测模块,用于检测翻译成果中的重复句;
(3)翻译结果质量校正模块,用于对翻译结果进行校正。
本发明中的所述前置条件设置模块,包括关注数据库设置模块,和/或,关注阈值范围设置模块。
所述翻译结果质量校正模块至少包括如下组件之一:
◆自动校正组件:采用人工智能系统自动完成校正。所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;
◆交叉比对校正组件:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;
◆专家校正组件:专家提供当前重复句子的翻译结果作为一致的统一结果。在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。
在本发明的技术方案中,上述翻译结果校正组件可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正组件;也可以事先设置不同校正的优先级,当不同的校正组件给出的校正结果不一致的,选择优先级最高的校正组件给出的结果;当至少两个不同校正组件给出的校正结果一致时,直接采用该一致的校正结果。
本发明还公开一种计算机可读存储介质,其上存储有计算机可执行指令,通过存储器和处理器执行所述指令,则可以完成上述公开的方法的各个步骤,同样可以解决本申请的技术问题。
本发明更具体的实施方式将在具体实施例部分进一步体现。
附图说明
图1是本发明的一种翻译质量校正系统的界面框架图
图2是本发明的基于重复句检测的翻译质量校正方法流程图
具体实施方式
参见图1,本发明的翻译质量校正系统,包括前置条件设置模块、重复句检测模块、翻译结果质量校正模块;
本发明中的所述前置条件设置模块,包括关注数据库设置模块,和/或,关注阈值范围设置模块。
所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库。不同领域的翻译材料包括不同的需要关注的特定词汇,例如,枪械翻译中需要关注的词汇包括Magazine (弹匣),因为很有可能存在翻译人员将其错误翻译为“杂志”的情形。这可以由相关领域的翻译专家提供,或者事先预置;
所述关注阈值范围是指潜在的可能存在重复的句子的长度范围。过短的句子,其翻译难度较低,具备一定水平的翻译人员通常不会出现不一致的错误;过长的句子,其翻译相对慎重,翻译人员通常需要交叉比对才会给出结果,并且其通常不会大量重复出现,因此,其不被视为潜在的需要校正的目标。
所述翻译结果质量校正模块至少包括如下组件之一:
◆自动校正组件:采用人工智能系统自动完成校正。所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;
◆交叉比对校正组件:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;
◆专家校正组件:专家提供当前重复句子的翻译结果作为一致的统一结果。在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。
在本发明的技术方案中,上述翻译结果校正组件可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正组件;也可以事先设置不同校正的优先级,当不同的校正组件给出的校正结果不一致的,选择优先级最高的校正组件给出的结果;当至少两个不同校正组件给出的校正结果一致时,直接采用该一致的校正结果。在图1中,所述翻译结果校正件包括了三大组件,图示为了便于展示,而将其分开示出。
在本实施例中,所述重复句子,是指满足条件的句子集中,某两个句子的相似度满足一定条件;还可以基于两个句子各自包含的关键词比对相似度进行判断。因此,更进一步的优选,所述系统还可以包括相似度设置模块,用于设置相似度阈值,从而调节重复句子的检测标准;
参见图2,本发明的基于重复句检测的翻译质量校正方法包括如下步骤:
(1)设置前置条件;
(2)检测重复句;
(3)校正翻译结果。
在本实施例中,发明人发现,翻译过程存在如下现象:
a)相似的句子,翻译结果可能相同;
b)相似的翻译结果,对应的翻译原文可能相同。
不过无论如何,这些不同句子不同翻译结果之间存在一定的相似度。当相似度满足一定条件时,意味着这些不同句子/不同翻译结果应当保持统一。
当然,也没有必要一一检测所有的句子。对于已经完成的翻译成果,需要校正的部分仅仅是一小部分特定的重复句子,大部分句子是不需要校正的的。因此本发明的第一个要解决的问题是如何高效快速的检测出潜在的需要校正的重复句。
该问题首先通过设置前置条件来解决,包括:
需要设置一个关注数据库,所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库。不同领域的翻译材料包括不同的需要关注的特定词汇,例如,枪械翻译中需要关注的词汇包括Magazine (弹匣),因为有可能存在翻译人员将其错误翻译为“杂志”的情形。这可以由相关领域的翻译专家提供,或者事先预置;
和,或,设置一个关注阈值范围。所述关注阈值范围是指潜在的可能存在重复的句子的长度范围。过短的句子,其翻译难度较低,具备一定水平的翻译人员通常不会出现不一致的错误;过长的句子,其翻译相对慎重,翻译人员通常需要交叉比对才会给出结果,并且其通常不会大量重复出现,因此,其不被视为潜在的需要校正的目标。
接下来,本发明需要在已有的翻译结果中查找满足条件的句子,检测出重复句子。
满足条件包括:
翻译结果中的当前句子长度;和或;当前句子是否包含关注数据库中的词汇。
这里包括两个步骤:
a)首先查找出满足上述条件的句子,构成满足条件的句子集;
b)从满足条件的句子集合中,检测出重复句子。
由于步骤a)的存在,本发明检测重复句子的工作量得到了大大降低;
这里,检测出重复句子,包括:
从所述翻译前的语料中检测出重复句子,和/或,从所述对应的翻译后的语料中检测出重复句子;
如果从所述翻译前的语料中检测出重复句子,则需要判断这些重复句子对应的翻译后的语料中的翻译结果是否一致;
从所述对应的翻译后的语料中检测出重复句子,则需要判断这些重复句子对应的翻译前的语料中的句子是否相同。
在本实施例中,所述重复句子,是指满足条件的句子集中,某两个句子的相似度满足一定条件;还可以基于两个句子各自包含的关键词比对相似度进行判断。
当然,作为一个优选,本发明的技术方案还可以省略上述判断步骤,因为最终的目的都是为了保持重复句子的翻译结果一致,因此,可以不用判断已有的结果是否一致,直接进入后续校正步骤(即使原有的重复句子的翻译结果完全一致,也可以完成校正工作)。
作为本发明的另一个创新点,校正步骤采用如下方式进行校正:
◆自动校正:采用人工智能系统自动完成校正。
所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;
◆交叉比对校正:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;
◆专家校正:专家提供当前重复句子的翻译结果作为一致的统一结果。
在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。
通过上述方式,所有的校正资源都可以被利用起来,不同的翻译员可以充分发表自己的意见,多头并进的完成校正工作。
上述多种方式的翻译结果质量校正方式可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正方式;也可以事先设置不同校正方式的优先级,当不同的校正方式给出的校正结果不一致的,选择优先级最高的校正方式给出的结果;当至少两个不同校正方式给出的校正结果一致时,直接采用该一致的校正结果。
Claims (7)
1.一种基于重复句检测的翻译质量校正方法,该方法基于检测到的重复句,对已经完成的翻译成果进行校正,其特征在于,所述方法包括:
设置前置条件:所述设置前置条件包括设置关注数据库和设置关注阈值范围;
所述关注数据库是指预先设置的包含需要关注词汇的数据库;
所述关注阈值范围是指潜在的可能存在重复的句子的长度范围;
检测重复句:基于设置的前置条件,在已有的翻译结果中查找满足前置条件的句子;
所述满足前置条件包括:
翻译结果中的当前句子长度符合所述关注阈值范围;并且
当前句子包含属于所述关注数据库中的词汇;
翻译结果校正:对翻译结果中的重复句子的翻译结果进行统一校正;
所述重复句,是指满足前置条件的句子集中,相似度满足一定条件的句子集。
2.如权利要求1所述的基于重复句检测的翻译质量校正方法,其特征在于,所述检测重复句,包括如下步骤:
(1)查找出满足前置条件的句子,构成满足前置条件的句子集;
(2)从满足前置条件的句子集中,检测出重复句子。
3.一种翻译质量校正系统,所述系统采用计算机组件配置实现,自动完成翻译成果的质量校正,所述系统包括如下配置:
前置条件设置模块,所述前置条件设置模块用于设置重复句检测的前置条件;重复句检测模块,用于检测翻译成果中的重复句;
翻译结果质量校正模块,用于对翻译结果进行校正,
其特征在于:
所述前置条件设置模块,包括关注数据库设置模块,和/或,关注阈值范围设置模块;所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库;所述关注阈值范围是指潜在的可能存在重复的句子的长度范围;
所述重复句检测模块,用于检测翻译成果中的重复句,具体包括:
查找出满足前置条件的句子,构成满足前置条件的句子集;
从满足前置条件的句子集中,检测出重复句子;
所述重复句,是指满足前置条件的句子集中,相似度满足一定条件的句子集;
所述满足前置条件,包括:
翻译结果中的当前句子长度符合所述关注阈值范围并且当前句子包含属于所述关注数据库中的词汇。
4.如权利要求3所述的翻译质量校正系统,其特征在于,所述翻译结果质量校正模块至少包括如下翻译结果校正组件之一:
自动校正组件:采用人工智能系统自动完成校正;
交叉比对校正组件:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;专家校正组件:专家提供当前重复句子的翻译结果作为一致的统一结果。
5.如权利要求4所述的翻译质量校正系统,其特征在于,
事先设置不同翻译结果校正组件的优先级,当不同的翻译结果校正组件给出的校正结果不一致的,选择优先级最高的翻译结果校正组件给出的结果;当至少两个不同翻译结果校正组件给出的校正结果一致时,直接采用该一致的校正结果。
6.如权利要求3所述的系统,其特征在于,还包括相似度设置模块,用于设置相似度阈值。
7.一种计算机可读存储介质,其上存储有计算机可执行指令,通过存储器和处理器执行所述指令,用于实现权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811199856.0A CN109359306B (zh) | 2018-10-16 | 2018-10-16 | 基于重复句检测的翻译校正方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811199856.0A CN109359306B (zh) | 2018-10-16 | 2018-10-16 | 基于重复句检测的翻译校正方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359306A CN109359306A (zh) | 2019-02-19 |
CN109359306B true CN109359306B (zh) | 2023-10-31 |
Family
ID=65349461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811199856.0A Active CN109359306B (zh) | 2018-10-16 | 2018-10-16 | 基于重复句检测的翻译校正方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359306B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1661593B (zh) * | 2004-02-24 | 2010-04-28 | 北京中专翻译有限公司 | 一种计算机语言翻译方法及其翻译系统 |
TWI457868B (zh) * | 2008-03-12 | 2014-10-21 | Univ Nat Kaohsiung 1St Univ Sc | 機器翻譯譯文之自動修飾方法 |
CN107885728A (zh) * | 2017-12-11 | 2018-04-06 | 中译语通科技股份有限公司 | 一种基于译员在线翻译的qa自动检测方法及系统 |
-
2018
- 2018-10-16 CN CN201811199856.0A patent/CN109359306B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109359306A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8014604B2 (en) | OCR of books by word recognition | |
CN110717039A (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
US20200192983A1 (en) | Method and device for correcting error in text | |
KR100750886B1 (ko) | 학습 데이터 구축 장치 및 방법 | |
US20170124064A1 (en) | Reply information recommendation method and apparatus | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
US10346548B1 (en) | Apparatus and method for prefix-constrained decoding in a neural machine translation system | |
US20200380209A1 (en) | Method and apparatus for tagging text based on teacher forcing | |
CN109766538B (zh) | 一种文本纠错方法、装置、电子设备以及存储介质 | |
CN111309912A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN109522550B (zh) | 文本信息纠错方法、装置、计算机设备和存储介质 | |
CN105930432B (zh) | 序列标注工具的训练方法和装置 | |
US10089300B2 (en) | Apparatus and method for amending language analysis error | |
JP2009140503A (ja) | 音声翻訳方法及び装置 | |
CN111859921A (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
CN110807338B (zh) | 英汉机器翻译术语一致性自修正系统及方法 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
CN117094334A (zh) | 基于大型语言模型的数据处理方法、装置和设备 | |
CN110751234A (zh) | Ocr识别纠错方法、装置及设备 | |
Gupta et al. | Unsupervised multi-view post-OCR error correction with language models | |
CN111309596A (zh) | 数据库测试方法、装置、终端设备及存储介质 | |
CN114510925A (zh) | 一种中文文本纠错方法、系统、终端设备及存储介质 | |
US10902844B2 (en) | Analysis of content sources for automatic generation of training content | |
CN117057430B (zh) | 基于规则累积的模型推理方法、装置及电子设备 | |
CN109359306B (zh) | 基于重复句检测的翻译校正方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |