CN105677621B - 翻译错误的定位方法和装置 - Google Patents

翻译错误的定位方法和装置 Download PDF

Info

Publication number
CN105677621B
CN105677621B CN201511021984.2A CN201511021984A CN105677621B CN 105677621 B CN105677621 B CN 105677621B CN 201511021984 A CN201511021984 A CN 201511021984A CN 105677621 B CN105677621 B CN 105677621B
Authority
CN
China
Prior art keywords
sentence
original text
translation
similarity
notional word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511021984.2A
Other languages
English (en)
Other versions
CN105677621A (zh
Inventor
江潮
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201511021984.2A priority Critical patent/CN105677621B/zh
Publication of CN105677621A publication Critical patent/CN105677621A/zh
Application granted granted Critical
Publication of CN105677621B publication Critical patent/CN105677621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

一种翻译错误的定位方法,包括:对原文和译文中的网页标签进行标记;对标记后的所述原文中的所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。本发明公开一种翻译错误的定位装置。该方法和装置解决原文和译文对齐问题。

Description

翻译错误的定位方法和装置
技术领域
本发明涉及翻译技术领域,具体涉及一种翻译错误的定位方法和装置。
背景技术
文档翻译完成后即进入审校环节,审校人员会对译文中的错译、漏译等翻译错误点出,如何将这些点出的错误所在的译句和其在原文中的语句相对应,是一项基础工作。译句和原句对应后,即可通过原句在平行语料库中对包含错译、漏译等错误的译文语句进行相似性比较,从而较为客观的判断译句的错误类型和错误程度。
所以将原文和译文进行按句对齐是一项基础性的工作,一般按段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。
发明内容
本发明实施例的目的在于克服现有技术的上述不足,提供一种翻译错误的定位方法,该方法基于实义词的相似度,解决了原文和译文对齐的问题。
本发明实施例的另一目的在于克服现有技术的上述不足,提供一种翻译错误的定位装置,该装置基于实义词的相似度,解决了原文和译文对齐的问题。
为了实现上述发明目的,本发明实施例的技术方案如下:
一种翻译错误的定位方法,包括:对原文和译文中的网页标签进行标记;对标记后的所述原文中的所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
进一步,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;根据获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;根据获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
进一步,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:根据获得所述原文语句OR与所述译文语句TRi的相似度。
进一步,还包括:对标记后的所述原文中的所述原文语句按顺序进行编号;对标记后的所述译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
进一步:所述词典为按树形结构编码的同义词分类词典,所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
进一步,所述对原文和译文中的网页标签进行标记的过程包括:使用网页标签识别规则检查所有所述原文语句和所述译文语句中是否包含所述网页标签;如果所述原文语句中包含所述网页标签,则遍历所述原文,依次获得所述网页标签在所述原文中的起始索引和所述网页标签的长度;根据所述网页标签在所述原文中的起始索引和所述网页标签的长度,将所述原文中的所述网页标签标记为不能修改;如果所述译文语句中包含所述网页标签,则遍历所述译文,依次获得所述网页标签在所述译文中的起始索引和所述网页标签的长度;根据所述网页标签在所述译文中的起始索引和所述网页标签的长度,将所述译文中的所述网页标签标记为不能修改。
进一步,所述实义词包括:名词、动词、形容词和副词。
以及,一种翻译错误的定位装置,包括:第一单元,用于对原文和译文中的网页标签进行标记;第二单元,用于对标记后的所述原文中的所有原文语句分词,去除其中的停用词,获得实义词;第三单元,用于获取所述原文语句的每个实义词的所有译项;第四单元,用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;第五单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;第六单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
本发明实施例的有益效果如下:
1、本发明实施例的翻译错误的定位方法,基于实义词的相似度,解决了译后处理的原译文对齐问题。
2、本发明实施例的翻译错误的定位方法,不需要通过人工处理,节省了时间,提高了效率。
3、本发明实施例的翻译错误的定位方法,通过对原文和译文中的网页标签进行预先标记,将网页标签保护起来,使网页标签的代码无法修改,不对网页标签进行对齐处理。
4、本发明实施例的翻译错误的定位装置,基于实义词的相似度,解决了译后处理的原译文对齐问题。
5、本发明实施例的翻译错误的定位装置,实现了自动化,节省了时间,提高了效率。
6、本发明实施例的翻译错误的定位装置,通过对原文和译文中的网页标签进行预先标记,将网页标签保护起来,使网页标签的代码无法修改,不对网页标签进行对齐处理。
附图说明
图1是本发明实施例的翻译错误的定位方法的流程图;
图2是本发明实施例的翻译错误的定位装置的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种翻译错误的定位方法。如图1所示,为本发明实施例的翻译错误的定位方法的流程图。该翻译错误的定位方法的具体过程如下:
步骤S10:对原文和译文中的网页标签进行标记。
具体的,步骤S10包括如下的过程:
步骤S101:使用网页标签识别规则检查所有原文语句和译文语句中是否包含网页标签。
该网页标签识别规则为正则表达式,该正则表达式具体如表所示。
表1网页识别规则
读取所有原文语句和译文语句,输入所有原文语句和译文语句,根据上表的网页识别规则,检查所有原文语句和译文语句中是否包含网页标签。只要有一种正则表达式应用成功,均判定为该语句含网页标签。
如果原文语句中包含网页标签,则进行步骤S102~103;以及如果译文语句中包含网页标签,则进行步骤S104~105。
步骤S102:遍历原文,依次获得网页标签在原文中的起始索引和网页标签的长度。
步骤S103:根据网页标签在原文中的起始索引和网页标签的长度,将原文中的网页标签标记为不能修改。
步骤S104:遍历译文,依次获得网页标签在译文中的起始索引和网页标签的长度。
步骤S105:根据网页标签在译文中的起始索引和网页标签的长度,将译文中的网页标签标记为不能修改。
其中,步骤S103和步骤S105的具体做法如下:
步骤S101获取的网页标签都是有效的标签范围,通过步骤S103和步骤S105的网页标签在原文和译文中的起始索引可以获得的网页标签的位置。根据网页标签的位置信息和长度信息,渲染网页标签的文本的背景色为淡蓝,示意该段文本已经被保护,使该段表示网页标签的代码无法修改,即不能删除、不能改变代码的任一字符、不能移动、不能复制、不能在受保护的连续的表示网页标签的文本的间隙增加任一字符、空格等等,从而实现了对网页标签有效的保护,以便不对网页标签进行对齐处理。
步骤S20:对标记后的原文中的所有原文语句分词,去除其中的停用词,获得实义词。
具体的,实义词包括:名词、动词、形容词和副词。优选的,将所有实义词建立一个实义词集合。
步骤S30:获取原文语句的每个实义词的所有译项。
一个实义词往往有多种表达含义,每个不同的含义称之为该实义词的一个译项。译项为同义词词典中的最小单位,在词典中有相应的代码与其对应。例如:“骄傲”这个词可以有两种含义,“自豪”和“傲慢”,该两种含义就是骄傲这个词语的两个译项。因此,需要获取每个实义词的所有译项。例如,可建立如表2所示的实义词和译项的对应表。
表2实义词和译项的对应表
步骤S40:将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
其中,步骤S40具体包括如下的过程:
步骤S401:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度。
本实施例中的实义词和实义词之间的相似度是一个取值范围在[0,1]之间的数值。如果一个实义词是另一个实义词的本身的语义,则两个实义词之间的相似度为1;如果两个实义词在任何上下文中都不能替换,则两个实义词之间的相似度为0。
其中,原文语句OR具有m个实义词。译文中共有n个译文语句。译文语句TRi具有p个实义词。i表示译文语句的计数,i=1,2,…,n。第j个实义词具有k个译项。j表示一个原文语句中的实义词的计数,j=1,2,…,m。l表示一个实义词的译项的计数,l=1,2,…,k。r表示一个译文语句中的实义词的计数,r=1,2,…,p。dis(nwjl,TRinwr)表示在词典中,原文语句OR的第j个实义词的第l个译项nwjl和第i个译文语句TRi的第r个实义词TRinwr之间的距离。L表示调节参数。
原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度与两个词在词典中的距离呈反比关系。具体的,本发明中所述的词典指的是按树形结构编码的同义词分类的词典。例如,《同义词词林》和《WordNet》等同义词本体工具。该词典中,该词典中,该按树形结构编码的同义词分类词典的每个节点具有唯一的代码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数,即树形结构的层数。dis(nwjl,TRinwr)具体为原文语句OR的第j个实义词的第l个译项nwjl和第i个译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,即两个代码之间的差值。
步骤S402:
根据下式
获得原文语句OR的第j个实义词的第l个译项nwjl与译文语句TRi的相似度。
步骤S403:
根据下式
获得原文语句OR的第j个实义词nwj和译文语句TRi的相似度。
步骤S50:根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
根据下式
获得原文语句OR与译文语句TRi的相似度。
步骤S60:将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
将与原文语句OR的相似度最高的译文语句和原文语句OR匹配并对齐。
在步骤S60中,可能存在同一译文语句和多个原句的相似度相同且均为最高的情况,则步骤S60具体还包括如下的比对过程:
(1)对原文中的原文语句按顺序进行编号。
例如,将原文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号后的原文语句建立一个原文语句的集合。
(2)对译文中的译文语句按顺序进行编号。
例如,将译文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号后的译文语句建立一个译文语句的集合。
(3)获取多个原文语句在原文中的编号,以及译文语句在译文中的编号。
具体的,该过程又包括如下的两种处理方式:
1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的编号最接近,则将该一个原文语句与译文语句匹配并对齐。
例如,4个原文语句在原文中的编号分别为1,2,3,4。译文语句在译文中的编号为5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句的编号最接近,则将编号为4的原文语句和编号为5的译文语句匹配并对齐。
2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的编号均为最接近,则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号较大的原文语句与剩余译文语句的相似度的高低,将剩余译文语句中与编号较大的原文语句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。
例如,4个原文语句在原文中的编号分别为1,3,5,7。译文语句在译文中的编号为4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小,则将编号为3的原文语句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中,如果一译文语句与编号为5的原文语句的相似度最高,则将该译文语句和编号为5的原文语句匹配。
3)重复上述过程1)和2),直到每个原文语句均与每个译文语句匹配并对齐。
本发明的方法基于实义词的相似度,解决了译后处理的原译文对齐问题。该方法可通过机器完成,不需要通过人工处理,节省了时间,提高了效率。当原文语句和译文语句对应后,即可通过原文语句在平行语料库中对包含错译、漏译等错误的译文语句进行相似性比较,从而较为客观的判断译句的错误类型和错误程度。
本发明实施例还提供了一种翻译错误的定位装置。如图2所示,该翻译错误的定位装置包括:
第一单元101,用于对原文和译文中的网页标签进行标记。
第二单元102,用于对标记后的原文中的所有原文语句分词,去除其中的停用词,获得实义词。
第三单元103,用于获取原文语句的每个实义词的所有译项。
第四单元104,用于将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
第五单元105,用于根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
第六单元106,用于将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
本发明的翻译错误的定位装置用以实现上述的翻译错误的定位方法,基于实义词的相似度,解决了译后处理的原译文对齐问题。该装置使得上述的方法不需要通过人工实现,实现了自动化,节省了时间,提高了效率。当原文语句和译文语句对应后,即可通过原文语句在平行语料库中对包含错译、漏译等错误的译文语句进行相似性比较,从而较为客观的判断译句的错误类型和错误程度。
本发明提供了一种以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种翻译错误的定位方法,其特征在于,包括:
对原文和译文中的网页标签进行标记;
对标记后的所述原文中的所有原文语句分词,去除其中的停用词,获得实义词;
获取所述原文语句的每个实义词的所有译项,其中,一个所述译项为所述实义词的一种表达含义;
将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;
将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
2.如权利要求1所述的翻译错误的定位方法,其特征在于,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;
根据获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;
根据获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;
其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
3.如权利要求2所述的翻译错误的定位方法,其特征在于,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:
根据获得所述原文语句OR与所述译文语句TRi的相似度。
4.如权利要求3所述的翻译错误的定位方法,其特征在于,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:
根据获得与所述原文语句OR的相似度最高的所述译文语句;
将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配,并对齐所述原文语句OR和所述译文语句。
5.如权利要求1所述的翻译错误的定位方法,其特征在于,还包括:
对标记后的所述原文中的所述原文语句按顺序进行编号;
对标记后的所述译文中的所述译文语句按顺序进行编号;
如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;
如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;
如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;
比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;
重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
6.如权利要求2所述的翻译错误的定位方法,其特征在于:所述词典为按树形结构编码的同义词分类词典,所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
7.如权利要求6所述的翻译错误的定位方法,其特征在于:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
8.如权利要求1所述的翻译错误的定位方法,其特征在于,所述对原文和译文中的网页标签进行标记的过程包括:
使用网页标签识别规则检查所有所述原文语句和所述译文语句中是否包含所述网页标签;
如果所述原文语句中包含所述网页标签,则遍历所述原文,依次获得所述网页标签在所述原文中的起始索引和所述网页标签的长度;
根据所述网页标签在所述原文中的起始索引和所述网页标签的长度,将所述原文中的所述网页标签标记为不能修改;
如果所述译文语句中包含所述网页标签,则遍历所述译文,依次获得所述网页标签在所述译文中的起始索引和所述网页标签的长度;
根据所述网页标签在所述译文中的起始索引和所述网页标签的长度,将所述译文中的所述网页标签标记为不能修改。
9.如权利要求1所述的翻译错误的定位方法,其特征在于,所述实义词包括:名词、动词、形容词和副词。
10.一种翻译错误的定位装置,其特征在于,包括:
第一单元,用于对原文和译文中的网页标签进行标记;
第二单元,用于对标记后的所述原文中的所有原文语句分词,去除其中的停用词,获得实义词;
第三单元,用于获取所述原文语句的每个实义词的所有译项,其中,一个所述译项为所述实义词的一种表达含义;
第四单元,用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
第五单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;
第六单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
CN201511021984.2A 2015-12-30 2015-12-30 翻译错误的定位方法和装置 Active CN105677621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021984.2A CN105677621B (zh) 2015-12-30 2015-12-30 翻译错误的定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021984.2A CN105677621B (zh) 2015-12-30 2015-12-30 翻译错误的定位方法和装置

Publications (2)

Publication Number Publication Date
CN105677621A CN105677621A (zh) 2016-06-15
CN105677621B true CN105677621B (zh) 2018-08-17

Family

ID=56298084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021984.2A Active CN105677621B (zh) 2015-12-30 2015-12-30 翻译错误的定位方法和装置

Country Status (1)

Country Link
CN (1) CN105677621B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522563B (zh) * 2018-10-15 2023-05-23 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
CN115019330A (zh) * 2022-06-16 2022-09-06 特赞(上海)信息科技有限公司 一种漫画翻译匹配方法、系统、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271452A (zh) * 2007-03-21 2008-09-24 株式会社东芝 生成译文和机器翻译的方法及装置
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN101667177A (zh) * 2009-09-23 2010-03-10 清华大学 双语文本的对齐方法及装置
CN102270198A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助翻译系统
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN104933192A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉菲双语平行语料自动采集的系统及实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271452A (zh) * 2007-03-21 2008-09-24 株式会社东芝 生成译文和机器翻译的方法及装置
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN101667177A (zh) * 2009-09-23 2010-03-10 清华大学 双语文本的对齐方法及装置
CN102270198A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助翻译系统
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN104933192A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉菲双语平行语料自动采集的系统及实现方法

Also Published As

Publication number Publication date
CN105677621A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN105446962B (zh) 原文和译文的对齐方法和装置
KR100961717B1 (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US9430742B2 (en) Method and apparatus for extracting entity names and their relations
CN100552673C (zh) 开放式文档同构引擎系统
CN102682000A (zh) 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN103678287B (zh) 一种关键词翻译统一的方法
CN106021224A (zh) 一种双语篇章标注方法
CN105677621B (zh) 翻译错误的定位方法和装置
CN105653516B (zh) 平行语料对齐的方法和装置
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
Barkschat Semantic information extraction on domain specific data sheets
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置
CN110516252B (zh) 数据标注方法、装置、计算机设备和存储介质
Derczynski et al. Temporal signals help label temporal relations
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
CN104317903A (zh) 章节式文本的章节完整性的识别方法和装置
Parakh et al. Sentence boundary disambiguation in Kannada texts
KR102051825B1 (ko) 의미 기반 유사특허 검색 장치 및 방법, 이를 기록한 기록매체
CN113392217A (zh) 一种电力设备故障缺陷实体关系的抽取方法及装置
Trevisan et al. Detecting Irony Patterns in Multi-level Annotated Web Comments
Fonseca et al. An architecture for semantic role labeling on portuguese
Tran et al. Handling organization name unknown word in Chinese-Vietnamese machine translation
Rao et al. Analysis of polysemy words in Kannada sentences based on parts of speech
Li et al. Extracting hierarchical relations between the back-of-the-book index terms
Federmann et al. Multilingual terminology acquisition for ontology-based information extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 Hubei, East Lake, Wuhan New Technology Development Zone, software park, No., E City, building E2, building five, building

Applicant before: Wuhan Transn Information Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant