CN104331399A - 字典树翻译方法 - Google Patents
字典树翻译方法 Download PDFInfo
- Publication number
- CN104331399A CN104331399A CN201410611501.3A CN201410611501A CN104331399A CN 104331399 A CN104331399 A CN 104331399A CN 201410611501 A CN201410611501 A CN 201410611501A CN 104331399 A CN104331399 A CN 104331399A
- Authority
- CN
- China
- Prior art keywords
- content
- translation
- dictionary tree
- contribution
- duplicate contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了对翻译文件重复内容的更细致更彻底的处理方法。该方法通过处理项目内容,记录项目总字数和重复内容的字数,当重复的字数占比例大于设定的阀值时,则判断为字典树模式。此时对重复内容进行标记,只要提供重复内容中的其中一部分给译员翻译,翻译完成后按照标记的规则将重复内容替换,即可形成一篇完整的译文。
Description
技术领域
本发明涉及计算机软件的技术领域,具体涉及文档转换技术领域,文本内容处理技术领域以及字符编码在各种语言中的应用。
背景技术
现有技术中重复单元的替换基于整句。而对于多语言混合的内容,一句话中对于部分不需要翻译的内容就无法做更细致的处理了。无法有效提高翻译的效率。
发明内容
为了解决上述问题,本申请提供了一种文本重复句子的判断方法,以使得翻译成本降低和提高句子的统一的字典树翻译方法。
本发明是一种字典树翻译方法, 包括以下步骤:
步骤1:将稿件进行处理,转换成标准的文本文件,以utf-8进行编码,记录为原文内容;
步骤2:对文本文件进行处理,按照每个换行符是一段的格式进行存储;
步骤3:确定原文内容中的翻译内容,去除每一行中的符号、数字,并根据Unicode编码表,去除每一行中不需要翻译的部分,剩下部分记录为翻译内容;
步骤4:确定翻译内容中的重复内容,当行中翻译内容相同时,则把他们记录为重复内容;
步骤5:计算翻译内容和重复内容的总长度;
步骤6:将重复内容的总长度与翻译内容的总长度进行比较,当重复内容的总长度占翻译内容的总长度的比值大于预先设定的阀值时,则记录稿件为字典树模式;当小于预先设定的阀值则不对稿件进行任何处理,返回原文内容;
步骤7:稿件被记录为字典树模式后,将符号、数字以及不需要翻译的内容进行标记;
步骤8:将重复内容的第一个单元标记为需要翻译,其他单元标记为已经完成并将这些信息存储到数据库中;
步骤9:对标记为需要翻译的内容进行翻译,翻译完成后,将所有标记内容替换到原文位置,完成翻译。
在计算翻译内容和重复内容的总长度时,根据unicode编码表,确定各语言的编码范围,拼音文字按照空白符切分统计字数,每个单词计数为1,方块字按照字符统计字数,每个字符计数为1。
遍历原文内容数组,以翻译内容做为PHP关联数组的键值,按翻译内容对原文进行分组,任何分组的组成员数大于等于2时,即标记为含重复内容分组。
通过window service的office组件把doc、docx、ppt、pptx稿件转换成标准的xml结构。
采用第三方类库PHPExcel,来处理xlsx和xls稿件。
稿件被记录为字典树模式后,将符号、数字以及不需要翻译的内容用[[]]符号进行标记。
本发明的有益技术效果在于:本发明提供了对翻译文件重复内容的细致、彻底的处理方法。该方法通过处理项目内容,记录项目总字数和重复内容的字数,当重复的字数占比例大于设定的阀值时,则判断为字典树模式。此时对重复内容进行标记,只要提供重复内容中的其中一部分给译员翻译,翻译完成后按照标记的规则将重复内容替换,即可形成一篇完整的译文,降低翻译成本和提高句子翻译的准确性。
附图说明
图1为本发明的字典树模式判断方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明是一种字典树翻译方法,选择的开发语言为PHP,包括以下步骤:
步骤1:将稿件进行特殊化处理,转换成标准的文本文件,以utf-8进行编码,记录为原文内容;通过window service的office组件把doc、docx、ppt、pptx稿件转换成标准的xml结构。使用PHP的 SimpleXMLElement 类,设置xpath的表达式 //w:p, 得到一个包涵所有段落的关联数组。通过 PHP函数 foreach 来遍历,即可以得到这个标准的XML文件的内容。
采用第三方类库PHPExcel,来处理xlsx和xls稿件。此类稿件内容都放在单元格中。基于左上角和sheet,就可以对单元格进行编号,并且这些编号是唯一的。在遍历每一个单元格时,即可以得到单元格内容又可以得到每个单元格的position。提取单元格内容时,通过判断单元格类型,仅仅处理内容类型为字符串和数字的单元格。
步骤2:对文本文件进行处理,按照每个换行符是一段的格式进行存储。通过PHP函数 file_put_contents 将提取的内容存储的到文本文件中以便和后面程序通信。通过PHP函数 file_get_contents 获取文本内容,并使用 PHP implode函数将内容格式化成标准的PHP数组。
步骤3:确定原文内容中的翻译内容,去除每一行中的符号、数字,并根据Unicode编码表,去除每一行中不需要翻译的部分,剩下部分记录为翻译内容;根据Unicode编码表,确定出基本的标点区间0021-0040、007B-00BF、FF01-FF20、FF5B-FF65; 对于中文稿件需要过滤原文中的英文其编码区间为0041-007A,FF21-FF5A; 对于英文稿件需要过滤原文中的中文其编码范围为4e00-9fff;然后通过PHP函数preg_replece和上一步的编码范围即可以得到需要翻译的内容,同时我们也可以对不需要翻译的内容进行标记处理。
步骤4:确定翻译内容中的重复内容,当行中翻译内容相同时,则把他们记录为重复内容;遍历原文内容数组,以翻译内容做为PHP关联数组的键值,按翻译内容对原文进行分组,任何分组的组成员数大于等于2时,即标记为含重复内容分组。
步骤5:计算翻译内容和重复内容的总长度;在计算翻译内容和重复内容的总长度时,根据unicode编码表,确定各语言的编码范围,拼音文字按照空白符切分统计字数,每个单词计数为1,例如英文、法文、俄文按照空白符切分统计字数,每个单词计数为1。方块字按照字符统计字数,每个字符计数为1。例如中文、日文、韩文、朝鲜语按照字符统计字数中每个字符计数为1。
步骤6:将重复内容的总长度与翻译内容的总长度进行比较,当重复内容的总长度占翻译内容的总长度的比值大于预先设定的阀值时,则记录稿件为字典树模式;当小于预先设定的阀值则不对稿件进行任何处理,返回原文内容。
步骤7:稿件被记录为字典树模式后,对每个重复内容分组的成员处理,将符号、数字以及不需要翻译的内容用[[]]符号进行标记。
步骤8:将重复内容的第一个单元标记为需要翻译,其他单元标记为已经完成并将这些信息存储到数据库中。
步骤9:对标记为需要翻译的内容进行翻译,当得到译文内容时,遍历重复内容分组,提取原文中[[]]的内容,并把译文中对应位置的内容进行替换,完成翻译。
Claims (6)
1. 一种字典树翻译方法,其特征在于, 包括以下步骤:
步骤1:将稿件进行处理,转换成标准的文本文件,以utf-8进行编码,记录为原文内容;
步骤2:对文本文件进行处理,按照每个换行符是一段的格式进行存储;
步骤3:确定原文内容中的翻译内容,去除每一行中的符号、数字,并根据Unicode编码表,去除每一行中不需要翻译的部分,剩下部分记录为翻译内容;
步骤4:确定翻译内容中的重复内容,当行中翻译内容相同时,则把他们记录为重复内容;
步骤5:计算翻译内容和重复内容的总长度;
步骤6:将重复内容的总长度与翻译内容的总长度进行比较,当重复内容的总长度占翻译内容的总长度的比值大于预先设定的阀值时,则记录稿件为字典树模式;当小于预先设定的阀值则不对稿件进行任何处理,返回原文内容;
步骤7:稿件被记录为字典树模式后,将符号、数字以及不需要翻译的内容进行标记;
步骤8:将重复内容的第一个单元标记为需要翻译,其他单元标记为已经完成并将这些信息存储到数据库中;
步骤9:对标记为需要翻译的内容进行翻译,翻译完成后,将所有标记内容替换到原文位置,完成翻译。
2.根据权利要求1所述的字典树翻译方法,其特征在于,在计算翻译内容和重复内容的总长度时,根据unicode编码表,确定各语言的编码范围,拼音文字按照空白符切分统计字数,每个单词计数为1,方块字按照字符统计字数,每个字符计数为1。
3.根据权利要求1所述的字典树翻译方法,其特征在于,遍历原文内容数组,以翻译内容做为PHP关联数组的键值,按翻译内容对原文进行分组,任何分组的组成员数大于等于2时,即标记为含重复内容分组。
4.根据权利要求1所述的字典树翻译方法,其特征在于,通过window service的office组件把doc、docx、ppt、pptx稿件转换成标准的xml结构。
5.根据权利要求1所述的字典树翻译方法,其特征在于,采用第三方类库PHPExcel,来处理xlsx和xls稿件。
6.根据权利要求1所述的字典树翻译方法,其特征在于,稿件被记录为字典树模式后,将符号、数字以及不需要翻译的内容用[[]]符号进行标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410611501.3A CN104331399A (zh) | 2014-07-25 | 2014-11-04 | 字典树翻译方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410357582.9 | 2014-07-25 | ||
CN201410357582 | 2014-07-25 | ||
CN201410611501.3A CN104331399A (zh) | 2014-07-25 | 2014-11-04 | 字典树翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104331399A true CN104331399A (zh) | 2015-02-04 |
Family
ID=52406128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410611501.3A Pending CN104331399A (zh) | 2014-07-25 | 2014-11-04 | 字典树翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104331399A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699669A (zh) * | 2015-03-31 | 2015-06-10 | 中译语通科技(北京)有限公司 | 一种文本字数统计的方法及装置 |
CN104933041A (zh) * | 2015-06-25 | 2015-09-23 | 武汉传神信息技术有限公司 | 一种利于翻译工作的文件抽取和还原方法 |
CN105677643A (zh) * | 2016-03-14 | 2016-06-15 | 张广睿 | 一种人工结合机器的笔译方法 |
CN113420570A (zh) * | 2021-07-01 | 2021-09-21 | 沈阳创思佳业科技有限公司 | 一种用于提升翻译准确性的方法、系统及装置 |
CN113435215A (zh) * | 2021-06-22 | 2021-09-24 | 北京捷通华声科技股份有限公司 | 一种机器翻译方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203691A1 (en) * | 2006-02-27 | 2007-08-30 | Fujitsu Limited | Translator support program, translator support device and translator support method |
US20080109228A1 (en) * | 2006-11-06 | 2008-05-08 | Electronics And Telecommunications Research Institute | Automatic translation method and system based on corresponding sentence pattern |
CN102722479A (zh) * | 2011-03-30 | 2012-10-10 | 腾讯科技(深圳)有限公司 | 一种实现语言翻译的方法及装置 |
TWI386822B (zh) * | 2007-09-05 | 2013-02-21 | Shing Lung Chen | 建置多語翻譯資料庫內容之方法 |
CN103020044A (zh) * | 2012-12-03 | 2013-04-03 | 江苏乐买到网络科技有限公司 | 一种机器辅助网页翻译方法及其系统 |
-
2014
- 2014-11-04 CN CN201410611501.3A patent/CN104331399A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203691A1 (en) * | 2006-02-27 | 2007-08-30 | Fujitsu Limited | Translator support program, translator support device and translator support method |
US20080109228A1 (en) * | 2006-11-06 | 2008-05-08 | Electronics And Telecommunications Research Institute | Automatic translation method and system based on corresponding sentence pattern |
TWI386822B (zh) * | 2007-09-05 | 2013-02-21 | Shing Lung Chen | 建置多語翻譯資料庫內容之方法 |
CN102722479A (zh) * | 2011-03-30 | 2012-10-10 | 腾讯科技(深圳)有限公司 | 一种实现语言翻译的方法及装置 |
CN103020044A (zh) * | 2012-12-03 | 2013-04-03 | 江苏乐买到网络科技有限公司 | 一种机器辅助网页翻译方法及其系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699669A (zh) * | 2015-03-31 | 2015-06-10 | 中译语通科技(北京)有限公司 | 一种文本字数统计的方法及装置 |
CN104699669B (zh) * | 2015-03-31 | 2018-08-03 | 中译语通科技股份有限公司 | 一种文本字数统计的方法及装置 |
CN104933041A (zh) * | 2015-06-25 | 2015-09-23 | 武汉传神信息技术有限公司 | 一种利于翻译工作的文件抽取和还原方法 |
WO2016206336A1 (zh) * | 2015-06-25 | 2016-12-29 | 武汉传神信息技术有限公司 | 一种利于翻译工作的文件抽取和还原方法 |
CN105677643A (zh) * | 2016-03-14 | 2016-06-15 | 张广睿 | 一种人工结合机器的笔译方法 |
CN113435215A (zh) * | 2021-06-22 | 2021-09-24 | 北京捷通华声科技股份有限公司 | 一种机器翻译方法和装置 |
CN113420570A (zh) * | 2021-07-01 | 2021-09-21 | 沈阳创思佳业科技有限公司 | 一种用于提升翻译准确性的方法、系统及装置 |
CN113420570B (zh) * | 2021-07-01 | 2024-04-30 | 沈阳创思佳业科技有限公司 | 一种用于提升翻译准确性的方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415887B (zh) | 一种pdf文件向ofd文件转化的方法 | |
CN104331399A (zh) | 字典树翻译方法 | |
WO2016206336A1 (zh) | 一种利于翻译工作的文件抽取和还原方法 | |
CN101996160B (zh) | 一种字体数据的处理方法及系统 | |
CN102103574B (zh) | 一种格式化输出书版小样文件内容的方法及系统 | |
US20210019366A1 (en) | Text Extraction Heuristics | |
CN104391993A (zh) | 一种识别网页编码方法及系统 | |
CN104331400B (zh) | 一种蒙古文编码转换方法和装置 | |
CN103136453A (zh) | 文档操作题的自动组卷方法和自动阅卷方法 | |
CN105573981A (zh) | 一种提取中文人名地名的方法及装置 | |
CN105608137A (zh) | 一种提取身份标识的方法和装置 | |
CN112906352A (zh) | 一种车辆保险电子保单文本识别和抽取方法及系统 | |
CN109344389B (zh) | 一种汉盲对照双语语料库的构建方法和系统 | |
Bień | The IMPACT project Polish Ground-Truth texts as a DjVu corpus | |
Hocking et al. | Optical character recognition for South African languages | |
CN107679037B (zh) | 一种基于词频的数字出版物词汇抽取方法 | |
CN102723067B (zh) | 一种字符显示方法和装置 | |
CN105320716A (zh) | 数字出版物的自动标注方法 | |
CN102646128A (zh) | 一种基于xml的情感词词性标注的方法 | |
Abudena | Proposal to encode Quranic marks used in Quran published in Libya | |
Bakar et al. | Implementation of Buckwalter transliteration to Malay corpora | |
Tashi | Research on Tibetan Spelling Formal Language and Automata with Application | |
Hall et al. | Issues in encoding the writing of Nepal’s languages | |
Patil et al. | Towards Modi Script Preservation: Tools for Digitization | |
Everson | Proposal to encode the Wancho script in the UCS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150204 |