CN104462073A - 文档协同翻译的处理方法和系统 - Google Patents
文档协同翻译的处理方法和系统 Download PDFInfo
- Publication number
- CN104462073A CN104462073A CN201410833049.5A CN201410833049A CN104462073A CN 104462073 A CN104462073 A CN 104462073A CN 201410833049 A CN201410833049 A CN 201410833049A CN 104462073 A CN104462073 A CN 104462073A
- Authority
- CN
- China
- Prior art keywords
- fragment
- translation
- document
- interpreter
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
一种文档协同翻译处理方法和系统,包括:根据上下文关联和规则库对文档划分为片段及用户匹配处理,该匹配包括自动判断用户所属领域和文档区域内容部分的所属行业、领域;然后通过句子片选技术将选定内容信息推送并协同显示给指定译员,译员将指定内容翻译后进行提交;最后系统强调显示重复交替内容,并对翻译后的文档区域内容进行重新组合自动形成多种翻译结果。该文档协同翻译的方法及系统极大地提高了文档并行翻译处理的速度,能将适合的文档区域内容信息给合适翻译的人,从而有效控制和提升翻译质量。该系统和技术特别适用于紧急翻译任务,通过云端在线方式能够达到快速翻译的效果。
Description
技术领域
本发明涉及计算机语言与信息处理技术领域,尤其涉及文档翻译机器处理的方法和系统。
背景技术
大型综合性文档往往包含不同行业、不同领域的片段和句子。在对这些文档进行翻译时,由于翻译人员往往熟悉某一个或几个行业、领域的表述,对其他领域则是陌生的,甚至是完全不懂的。如果将这样混合行业、领域的文档交给一位译员进行翻译,显然是难以胜任或者得到满意的翻译效果的。因此,较理想的方式是将综合性文档按行业、领域分割成片段,从而以片段为翻译单位,交给相应行业、领域的译员进行翻译。公开号为CN 102678277A的中国专利,公开了一种“基于文档分段的构建主题-词汇分布的方法及系统”。该文档记载了:通过预设的本题库将资源文档按照语义相关度分割成资源文档片段,然后根据LDA算法对资源文档片段构建主题-词汇分布。其发明目的在于构建更多主题-词汇分布,解决因语义污染造成的主题差的问题。该发明对文档的分割是基于语义相关度,显然计算量大,效率低;该发明针对对象是资源文档,且没有涉及在线翻译应用的技术问题。
发明内容
本发明所要解决的技术问题是提供一种文档协同翻译的处理方法和系统,提高在线翻译的效率和质量。
为解决上述技术问题,本发明提出一种文档协同翻译的处理方法,包括以下步骤:
以标点符号为标识,为每个句子进行分配标签;
按行业和领域归类,将待翻译文档划分成片段,每个所述片段上设有其行业和领域的标注,片段的最小单位是句子;
被划分成片段的文档向客户端共享发布;
译员在客户端上选取匹配的行业和领域的所述片段,
被完成翻译的片段原文译文被提交服务端;
所述服务端按句子标签顺序自动合并成完整的译文。
优选的,所述文档向译员客户端共享发布之前,被预处理,使所述文档中的敏感信息不被显现;
进一步优化的,片段被译员选取后被标注,提示其他译员该片段已被选中翻译。
正在被译员选取过程中的片段,其他译员无法对该片段同时选取。
对于处于不同片段中的同一句子,被不同译员翻译的译文同时提示显示,以供审稿人员最终选定一个译稿。
审稿人员根据权限对片段进行修订、存储,形成译文终稿。
同时,本发明还提供一种文档翻译的协同处理系统,包括服务端、客户端:
句子标签分配模块,用于以标点符号为标识,为每个句子进行分配标签;
片段划分模块,用于按行业和领域归类,将待翻译文档划分成片段,每个所述片段上设有其行业和领域的标注,片段的最小单位是句子;
片段发布模块,用于被划分成片段的文档向普通客户端共享发布;
片段选取模块,用于译员在普通客户端上选取匹配的行业和领域的所述片段,
片段提交模块,用于被完成翻译的片段原文译文被提交服务端;
译文生成模块,用于所述服务端按句子标签顺序自动组合成完整的译文。
敏感信息处理模块,用于所述文档向译员客户端共享发布之前,被预处理,使所述文档中的敏感信息不被显现;
片段选取标注模块,用于片段被译员选取后被标注,提示其他译员该片段已被选中翻译。
协同控制模块,用于正在被译员选取过程中的片段,其他译员无法对该片段同时选取。
交集句子译文选择模块,用于对于处于不同片段中的同一句子,被不同译员翻译的译文同时提示显示,以供审稿人员最终选定一个译稿。
审稿模块,用于审稿人员根据权限对片段进行修订、存储,形成译文终稿。
本发明具有如下优点:
1、分段式片选技术,进一步提高分离和合并文档的效率,减少出错率。
2、多进程协同互斥访问处理,可避免多个用户在同一时刻对同一个文件进行读写时产生的冲突问题。
3、通过行业领域和敏感词库将信息分离成无关的显示片段,可有效保证文档在翻译过程中的信息安全。
4、将翻译后的片段自动重新组合并生成多版本译稿。
总之,可用于云翻译平台的基础核心功能进行应用,可适用于各种文档平台进行安全、高效协同处理和信息加工展现。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明的结构示意图。
图2为本发明具体实施方式的处理流程图。
具体实施方式
如图1所示,本发明包括服务端1、审稿客户端2和普通译员客户端3,服务端1、审稿客户端2和普通译员客户端3相互协作,分别实施完成不用的功能。
服务端1包括:句子标签分配模块,用于以标点符号为标识,为每个句子进行分配标签;片段划分模块,用于按行业和领域归类,将待翻译文档划分成片段,每个所述片段上设有其行业和领域的标注,片段的最小单位是句子;敏感信息处理模块,用于所述文档向译员客户端共享发布之前,被预处理,使所述文档中的敏感信息不被显现;片段发布模块,用于被划分成片段的文档向普通客户端共享发布;片段选取标注模块,用于片段被译员选取后被标注,提示其他译员该片段已被选中翻译。协同控制模块,用于正在被译员选取过程中的片段,其他译员无法对该片段同时选取。译文生成模块,用于所述服务端按句子标签顺序自动组合成完整的译文。
普通译员客户端3包括:片段选取模块,用于译员在普通客户端上选取匹配的行业和领域的所述片段。片段提交模块,用于被完成翻译的片段原文译文被提交服务端。
审稿客户端2包括:交集句子译文选择模块,用于对于处于不同片段中的同一句子,被不同译员翻译的译文同时提示显示,以供审稿人员最终选定一个译稿。审稿模块,用于审稿人员根据权限对片段进行修订、存储,形成译文终稿。
如图2所示,一个翻译需求文档提交平台处理的时候,多个翻译人员在不需要下载、拆分、合并文档的情况下(系统自动将文档拆分成多个片段,并自动将任务派给多个翻译人员),可并行处理该稿件(的片段)。包括以下几个步骤:
步骤s1,以标点符号为标识,为每个句子进行分配标签;标签规则为“行业领域代码+句子序号”,例如JSJ001,代表该句子的位置在计算机行业领域片段中,且在整个文档中的位置为第一个句子。
步骤s2,按行业和领域归类,将待翻译文档划分成片段,每个片段上设有其行业和领域的标注,片段的最小单位是句子;行业和领域的标注可以文字、符号标注,也可以用片段的背景颜色进行区分标注。
步骤s3,所述文档向译员客户端共享发布之前,被预处理,使所述文档中的敏感信息不被显现。敏感信息处理模块通过设定展示规则和隐密词,例如设置XX公司名称、XX产品为隐密词,涉及敏感的财务数字可以将所有隐密所有数字为规则,这样在协同显示文档的时候这些隐密词或者数字都会被隐藏或进行加密,这部分不需要翻译。
步骤s4,被划分成片段的文档向客户端共享发布,客户端可载入显示待译片段和原文。
步骤s5,每个译员对应分配一个或几个行业、领域,译员从客户端登录后,自身所属行业领域与文档划分行业领域自动匹配,即只能片选本行业领域的信息进行翻译;假定片选的行业领域片段A包括N个句子,多个译员可通过句子片选来选定待翻译的片段。译员在客户端上选取匹配的行业和领域的所述片段,正在被译员选取过程中的片段被锁定,其他译员无法同时选取该片段;被选取的每个待译片段作为一个副本存放在自身客户端,避免文档在协同过程当中的读写冲突。片段被译员选取后被标注,提示其他译员该片段已被选中翻译。
步骤s6,译员在线翻译处理;提交翻译结果。被完成翻译的片段原文译文被提交服务端;
步骤s7,服务端按句子标签顺序自动合并成完整的译文。
步骤s8,由于文档划分的原因,某个句子S可能既属于P,同时又属于P片段的下一个片段。如果P片段、P片段的下一个片段分别被不同的译员选取、翻译,则句子S就被两个译员同时翻译了两次。因此,对于处于不同片段中的同一句子,被不同译员翻译的译文同时提示显示,以供审稿人员最终选定一个译稿。被修订的句子将不再突出显示。
步骤s9,审稿人员根据权限对片段进行修订、存储,形成译文终稿。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。
Claims (12)
1.一种文档协同翻译的处理方法,其特征在于,包括以下步骤:
以标点符号为标识,为每个句子进行分配标签;
按行业和领域归类,将待翻译文档划分成片段,每个所述片段上设有其行业和领域的标注,片段的最小单位是句子;
被划分成片段的文档向客户端共享发布;
译员在客户端上选取匹配的行业和领域的所述片段,
被完成翻译的片段原文译文被提交服务端;
所述服务端按句子标签顺序自动合并成完整的译文。
2.根据权利要求1所述的文档协同翻译的处理方法,其特征在于,所述文档向译员客户端共享发布之前,被预处理,使所述文档中的敏感信息不被显现。
3.根据权利要求2所述的文档协同翻译的处理方法,其特征在于,片段被译员选取后被标注,提示其他译员该片段已被选中翻译。
4.根据权利要求3所述的文档协同翻译的处理方法,其特征在于正在被译员选取过程中的片段,其他译员无法对该片段同时选取。
5.根据权利要求4所述的文档协同翻译的处理方法,其特征在于,对于处于不同片段中的同一句子,被不同译员翻译的译文同时提示显示,以供审稿人员最终选定一个译稿。
6.根据权利要求1所述的文档协同翻译的处理方法,其特征在于,还包括步骤:审稿人员根据权限对片段进行修订、存储,形成译文终稿。
7.一种文档协同翻译的处理系统,其特征在于,包括服务端、客户端以及,
句子标签分配模块,用于以标点符号为标识,为每个句子进行分配标签;
片段划分模块,用于按行业和领域归类,将待翻译文档划分成片段,每个所述片段上设有其行业和领域的标注,片段的最小单位是句子;
片段发布模块,用于被划分成片段的文档向普通客户端共享发布;
片段选取模块,用于译员在普通客户端上选取匹配的行业和领域的所述片段,
片段提交模块,用于被完成翻译的片段原文译文被提交服务端;
译文生成模块,用于所述服务端按句子标签顺序自动组合成完整的译文。
8.根据权利要求7所述的文档协同翻译的处理系统,其特征在于,还包括敏感信息处理模块,用于所述文档向译员客户端共享发布之前,被预处理,使所述文档中的敏感信息不被显现。
9.根据权利要求8所述的文档协同翻译的处理系统,其特征在于,还包括片段选取标注模块,用于片段被译员选取后被标注,提示其他译员该片段已被选中翻译。
10.根据权利要求9所述的文档协同翻译的处理系统,其特征在于,还包括协同控制模块,用于正在被译员选取过程中的片段,其他译员无法对该片段同时选取。
11.根据权利要求7所述的文档协同翻译的处理系统,其特征在于,还包括交集句子译文选择模块,用于对于处于不同片段中的同一句子,被不同译员翻译的译文同时提示显示,以供审稿人员最终选定一个译稿。
12.根据权利要求11所述的文档协同翻译的处理系统,其特征在于,还包括审稿模块,用于审稿人员根据权限对片段进行修订、存储,形成译文终稿。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410833049.5A CN104462073A (zh) | 2014-12-26 | 2014-12-26 | 文档协同翻译的处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410833049.5A CN104462073A (zh) | 2014-12-26 | 2014-12-26 | 文档协同翻译的处理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462073A true CN104462073A (zh) | 2015-03-25 |
Family
ID=52908139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410833049.5A Pending CN104462073A (zh) | 2014-12-26 | 2014-12-26 | 文档协同翻译的处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462073A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815204A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN108416644A (zh) * | 2017-02-09 | 2018-08-17 | 富士通株式会社 | 信息输出方法和信息输出装置 |
WO2021212339A1 (en) * | 2020-04-21 | 2021-10-28 | Citrix Systems, Inc. | Secure translation of sensitive content |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040139059A1 (en) * | 2002-12-31 | 2004-07-15 | Conroy William F. | Method for automatic deduction of rules for matching content to categories |
CN102567312A (zh) * | 2011-12-30 | 2012-07-11 | 北京理工大学 | 一种基于分布式并行计算框架的机器翻译方法 |
CN102708097A (zh) * | 2012-04-27 | 2012-10-03 | 曾立人 | 一种计算机在线翻译方法及其翻译系统 |
CN103678280A (zh) * | 2013-12-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 翻译任务碎片化的方法 |
CN103823796A (zh) * | 2014-02-25 | 2014-05-28 | 武汉传神信息技术有限公司 | 一种翻译系统及翻译方法 |
-
2014
- 2014-12-26 CN CN201410833049.5A patent/CN104462073A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040139059A1 (en) * | 2002-12-31 | 2004-07-15 | Conroy William F. | Method for automatic deduction of rules for matching content to categories |
CN102567312A (zh) * | 2011-12-30 | 2012-07-11 | 北京理工大学 | 一种基于分布式并行计算框架的机器翻译方法 |
CN102708097A (zh) * | 2012-04-27 | 2012-10-03 | 曾立人 | 一种计算机在线翻译方法及其翻译系统 |
CN103678280A (zh) * | 2013-12-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 翻译任务碎片化的方法 |
CN103823796A (zh) * | 2014-02-25 | 2014-05-28 | 武汉传神信息技术有限公司 | 一种翻译系统及翻译方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815204A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN108416644A (zh) * | 2017-02-09 | 2018-08-17 | 富士通株式会社 | 信息输出方法和信息输出装置 |
WO2021212339A1 (en) * | 2020-04-21 | 2021-10-28 | Citrix Systems, Inc. | Secure translation of sensitive content |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101694603A (zh) | 基于Unicode的跨平台蒙古文显示及智能输入方法 | |
CN102779118A (zh) | 一种论文的排版方法及系统 | |
Kottwitz | LaTeX beginner's guide | |
US20120192047A1 (en) | Systems and methods for building complex documents | |
CN104462073A (zh) | 文档协同翻译的处理方法和系统 | |
US7636884B2 (en) | Visually enhanced text and method of preparation | |
KR20210013991A (ko) | 번역예 검색 기능을 갖는 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 | |
CN101968804B (zh) | 一种实现协同翻译的方法 | |
US10157238B2 (en) | Transformation of marked-up content to a reversible file format for automated browser based pagination | |
US11410575B2 (en) | Interface and tools for accessible textbook generation | |
US9984053B2 (en) | Replicating the appearance of typographical attributes by adjusting letter spacing of glyphs in digital publications | |
CN104063366A (zh) | 一种文本格式设置的方法与装置 | |
CN107229349B (zh) | 一种输入法的文字显示方法及装置 | |
Heilmann | The Beginnings of Word Processing: A Historical Account | |
Trips et al. | From original sources to linguistic analysis: Tools and datasets for the investigation of multilingualism in medieval english | |
Othman et al. | A Genuine Framework To Control the Quality of Arabic and Arabized Software. | |
CN104424185A (zh) | 同步提取中英文目录的方法及系统 | |
Hrabovskyi et al. | How to Enhance the Managementand Quality of Electronic Publications? | |
Hanneken | Early Judaism and Modern Technology | |
Birch | Future translation workbenches: some essential requirements | |
Gong | An alternative question and possible answers: making local research publications accessible internationally | |
Horie | eBooks Collection-Artwork finalization and conversion to electronic books in ePub, Mobi and PDF | |
Kulikov et al. | Methodology of construction educational-creative trajectory as a graph-criteria of competitiveness of a person | |
Brunelle | Lab II–Prototype Product Specification Green Team Robert O’Donnell Old Dominion University CS411W | |
Nechitailenko | Converting LaTeX to HTML5 and EPUB3: A case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |