CN102629244B - 多语言工卡生成系统及方法 - Google Patents

多语言工卡生成系统及方法 Download PDF

Info

Publication number
CN102629244B
CN102629244B CN201210047872.4A CN201210047872A CN102629244B CN 102629244 B CN102629244 B CN 102629244B CN 201210047872 A CN201210047872 A CN 201210047872A CN 102629244 B CN102629244 B CN 102629244B
Authority
CN
China
Prior art keywords
work card
translation
card information
corpus
multilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210047872.4A
Other languages
English (en)
Other versions
CN102629244A (zh
Inventor
冯铃
王昊
刘青伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210047872.4A priority Critical patent/CN102629244B/zh
Publication of CN102629244A publication Critical patent/CN102629244A/zh
Application granted granted Critical
Publication of CN102629244B publication Critical patent/CN102629244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种多语言工卡生成系统及方法,涉及数据管理技术领域。该系统包括:工卡匹配模块,将对应的多语言工卡信息发送至工卡输出模块,或将对应的单一语种工卡信息发送至工卡生成模块;工卡生成模块,对单一语种工卡信息进行解析,在语料库中查找对应的一种或多种语言译文,并将译文插入到工卡信息中;工卡输出模块,将多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据插入了译文的单一语种工卡信息更新所述语料库;语料库为记忆翻译库,存储多语言工卡信息。本发明的系统及方法通过将记忆翻译技术融合到多语言工卡生成中,不仅实现了多语言工卡的生成,且生成效率高、成本低。

Description

多语言工卡生成系统及方法
技术领域
本发明涉及数据管理技术领域,尤其涉及一种多语言工卡生成系统及方法。
背景技术
航空业是一个竞争激烈的行业。为了提供有竞争力的全球航空服务,智能化情境感知数据管理服务是不可或缺的。如何为航空工作人员构建一个更高效、及时、自适应、辅助性的、用来处理日常功能和服务的工作环境提上了议程。根据统计,每年航空工业在维修上花费惊人,仅次于燃油费用。2007年,全球维护、维修、大修(MaintenanceRepair & Overhaul,MRO)服务花费450亿美元,2017年预计将扩大为610亿美元。航空公司预计从2010到2017年十年间,航空业的客流将会增加近50%,刺激了航空飞机MRO服务的快速增长。
在全球经济衰退的情况下,MRO面临着航空业的疲软。MRO从业者面临提供工作效率和减少工作成本的巨大压力。
在航空领域,工卡是记录着所有在维修飞机时需要信息的文档,其提供给所有飞机维修的技术人员。生成双语工卡是一个很耗时的工作,例如,要生成一个600页的双语工卡需耗时近一个月。Enigma公司提供了一种工卡生成器系统,该系统提高了飞机维修工卡制作工作的效率。但该生成系统不支持生成双语工卡。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:提供一种能够高效生成多语言工卡的多语言工卡生成系统及方法。
(二)技术方案
为解决上述问题,本发明提供了一种多语言工卡生成系统,该系统包括:工卡匹配模块,用于根据输入条件,将对应的多语言工卡信息发送至工卡输出模块,或将对应的单一语种工卡信息发送至工卡生成模块;工卡生成模块,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块;工卡输出模块,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库;所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储。
优选地,该系统还包括:工卡库,与所述工卡匹配模块以及所述工卡输出模块相连,用于存储工卡;所述工卡输出模块进一步包括:输出单元,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出;语料库更新单元,用于根据所述插入了译文的单一语种工卡信息更新所述语料库;工卡库更新单元,用于将所述多语言工卡同步到所述工卡库。
优选地,所述工卡生成模块进一步包括:译文查找单元,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文;译文插入单元,用于将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块。
优选地,该系统还包括:语料库抽取存储模块,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出,并对每个翻译单元建立索引,存储到所述语料库中。
优选地,所述语料库抽取存储模块进一步包括:抽取单元,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出;存储单元,用于对每个所述翻译单元建立索引,并存储到所述语料库中。
本发明还提供了一种多语言工卡生成方法,该方法包括步骤:
S1.根据输入条件,在工卡库中进行工卡匹配,若存在与所述输入条件对应的多语言工卡信息,则执行步骤S3,否则,执行步骤S2;
S2.对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中;
S3.将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库,将所述多语言工卡同步到工卡库;
所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储;所述工卡库用于存储工卡。
优选地,步骤S2进一步包括步骤:
S2.1对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找每条工卡信息对应的一种或多种语言译文;
S2.2若所述语料库中存在对应的译文,则将所述对应的译文插入到所述单一语种工卡信息中,否则,执行步骤S2.3;
S2.3根据编辑距离进行匹配,查找与对应的译文相似度最高的译文,并将所述相似度最高的译文插入到所述单一语种工卡信息中。
优选地,在步骤S2.3中,所述相似度最高的译文以突出标记的形式插入到所述单一语种工卡信息中,且后缀其相似度分值。
优选地,该方法还包括步骤:
S0.1对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出;
S0.2对每个所述翻译单元建立索引,并存储到所述语料库中。
优选地,所述翻译单元及其索引以TMX文件格式存储在所述语料库中。
(三)有益效果
本发明的系统及方法通过将记忆翻译技术融合到多语言工卡生成中,不仅实现了多语言工卡的生成,且生成效率高、成本低。
附图说明
图1为依照本发明一种实施方式的多语言工卡生成系统的结构图;
图2为WORD格式的双语工卡示意图;
图3为依照本发明一种实施方式的多语言工卡生成方法的流程图。
具体实施方式
本发明提出的多语言工卡生成系统及方法,结合附图及实施例详细说明如下。
记忆翻译使用现存已经翻译好的句子来翻译新句子,将英文和中文译文以一个翻译单元的形式进行存储,是近年来提出的一种语言翻译技术,目前有10种标准(TMX、TBX、UTX、SRX、GMX、OLIF、XLIFF、TransWS、XML:TM、PO),TMX的标准被业届公认为是最佳选择。采用记忆翻译技术能有效的提高翻译工作的工作效率。本发明即将记忆翻译技术融合到多语言工卡生成中。
根据用户条件自动查找工卡库中现存的工卡,利用现存的工卡资源,构建自己的语料库。根据该语料库能对单一语种工卡进行多语言译文生成。多语言生成工作直接在非结构化工卡上进行修改。插入的译文将标注相似度信息,以便于用户进行审阅及修改。经过人工审阅后的多语言工卡,可以用来对现存语料库进行完善,从而不断提高语料库的完备性及准确性。
本实施方式以针对中英文双语工卡的工卡生成系统为例进行说明,但不限于此,本发明的系统也适用于其它任意两种或多种语言开卡的生成。
依照本发明一种实施方式的双语工卡生成系统有助于提高MRO中英文工卡双语生成效率,并降低成本。如图1所示,该系统包括:工卡匹配模块、工卡生成模块、工卡输出模块、以及语料库抽取存储模块。
在本实施方式的系统中,用户在需要生成工卡时,首先需要输入与维修信息相关的条件,例如,查询对某型号飞机发动机的相关维修信息,输入飞机型号以及发动机对应的英文。工卡匹配模块用于从工卡库中查询与用户输入条件最为接近的工卡,如果存在与用户输入条件最相近的中英文双语工卡,则将其直接发送至工卡输出模块,由用户确定该现有的工卡信息是否需要进一步修改,或直接转换为结构化的双语工卡输出。如果与用户输入条件最相近的工卡是单一语种(中文或英文,本实施方式为英文)的工卡,则将该查询到的该单一语种工卡发送至工卡生成模块进一步处理。
工卡生成模块进一步包括译文查找单元以及译文插入单元,译文查找单元根据工卡匹配模块发送的对单一语种的工卡信息进行解析,提取每条信息的英文原文,并在语料库中根据记忆翻译的匹配策略进行对应中文译文的查找,从而获取相应的中文译文,并由译文插入单元将其插入到该英文工卡信息中。当语料库中不存在相应的中文译文时,译文查找单元则利用编辑距离进行匹配,获取相关译文的相似度信息,将由译文插入单元将相似度最高的译文插入到该英文工卡信息中。优选地,该译文插入单元突出标记出该插入的译文(例如以红色字体显示)并后缀其相似度分值以提示用户,通过交互界面由用户根据需要(经验或相关知识等)进行修改或确认,并将修改或确认后的非结构化文档信息发送至工卡输出模块。
工卡输出模块根据工卡生成模块进一步包括输出单元、语料库更新单元、以及工卡库更新单元。输出单元用于将带有译文的工卡信息转换成结构化文本的双语工卡后输出(如图2所示为一个双语工卡Word格式示例)。工卡库更新单元将该工卡信同步到工卡库,更新工卡库。语料库更新单元将工卡生成模块发送的带有译文的工卡信息同步到语料库,对语料库进行更新。如果语料库存在相应的翻译单元,则跳过该翻译单元的处理。
语料库为记忆翻译库,其中存有工卡的维修信息,同一条工卡信息对应的中英文译文作为一个翻译单元,每个翻译单元对应一个索引,所有翻译单元及索引以TMX文件标准进行存储(TMX标准是记忆翻译领域的一种翻译规范)。语料库抽取存储模块用于生成并维护该语料库,为工卡的生成做准备。该模块包括抽取单元以及存储单元,抽取单元通过对工卡库内现存的双语工卡进行解析,按照工卡文档中的工作流程项目分解,将每个条目对应的中文及其英文译文作为一个翻译单元抽取出;存储单元对抽取单元抽取的翻译单元进行索引,并以TMX文件标准进行存储,从而形成该语料库。语料库基于记忆翻译技术来不断更新,在建立初期,工卡库中没有工卡时,可以根据常识以及技术经验等初步建立该语料库。
如图3所示,依照本发明一种实施方式的基于上述系统的多语言工卡生成方法包括步骤:
S1.工卡匹配模块根据用户的输入条件,在工卡库中进行工卡匹配,若存在与输入条件对应的双语工卡信息,则执行步骤S3,否则,执行步骤S2;
S2.工卡生成模块对该输入条件对应的英文工卡信息进行解析,在语料库中查找该英文工卡信息对应的中文译文,并将查找到的中文译文插入到该英文工卡信息中;
S3.工卡输出模块将双语信息或插入了中文译文的英文工卡信息转换成结构化的双语工卡并输出,根据插入了中文译文的英文工卡信息更新语料库,将该双语工卡同步到工卡库。
在本实施方式的方法中,步骤S2进一步包括步骤:
S2.1译文查找单元对该输入条件对应的英文语种工卡信息进行解析,在语料库中查找每条工卡信息对应的中文译文;
S2.2若语料库中存在对应的中文译文,则译文插入单元将该对应的中文译文插入到英文工卡信息中,否则,执行步骤S2.3;
S2.3根据编辑距离进行匹配,查找与对应的译文相似度最高的译文,译文插入单元以突出标记的形式插入到该英文工卡信息中,且后缀其相似度分值,供用户参考,用户对其进行修改或确认后输出。
该方法还包括步骤:
S0.1语料库抽取存储模块的抽取单元对工卡进行解析,将每条英文工卡信息对应的中文译文作为一个翻译单元抽取出;
S0.2存储单元对每个翻译单元建立索引,并存储到语料库中。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种多语言工卡生成系统,其特征在于,该系统包括:
工卡匹配模块,用于根据输入条件,将对应的多语言工卡信息发送至工卡输出模块,或将对应的单一语种工卡信息发送至工卡生成模块;
工卡生成模块,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块;
工卡输出模块,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库;
所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储。
2.如权利要求1所述的系统,其特征在于,该系统还包括:
工卡库,与所述工卡匹配模块以及所述工卡输出模块相连,用于存储工卡;
所述工卡输出模块进一步包括:
输出单元,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出;
语料库更新单元,用于根据所述插入了译文的单一语种工卡信息更新所述语料库;
工卡库更新单元,用于将所述多语言工卡同步到所述工卡库。
3.如权利要求1所述的系统,其特征在于,所述工卡生成模块进一步包括:
译文查找单元,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文;
译文插入单元,用于将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块。
4.如权利要求2所述的系统,其特征在于,该系统还包括:
语料库抽取存储模块,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出,并对每个翻译单元建立索引,存储到所述语料库中。
5.如权利要求4所述的系统,其特征在于,所述语料库抽取存储模块进一步包括:
抽取单元,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出;
存储单元,用于对每个所述翻译单元建立索引,并存储到所述语料库中。
6.一种多语言工卡生成方法,其特征在于,该方法包括步骤:
S1.根据输入条件,在工卡库中进行工卡匹配,若存在与所述输入条件对应的多语言工卡信息,则执行步骤S3,否则,执行步骤S2;
S2.对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中;
S3.将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库,将所述多语言工卡同步到工卡库;
所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储;
所述工卡库用于存储工卡。
7.如权利要求6所述的方法,其特征在于,步骤S2进一步包括步骤:
S2.1对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找每条工卡信息对应的一种或多种语言译文;
S2.2若所述语料库中存在对应的译文,则将所述对应的译文插入到所述单一语种工卡信息中,否则,执行步骤S2.3;
S2.3根据编辑距离进行匹配,查找与对应的译文相似度最高的译文,并将所述相似度最高的译文插入到所述单一语种工卡信息中。
8.如权利要求7所述的方法,其特征在于,在步骤S2.3中,所述相似度最高的译文以突出标记的形式插入到所述单一语种工卡信息中,且后缀其相似度分值以提示用户。
9.如权利要求6所述的方法,其特征在于,该方法还包括步骤:
S0.1对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出;
S0.2对每个所述翻译单元建立索引,并存储到所述语料库中。
10.如权利要求9所述的方法,其特征在于,所述翻译单元及其索引以TMX文件标准存储在所述语料库中,所述TMX文件标准是记忆翻译领域的一种翻译规范。
CN201210047872.4A 2012-02-27 2012-02-27 多语言工卡生成系统及方法 Active CN102629244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210047872.4A CN102629244B (zh) 2012-02-27 2012-02-27 多语言工卡生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210047872.4A CN102629244B (zh) 2012-02-27 2012-02-27 多语言工卡生成系统及方法

Publications (2)

Publication Number Publication Date
CN102629244A CN102629244A (zh) 2012-08-08
CN102629244B true CN102629244B (zh) 2014-05-07

Family

ID=46587504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210047872.4A Active CN102629244B (zh) 2012-02-27 2012-02-27 多语言工卡生成系统及方法

Country Status (1)

Country Link
CN (1) CN102629244B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166107A1 (zh) * 2016-03-30 2017-10-05 李昕光 制卡方法
CN106873971B (zh) * 2016-12-29 2020-08-04 武汉斗鱼网络科技有限公司 一种flash应用的多语言展示方法和系统
CN109815390B (zh) * 2018-11-08 2023-08-08 平安科技(深圳)有限公司 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN110597790B (zh) * 2019-09-27 2023-05-02 东方航空技术有限公司 一种民用航空器维修中英文翻译数据库建立方法及数据卡

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254025A (zh) * 2011-07-28 2011-11-23 清华大学 信息回忆检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204339A (ja) * 2007-02-22 2008-09-04 Nec Corp 作業状況管理システム
JP2009265878A (ja) * 2008-04-24 2009-11-12 Mitsubishi Heavy Ind Ltd 標準工期設定システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254025A (zh) * 2011-07-28 2011-11-23 清华大学 信息回忆检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2008-204339A 2008.09.04
JP特开2009-265878A 2009.11.12

Also Published As

Publication number Publication date
CN102629244A (zh) 2012-08-08

Similar Documents

Publication Publication Date Title
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
CN108595389B (zh) 一种将Word文档转换为txt纯文本文档的方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
KR100912501B1 (ko) 번역 지식 구축 방법 및 장치
JP2006252428A (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JPH0969101A (ja) 構造化文書生成方法および装置
CN102023972A (zh) 基于结构化的翻译记忆的自动翻译系统及其自动翻译方法
KR20090011712A (ko) Pdf 파일을 대상으로 하는 자동 번역 방법
CN102629244B (zh) 多语言工卡生成系统及方法
CN102262621A (zh) 译文检查装置及译文检查方法
CN104239290A (zh) 基于依存树的统计机器翻译方法及系统
CN103093252A (zh) 信息输出装置以及信息输出方法
CN112949324A (zh) 飞机维修技术手册数据的翻译、管理方法及其系统和终端
Aumiller et al. Klexikon: A German dataset for joint summarization and simplification
CN102982028A (zh) 用于提取文档结构的方法和装置
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN101859295A (zh) 具标记提示的简繁字词转换系统及其方法
Clausner et al. Efficient ocr training data generation with aletheia
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
CN101520778A (zh) 用于确定中文词性的设备和方法
CN102609410B (zh) 规范文档辅助写作系统及规范文档生成方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN109902299B (zh) 一种文本处理方法及装置
CN116521621A (zh) 一种数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant