CN102591859A - 一种重用行业标准格式文件的方法及相关装置 - Google Patents
一种重用行业标准格式文件的方法及相关装置 Download PDFInfo
- Publication number
- CN102591859A CN102591859A CN2011104476761A CN201110447676A CN102591859A CN 102591859 A CN102591859 A CN 102591859A CN 2011104476761 A CN2011104476761 A CN 2011104476761A CN 201110447676 A CN201110447676 A CN 201110447676A CN 102591859 A CN102591859 A CN 102591859A
- Authority
- CN
- China
- Prior art keywords
- file
- tmx
- tbx
- industry standard
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种重用行业标准格式文件的方法及相关装置,其中,一种重用行业标准格式文件的方法包括:获取行业标准格式文件,所述行业标准格式文件为翻译记忆交换格式TMX文件和术语库交换格式TBX文件中的至少一种;对所述获取的所有行业标准格式文件进行解析,生成用于索引所述所有行业标准格式文件的索引文件。本发明提供的技术方案可有效提升源语言资源的安全性。
Description
技术领域
本发明涉及机器翻译领域,尤其涉及一种重用行业标准格式文件的方法及相关装置。
背景技术
翻译记忆(TM,Translation Memory)是计算机辅助翻译(CAT,ComputerAided Translation)领域广泛采用的技术之一,借助TM技术可以显著提高翻译效率,保证内容一致性。TM技术有效地重复利用这些已经翻译的内容,它采用片断(即Segment)和TM库的方式提高翻译的效率,翻译数据库以翻译单元(TU,Translation Unit)为数据单位,将源语言的各个句子与目标语言的句子建立对应链接关系。翻译人员采用TM的CAT工具翻译内容时,CAT工具不断将最新翻译的内容存储到TM库,对于要翻译的内容(如单词、短语、句子、段落),它先在TM库中搜索该内容是否有匹配的内容,并且自动提供最接近的译法,翻译人员可方便地插入最匹配的译文。随着翻译内容的不断丰富,TM库的容量不断增加,翻译人员不必为相同的再次重新翻译而苦恼,只需要专注于需要翻译的新内容即可,而且TM技术的准确性也能保证相同内容翻译的一致性。这是采用TM技术追求的目标。
然而,随着经济全球化的不断深入,软件/网站的本地化和全球化行业迅速发展,与此相呼应,各个采用TM技术开发的本地化工具和TM工具越来越多,但是这些工具是不同的厂家开发的,每家都有各自的文件数据存储格式。另外,对于一个本地化服务机构来说,经常为不同客户或相同客户的不同项目提供本地化翻译服务,由于不同客户和不同项目需要使用不同的本地化工具,经常由于各个本地化工具文件数据缺乏可以交换的标准格式,因此,很难重复使用以前积累的TM库资源。为了便于翻译机构以及CAT工具之间的TM数据交换,一种称为翻译记忆交换格式(TMX,Translation MemoryeXchange)的开放标准已经成功应用到本地化和翻译行业。TMX的目标是减缓不同工具和/或翻译机构之间译文记忆数据的交换,在交换过程中减少或者避免重要数据的损失。TMX在保证翻译数据内容的前提下,为不同本地化和翻译工具制定中立的数据交换标准,现在市场上已经越来越多的本地化翻译工具提供对TMX标准的支持。本地化/全球化服务提供商通常将自己的TM资源以TMX存储,将术语资源以术语库交换格式(TBX,Term Base eXchange)存储,从而保值这些公司资产的功能,使它们不受特定计算机辅助翻译工具的束缚,不会随着市场和技术的更新而造成损失。
如图1所示为目前业界厂商的CAT实用搜索和重用的概念图,其实现方式如下:要求用户将多个TM库中的TMX文件和多个术语库和TBX文件逐一手动导入其CAT产品中;将TMX文件、TBX文件写入内存,并转换为自有格式文件,自有格式一般为某种数据库格式,如SDL Trados软件的SDLTM和SDLTB;通过自身功能实现小规模的TM、术语库的搜索和重用。
由上可见,现有方案中必须手动(即一次一个TMX文件或TBX文件)将TMX文件、TBX文件转换为厂商自有格式才能够重用,一旦厂商支持的格式文件崩溃就无法重用,并且极易导致源语言资源的损失。
发明内容
本发明实施例提供了一种重用行业标准格式文件的方法及相关装置,用于提升源语言资源的安全性。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种重用行业标准格式文件的方法,包括:
获取行业标准格式文件,上述行业标准格式文件为翻译记忆交换格式TMX文件和术语库交换格式TBX文件中的至少一种;
对上述获取的所有行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件。
一种行业标准格式文件重用装置,包括:
第一获取单元,用于获取行业标准格式文件,上述行业标准格式文件为翻译记忆交换格式TMX文件和术语库交换格式TBX文件中的至少一种;
解析生成单元,用于对上述第一获取单元获取的所有行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件。
由上可见,本发明实施例中通过对获取的行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件,实现了对行业标准格式文件(即源语言资源)的直接重用,由于以索引形式存在的语言资源在物理上独立于以行业标准格式存在的语言资源,因此,即使索引文件删除或丢失也不会影响到源语言资源,同时通过直接重用源语言资源,也避免了厂家在将源语言资源转换为其自定义格式语言资源时导致的源语言资源的损坏和丢失,综上,本发明实施例提供的技术方案有效提升了提升源语言资源的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1-a为本发明提供的一种重用行业标准格式文件的方法的一个实施例流程示意图;
图1-b为本发明提供的对TU建立索引的一个实施例流程示意图;
图2为本发明提供的一种重用行业标准格式文件的方法的另一个实施例流程示意图;
图3为本发明提供的一种重用行业标准格式文件的方法的再一个实施例流程示意图;
图4为本发明提供的一种行业标准格式文件重用装置的一个实施例结构示意图。
具体实施方式
本发明实施例提供了一种重用行业标准格式文件的方法及相关装置。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本发明实施例提供的一种重用行业标准格式文件的方法进行描述,请参阅图1-a,本发明一种重用行业标准格式文件的方法的一个实施例包括:
101、获取行业标准格式文件;
据可重用容器/内容开放标准(OSCAR,Open Standards forContainer/Content Allowing Re-use)组织的行业调查结果显示,TM资源已经成为本地化/全球化服务机构不断增加的战略性资产,在某种程度上已高达百万多美元的价值,在数以亿计的国际商务中发挥着重要作用,为了保值TM资源的功能,使它们不受特定计算机辅助翻译工具的束缚,本地化/全球化服务提供商采用行业标准格式存储自己的TM资源。
目前,行业标准格式主要包括TMX和TBX,TMX是由OSCAR组织开发的一种独立于各个厂商的开放式可扩展标记语言(XML,eXtensible MarkupLanguage)标准,用于存储和交换使用计算机辅助翻译(CAT,Computer AidedTranslation)和本地化工具创建的TM数据;TBX是由OSCAR组织开发的一种独立于各个厂商的开放式XML标准,用于存储和交换术语数据。
在本发明实施例中,上述行业标准格式文件为TMX文件和TBX文件中的至少一种。
在本发明实施例中,行业标准格式文件重用装置可从TM库中获取TMX文件,或者,从术语库中获取TBX文件,或者,分别从TM库和术语库中获取TMX文件和TBX文件。
102、对获取的所有行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件;
行业标准格式文件重用装置对步骤101获取到的所有行业标准格式文件进行解析,根据解析行业标准格式文件中的数据生成用于索引步骤101获取到的所有行业标准格式文件的索引文件。
以TMX文件为例:TMX文件以TU为数据单元,一个TMX文件通常由若干个TU组成,每个TU包含源语言语段、目标语言语段、该TU的文件全路径以及附属信息,附属信息例如可包含源语言类型(如中文、英文等)、目标语言类型(如英文、中文等)、创建人名称、修改人名称、创建时间和修改时间等,TMX文件通过TU将其包含的源语言的各个句子与目标语言的各个句子建立对应链接关系。行业标准格式文件重用装置对获取到的TMX文件进行解析,读取该TMX文件中每个TU的数据,将TU的字段逐条加入信息域中,生成该TU的索引条目,最终将生成的所有索引条目写入索引文件。
以TMB文件为例:TMB文件同样以TU为数据单元,每个TU包含源术语、目标术语、该TU的文件全路径以及附属信息,附属信息例如可包含源术语类型(如中文、英文等)、目标术语类型(如英文、中文等)、创建人名称、修改人名称、创建时间和修改时间等,TMB文件通过TU将其包含的源术语与目标术语建立对应链接关系。行业标准格式文件重用装置对获取到的TMB文件进行解析,读取该TMB文件中每个TU的数据,将TU的字段逐条加入信息域中,生成该TU的索引条目,最终将生成的所有索引条目写入索引文件。
如图1-b所示为行业标准格式文件重用装置对一个TU建立索引的流程示意图,行业标准格式文件重用装置对该TU进行解析,读取该TU所包含的数据,将各数据字段逐条加入信息域中,生成该TU的索引条目,同时将生成的该TU的索引条目写入索引文件中。
在一种应用场景下,当从TM库和术语库的至少一个中获取行业标准格式文件并生成索引文件后,还可对TM库和术语库中的至少一个进行实时监控,以便在行业标准格式文件出现新增、删除、拷贝和修改等操作时,可及时根据更新文件更新索引。可以理解,在本发明实施例中,若只从TM库中获取TMX文件,则可只对TM库进行实时监控,若只从术语库中获取TMB文件,则可只对术语库进行实时监控,若分别从TM库和术语库中获取行业标准格式文件,则对TM库和TMB库进行实时监控。
在另一种应用场景下,通过设置时间门限,判定一段时间内的批量文件操作,若该时间段内存在更新文件,则将当该时间段结束后,才根据该时间段内的所有更新文件更新索引。在本发明实施例中,可采用同步基元来同步获取更新文件的线程和生成索引文件的线程之间的状态。
在本发明实施例中,行业标准格式文件重用装置还提供数据搜索入口,通过该数据搜索入口接收输入的搜索字符串,行业标准格式文件重用装置根据该搜索字符串从索引文件中搜索与其匹配的索引条目,将搜索到的匹配的索引条目输出。
由上可见,本发明实施例中通过对获取的行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件,实现了对行业标准格式文件(即源语言资源)的直接重用,由于以索引形式存在的语言资源在物理上独立于以行业标准格式存在的语言资源,因此,即使索引文件删除或丢失也不会影响到源语言资源,同时通过直接重用源语言资源,也避免了厂家在将源语言资源转换为其自定义格式语言资源时导致的源语言资源的损坏和丢失,综上,本发明实施例提供的技术方案有效提升了提升源语言资源的安全性。
为便于更好地理解本发明技术方案,下面以具体应用场景对本发明实施例中一种重用行业标准格式文件的方法进行描述,在本发明实施例中,行业标准格式文件重用装置分别从TM库和术语库中获取TMX文件和TBX文件,请参阅图2,本发明一种重用行业标准格式文件的方法的另一个实施例包括:
201、分别从TM库和术语库中获取TMX文件和TBX文件;
行业标准格式文件重用装置从本地的TM库和术语库中,获取当前TM库中所有TMX文件和当前术语库中的所有TBX文件。
202、对获取的所有TMX文件和所有TBX文件进行解析,生成索引文件;
此步骤可参照步骤101中的描述,此处不作限定。
203、监控当前TM库和TBX库中的至少一个是否存在更新操作;
在步骤202的索引文件生成之后,行业标准格式文件重用装置可实时对TM库和TBX库进行监控,若监控到当前TM库和术语库中的至少一个存在更新操作时,执行步骤204,若监控不到当前TM库和术语库中的至少一个存在更新操作时,返回步骤203。
在本发明实施例中,TM库的更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改;术语库的更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改。
204、获取当前所有更新文件的事件信息;
当步骤203监控出当前TM库和TBX库中的至少一个是否存在更新操作,可先获取发生更新操作的更新文件列表,进一步根据该更新文件列表获取所有更新文件的事件信息。在本发明实施例中,事件信息包括更新文件的文件全路径和指示该更新文件的更新操作的事件标识,举例说明,假设分别以事件标识1、2、3和4指示如下更新操作:新增、删除、拷贝和修改,当步骤203中监控到当前TMX文件A被删除,当前TBX文件B被修改时,获取TMX文件A的事件信息和TBX文件B的事件信息,其中,TMX文件A的事件信息包括TMX文件A的文件全路径和事件标识2,其中,TBX文件B的事件信息包括TBX文件B的文件全路径和事件标识4。
205、根据获取的当前所有更新文件的事件信息更新索引文件;
由步骤204获取的当前所有更新文件的事件信息,行业标准格式文件重用装置对上述索引文件进行更新,对于更新操作为新增的更新文件,则在索引文件中新增该更新文件的索引条目,对于更新操作为删除的更新文件,则在索引文件中删除该更新文件的索引条目,对于更新操作为拷贝的更新文件,则在索引文件中新增拷贝的更新文件的索引条目,对于更新操作为修改的更新文件,则在索引文件中修改该更新文件的索引条目。
当更新完索引文件后,返回步骤203。
由上可见,本发明实施例中通过对获取的行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件,实现了对行业标准格式文件(即源语言资源)的直接重用,由于以索引形式存在的语言资源在物理上独立于以行业标准格式存在的语言资源,因此,即使索引文件删除或丢失也不会影响到源语言资源,同时通过直接重用源语言资源,也避免了厂家在将源语言资源转换为其自定义格式语言资源时导致的源语言资源的损坏和丢失,综上,本发明实施例提供的技术方案有效提升了提升源语言资源的安全性,并且,通过实时监控TM库和术语库中的文件的更改情况,根据监控到的更改情况对索引文件进行动态更新,保证了重用的准确性和及时性。
为便于更好地理解本发明技术方案,下面以具体应用场景对本发明实施例中一种重用行业标准格式文件的方法进行描述,在本发明实施例中,行业标准格式文件重用装置分别从TM库和术语库中获取TMX文件和TBX文件,通过设置时间门限实现对更新文件的批量索引,请参阅图3,本发明一种重用行业标准格式文件的方法的再一个实施例包括:
301、分别从TM库和术语库中获取TMX文件和TBX文件;
行业标准格式文件重用装置从本地的TM库和术语库中,获取当前TM库中所有TMX文件和当前术语库中的所有TBX文件。
302、对获取的所有TMX文件和所有TBX文件进行解析,生成索引文件;
此步骤可参照步骤101中的描述,此处不作限定。
303、监控当前时间段内TM库和TBX库中的至少一个是否存在更新操作;
在步骤302的索引文件生成之后,行业标准格式文件重用装置可实时对TM库和TBX库进行监控,通过设置时间门限,若监控到当前时间段内TM库和术语库中的至少一个存在更新操作时,执行步骤304,若监控不到当前时间段内TM库和术语库中的至少一个存在更新操作时,返回步骤303。
在本发明实施例中,TM库的更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改;术语库的更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改。
304、获取当前时间段内所有更新文件的事件信息;
当步骤303监控出当前时间段内TM库和TBX库中的至少一个是否存在更新操作,可先获取发生更新操作的更新文件列表,进一步根据该更新文件列表获取所有更新文件的事件信息。在本发明实施例中,事件信息包括更新文件的文件全路径和指示该更新文件的更新操作的事件标识,举例说明,假设分别以事件标识1、2、3和4指示如下更新操作:新增、删除、拷贝和修改,当步骤203中监控到当前TMX文件A被删除,当前TBX文件B被修改时,获取TMX文件A的事件信息和TBX文件B的事件信息,其中,TMX文件A的事件信息包括TMX文件A的文件全路径和事件标识2,其中,TBX文件B的事件信息包括TBX文件B的文件全路径和事件标识4。
305、根据获取的当前时间段内所有更新文件的事件信息更新索引文件;
由步骤304获取的当前时间段内所有更新文件的事件信息,行业标准格式文件重用装置对上述索引文件进行更新,对于更新操作为新增的更新文件,则在索引文件中新增该更新文件的索引条目,对于更新操作为删除的更新文件,则在索引文件中删除该更新文件的索引条目,对于更新操作为拷贝的更新文件,则在索引文件中新增拷贝的更新文件的索引条目,对于更新操作为修改的更新文件,则在索引文件中修改该更新文件的索引条目。
当更新完索引文件后,返回步骤303。
由上可见,本发明实施例中通过对获取的行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件,实现了对行业标准格式文件(即源语言资源)的直接重用,由于以索引形式存在的语言资源在物理上独立于以行业标准格式存在的语言资源,因此,即使索引文件删除或丢失也不会影响到源语言资源,同时通过直接重用源语言资源,也避免了厂家在将源语言资源转换为其自定义格式语言资源时导致的源语言资源的损坏和丢失,综上,本发明实施例提供的技术方案有效提升了提升源语言资源的安全性。
由上可见,本发明实施例中通过对获取的行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件,实现了对行业标准格式文件(即源语言资源)的直接重用,由于以索引形式存在的语言资源在物理上独立于以行业标准格式存在的语言资源,因此,即使索引文件删除或丢失也不会影响到源语言资源,同时通过直接重用源语言资源,也避免了厂家在将源语言资源转换为其自定义格式语言资源时导致的源语言资源的损坏和丢失,综上,本发明实施例提供的技术方案有效提升了提升源语言资源的安全性,并且,通过实时监控TM库和术语库中的文件的更改情况,根据监控到的更改情况对索引文件进行动态更新,保证了重用的准确性和及时性。
下面对本发明实施例中的一种行业标准格式文件重用装置进行描述,请参阅图4,本发明一种行业标准格式文件重用装置400包括:
第一获取单元401,用于获取行业标准格式文件,其中,上述行业标准格式文件为TMX文件和TBX文件中的至少一种;
在本发明实施例中,第一获取单元401具体可包括:第一获取子单元和第二获取子单元中的至少一个;其中,第一获取子单元用于获取TM库中的TMX文件;第二获取子单元用于获取术语库中的TBX文件。
解析生成单元402,用于对第一获取单元401获取的所有行业标准格式文件进行解析,生成用于索引第一获取单元401获取的所有行业标准格式文件的索引文件。
在一种应用场景下,行业标准格式文件重用装置400还包括监控单元,第二获取单元和更新单元;其中,监控单元用于对TM库和术语库中的至少一个进行监控;第二获取单元用于当监控单元监控到当前TM库和术语库中的至少一个存在更新操作时,获取当前所有更新文件的事件信息,其中,TM库的更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改,其中,术语库的更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改,其中,上述事件信息包括更新文件的文件全路径和指示该更新文件的更新操作的事件标识;更新单元用于根据上述第二获取单元获取到的上述当前所有更新文件的事件信息更新上述索引文件。
在另一种应用场景下,通过设置时间门限实现对更新文件的批量索引,行业标准格式文件重用装置400还可包括监控单元,第二获取单元和更新单元;其中,监控单元用于对TM库和术语库中的至少一个进行监控;第二获取单元用于当监控单元监控到当前时间段内TM库和术语库中的至少一个存在更新操作时,获取当前时间段内的所有更新文件的事件信息,其中,TM库的更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改,其中,术语库的更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改,其中,上述事件信息包括更新文件的文件全路径和指示该更新文件的更新操作的事件标识;上述更新单元用于根据第二获取单元获取到的当前时间段内的所有更新文件的事件信息更新索引文件。
在本发明实施例中,行业标准格式文件重用装置400进一步还可包括:接收单元,搜索单元和输出单元;其中,上述接收单元用于接收输入的搜索字符串;上述搜索单元用于根据接收单元接收到的搜索字符串从索引文件中搜索与该搜索字符串匹配的索引条目;输出单元,用于当上述搜索单元搜索到与该搜索字符串匹配的索引条目时,输出该索引条目。
需要说明的是,本发明实施例的行业标准格式文件重用装置400可以如上述方法实施例中的行业标准格式文件重用装置,可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
由上可见,本发明实施例中通过对获取的行业标准格式文件进行解析,生成用于索引上述所有行业标准格式文件的索引文件,实现了对行业标准格式文件(即源语言资源)的直接重用,由于以索引形式存在的语言资源在物理上独立于以行业标准格式存在的语言资源,因此,即使索引文件删除或丢失也不会影响到源语言资源,同时通过直接重用源语言资源,也避免了厂家在将源语言资源转换为其自定义格式语言资源时导致的源语言资源的损坏和丢失,综上,本发明实施例提供的技术方案有效提升了提升源语言资源的安全性,并且,通过实时监控TM库和术语库中的文件的更改情况,根据监控到的更改情况对索引文件进行动态更新,保证了重用的准确性和及时性,进一步,本发明实施例中还提供了数据搜索入口,通过该数据搜索入口用户可从行业标准格式文件进行词句的查询和搜索。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种重用行业标准格式文件的方法及相关装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种重用行业标准格式文件的方法,其特征在于,包括:
获取行业标准格式文件,所述行业标准格式文件为翻译记忆交换格式TMX文件和术语库交换格式TBX文件中的至少一种;
对所述获取的所有行业标准格式文件进行解析,生成用于索引所述所有行业标准格式文件的索引文件。
2.根据权利要求1所述的方法,其特征在于,
所述获取行业标准格式语言资产包括:
从TM库中获取的TMX文件;
或者,
从术语库中获取的TBX文件;
或者,分别从TM库和术语库中获取TMX文件和TBX文件。
3.根据权利要求2所述的方法,其特征在于,
所述生成用于索引所述所有行业标准格式文件的索引文件之后包括:
对所述TM库和所述术语库中的至少一个进行监控;
若监控到当前所述TM库和所述术语库中的至少一个存在更新操作,则获取当前所有更新文件的事件信息,其中,所述TM库的所述更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改,所述术语库的所述更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改,其中,所述事件信息包括所述更新文件的文件全路径和指示该更新文件的更新操作的事件标识;
根据获取的所述当前所有更新文件的事件信息更新所述索引文件。
4.根据权利要求2所述的方法,其特征在于,
所述生成用于索引所述所有行业标准格式文件的索引文件之后包括:
对所述TM库和所述术语库中的至少一个进行监控;
若监控到当前时间段内所述TM库和所述术语库中的至少一个存在更新操作,则获取所述当前时间段内的所有更新文件的事件信息,其中,所述TM库的所述更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改,所述术语库的所述更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改,其中,所述事件信息包括所述更新文件的文件全路径和指示该更新文件的更新操作的事件标识;
根据所述当前时间段内的所有更新文件的事件信息更新所述索引文件。
5.根据权利要求1至4所述的方法,其特征在于,
所述生成用于索引所述所有行业标准格式文件的索引文件之后还包括:
接收输入的搜索字符串;
根据所述搜索字符串从所述索引文件中搜索与所述搜索字符串匹配的索引条目;
若搜索到与所述搜索字符串匹配的索引条目,则输出所述索引条目。
6.一种行业标准格式文件重用装置,其特征在于,包括:
第一获取单元,用于获取行业标准格式文件,所述行业标准格式文件为翻译记忆交换格式TMX文件和术语库交换格式TBX文件中的至少一种;
解析生成单元,用于对所述第一获取单元获取的所有行业标准格式文件进行解析,生成用于索引所述所有行业标准格式文件的索引文件。
7.根据权利要求6所述的装置,其特征在于,
所述第一获取单元包括:
第一获取子单元和第二获取子单元中的至少一个;
所述第一获取子单元用于获取TM库中的TMX文件;
所述第二获取子单元用于获取术语库中的TBX文件。
8.根据权利要求7所述的装置,其特征在于,所述行业标准格式文件重用装置还包括监控单元,第二获取单元和更新单元;
所述监控单元用于对所述TM库和所述术语库中的至少一个进行监控;
所述第二获取单元用于当所述监控单元监控到当前所述TM库和所述术语库中的至少一个存在更新操作时,获取当前所有更新文件的事件信息,其中,所述TM库的所述更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改,所述术语库的所述更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改,其中,所述事件信息包括所述更新文件的文件全路径和指示该更新文件的更新操作的事件标识;
所述更新单元用于根据所述第二获取单元获取到的所述当前所有更新文件的事件信息更新所述索引文件。
9.根据权利要求7所述的装置,其特征在于,所述行业标准格式文件重用装置还包括监控单元,第二获取单元和更新单元;
所述监控单元用于对所述TM库和所述术语库中的至少一个进行监控;
所述第二获取单元用于当所述监控单元监控到当前时间段内所述TM库和所述术语库中的至少一个存在更新操作,则获取所述当前时间段内的所有更新文件的事件信息,其中,所述TM库的所述更新操作包括至少一种如下操作:TMX文件的新增、TMX文件的删除、TMX文件的拷贝和TMX文件的修改,所述术语库的所述更新操作包括至少一种如下操作:TBX文件的新增、TBX文件的删除、TBX文件的拷贝和TBX文件的修改,其中,所述事件信息包括所述更新文件的文件全路径和指示该更新文件的更新操作的事件标识;
所述更新单元用于根据所述第二获取单元获取到的所述当前时间段内的所有更新文件的事件信息更新所述索引文件。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述行业标准格式文件重用装置还包括:
接收单元,搜索单元和输出单元;
所述接收单元用于接收输入的搜索字符串;
所述搜索单元用于根据所述搜索字符串从所述索引文件中搜索与所述搜索字符串匹配的索引条目;
输出单元,用于当所述搜索单元搜索到与所述搜索字符串匹配的索引条目时,输出所述索引条目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110447676.1A CN102591859B (zh) | 2011-12-28 | 2011-12-28 | 一种重用行业标准格式文件的方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110447676.1A CN102591859B (zh) | 2011-12-28 | 2011-12-28 | 一种重用行业标准格式文件的方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102591859A true CN102591859A (zh) | 2012-07-18 |
CN102591859B CN102591859B (zh) | 2014-11-05 |
Family
ID=46480528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110447676.1A Active CN102591859B (zh) | 2011-12-28 | 2011-12-28 | 一种重用行业标准格式文件的方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102591859B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729346A (zh) * | 2012-10-11 | 2014-04-16 | 上海勇金懿信息科技有限公司 | 动态生成多语言行业标准格式的海量语言资产的方法 |
CN103838763A (zh) * | 2012-11-26 | 2014-06-04 | 鸿富锦精密工业(深圳)有限公司 | 目标文件生成系统及方法 |
CN103914448A (zh) * | 2014-03-25 | 2014-07-09 | 廉勇 | 基于塔多斯和Excel优化翻译项目流程的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6473729B1 (en) * | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
CN101452459A (zh) * | 2007-11-30 | 2009-06-10 | 英业达股份有限公司 | 利用索引查找相似翻译结果的系统及其方法 |
US7593844B1 (en) * | 2008-09-22 | 2009-09-22 | International Business Machines Corporation | Document translation systems and methods employing translation memories |
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
-
2011
- 2011-12-28 CN CN201110447676.1A patent/CN102591859B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6473729B1 (en) * | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
CN101452459A (zh) * | 2007-11-30 | 2009-06-10 | 英业达股份有限公司 | 利用索引查找相似翻译结果的系统及其方法 |
US7593844B1 (en) * | 2008-09-22 | 2009-09-22 | International Business Machines Corporation | Document translation systems and methods employing translation memories |
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
Non-Patent Citations (1)
Title |
---|
刘小军: "基于多语种平行语料库的机器辅助翻译系统", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729346A (zh) * | 2012-10-11 | 2014-04-16 | 上海勇金懿信息科技有限公司 | 动态生成多语言行业标准格式的海量语言资产的方法 |
CN103838763A (zh) * | 2012-11-26 | 2014-06-04 | 鸿富锦精密工业(深圳)有限公司 | 目标文件生成系统及方法 |
CN103914448A (zh) * | 2014-03-25 | 2014-07-09 | 廉勇 | 基于塔多斯和Excel优化翻译项目流程的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102591859B (zh) | 2014-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107958057B (zh) | 一种用于异构数据库中数据迁移的代码生成方法及装置 | |
KR102237702B1 (ko) | 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체 | |
CN107122368B (zh) | 一种数据校验方法、装置及电子设备 | |
US9400733B2 (en) | Pattern matching framework for log analysis | |
CN105205053A (zh) | 一种数据库增量日志解析方法及系统 | |
US20120278353A1 (en) | Searching with topic maps of a model for canonical model based integration | |
JP6090850B2 (ja) | ソースプログラム解析システム、ソースプログラム解析方法およびプログラム | |
CN104657402A (zh) | 用于语言标签管理的方法和系统 | |
CN102110102A (zh) | 数据处理方法及装置、文件识别方法及工具 | |
US8515977B2 (en) | Delta language translation | |
US20130054427A1 (en) | Explosions of bill-of-materials lists | |
CN102591859B (zh) | 一种重用行业标准格式文件的方法及相关装置 | |
CN114756868A (zh) | 一种基于指纹的网络资产与漏洞关联方法及装置 | |
CN111143390A (zh) | 更新元数据的方法及装置 | |
CN114297204A (zh) | 一种异构数据源的数据存储、检索方法及装置 | |
CN105447040B (zh) | 二进制文件管理、更新方法、装置以及系统 | |
US20130191357A1 (en) | Managing multiple versions of enterprise meta-models using semantic based indexing | |
CN103793395A (zh) | 一种快速查询和重用海量多语言资产的方法 | |
CN104536897A (zh) | 基于关键字的自动测试方法及系统 | |
CN110764777B (zh) | 一种elf文件生成方法、elf文件、设备及存储介质 | |
CN104978379A (zh) | 一种应用程序资料站的搭建方法及装置 | |
US20100185652A1 (en) | Multi-Dimensional Resource Fallback | |
CN114756532A (zh) | 基于文化天猫的多源异构数据采集方法、装置和电子设备 | |
CN112699642A (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 | |
US20140074869A1 (en) | Autoclassifying compound documents for enhanced metadata search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |