CN1719407A - 不同语种xml文档转换的方法 - Google Patents
不同语种xml文档转换的方法 Download PDFInfo
- Publication number
- CN1719407A CN1719407A CN 200410062398 CN200410062398A CN1719407A CN 1719407 A CN1719407 A CN 1719407A CN 200410062398 CN200410062398 CN 200410062398 CN 200410062398 A CN200410062398 A CN 200410062398A CN 1719407 A CN1719407 A CN 1719407A
- Authority
- CN
- China
- Prior art keywords
- attribute
- languages
- xml document
- conversion
- xml
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种不同语种XML文档转换的方法,它对XML Schema中需要进行语种转换的元素,设置在实例中不可改变的、唯一的标识符属性,和属性次序属性;当需要进行XML文档实例转换时,依据事先设计的转换规则,将第一语种的XML文档实例转换为第二语种的XML文档实例。本发明使以下情形变为可能:一个制定和发布某种XML文档类型的机构,仅需维护一个语种的Schema版本。本发明使得多语种的应用可通过标识符引用,经过多次翻译之后,元素名称不会偏离原始的含义。本发明方便了XML数据的处理和共享,能保持XML元素和属性名称含义的精确性,使XML应用突破了语言障碍,具有通用性、灵活性和实用性。
Description
技术领域
本发明涉及一种XML文档多语种转换的方法,特别是一种既可以转换XML(eXtensible Markup Language)元素(E1ement)和属性(Attribute)的名称,也可以为元素内容的转换提供帮助的方法。属于计算机信息交换(共享)技术领域。
背景技术
信息的国际化交换和本地化表示是一种信息处理技术发展中的长期的需求。信息的国际化交换和本地化表示技术已从早期的字符集编码转换发展到更高的信息结构和语义转换的层次。支持结构化信息表示的XML技术目前已经成为全球信息共享的基础之一。如何使XML的数据表示同时满足国际化和本地化需求是亟待解决的、意义深远的课题。
在以往XML的数据表示国际化和本地化技术发展中,人们主要专注于通过良好的XML构造习惯使之便于进行多语种转换,其重点是元素内容的翻译,而元素名称和属性名称的转换一直是使用中所有人都尽力回避的问题。因此,业界目前还没有形成一种完全并且通用的方法来实现XML最常见的也是最需要的元素名称和属性名称的多语种转换。
因此,会有这样一种情况发生:在现有技术条件下,一个制定和发布某种XML文档类型的机构发布的一个语种的文档大纲(Schema)版本被多次翻译之后,其中的元素名称会偏离原始的含义。在这种情况下,如果要对日后来自任何语种使用人群的同类型文档进行处理,就需要很大的维护工作量。这种情况使得多语种的XML数据的处理和共享非常困难,经过翻译后XML文档不能够保持XML元素和属性名称所表达含义的精确性,也使XML的应用受到语言的障碍,不具有通用性、灵活性和实用性。
发明内容
本发明所要解决的主要技术问题是提供一种支持XML文档多语种转换的方法,实现XML的元素名称和属性名称的多语种转换。
本发明所要解决的另一个技术问题是提供一种支持XML文档多语种转换的方法,使得对于由一个制定和发布某种XML文档类型的机构发布的一个语种的Schema版本被多次翻译之后,其元素名称依然不会偏离原始的含义。且不同语种人群转换同类型XML文档的处理工作量极小。
本发明所要解决的又一个技术问题是提供一种支持XML文档多语种转换的方法,使得XML的应用突破语言的障碍,具有通用性、灵活性和实用性。
为实现上述各种问题的解决,本发明主要包括如下的技术方案:
对于XML Schema中需要进行不同语种转换的元素,设置在实例中不可改变的、唯一的标识符属性,和属性次序属性;当需要进行XML文档实例转换时,依据事先设计的转换规则,将第一语种的XML文档实例转换为第二语种的XML文档实例;具体的转换过程如下:
步骤1:翻译根元素,重置命名空间声明;
步骤2:对第一语种的XML文档实例中需要转换的元素,按照事先设计的转换规则,将相应的元素转换为第二语种的XML文档实例中的元素(包括属性名的转换);直到所有的元素转换完毕;
步骤3:结束转换。
本发明的主要思想是:采用唯一标识符的方法来对应不同语种表示的相同元素;采用预定义属性次序的方法来确定实际出现的属性的顺序值,再根据属性的次序值来对应不同语种表示的相同属性,以解决XML属性出现次序不固定,且不能为属性指定标识(ID)从而无法通过ID对应属性的缺憾。由此定义的标识符属性和属性次序属性可以赋予任何需要进行语种翻译的元素,其属性值在Schema中被明确指定,在XML实例中不能改变。各元素的标识符属性值可以为任何数据类型,仅要求有唯一的取值。属性次序采用有序列表来表示,其中罗列该元素允许出现的、需要进行语种转换的所有属性。这些属性应该与所属元素具有相同的命名空间。本发明限制元素使用其他命名空间的全局属性,除非这些属性不需要进行语种转换。
该过程包括在XML Schema中为要转换的元素定义用于语种翻译的标识符属性值和属性次序属性值,使XML文档在生成时,每个需要转换的元素具有特定的标识符属性值和特定顺序的属性次序属性值。当XML文档在不同语种之间翻译时,可以编写一套转换程序,根据上述标识符属性值和属性次序属性值,确定不同语种表示的元素和属性之间的对应关系,从而进行准确、有效的语种转换。本发明主要可用于不同语种XML文档(例如以XML表示的办公文档格式)之间的转换,也可以用于确定数据元素之间的唯一对应关系。
本发明与现有技术相比,具有明显的优点和有益的效果。本发明使以下情形变为可能:一个制定和发布某种XML文档类型的机构,仅需维护一个语种的Schema版本。当需要其他语种的版本时,相关的机构可以自行翻译Schema并产生相应语种的XML实例,仅要求保持元素的用于语种翻译的标识符属性值和相同次序的元素次序属性值。这个文档类型制定机构便可以处理日后来自任何语种使用人群的同类型文档,仅需设计一套转换程序,便可以将任意语种的XML文档转换成原始的语种。
本发明也提供了一种机制,使得多语种的应用可以通过标识符来引用注册库中注册的标准的数据元素,而数据元素标准制定机构仅需发布和维护一个语种的版本,而不用担心经过多次翻译之后,元素名称会偏离原始的含义。
本发明大大方便了XML数据的处理和共享,能够完全保持XML元素和属性名称所表达含义的精确性,也使XML的应用突破了语言的障碍,具有较高的通用性、灵活性和实用性。
附图说明
图1为图1是本发明的XML文档转换关系图;
图2是本发明的语种转换过程框图。
具体实施方式
以下结合附图和具体的实施例对本发明作进一步的详细说明:
请参阅图1,其为本发明的XML文档转换关系图。首先,假定设计出中文版本的电子邮件XML Schema,其中的元素“收件人”的定义,具有如下表所列的属性:
属性名称 | 属性类型 | 使用 | 缺省 | 指定值 |
top:locID | xsd:string | e1-4 | ||
top:attrList | xsd:NMTOKENS | required | 发送 抄送 密送 | |
发送 | xsd:boolean | |||
抄送 | xsd:boolean | |||
密送 | xsd:boolean |
属性“top:locID”是元素“收件人”的用于语种翻译的标识符。它具有固定的属性值“e1-4”。元素“收件人”有三个相同命名空间的属性:“发送”、“抄送”、“密送”。它们的次序由属性“top:attrList”的值“发送 抄送 密送”来指定。
然后,假定中文版本的电子邮件XML Schema被翻译成英文,其中与中文版本的电子邮件XML Schema中元素“收件人”相对应的元素“Receiver”的定义,其属性如下:
属性名称 | 属性类型 | 使用 | 缺省 | 指定值 |
top:locID | xsd:string | e1-4 | ||
top:attrList | xsd:NMTOKENS | required | sc cc bc | |
sc | xsd:boolean | |||
cc | xsd:boolean | |||
bc | xsd:boolean |
其用于语种翻译的“locID”属性值与“收件人”的“locID”属性值相同,原来的三个属性名称“发送”、“抄送”、“密送”分别被翻译成“sc”、“cc”、“bc”,表示属性次序的“top:attrList”属性值所指明的上述三个属性的出现次序与“收件人”的“top:attrList”属性值所指明的次序相同。
其次,根据上述翻译的英文版本的电子邮件XML Schema生成一个英文的电子邮件XML实例,其中的元素“mail:Receiver”:其用于语种翻译的“etop:locID”属性值为“e1-4”,是由XML Schema规定的,其表示属性次序的“etop:attrList”属性值为“sc cc bc”,也是由Schema规定的。实际出现的属性为“sc”和“cc”,其属性值均为“true”。
最后,设计一套程序,将上述实例转换成中文实例。步骤如下(参见图2):
(1)翻译根元素,重置命名空间声明;
(2)如果存在需要转换的元素,则处理之;具体做法是:
(3)首先提取元素的“locID”属性值;
(4)判断“locID”属性值是否为已知的“locID”值(Schema中指定的值);
(5)如果“el-4”不是已知的“locID”值;则按原样复制元素,不做转换;
(6)用所要翻译的语种的文字替代被翻译语种的元素名;
(7)提取该元素的“attrList”属性值;
(8)如果元素有实际出现的属性,则分别处理之;具体的做法是:
(9)判断该实际出现的属性的命名空间是否与元素的命名空间相同;如果不属于同一个命名空间,则原样保留该属性,转(11);
(10)查找该属性的属性名在“attrList”中的次序,根据该位置1,将相应的属性名进行替换,即利用要翻译的目标语言替换被翻译的相应属性名称;
(11)如果上述的步骤中未查到属性名在“attrList”属性值中的出现位置,则原样保留该属性;
(12)继续处理其他实际出现的属性,转(8);对于不进行转换的其他属性(例如:不属元素命名空间的属性),原样拷贝不做转换;
(13)继续处理其他元素,转(2)。对于不进行转换的其他元素(如无“locID”属性的元素),原样拷贝不做转换;
(14)完成转换。
本发明的两个典型应用场合为:
一个制定和发布某种XML文档类型的机构,仅需维护一个语种的Schema版本。当需要其他语种的版本时,相关的机构可以自行翻译Schema并产生相应语种的XML实例,仅要求保持元素的用于语种翻译的标识符属性值和相同次序的元素次序属性值。这个文档类型制定机构便可以处理日后来自任何语种使用人群的同类型文档,仅需设计一套转换程序,便可以将任意语种的XML文档转换成原始的语种。
一个数据元素标准制定机构,使用本发明使得多语种的应用可以通过标识符来引用注册库中注册的标准的数据元素,数据元素标准制定机构仅需发布和维护一个语种的版本,而不用担心经过多次翻译之后,元素名称会偏离原始的含义。
在办公文档格式应用领域,标准制定机构采用第一语种元素名称和属性名称设计XML Schema形式的文档格式标准。这个Schema可以发布到其他语种的地区,由相关机构进行翻译,得到其他语种的Schema,再生成其他语种的XML实例。第一语种办公文档格式标准制定机构设计一套通用的XSLT(Extensible Stylesheet Language Transformations)式样单或转换程序,将不同语种的XML实例文档进行转换,得到符合第一语种XML Schema标准的第一语种XML实例,从而使符合第一语种办公文档格式标准的任何语种的XML文档均可在支持该标准的第一语种办公软件中得到正确处理。既标准化了第一语种的文档格式,又使得文档可在使用不同语种的人群中交流,达到信息交换的目的。
最后应说明的是:以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或者等同替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1、一种不同语种XML文档转换的方法,其特征在于:
对于XML Schema中需要进行不同语种转换的元素,设置在实例中不可改变的、唯一的标识符属性,和属性的次序属性;当需要进行XML文档实例转换时,依据事先设计的转换规则,将第一语种的XML文档实例转换为第二语种的XML文档实例;具体的转换过程如下:
步骤1:翻译根元素,重置命名空间声明;
步骤2:对第一语种的XML文档实例中需要转换的元素,按照事先设计的转换规则,将相应的元素转换为第二语种的XML文档实例中的元素;直到所有的元素转换完毕;
步骤3:结束转换。
2、根据权利要求1所述的不同语种XML文档转换的方法,其特征在于:所述的步骤2具体包括:
步骤21:如果第一语种的XML文档实例中存在需要转换的元素,则执行步骤22,否则执行步骤28;
步骤22:提取当前元素的唯一的标识符属性值;
步骤23:判断该唯一的标识符属性值是否为已知;
步骤24:如果所述的唯一的标识符属性值不是已知的;则按原样复制元素,不做转换;否则按照事先设计的转换规则用第二语种的相应元素名替换所述第一语种的XML文档实例中的相应元素名;
步骤25:提取该元素的属性次序属性值;
步骤26:判断当前元素是否有实际出现的属性;
步骤27:如果有实际出现的属性,则转261。重复步骤26,直到所有的属性都处理完毕;执行步骤21;
步骤28:拷贝其他元素,以原样保留不做转换的元素。
3、根据权利要求2所述的不同语种XML文档转换的方法,其特征在于:所述的步骤26具体包括:
步骤261:判断当前元素中实际出现的属性的命名空间与元素的命名空间是否相同;如果不同,则原样保留该属性,执行步骤26;否则执行步骤262;
步骤262:查找该属性的属性名在属性次序属性值中的次序,
步骤263:如果查到属性名在属性次序属性值中的出现位置,则依据事先设计的转换规则,用第二语种的相应属性名替换该第一语种的XML文档实例中的属性名;
步骤264:如果未查到属性名在属性次序属性值中的出现位置,则原样保留该属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100623988A CN100354822C (zh) | 2004-07-09 | 2004-07-09 | 不同语种xml文档转换的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100623988A CN100354822C (zh) | 2004-07-09 | 2004-07-09 | 不同语种xml文档转换的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1719407A true CN1719407A (zh) | 2006-01-11 |
CN100354822C CN100354822C (zh) | 2007-12-12 |
Family
ID=35931250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100623988A Active CN100354822C (zh) | 2004-07-09 | 2004-07-09 | 不同语种xml文档转换的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100354822C (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010105383A1 (en) * | 2009-03-18 | 2010-09-23 | Google Inc. | Web translation with display replacement |
CN101887364A (zh) * | 2010-04-28 | 2010-11-17 | 北京星网锐捷网络技术有限公司 | 帮助文档的生成方法和装置 |
CN102402505A (zh) * | 2010-09-10 | 2012-04-04 | 国际商业机器公司 | 增量语言翻译方法和系统 |
CN107391499A (zh) * | 2017-08-03 | 2017-11-24 | 深圳Tcl新技术有限公司 | 自动导入翻译方法、文字显示终端及计算机可读存储介质 |
CN109684417A (zh) * | 2018-11-14 | 2019-04-26 | 凯莱英医药集团(天津)股份有限公司 | 数据展示方法及装置、存储介质和处理器 |
CN111045661A (zh) * | 2019-12-04 | 2020-04-21 | 西安鼎蓝通信技术有限公司 | 基于语义和特征码的XML Schema生成方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1212406A (zh) * | 1997-09-23 | 1999-03-31 | 金旗 | 计算机自动准确翻译系统 |
JP2001325255A (ja) * | 2000-03-16 | 2001-11-22 | Unisoft Co Ltd | 多言語翻訳システム及び多言語翻訳サービス方法 |
JP2002007439A (ja) * | 2000-06-20 | 2002-01-11 | Nec Corp | 文書情報を管理するidテーブル作成方法 |
US20020143823A1 (en) * | 2001-01-19 | 2002-10-03 | Stevens Mark A. | Conversion system for translating structured documents into multiple target formats |
US20030004703A1 (en) * | 2001-06-28 | 2003-01-02 | Arvind Prabhakar | Method and system for localizing a markup language document |
-
2004
- 2004-07-09 CN CNB2004100623988A patent/CN100354822C/zh active Active
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010105383A1 (en) * | 2009-03-18 | 2010-09-23 | Google Inc. | Web translation with display replacement |
US8683329B2 (en) | 2009-03-18 | 2014-03-25 | Google Inc. | Web translation with display replacement |
CN102428461B (zh) * | 2009-03-18 | 2015-11-25 | 谷歌公司 | 利用显示替换的web翻译 |
CN101887364A (zh) * | 2010-04-28 | 2010-11-17 | 北京星网锐捷网络技术有限公司 | 帮助文档的生成方法和装置 |
CN101887364B (zh) * | 2010-04-28 | 2013-06-19 | 北京星网锐捷网络技术有限公司 | 帮助文档的生成方法和装置 |
CN102402505A (zh) * | 2010-09-10 | 2012-04-04 | 国际商业机器公司 | 增量语言翻译方法和系统 |
CN107391499A (zh) * | 2017-08-03 | 2017-11-24 | 深圳Tcl新技术有限公司 | 自动导入翻译方法、文字显示终端及计算机可读存储介质 |
CN109684417A (zh) * | 2018-11-14 | 2019-04-26 | 凯莱英医药集团(天津)股份有限公司 | 数据展示方法及装置、存储介质和处理器 |
CN111045661A (zh) * | 2019-12-04 | 2020-04-21 | 西安鼎蓝通信技术有限公司 | 基于语义和特征码的XML Schema生成方法 |
CN111045661B (zh) * | 2019-12-04 | 2023-07-04 | 鼎蓝惠民信息技术(西安)有限公司 | 基于语义和特征码的XML Schema生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN100354822C (zh) | 2007-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101067814A (zh) | 数据访问层Xml格式数据与关系数据间的映射转换方法 | |
US7685135B2 (en) | Database facility for XML server pages language | |
EP1376399A2 (en) | System and method providing an API interface between XML and SQL while interacting with a managed object environment | |
US20100325169A1 (en) | Representing Markup Language Document Data in a Searchable Format in a Database System | |
CN101739436B (zh) | 基于xml的柔性数据迁移方法 | |
KR101122629B1 (ko) | 데이터베이스의 데이터를 변환하여 xml 문서를 생성하는 방법 | |
CN102279847A (zh) | 软件系统国际化方法和装置 | |
US20020152221A1 (en) | Code generator system for digital libraries | |
CN1437365A (zh) | 一种通信设备的数据离线配置方法 | |
US7711675B2 (en) | Database simulation of data types | |
Wang et al. | A space efficient XML DOM parser | |
CN1719407A (zh) | 不同语种xml文档转换的方法 | |
CN1652109A (zh) | 二进制大对象数据的复制方法和设备 | |
CN1728166A (zh) | 一种产品数据管理系统的集成方法 | |
CN1633080A (zh) | 在网络管理系统中实现日志的方法 | |
CN1808428A (zh) | 展现及编辑信息检索条件的系统及方法 | |
Rys | State-of-the-art XML support in RDBMS: Microsoft SQL server's XML features | |
CN117076491A (zh) | 一种数据处理方法、存储介质与设备 | |
CN103020162B (zh) | Cc2000模型转换导入d5000系统的方法 | |
CN114924983A (zh) | 一种Xmind测试用例转禅道用例的方法 | |
CN1432944A (zh) | 用于鉴别中文地址数据的方法和系统 | |
CN100347702C (zh) | 基于结构分析的可扩展标记语言键约束验证方法 | |
Tsou et al. | A synchronous Chinese language corpus from different speech communities: Construction and applications | |
US7953714B2 (en) | Method for maintaining parallelism in database processing using record identifier substitution assignment | |
CN111427938B (zh) | 数据转存的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |