CN100501740C - 将不同格式的文本数据转换为统一格式的方法及其系统 - Google Patents

将不同格式的文本数据转换为统一格式的方法及其系统 Download PDF

Info

Publication number
CN100501740C
CN100501740C CNB2007100172953A CN200710017295A CN100501740C CN 100501740 C CN100501740 C CN 100501740C CN B2007100172953 A CNB2007100172953 A CN B2007100172953A CN 200710017295 A CN200710017295 A CN 200710017295A CN 100501740 C CN100501740 C CN 100501740C
Authority
CN
China
Prior art keywords
text data
label
format
intermediate file
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007100172953A
Other languages
English (en)
Other versions
CN101013436A (zh
Inventor
陈淮琰
刘刚
钟辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Besta Xian Co Ltd
Original Assignee
Inventec Besta Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Xian Co Ltd filed Critical Inventec Besta Xian Co Ltd
Priority to CNB2007100172953A priority Critical patent/CN100501740C/zh
Publication of CN101013436A publication Critical patent/CN101013436A/zh
Application granted granted Critical
Publication of CN100501740C publication Critical patent/CN100501740C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种文本数据格式转换的方法,尤其是一种将不同格式的文本数据转换为统一格式的方法及系统。其技术解决方案为:该方法包括以下步骤:1)转换不同储存格式的文本数据为带有卷标描述信息的中间文件;2)按照文本数据呈现需求所需的显示格式,进行卷标解释配置及文本数据显示格式配置,制定统一模板的应用模板;3)提取卷标描述信息映像到该应用模板中;4)依照显示格式,将卷标描述信息与应用模板进行映像,转换数据格式,进而统一文本数据上的储存格式与数据格式。本发明解决了普通技术中存在的技术问题,不仅可以将不同格式的文本数据转换为统一的格式,而且还具有方便、快捷、减少了文本数据转化的错误率的优点。

Description

将不同格式的文本数据转换为统一格式的方法及其系统
技术领域
本发明涉及一种文本数据格式转换的方法,尤其是一种将不同格式的文本数据转换为统一格式的方法及系统。
背景技术
一般而言,在不同的时期或者不同的文本数据编写者或者提供者所提供的文本数据格式都可能差别很大,而文本数据的呈现方式也会有很多不同。因此,我们常常会碰到需要处理以各种格式保存或者传输的文本数据的情况,这里不同格式是指文本数据本身储存的格式不同,以及文本数据本身的数据结构不一致,例如文本文本数据(TXT),DOC,超文本标识语言(HypertextMarkup Language,HTML),可扩展超文本标识语言(Extensible HypertextMarkup Language,xhtml)及可扩展标识语言(Extensible Markup Language,XML)等格式进行储存。
目前文本数据的处理往往是针对各部分文本数据,依照具体的应用需求利用专门的软件做专门的处理。例如,对每一种格式都需要对应的解析器(parser)。因此处理过程、文本数据格式和应用密切相关,而如果文本数据在不同软件之间进行转换时,容易引入错误,影响数据处理的品质。此外,一旦需求变化,文本数据则需要再次修改。随着文本数据的更新,相应处理也必须发生变化,因此上述不同格式的文本数据的转换不仅灵活性很差,而且很耗费人力和时间。尤其是在针对引擎开发以及数据驱动模式开发的过程中,在前期的数据处理时,由于文本数据格式的不一致,不仅减缓了开发进度,增加了相应开发的时间周期,而且可能会导致错误的发生。
发明内容
本发明为了解决背景技术中存在的上述技术问题,而提供一种将不同格式的文本数据转换为统一的格式的方法及系统,不仅方便、快捷,而且减少了文本数据转化的错误率。
本发明的技术解决方案是:本发明为一种将不同格式的文本数据转换为统一格式的方法,其特殊之处在于:该方法包含有以下步骤:
1)转换不同储存格式的文本数据为带有卷标描述信息的中间文件;
1.1)读取不同储存格式的文本数据,并依照各文本数据的储存格式对其呈现的信息描述给予卷标化,以得到相应的卷标描述信息;
1.2)抽取出卷标描述信息,以生成带有卷标描述信息的中间文件;
2)然后按照文本数据呈现需求所需要的显示格式,进行卷标解释配置及文本数据显示格式配置,制定有统一模板格式的应用模板;
3)提取中间文件的卷标描述信息映像到该应用模板中;
4)依照卷标解释与文本数据显示格式,将中间文件的卷标描述信息与应用模板进行映像,转换中间文件的数据格式,进而统一文本数据上的储存格式与数据格式。
上述步骤1)中当所述文本数据中含有二进制信息描述时,则在中间文件中对应该二进制信息的文本描述处添加一资源连接的卷标及其属性,以转换文本数据为合适的带有卷标描述信息的中间文件。
上述步骤1)和步骤2)之间还包括有检查中间文件的正确性及其格式合法性的步骤。
上述步骤2)和步骤3)之间还包括有借助应用模板的卷标描述的格式卷标格式化显示中间文件,以查看和验证该应用模板的配置是否正确的步骤。
上述步骤2)中还包括有更新应用模板的卷标解释配置及文本数据显示格式配置的步骤。
上述步骤3)中提取中间文件中的卷标描述信息的过程中,对于中间文件中可以舍弃的卷标描述信息,给予卷标描述信息的屏弊,对于其中可以舍弃的数据文件,屏弊数据文件对应的卷标描述信息。
上述中间文件为可自定义卷标的卷标属性的卷标文本数据,如可扩展标识语言文本数据。
一种应用上述的将不同格式的文本数据转换为统一格式的方法的系统,其特殊之处在于:该系统包括用来将不同储存格式的文本数据转换为带有卷标描述信息的中间文件,进而统一各文本数据的储存格式的第一转换模块、用来配置卷标解释及文本数据显示格式,以制定具有统一模板格式的应用模板的定义模块、用来依照已配置的卷标解释与文本数据显示格式,将中间文件的卷标描述信息与应用模板进行比对,转换中间文件的数据格式,进而统一文本数据上的储存格式与数据格式的第二转换模块,第一转换模块和定义模块分别接入第二转换模块。
上述系统还包括用来依照应用模板的卷标描述的格式卷标格式化显示中间文件,进而查看和验证该应用模板的配置是否正确的预览模块和检查中间文件的正确性及其格式的合法性的检查模块,预览模块分别接入第一转换模块和定义模块,检查模块接入第一转换模块。
本发明的方法是依照文本数据显示的要求统一制定应用模板,而将文本数据本身与具体应用分离,即文本数据本身只呈现文本数据本身的信息描述,而不关心应用描述。依照不同的应用抽取出文本数据中的卷标描述,生成文本数据的卷标描述文本数据,进而将文本数据依照给定的卷标模式和定义的统一模板格式给予转换,达到文本数据格式统一的目的。因此本发明通过卷标描述的中间文件,进行分层转换的方式,将文本数据描述与提取分离,可方便文本数据的维护,不必在文本数据中添加任何应用格式上的说明,进而做到文本数据与应用具体格式的分离,同时通过将文本数据转换为带卷标的中间文件,可减少转换为统一格式时所导致的信息丢失,因此不仅容易实现且不易出错,还可以在转换的过程中,通过中间文件的卷标描述信息,方便快捷地查看各个转换阶段文本数据的正确性。此外,本发明的方法通过使用配置脚本进行数据格式转换所依照的应用模板,对于同类型的卷标文本数据,仅配置一份即可完成全部的转换,还可以方便配置批脚本处理,并且,当文本数据呈现需求变化时,文本数据的更新仅需要更新应用模板的配置即可,进而节省人力和开发时间。
附图说明
图1为本发明具体实施例中的文本数据储存格式转换的流程图;
图2为本发明具体实施例中的文本数据数据格式转换的流程图;
图3、4为本发明具体实施例中的文本数据数据格式转换后卷标映像处理的实例示意图;
图5为本发明具体实施例中的文本数据格式转换方法转换后所得文本数据的应用显示图;
图6本发明的系统框图;
图7为依据本发明的方法和系统得到的具有统一格式文本数据的应用示意图。
具体实施方式
本发明的方法的具体步骤如下:
1)转换不同储存格式的文本数据为带有卷标描述信息的中间文件,进而统一源文件的储存格式,例如将doc、TXT等不同储存格式的文本数据转换为统一的XML格式文本数据;
2)然后按照文本数据呈现需求所需要的显示格式,进行卷标解释配置及文本数据显示格式配置,制定有统一模板格式的应用模板;
3)接着提取转换得到的中间文件的卷标描述信息,并将其映像到制定的应用模板中;
4)依照应用模板中事先配置卷标解释与文本数据显示格式,将中间文件的卷标描述信息与应用模板进行映像,转换中间文件的数据格式,进而统一文本数据上的储存格式与数据格式。
需要注意的是,这里的文本数据可包含一个或多个文本数据,对于存在一个文本数据的情况,统一的储存格式是指希望转换的中间文件储存格式一致,本发明仅需要将此文本数据转换为带有卷标描述信息且具有预定储存格式的中间文件即可。同理,统一的数据格式则表示将已具有统一储存格式的中间文件的数据格式再转换为应用模板所预先制定的数据格式。
另外,具有卷标描述的中间文件,可以是可扩展标识语言(XML)文本数据,还可以是任何可以自定义卷标的卷标属性的卷标文本数据,如以下卷标文本数据均属于卷标描述中间文件的实例:
\语义\<L>文</L>[名前·称号の前で]ああ,おお\|语义\
[用例]ああぃやだ!|<L>略式</L>(Well,)I′ll be[I′m]damned![\用例]
下面结合具体实施例对本发明的方法做进一步的详细描述:
参见图1,本发明的文本数据储存格式转换具体步骤如下:首先读取源文件,依照文本数据的储存格式对其呈现的信息描述给予卷标化,以得到相应的卷标描述信息(步骤201)。这部分转换只需要注意将文本数据的信息没有损失地以卷标描述的形式保存下来。进而可依照文本数据的具体格式,将其组织为带有卷标描述信息的中间文件。
对于文本数据中含有的二进制信息(例如图片,媒流)进行卷标化时,抽取出图片,媒流等二进制信息后,需要在文本描述处添加好资源连接的卷标及其属性,进而将文本数据转换为适合带有卷标描述信息的中间描述文件。
对于存在字段说明的文本文本数据,可能会存在一些固定格式的字段,则需要将字段的这种格式呈现的信息给予卷标信息化。例如以字段格式描述的信息如下:
英文:…
中文:…
英文:This is English.
中文:这是中文.
对上述格式的信息进行卷标化处理后如下所示:
<英文>…</英文>
<中文>…</中文>
<英文>This is English.</英文>
<中文>这是中文.</中文>
对于表格数据,如下面所示的表格1:
表格1
 
FieldName-1 FieldName-2
Field1-Row1-Value Field2-Row1-Value
Field1-Row2-Value Field2-Row2-Value
则对表格1中的信息进行卷标化后的信息为:
<table>
  <tr>
     <td>FieldName-1</td>
     <td>FieldName-2</td>
  </tr>
  <tr>
    <td>Field1-Row1-Value</td>
    <td>Field2-Row1-Value</td>
  </tr>
  <tr>
    <td>Field1-Row2-Value</td>
    <td>Field2-Row2-Value</td>
  </tr>
</table>
这里,当源文件转换为带有卷标描述的XML格式时,会存在源文件本身就是XML格式的,因此可能有些卷标依赖具体上下文文本数据,因此需要消除上下文相关卷标描述信息(步骤202)。
例如下面给出的源文件:
<meaning subid="BG000050#AD00000"><hinshi>[副]</hinshi>《◆次の成句で》.</meaning>
<subheadword subid="BG000050#SK00010"type="成句">bet&agrave;ken ab&aacute;ck</subheadword><key type="成句">be/taken/take*/aback</key><meaning>めんくらう,あっけにとられる.</meaning>
<subheadword subid="BG000010#SK00010"type="成句">from&Aacute;to &Zacute;</subheadword><key type="成句">from/A/to/Z</key><meaning><form-nv>[通例know,learnと共に用ぃて]</form-nv>初めから终わりまで;完全に(thoroughly).</meaning>
从上面的数据内容可知,卷标<subheadword>与<subheadword>一致,当前则根据上文中的《◆次の成句で》具有不同的涵义,属于隐藏的信息,所以需要转换为
<meaning subid="BG000050#AD00000"><hinshi>[副]</hinshi>《◆次の成句で》.</meaning>
<subheadword subid="BG000050#SK00010"type="成句"attribute="次の成句">be t&agrave;ken ab&aacute;ck</subheadword><key type="成句">be/taken/take*/aback</key><meaning>めんくらう,あっけにとられる.</meaning>
<subheadword subid="BG000010#SK00010"type="成句">from&Aacute;to &Zacute;</subheadword><key type="成句">from/A/to/Z</key><meaning><form-nv>[通例know,learnと共に用ぃて]</form-nv>初めから终わりまで;完全に(thoroughly).</meaning>
转换后的第一个<subheadword>使用属性attribute="次の成句"加以与下面的<subheadword>区分。或者使用不同的卷标替换此不同涵义的subheadword卷标,例如
<meaning subid="BG000050#AD00000"><hinshi>[副]</hinshi>《◆次の成句で》.</meaning>
<subheadword lsubid="BG000050#SK00010"type="成句">bet&agrave;ken ab&aacute;ck</subheadword1><key type="成句">be/taken/take*/aback</key><meaning>めんくらう,あっけにとられる.</meaning>
<subheadword2 subid="BG000010#SK00010"type="成句">from&Aacute;to &Zacute;</subheadword2><key type="成句">from/A/to/Z</key><meaning><form-nv>[通例know,learnと共に用ぃて]</form-nv>初めから终わりまで;完全に(thoroughly).</meaning>
可见此部份转换仅对源文件本身的信息进行描述处理,消除文本数据对于特定格式的依赖,不关心文本数据的应用层的组织,只需要使用卷标完整清楚的完成对文本数据的辅助说明,如考虑添加一些字段卷标等,消除一些需要根据上下文或数据内容再区分的卷标,拆分为多个意义单一的卷标或添加卷标属性,以便可以简单通过卷标属性区分出数据。
接着,抽取出源文件卷标化的卷标描述信息,以生成带有卷标描述信息的中间文件(步骤203),这里可预先设定中间文件的储存格式,例如XML格式,然后检查所得中间文件的正确性及其格式的合法性(步骤204),判断是否发现错误(步骤205),对于XML格式的中间文件,若存在错误,则判断是否存在XML语法错误(步骤206),如果存在语法错误,则前进至步骤210,对中间文件的转换规则进行修正;否则判断所得XML格式的中间文件是否符合DTD(步骤207),若不符合DTD,则判断是否需要更新DTD(步骤208),如果需要更新,则前进至步骤211,对DTD进行修正;否则,判断文本数据本身存在错误(步骤209)。如果文本数据存在错误,则前进至步骤201,检查源文件数据;否则,表明执行文本数据储存格式转换的步骤存在问题,需要对转换步骤进行修正。
如果中间文件存在的错误既不是语法错误,也不是DTD错误,则前进至步骤212,依照应用模板的卷标描述信息中的格式卷标格式化显示中间文件,对中间文件进行预览,以查看和验证应用模板的配置是否正确(步骤212)。
参见图2,本发明的文本数据数据格式转换具体步骤如下:首先依照文本数据呈现需求制定具有统一格式的应用模板(步骤301),配置卷标解释(步骤302),卷标解释是用来实现应用模板卷标描述的模板化转换(步骤303),进而在中间文件进行数据格式转换时,卷标解释用来解释描述中间文件的卷标描述信息,进而与应用模板的配置卷标解释脚本一致。
在进行文本数据的数据格式转换时,首先提取中间文件中的卷标描述信息(步骤304),提取过程中,对于中间文件中可以舍弃的卷标描述信息,给予卷标描述信息的屏弊;对于其中可以舍弃的数据文件,屏弊数据文件对应的卷标描述信息,即提取文本数据中更具有说明、有用的信息。
在配置好应用模板的格式之后(步骤305),判断中间文件的显示格式及其卷标描述信息是否与应用模板匹配(步骤306),即将中间文件的卷标描述信息与应用模板进行映像,以转换源文件的数据格式为统一的数据格式。如果匹配则对中间文件进行格式化处理(步骤307),以转换为文本数据驱动或引擎开发所用的统一格式(步骤308)。
卷标解释脚本描述将不同文本数据的不同卷标描述信息对应到统一的应用模板部分,对应的卷标或含有某种属性,或某种属性值。例如数据1与数据2的数据格式如下所示:
数据1
<UNIT orderlay=“0001”>This is unit data<PICTURE id="//www.wallet.com/234.GIF">NewPictureShow</PICTURE></UNIT>
数据2
<PART type=“V0-001”>This is item data<snapimage ref=“f:\\flower.jpg”>savePicture</snapimage></PART>
而统一格式的应用模板定义为LIB
LIB
<ITEM id=“T-00001”><image href=“www.163.com\webgif\a.GIF”>ImagePictureLinkText</image></ITEM>
直接对应卷标涵义进行说明的配置,可得到如图3和图4所示的卷标映像处理的实例示意图。其中图3表示数据1与应用模板LIB的映像关系;图4表示数据2与应用模板LIB的映像关系。
经过卷标映像处理之后,即可得到统一的数据格式,如下所示:
数据1
<ITEM id=“0001”>This is unit data<image href="//www.wallet.com/234.GIF">NewPictureShow</image></ITEM>
数据2
<ITEMid=“V0-001”>This is item data<image href=“f:\\flower.jpg”>savePicture</image></ITEM>
即与通用应用模板格式一致
LIB
<ITEM id=“T-00001”><image href=“www.163.com\webgif\a.GIF”>ImagePictureLinkText</image></ITEM>
应用模板的定义则完全更具有文本数据用途,定义一种抽象集合。
例如电子辞典的应用文本数据可以定义如下模板:
<DICTIONARY>
  <ITEM>//词条单位
        <KEYWORD>词条部份...</KEYWORD>
        <CONTENT>解释部份...</CONTENT>
  </ITEM>这个可更具具体应用.
</DICTIONARY>
一种菜单(MENU)呈现的文本数据的应用模板可以定义如下:
<DOCUMENT>
  <TITLE>...</TITLE>
  <MENU>
       <TITLE>...</TITLE>
       <MENU>
         <TITLE>...</TITLE>
         <MENU>
           ......
         </MENU>
         <LINK>...</LINK>
      </MENU>
      <LINK>...</LINK>
 </MENU>
 <LINK>...</LINK>
<DOCUMENT>
对于文本数据显示格式的配置则主要利用卷标添加一些格式的控制信息,如一些卷标需要换新的段(添加回车);一些卷标(或其含有某个属性,或其某个属性值等于某个值)需要缩进不同的宽度。
下面将通过一段日文辞典数据对文本数据格式显示的配置举例进行说明:
Figure C200710017295D0014081255QIETU
Figure C200710017295D0015081426QIETU
则转换完毕,便得到希望的格式档案如表中第三列所示。应用后,得到要求的显示方式如图5所示,于此完成了对源文件储存格式以及数据格式的统一转换。
此外,由于应用模板的设定是依照文本数据的显示要求制定的,因此,对于以后文本数据的更新,仅需要更新文本数据对于应用模板的配置即可,而不需要进行任何程序的修改,对于文本数据呈现方式的修改,也仅需要修改对于配置即可,然后将更新的文本数据对应到新的应用模板中就可以实现对文本数据格式统一的转换。
参见图6,本发明的系统包括第一转换模块1,检查模块2,预览模块3,定义模块4以及第二转换模块5。
第一转换模块1用来将文本数据转换为带有卷标描述信息的中间文件,进而通过转换可以将多个储存格式不同的文本数据转换为具有统一储存格式的文本数据。第一转换模块10借助使用由组件提供的对象引用实现对文本数据储存格式的转换,例如转换办公(Office)集合的文本数据,可以利用微软数据库对象库(Microsoft Access Object Library),微软幻灯片对象库(MicrosoftPowerPoint Object Library),微软文字处理对象库(Microsoft Word ObjectLibrary)等。超文本标识语言(Hypertext Markup Language,HTML)可以使用微软对象库(Microsoft Object Library)等。在读取文本数据后,第一转换模块10依照文本数据的具体格式,对其呈现的信息描述给予卷标化,并得到相应的卷标描述信息,进而将关心的文本数据没有损失的以卷标描述的形式保存下来。然后抽取出卷标描述信息,则转换源文件为带有卷标描述信息的中间文件。
这里,带有卷标描述的中间文件为可以自定义卷标的卷标属性的卷标文文件,包括可扩展标识语言(XML)格式的文本数据等,本发明优选的中间文件为XML格式的文本数据。目前各种印刷文本数据往往都带有卷标描述,如果这些卷标能够很好的利用,通过本发明的第一转换模块1可以方便简单地将其转换为XML格式。而且,随着XML的应用,越来越多的文本数据已经开始推行XML格式,因此利用这些卷标,仅根据不同数据的卷标描述,就可定义一张卷标的说明描述,即能够自动统一这些不同格式的数据。需要注意的是,本发明并不局限于XML格式的文本数据,任何可以自定义卷标的卷标属性的卷标文本数据均可。
检查模块2用来检查转换得到的中间文件的正确性及其格式的合法性。当对应格式为XML的中间文件时,检查模块2借助XML文本类型定义(Document Type Definition,DTD)检查中间文件的正确性,利用XML语法检查文本数据格式的合法性。如果存在错误,则对中间文件进行转换规则的修正或者DTD的相应修正。有效的XML文本数据需遵照文本类型定义(DTD)的规则:DTD的目的是定义一个XML文本数据的合法构筑块,它通过一系列合法元素定义了文件的结构。
第一转换模块10仅用来对文本数据的储存格式进行转换,因此还需要进一步对中间文件的数据格式进行转换,以达到文本数据格式的完全统一。因此,本发明的系统还包括了第二转换模块5,用来转换中间文件的数据格式,进而将原始不同格式的文本数据转换为具有统一储存格式及数据格式的统一格式。
在第二转换模块5对中间文件进行转换之前,需要依照要求的显示格式进行配置,以制定具有统一模板格式的应用模板。定义模板4即用来依据文本数据的显示要求,比如风格,式样等统一制定一些应用模板,而将文本数据本身与具体应用分离,即文本数据本身只呈现文本数据本身的信息描述,而不用关心应用描述,从而进行转换。定义模块4需要配置卷标解释及文本数据显示格式,卷标解释用来模板化应用模板的卷标描述,以直接对应卷标涵义进行说明的配置,配置卷标解释脚本。进而在中间文件进行转换时,第二转换模块5可依据卷标解释对中间文件的卷标描述信息进行模板化转换。文本数据显示格式的配置则主要利用卷标,添加一些格式的控制信息,例如一些卷标需要转换新的段,一些卷标需要缩进不同的宽度等。第二转换模块5提取中间文件的卷标描述信息,将不同文本数据的不同卷标映像到具有统一数据格式的应用模板中对应的卷标,进而依照应用模板中的卷标解释与文本数据显示格式,对中间文件12的卷标描述信息与应用模板进行比对,以转换中间文件12的数据格式为统一的数据格式。
预览模块3用来依照中间文件的卷标描述信息的格式卷标格式化显示中间文件,进而查看和验证应用模板的配置是否正确,如果发现错误则反馈至定义模块4,以修正当前应用模板的设置,进而得到正确的信息配置。此外,预览模块3还可用来向第一转换模块1反馈存在格式转换错误的信息,如果是,则第一转换模块1进行转换规则的修改,比如添加必要的卷标描述信息。
参见图7,依照本发明的方法和系统得到的具有统一数据格式,统一文本数据格式的数据集合可应用于引擎开发或者数据驱动模式中,进而大幅度地缩短相应的开发周期。图7中给出了相应的数据驱动引擎,只要数据满足其格式就可以直接按照要求完成固定功能。

Claims (8)

1、一种将不同格式的文本数据转换为统一格式的方法,其特征在于:该方法包含有以下步骤:
1)转换不同储存格式的文本数据为带有卷标描述信息的中间文件;其中具有卷标描述的中间文件,是可扩展标识语言文本数据或自定义卷标的卷标属性的卷标文本数据;
1.1)读取不同储存格式的文本数据,并依照各文本数据的储存格式对其呈现的信息描述给予卷标化,以得到相应的卷标描述信息;此时只需要将不同储存格式的文本数据的信息没有损失地以卷标描述信息的形式保存下来;
1.2)抽取出卷标描述信息,以生成带有卷标描述信息的中间文件;
2)然后按照文本数据呈现需求所需要的显示格式,进行卷标解释配置及文本数据显示格式配置,制定有统一模板格式的应用模板;
3)提取中间文件的卷标描述信息映像到该应用模板中;
4)依照卷标解释与文本数据显示格式,转换中间文件的数据格式,进而统一文本数据上的储存格式与数据格式。
2、根据权利要求1所述的将不同格式的文本数据转换为统一格式的方法,其特征在于:所述步骤1)中当所述文本数据中含有二进制信息描述时,则在中间文件中对应该二进制信息的文本描述处添加一资源连接的卷标及其属性,以转换文本数据为合适的带有卷标描述信息的中间文件。
3、根据权利要求1所述的将不同格式的文本数据转换为统一格式的方法,其特征在于:所述步骤1)和步骤2)之间还包括有检查中间文件的正确性及其格式合法性的步骤。
4、根据权利要求1所述的将不同格式的文本数据转换为统一格式的方法,其特征在于:所述步骤2)和步骤3)之间还包括有借助应用模板的卷标描述的格式卷标格式化显示中间文件,以查看和验证该应用模板的配置是否正确的步骤。
5、根据权利要求1所述的将不同格式的文本数据转换为统一格式的方法,其特征在于:所述步骤2)中还包括有更新应用模板的卷标解释配置及文本数据显示格式配置的步骤。
6、根据权利要求1所述的将不同格式的文本数据转换为统一格式的方法,其特征在于:所述步骤3)中提取中间文件中的卷标描述信息的过程中,对于中间文件中可以舍弃的卷标描述信息,给予卷标描述信息的屏弊,对于其中可以舍弃的数据文件,屏弊数据文件对应的卷标描述信息。
7、一种应用权利要求1所述的将不同格式的文本数据转换为统一格式的方法的系统,其特征在于:该系统包括用来将不同储存格式的文本数据转换为带有卷标描述信息的中间文件,进而统一各文本数据的储存格式的第一转换模块;用来配置卷标解释及文本数据显示格式,以制定具有统一模板格式的应用模板的定义模块;用来依照已配置的卷标解释与文本数据显示格式,将中间文件的卷标描述信息与应用模板进行映像,转换中间文件的数据格式,进而统一文本数据上的储存格式与数据格式的第二转换模块,所述第一转换模块和定义模块分别接入第二转换模块。
8、根据权利要求7所述的系统,其特征在于:该系统还包括用来依照应用模板的卷标描述的格式卷标格式化显示中间文件,进而查看和验证该应用模板的配置是否正确的预览模块和检查中间文件的正确性及其格式的合法性的检查模块,所述预览模块分别接入第一转换模块和定义模块,所述检查模块接入第一转换模块。
CNB2007100172953A 2007-01-25 2007-01-25 将不同格式的文本数据转换为统一格式的方法及其系统 Expired - Fee Related CN100501740C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100172953A CN100501740C (zh) 2007-01-25 2007-01-25 将不同格式的文本数据转换为统一格式的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100172953A CN100501740C (zh) 2007-01-25 2007-01-25 将不同格式的文本数据转换为统一格式的方法及其系统

Publications (2)

Publication Number Publication Date
CN101013436A CN101013436A (zh) 2007-08-08
CN100501740C true CN100501740C (zh) 2009-06-17

Family

ID=38700948

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100172953A Expired - Fee Related CN100501740C (zh) 2007-01-25 2007-01-25 将不同格式的文本数据转换为统一格式的方法及其系统

Country Status (1)

Country Link
CN (1) CN100501740C (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715898B2 (en) * 2003-12-16 2017-07-25 Core Wireless Licensing S.A.R.L. Method and device for compressed-domain video editing
CN101520728B (zh) * 2008-02-25 2012-07-04 天津书生投资有限公司 一种第三方软件处理符合文档库标准的文档的方法
CN101539903A (zh) * 2008-03-18 2009-09-23 北京书生国际信息技术有限公司 一种兼容不同格式文档的软件实现方法
CN102122279B (zh) * 2010-01-07 2014-12-24 新奥特(北京)视频技术有限公司 一种生成编单的方法
CN102122524B (zh) * 2010-01-07 2015-04-29 新奥特(北京)视频技术有限公司 一种图文包装应用中快速生成编单的系统
CN102375859B (zh) * 2010-08-25 2013-05-08 阿里巴巴集团控股有限公司 一种信息处理的方法及设备
CN104601627B (zh) * 2013-11-01 2019-05-14 北大方正集团有限公司 服务器、终端、文件在线处理方法和系统
CN103955863B (zh) * 2014-04-10 2016-08-17 中国南方电网有限责任公司超高压输电公司检修试验中心 一种电网监测装置数据的处理方法
CN106649428A (zh) * 2016-08-09 2017-05-10 广州视睿电子科技有限公司 存储文件的解析方法和装置
CN107707629B (zh) * 2017-09-12 2020-10-30 千寻位置网络有限公司 Gnss消息转换验证的方法
CN107992327A (zh) * 2017-12-07 2018-05-04 国云科技股份有限公司 一种Windows环境下编写的脚本适应于Linux的方法
CN108228843B (zh) * 2018-01-09 2022-03-22 闫健 一种基于互联网的讲义压缩传输与还原方法
CN108989422A (zh) * 2018-07-12 2018-12-11 中国建设银行股份有限公司 一种报文及文件处理方法及系统
CN110175129A (zh) * 2019-05-30 2019-08-27 立讯精密工业股份有限公司 测试方法及测试系统
CN111124549A (zh) * 2019-12-31 2020-05-08 北京明略软件系统有限公司 一种加载文本文件的方法及装置
WO2022019745A1 (en) * 2020-07-24 2022-01-27 Mimos Berhad System and method for facilitating consolidation and analysis of time-based instances of data
CN114723565B (zh) * 2022-06-02 2022-08-23 高盈国际创新科技(深圳)有限公司 基于golang的多源多语言信息处理方法及系统
CN116015951B (zh) * 2022-12-31 2023-08-29 北京天融信网络安全技术有限公司 时间对象匹配方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN101013436A (zh) 2007-08-08

Similar Documents

Publication Publication Date Title
CN100501740C (zh) 将不同格式的文本数据转换为统一格式的方法及其系统
US8407585B2 (en) Context-aware content conversion and interpretation-specific views
US7979793B2 (en) Graphical creation of a document conversion template
Chaudhri et al. XML data management: native XML and XML-enabled database systems
CN108595389B (zh) 一种将Word文档转换为txt纯文本文档的方法
US9361294B2 (en) Publishing tool for translating documents
US20100205524A1 (en) Extensible stylesheet designs using meta-tag information
US8332745B2 (en) Electronic filing system and electronic filing method
US20040221233A1 (en) Systems and methods for report design and generation
US20040015782A1 (en) Templating method for automated generation of print product catalogs
US20100077320A1 (en) SGML/XML to HTML conversion system and method for frame-based viewer
US20070136663A1 (en) Automatic authoring and publishing system
CN101751382A (zh) 一种基于标签的数据采集方法与系统
CN115756437B (zh) 基于schema文件的可视化xml数据编制方法及系统
US20090083300A1 (en) Document processing device and document processing method
JPWO2007081017A1 (ja) 文書処理装置
US8423888B2 (en) Document conversion and use system
EP1830274A1 (en) Server device and name space issuing method
US7206968B2 (en) System and method for generating an XML-based fault model
KR100841079B1 (ko) 엑스엠엘 기반의 원격 유지 보수 시스템
US20090287994A1 (en) Document processing device and document processing method
CN101866331A (zh) 不同语种xml文档的转换方法及装置
US20080141112A1 (en) Document Processing Device and Document Processing Method
US20090125804A1 (en) Generating schema-specific dita specializations during generic schema transformations
US20080005085A1 (en) Server Device and Search Method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090617

Termination date: 20140125