CN101055577A - 可扩展标记语言集中器 - Google Patents

可扩展标记语言集中器 Download PDF

Info

Publication number
CN101055577A
CN101055577A CNA2006100725321A CN200610072532A CN101055577A CN 101055577 A CN101055577 A CN 101055577A CN A2006100725321 A CNA2006100725321 A CN A2006100725321A CN 200610072532 A CN200610072532 A CN 200610072532A CN 101055577 A CN101055577 A CN 101055577A
Authority
CN
China
Prior art keywords
document
attribute
paragraph
father
pxml
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100725321A
Other languages
English (en)
Inventor
陈翌
何余良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LONGSOU (BEIJING) TECHNOLOGY Co Ltd
Original Assignee
LONGSOU (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LONGSOU (BEIJING) TECHNOLOGY Co Ltd filed Critical LONGSOU (BEIJING) TECHNOLOGY Co Ltd
Priority to CNA2006100725321A priority Critical patent/CN101055577A/zh
Priority to US12/296,493 priority patent/US8151183B2/en
Priority to PCT/CN2007/001056 priority patent/WO2007115485A1/en
Priority to CN2007800014854A priority patent/CN101361059B/zh
Publication of CN101055577A publication Critical patent/CN101055577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种将纯文本、超文本、PDF、Word、RTF、Excel、PowerPoint、程序代码、FrameMaker、Latex等非结构化文件和诸如WML等结构化文件统一转换成一种具有语义的可扩展标记语言的装置和实现方法。可扩展标记语言集中器装置由各个类型文件的解析器组成。本装置通过数据文件解析器读取文件内容,然后将文件内容自动处理成一种易处理的可扩展标记语言形式,记为ProcessibleExtensible Markup Language,简称为pXML。pXML对数据内容起到归整作用,即用格式化的可扩展标记语言来描述数据内容。在解析器定义文件属性,包括源文件类型、须处理的文件内容、输出文件属性等。生成后的pXML可用于内容分析或转换成其它格式的文件。

Description

可扩展标记语言集中器
技术领域
本发明涉及如何将纯文本、超文本、PDF、Word、RTF、Excel、PowerPoint、程序代码、FrameMaker、Latex等非结构化文件和诸如WML等结构化文件统一转换成一种易操作的、具有语义功能的可扩展标记语言的装置和实现方法。
背景技术
扩展的标记语言(Extensible Markup Language,缩写为XML)是SGML(Standard Generalized Markup Language,标准通用标记语言)的一个子集,是简化的SGML。它是互联网联合组织(W3C)创建一组规范,以便于软件开发人员和内容创作者在网页上组织信息,其目的不仅在于满足不断增长的网络应用需求,而且也在于确保在通过网络进行交互合作时,具有良好的可靠性与互操作性。由于XML可以自定义文件类型,有利于信息的表达和结构化组织,且可以以一致的方式格式化和传送数据,大大降低了数据管理和交换的成本。XML的强大之处就在于它具有一套统一的数据格式,这种统一的数据格式可以使数据管理和交换的成本更低,也更易于管理。结构化信息的一个主要的用处就是允许不同格式的数据可以相互交换。不同的行业往往创建不同的规则来确定本行业内交换信息所需的内容模型。一旦这个内容模型被确定,整个行业就需要都使用这个内容模型来标记信息以保证行业内彼此能容易且有效地共享信息。因此,XML在电子商务、信息服务、通讯等领域有着广泛应用。尤其是随着第三代移动通信标准的逐步统一,一种单一的适用于当前和未来多种移动网络的数据通信架构,迫切需要随时随地的在移动中访问Internet的网络服务。
本发明的目的是通过该方法和装置来实现归整各种数据格式信息,实现数据的无缝连接,提高文本内容的重用性、便捷性。
本发明另一个目的是实现不同数据文件格式的相互转换,达到一种数据浏览器或阅读器能浏览和阅读其它格式的数据文件。
本发明的再一个目的是通过有语义的可扩展标记语言来实现对数据文件内容的智能机器理解。
本发明的再一个目的是通过有语义的可扩展标记语言来实现对数据文件内容的有效地分布式控制。
本发明解决上述问题的技术方案如下:
1.可扩展标记语言集中器,简称为XML Hub,包括基于非结构化的XML Hub和基于结构化的XML Hub。
2.基于非结构化XML Hub是将超文本、纯文本、PDF、word、RTF,Excel,PowerPoint,Word、FrameMaker、Latex、程序代码等非结构化文档转换成一种统一的易操作的XML,记为processible XML,简称为pXML。在非结构化文档转换成pXML时调用了文档所对应的解析器来读取文件内容。
3.基于结构化数据的XML Hub是使用结构化文件解析器读取结构化数据后,用XSLT将结构数据转换成pXML。基于结构化数据的XML Hub还可使用XSLT或其它外部程序将如DocBook XML、Legal XML、VoiceXML、MathXML等其它格式的结构化数据转换成pXML。
4.在pXML中定义了元素XMLSTREAM、HEAD、DMETATAGS、DMETA、EMETATAGS、EMETA、DSTYLES、DSTYLE、DSTRUCTURE、BODY、SECTION、PAGE、PARAGRAPH、SPECIALTEXT、TEXT、IMAGE、LINK、FOOTNOTE、ENDNOTE、HEADER、FOOTER、ANCHOR、TAB、HR、MARKER、TABLE、TGROUP、TBODY、THEAD、TFOOT、ROW、CELL、COLUMN、COLUMN-DEF、LIST、LI、LABEL、BLOCKQUOTE、PRE、BREAK、FRAME、SVG、FIELD、INDEXITEM。
pXML中元素的属性有Style、css-style、number、font、font-size、font-fixed、origfont、emphasis、emphasis-bold、emphasis-italic、emphasis-underline,emphasis-superscript、emphasis-subscript、x、y、height、width、top、left、align、valign、leftindent、rightindent、spacebefore、spaceafter、textindent、border-left、border-right、border-top、border-bottom、top-padding、Left-padding、right-padding、bottom-padding、rowspan、colspan、width-type、height-type。这些属性可用到多个元素中。
5.pXML的元素定义如下:
1)XMLSTREAM元素是pXML的顶层,能有HEAD,BODY元素作为其子元素,没有属性定义。
2)HEAD元素描述文件的头信息,XMLSTREAM可作为其上层,其子元素有DMETATAGS、EMETATAGS和DSTRUCTURE,没有属性。
3)元素DMETATAGS用于描述meta标记和源文档属性,HEAD为其父元素、META为其子元素。在超文本中,Meta出现在超文本的HEAD元素中。在word文档中,DMETATAGS描述文档的建立、设置域等如一个Miscrosoft word文档的DMETATAGS描述如下:
  <DMETATAGS>

    <META name=″Title″value=″Transforming existing content into″pXML″″/>

  <META name=″Subject″/>

  <META name=″Author″value=″Rizwan Virk″/>

  <META name=″Application name″value=″Microsoft Word 9.0″/>

  <META name=″Last print date″value=″1/28/2002 9:48:00AM″/>
  <META name=″Creation date″value=″10/15/2002 11:41:00AM″/>

  <META name=″Last save time″value=″10/15/2002 2:13:00PM″/>

  <META name=″Total editing time″value=″3″/>

  <META name=″Number of pages″value=″2″/>

  <META name=″Number of words″value=″3392″/>

  <META name=″Number of characters″value=″17586″/>

  <META name=″Security″value=″0″/>

  <META name=″Category″/>

  <META name=″Format″/>

  …

    </DMETATAGS>
4)META元素描述文档的个性属性,DMETATAGS作为其父元素,没有子元素,有META名称和值。
5)EMETATAGS用于描述在源文件生成pXML过程中的环境属性,HEAD作为其父元素,子元素为EMETA。如:
<EMETATAGS>
<EMETA name=″STDSourceFileName″value=″articlemeaningfulxml.doc″/>
<EMETA name=″STDSourceFileDirectory″value=″C:\WordSamples″/>
<EMETA name=″STDPreprocessor″value=″WordDriver″/>
<EMETA name=″STDSourceFileType″value=″doc″/>
<EMETA name=″STDPreprocessorOptions″value=″includeLists=true|includeTables=true|includeFormattedText=true|docPacketFile=C:\\ExecutionResults\xml.doc.EXEC.xml|dotFile=c:\drivers″/>
</EMETATAGS>
6)EMETA元素用于描述从源文件转换成pXML过程中的环境参数,父元素为EMETATAGS,没有子元素,有EMETA名称和值。
7)DSTYLES元素描述源文档的格式属性。对于word文档,DSTYLES用于描述文档中的有效格式,有HEAD父元素和STYLE子元素。对于超文本而言,DSTYLES是指格式函数或者css文件。
8)STYLE元素描述源文档中的格式,有DSTYLES父元素,属性有name,font,font-size,font-.xed,align,valign,leftindent,rightindent,linespacing,spacebefore,spaceafter,emphasis,emphasis-bold,emphasis-italic,emphasis-underline,emphasis-superscript,emphasis-subscript。
9)DSTRUCTURE元素仅用于描述PDF中的bookmarks,有HEAD父元素和OUTLINE子元素。
10)BODY用于描述文档的主体,有XMLSTREAM父元素和任何块元素,如SECTION,PAGE和BLOCK。
11)SECTION元素用于描述word文档的分区,有BODY父元素和任意块元素,属性有number,orientation,height,width,margin-left,margin-top,margin-right,margin-bottom,section-type,columns。
12)PAGE元素描述分页源文件中的单页,如pdf文件。有BODY父元素和任意块元素作为其子元素,包括PARAGRAPH,IMAGE,TABLE,LIST,BLOCKQUOTE,PRE,ANCHOR,BREAK,FRAME。PAGE元素具有number,height,width,margin-left,margin-top,margin-right,margin-bottom等属性。
13)PARAGRAPH元素用于描述文档中的文本,一般而言,所有的文本都归属于PARAGRAPH元素。PARAGRAPH元素有BODY,CELL,LI,BLOCKQUOTE,SECTION,PAGE等父元素,有如#PCDATA,SPECIALTEXT,LINK,ANCHOR,IMAGE,TEXT,FIELD等内嵌元素,属性有font-related,paragraph-related,emphasis-related,number,Style,x,y,height,width。
14)SPECIALTEXT元素用于描述在PARAGRAPH元素中的不同于PARAGRAPH元素的文本,有PARAGRAPH父元素,有如#PCDATA,SPECIALTEXT,LINK,ANCHOR,IMAGE,TEXT,FIELD等内嵌元素及fontrelated,emphasis-related,number,Style,x,y,height,width等属性。
15)TEXT元素用于处理在PARAGRAPH中与PARAGRAPH元素相同格式的文本,仅用于PDF的解析器中的每个文本处理时需要各自的坐标和维度的情况。有PARAGRAPH父元素,有如#PCDATA,SPECIALTEXT,LINK,ANCHOR,IMAGE,TEXT,FIELD等内嵌元素及font related,emphasis-related,number,Style,x,y,height,width等属性。不能出现在块层但能出现在内嵌层。
16)IMAGE元素用于描述源文档中的图像。在word解析器和HTML解析器中,图像放在pXML文件的命名为xxxxx.xx_Images子目录中,xxxxx.xx为pXML文件名。IMAGE元素可在块层和内嵌层,有BODT,PAGE,CELL,LI,BLOCKQUOTE,PRE,PARAGRAPH等父元素和如下属性:
a)href=文件名,常为图像文件的相对路经;
b)format=文件格式。对于word解析器,位图类型有BMP、JPEG、GIF。
c)width和height为图像的宽和高。
d)x和y为图像在一页中的位置,主要是针对pdf文档而言。
e)number为该图像相对其它图像或段落的位置。
f)alt为在超文本中的图像描述文本。
17)LINK元素描述连接,常出现在PARAGRAPH中,且有文本描述。LINK元素有PARAGRAPH,SPECIALTEXT等父元素和#PCDATA,SPECIALTEXT子元素,有href和alt属性,可出现在内嵌层。
18)FOOTNOTE和ENDNOTE元素描述文档的脚注,可出现在文档的末尾或PARAGRAPH元素中。有BODY,PARAGRAPH父元素,所有的块层的元素度可作为其子元素,有ref,reftype,label等属性。
19)HEADER and FOOTER元素描述文档的页眉和页脚,可出现在文档的末尾或PARAGRAPH元素中。有BODY父元素,所有的块层的元素度可作为其子元素。有如下属性
a)number描述HEADER或FOOTER元素所在的分区编码;
b)headerType用于描述HEADER或FOOTER元素是首页、最后页、奇偶数等。
20)ANCHOR元素描述一个文档能访问到的地址,等价于超文本中的<A>,可在PARAGRAPH元素内部或外部,类似于MARKER元素。有BODY,PAGE,CELL,LI,BLOCKQUOTE,PRE,PARAGRAPH,SPECIALTEXT等父元素,有name和number属性,其中number属性描述ANCHOR元素的相对位置。ANCHOR元素可出现在块层和内嵌层中。
21)TAB元素用于描述文档中的TAB符,所有的内嵌层元素都可作为其父元素,可出现在内嵌层。
22)HR元素仅用于描述超文本文档所有的内嵌层元素都可作为其父元素,可出现在块层。
23)MARKER元素是一个文件中的终止符,其父元素有块容器和PARAGRAPH,属性有id,number等,可出现在块层和内嵌层中。
24)TABLE元素描述源文档中的一个表,其父元素有BODY,PAGE,SECTIONCELL,LI,BLOCKQUOTE,PRE,其子元素有TGROUP,COLUMN,ROW,属性有number来描述它出现的位置,可出现在块层中。
25)TGROUP,TBODY,THEAD,TFOOT元素用于描述源文档中的表,属性有用于描述TGROUP中的栏数的cols,可出现在块层中。
26)ROW元素是TABLE元素的子元素,用于描述表中的单一行,CELL为其子元素,有rowtype、Style和number属性,其中,若rowtype为header则为头行,若为data则为普通行;Style为该行的格式;number为该行在整个文档中的位置。
27)CELL元素是ROW元素的子元素,用于描述表中的一格,子元素有PARAGRAPH,LIST,TABLE,LIST,BLOCKQUOTE,PRE,IMAGE,ANCHOR等。CELL元素有celltype、Style、number等属性,其中,celltype=header,则该行为表的头行,若celltype=data则该行为表的普通行;Style描述该表格的格式;number描述该表格在整个文档的位置。
28)COLUMN元素TABLE元素的子元素,用于描述表中的单一列。对于Word,MIF等文档,指定column的宽度和映射到CALs表较容易;对于PDF文档时,当指定一个pagedef时,COLUMN元素是指在一页中的某个区域。有符TABLE,TGROUP等父元素没有子元素,有column-id及width属性。其中,column-id是指其在表中的列的序号;width描述该列的宽度。
29)COLUMN-DEF元素用于描述列,有TABLE父元素和COLUMN子元素,有描述列数的cols属性。
30)LIST元素用于描述文档中的一个列表。在pXML中分OL、UL和DL,其中,OL表示排序列表;UL表示无序的、浮动的列表;DL表示无序的、不浮动的数据列表。任何块容器都可作为其父元素,其元素为LI,有type、Style和Number属性。其中,type为OL、UL、或DL;Number描述列表在文档中的位置;Style描述列表的格式。另外,LIST元素可出现在块层中。
31)LI元素是LIST子元素,描述列表项,有PARAGRAPH,LIST,TABLE,LI,BLOCKQUOTE,PRE,IMAGE,ANCHOR等子元素,且有level、number、Style、type等属性。其中,level值代表该列表内嵌的层级;number表示列表项在列表中的位置;Style表示列表项的格式、type常为空,若列表类型为DL,则其为DT或DL,表示其是否为头或数据项。
32)LABEL元素是针对word文档而定义的,作为LI元素的子元素,有PARAGRAPH和LI父元素,其子元素有#PCDATA。
33)BLOCKQUOTE元素描述一个内嵌文本,块容器可作为其父元素、块级元素可作为其子元素,有number属性来描述其中文档中的相对位置,可出现在块层。
34)PRE元素是用于将其包起来的文字排版、格式,原封不动的呈现出来,块容器可作为其父元素,块层元素可作为其子元素,有描述其在文档中的相对位置的number属性,并可出现在块层。
35)BREAK元素描述源文档中的分隔符,块容器和内嵌容器均可作为其父元素,无子元素,有type和number属性,且可出现在块层和内嵌层。其中,type属性用于描述其类型,如页分隔、列分隔、行分隔等;number属性描述BREAK元素在文档中的相对位置。
36)FRAME元素用于描述文档中的文本帧,有BODY,SECTION,PAGE等父元素,所有的块级元素都可作为其子元素,有x,y,top,left,height,width,number等属性,且可出现在块层级。
37)SVG元素用于描述外部的SVG文件,仅用于pdf文档中,有PAGE父元素,无子元素,有src属性,可出现在块层上。其中,src为SVG的相对或绝对文件名。
38)FIELD元素用于描述嵌套在源文档中的文本中的一个域,常用于word文档中,有PARAGRAPH,TEXT,SPECIALTEXT等父元素和#PCDATA子元素,有用于描述域码的code属性,能用于内嵌层。
39)INDEXITEM元素用于描述来自MIF文件中的索引项,有PARAGRAPH,TEXT,SPECIALTEXT等父元素和inline子元素,有primary、secondary、tertiary等属性。其中,primary为初始索引项;secondary为次索引项;tertiary为第三次索引项,可用于内嵌层。
6.pXML中的元素属性可用于多个元素,有些属性用于特定的元素,在这里将列出一些主要的元素属性的定义。
1)Style属性给PARAGRAPH或SPECIALTEXT的格式的一个名称。在Word和Framemaker文档中,Style属性是指段落或字符集的格式;在超文本中,若源文本是在<H1>到<H7>标签中,则标签名附加在Style属性,较容易找到使用的是那个头。在超文本中,Style属性也可能包括″classname″,即在<P class=myheading>中,Style属性将被转换成在pXML中的格式<PARAGRAPH Style=″myheading″>。对于如超文本而言,Style属性可能有多个格式,在转换成pXML时将其用逗号隔开。<PARAGRAPH>和<SPECIALTEXT>元素常有该属性。
2)css-style属性用于描述超文本源文件。若超文本的paragraph元素有style属性包含有CSS属性,在pXML中将逐字地包含在该元素中。若超文本是<p style=″font-size:9;color:red;″,则在pXML中的cSS-Style属性是<PARAGRAPH css-Style=″font-size:9;color:red;″>。
3)number属性是指一组从1开始的数值,用来描述当前元素在文档中的位置,以便于确定元素发生的先后顺序。所有的BODY元素都具有number属性。
4)font,font-size,font-fixed,origfont是用于描述与字体相关的属性。其中,在word或pdf文档中,font-size按点值指定,在超文本中是指一个从1到7的相对值,1对应于H1,7对应于H7。font-fixed是true或false,一般而言Courier集子体是固定子体宽度。有<PARAGRAPH>,<SPECIALTEXT>,<TEXT>,<STYLE>等元素具有以上属性。
5)emphasis,emphasis-bold,emphasis-italic,emphasis-underline,emphasis-superscript,emphasis-subscript属性用于修饰基本子体,常用于<PARAGRAPH>元素层或在PARAGRAPH中的<SPECIALTEXT>。这些属性赋值为true或false。所有解析器都要求执行emphasis,emphasis-bold,emphasis-italic,and emphasis-underline属性。而superscript和subscript仅用于特定的解析器。有<PARAGRAPH>,<SPECIALTEXT>,<TEXT>,and<STYLE>等元素具有这些属性。
6)x,y,height,width,top和left属性常被解析器用在处理特定格式的文档中,如pdf文档。其中x和y坐标是指基于页的坐标,数字是点值或其它相对测定值,依赖于源内容。在一些元素中,常用top和left而不是x和y。所有BODY的块元素有x,y,height和width属性。
7)align,valign,leftindent,rightindent,spacebefore,spaceafter和textindent属性用于描述段落层的格式信息。其中,align为left,center,right,justify或blank;valign为top,middle,bottom或blank;leftindent为段落靠左缩进的大小;rightindent为段落靠右缩进的大小;linespacing为行间距,缺省值为1,即单行距;spacebefore为段前值;spaceafter为段后值;textindent为首行缩进值。除了如SPECIALTEXT,LINK内嵌元素外,其它元素都具有这些属性。
8)border-left,border-right,border-top,border-bottom属性表示偏左、偏右、偏上、偏下,它们可设为true或false来描述表对象,也可为数值表示边界的长度。这些属性也可有边界颜色。有TABLE、CELL和ROW具有上属性。
9)top-padding,left-padding,right-padding,bottom-padding属性设为整数值,表示在表中格的填充颜色。TABLE和CELL有以上属性。
10)rowspan和colspan属性设为数值,表示表格的行跨度和列跨度,仅CELL有这些属性。
11)width-type和height-type属性仅用于从word文档中生成的表格,可设为auto、percent、points、fixed等。
7.文档解析器具有解析其所对应文档中的如下内容转换成pXML:
1)解析其所对应文档中的图的功能。在文档解析器中可选择地将bitmap、矢量图、WMF文件功能转换成所需格式的图像,并在pXML中用IMAGE来标注。对于office文档中的OLE对象,是将其视为WMF文件来处理。
2)解析所对应文档中的书签、分隔符、域、页眉、页脚、片断、脚注等功能,分别在pXML中用ANCHOR、BREAK、FIELD、HEADER、FOOTER、SECTION及PARAGRAPH中的Footnote格式来标注。分隔符分为page、column、section等三种类型。
3)解析所对应文档中的文本格式信息,如字体、字体颜色、大小、黑体、斜体等,定义为PARAGRAPH元素中属性。
4)解析文档中的隐藏文本功能,在转换后的pXML中用SPECIALTEXT把隐藏文本进行标记。
5)解析文本中的连接功能,并在pXML中link标注。
6)解析文档中的列举功能,并在pXML中列举用LIST标注、列举中的条用LABEL标注。
7)解析文档中的表功能,采用,并在pXML中用TABLE、TGROUP、TBODY、THEAD及COLUMN等来标注表。
8)解析如pdf、MIF、HTML、XML等文档中的分层结构,在pXML中用FRAME来描述文档中的分层结构。在份层结构中有以下主要元素用Layoutdefs,定义layoutdef的头信息、用MarginDef定义一系列页的边界、用PageDef定义为某页或一系列页中的正方块定义某种类型的块等。
8.如Java、C++等程序文件解析器可解析程序文件中的类名、类路经、类参数等文档内容。
9.通过调用外部程序来进行文档内容的转换,接口为-I{输入},-O{输出}。而在解析其它XML格式文档或纯文本文档的过程中还可调用XSLT来解析文档,生成pXML,调用格式包括XSLT文件名、XSLT参数,例如XSLTArguments=[arg1=value1|arg2=value2|arg3=value3]。
10.XML Hub开放接口,通过动态加载未知格式文档的解析器来实现对未知文档的解析,生成pXML文档。
附图说明
图1表示XML Hub的核心作用,实现文档数据的无缝连接、转换和发布。
图2表示XML Hub的体系结构。
图3表示XML Hub工作流程。
图4描述了XML Hub的工作环境和功能模块。
具体实施方式
XML的优点就在于它具有一套统一的数据格式,这种统一的数据格式可以使数据管理和交换的成本更低,也更易于管理。结构化信息的一个主要的用处就是允许不同格式的数据可以相互交换。不同的行业往往创建不同的规则来确定本行业内交换信息所需的内容模型。一旦这个内容模型被确定,整个行业就需要都使用这个内容模型来标记信息以保证行业内彼此能容易且有效地共享信息。因此,XML在电子商务、信息服务、通讯等领域有着广泛应用。尤其是随着第三代移动通信标准的逐步统一,一种单一的适用于当前和未来多种移动网络的数据通信架构,迫切需要随时随地的在移动中访问Internet的网络服务。
图1说明了XML Hub的核心作用,即实现文档数据的无缝连接、转换和发布功能。通过XML Hub来归整各种文档数据格式信息,实现文档数据的无缝连接,提高文本内容的重用性、便捷性。文档数据归整为用户提供可在各种平台上便捷地阅读文档内容,而不需要在阅读器上加载各种格式的数据解析器。同时数据内容通过XML Hub来实现不同格式数据文件之间的相互转换,达到一种数据浏览器或阅读器就能浏览和阅读其它格式的数据文件。另外,通过XMLHub,以有语义的可扩展标记语言为中间媒介来实现数据文件内容的智能机器理解,并实现对数据文件内容的有效地分布式控制。
在XML Hub中定义了一种易处理的可扩展标记语言,简称为pXML。pXML有元素XMLSTREAM、HEAD、DMETATAGS、DMETA、EMETATAGS、EMETA、DSTYLES、DSTYLE、DSTRUCTURE、BODY、SECTION、PAGE、PARAGRAPH、SPECIALTEXT、TEXT、IMAGE、LINK、FOOTNOTE、ENDNOTE、HEADER、FOOTER、ANCHOR、TAB、HR、MARKER、TABLE、TGROUP、TBODY、THEAD、TFOOT、ROW、CELL、COLUMN、COLUMN-DEF、LIST、LI、LABEL、BLOCKQUOTE、PRE、BREAK、FRAME、SVG、FIELD、INDEXITEM。
pXML中的元素具有属性Style、css-style、number、font、font-size、font-fixed、origfont、emphasis、emphasis-bold、emphasis-italic、emphasis-underline,emphasis-superscript、emphasis-subscript、x、y、height、width、top、left、align、valign、leftindent、rightindent、spacebefore、spaceafter、textindent、border-left、border-right、border-top、border-bottom、top-padding、Left-padding、right-padding、bottom-padding、rowspan、colspan、width-type、height-type。这些属性可用到多个元素中。
图2说明了XML Hub的体系结构。XML Hub主要功能块有类型判断器、分页处理器、文本处理器、对象处理器、文档解析器仓库、参数库、pXML元素和属性库等组成。类型判断器能根据输入文档的参数确定文档的类型,判断它们是诸如纯文本、超文本、PDF、Word、RTF、Excel、PowerPoint、程序代码、FrameMaker、Latex等非结构化文件还是诸如WML等结构化文件。分页处理器处理文档中的存在层、帧和栏的情况,如在HTML中的分层和分帧情况,pdf中的分栏、分层等。对于HTML中分帧情况时采取各帧内数据内容单独处理。对于pdf等文档中的层单独处理成页中层元素。文档中的分栏按照从左到右的顺序处理成页中的段落元素。文本处理器处理段落元素中的文本内容,包括字体、格式、大小等内容处理成段落中的元素的属性值。在文本处理器中还包括处理文档中所存在的链接和标签,若是链接则生成pXML中的link元素。对象处理器主要处理文档中所包含的图、表、公式等特殊内容,并分别生成pXML中的元素Image、Table、specialtext等元素。在解析器仓库中包含有各种文档格式的解析器的接口,解析器的接口是开放的、使得可以动态加载和替换解析器。参数仓库保存文档提出过程的内容选择、输出内容格式、所选解析器型号等文档解析过程中的环境参数,在运营过程中,将读如到pXML中的EMETATAGS中。在仓库中还保存着pXML所用的元素和属性与文档的格式标签的对照表。
图3描述了XML Hub工作流程,当文档数据从互联网、文件服务器、文档仓库或文件中提取出来输入到XML Hub,XML Hub根据文档头文件判断输入文档的数据类型,从仓库中选取相应的文档解析器、配置参数及文档与pXML中元素参照表内容,然后用文档解析器分析文档格式,并调用分页处理器、文本处理器及对象处理器对文档数据实现分页处理、对象处理、文本内容处理,最终生成pXML语言格式的文档和源文档中的图或对象。最后根据输出要求,生成相应的输出文档,用于数据发布、存储或分析等下一步工作。
在图4中,XML Hub的外部环境主要包括网络环境、终端显示环境等内容。因此,XML Hub可根据外部环境来适当地调整网络传输方法、终端显示等内容就可以。

Claims (10)

1.可扩展标记语言集中器,简称为XML Hub,包括基于非结构化的XML Hub和基于结构化的XML Hub.
2.在权利1中的基于非结构化XML Hub是将超文本、纯文本、PDF、word、RTF,Excel,PowerPoint,Word、FrameMaker、Latex、程序代码等非结构化文档转换成一种统一的易处理的XML,记为processible XML,简称为pXML。在非结构化文档转换成pXML时调用了文档所对应的解析器来读取文件内容。
3.在权利1中的基于结构化数据的XML Hub是使用结构化文件解析器读取结构化数据后,用XSLT将结构数据转换成pXML。基于结构化数据的XML Hub还可使用XSLT或其它外部程序将pXML转换成其它格式的结构化数据,如DocBook XML、Legal XML、VoiceXML、MathXML等。
4.在权利2和3中的pXML中定义了元素XMLSTREAM、HEAD、DMETATAGS、DMETA、EMETATAGS、EMETA、DSTYLES、DSTYLE、DSTRUCTURE、BODY、SECTION、PAGE、PARAGRAPH、SPECIALTEXT、TEXT、IMAGE、LINK、FOOTNOTE、ENDNOTE、HEADER、FOOTER、ANCHOR、TAB、HR、MARKER、TABLE、TGROUP、TBODY、THEAD、TFOOT、ROW、CELL、COLUMN、COLUMN-DEF、LIST、LI、LABEL、BLOCKQUOTE、PRE、BREAK、FRAME、SVG、FIELD、INDEXITEM。
pXML中元素的属性有Style、css-style、number、font、font-size、font-fixed、origfont、emphasis、emphasis-bold、emphasis-italic、emphasis-underline,emphasis-superscript、emphasis-subscript、x、y、height、width、top、left、align、valign、leftindent、rightindent、spacebefore、spaceafter、textindent、border-left、border-right、border-top、border-bottom、top-padding、Left-padding、right-padding、bottom-padding、rowspan、colspan、width-type、height-type。这些属性可用到多个元素中。
5.在权利4中的pXML的元素定义如下:
1)XMLSTREAM元素是pXML的顶层,能有HEAD,BODY元素作为其子元素,没有属性定义。
2)HEAD元素描述文件的头信息,XMLSTREAM可作为其上层,其子元素有DMETATAGS、EMETATAGS和DSTRUCTURE,没有属性。
3)元素DMETATAGS用于描述meta标记和源文档属性,HEAD为其父元素、META为其子元素。在超文本中,Meta出现在超文本的HEAD元素中。在word文档中,DMETATAGS描述文档的建立、设置域等如一个Miscrosoft word文档的DMETATAGS描述如下:
<DMETATAGS>
<META name=″Title″value=″Transforming existing content into″pXML″″/>
<META name=″Subject″/>
<META name=″Author″value=″Rizwan Virk″/>
<META name=″Application name″value=″Microsoft Word 9.0″/>
<META name=″Last print date″value=″1/28/2002 9:48:00AM″/>
<META name=″Creation date″value=″10/15/2002 11:41:00AM″/>
<METAname=″Last save time″value=″10/15/2002 2:13:00PM″/>
<META name=″Total editing time″value=″3″/>
<META name=″Number of pages″value=″2″/>
<META name=″Number of words″value=″3392″/>
<META name=″Number of characters″value=″17586″/>
<META name=″Security″value=″0″/>
<META name=″Category″/>
<META name=″Format″/>
</DMETATAGS>
4)META元素描述文档的个性属性,DMETATAGS作为其父元素,没有子元素,有META名称和值。
5)EMETATAGS用于描述在源文件生成pXML过程中的环境属性,HEAD作为其父元素,子元素为EMETA。如:
<EMETATAGS>
<EMETA name=″STDSourceFileName″value=″articlemeaningfulxml.doc″/>
<EMETA name=″STDSourceFileDirectory″value=″C:\WordSamples″/>
<EMETA name=″STDPreprocessor″value=″WordDriver″/>
<EMETA name=″STDSourceFileType″value=″doc″/>
<EMETA name=″STDPreprocessorOptions″value=″includeLists=true |includeTables=true  |  includeFormattedText=true  |  docPacketFile  =  C:\\ExecutionResults\xml.doc.EXEC.xml | dotFile=c:\drivers″/>
</EMETATAGS>
6)EMETA元素用于描述从源文件转换成pXML过程中的环境参数,父元素为EMETATAGS,没有子元素,有EMETA名称和值。
7)DSTYLES元素描述源文档的格式属性。对于word文档,DSTYLES用于描述文档中的有效格式,有HEAD父元素和STYLE子元素。对于超文本而言,DSTYLES是指格式函数或者css文件。
8)STYLE元素描述源文档中的格式,有DSTYLES父元素,属性有name,font,font-size,font-.xed,align,valign,leftindent,rightindent,linespacing,spacebefore,spaceafter,emphasis,emphasis-bold,emphasis-italic,emphasis-underline,emphasis-superscript,emphasis-subscript。
9)DSTRUCTURE元素仅用于描述PDF中的bookmarks,有HEAD父元素和OUTLINE子元素。
10)BODY用于描述文档的主体,有XMLSTREAM父元素和任何块元素,如SECTION,PAGE和BLOCK。
11)SECTION元素用于描述word文档的分区,有BODY父元素和任意块元素,属性有number,orientation,height,width,margin-left,margin-top,margin-right,margin-bottom,section-type,columns。
12)PAGE元素描述分页源文件中的单页,如pdf文件。有BODY父元素和任意块元素作为其子元素,包括PARAGRAPH,IMAGE,TABLE,LIST,BLOCKQUOTE,PRE,ANCHOR,BREAK,FRAME。PAGE元素具有number,height,width,margin-left,margin-top,margin-right,margin-bottom等属性。
13)PARAGRAPH元素用于描述文档中的文本,一般而言,所有的文本都归属于PARAGRAPH元素。PARAGRAPH元素有BODY,CELL,LI,BLOCKQUOTE,SECTION,PAGE等父元素,有如#PCDATA,SPECIALTEXT,LINK,ANCHOR,IMAGE,TEXT,FIELD等内嵌元素,属性有font-related,paragraph-related,emphasis-related,number,Style,x,y,height,width。
14)SPECIALTEXT元素用于描述在PARAGRAPH元素中的不同于PARAGRAPH元素的文本,有PARAGRAPH父元素,有如#PCDATA,SPECIALTEXT,LINK,ANCHOR,IMAGE,TEXT,FIELD等内嵌元素及fontrelated,emphasis-related,number,Style,x,y,height,width等属性。
15)TEXT元素用于处理在PARAGRAPH中与PARAGRAPH元素相同格式的文本,仅用于PDF的解析器中的每个文本处理时需要各自的坐标和维度的情况。有PARAGRAPH父元素,有如#PCDATA,SPECIALTEXT,LINK,ANCHOR,IMAGE,TEXT,FIELD等内嵌元素及font related,emphasis-related,number,Style,x,y,height,width等属性。不能出现在块层但能出现在内嵌层。
16)IMAGE元素用于描述源文档中的图像。在word解析器和HTML解析器中,图像放在pXML文件的命名为xxxxx.xx_Images子目录中,xxxxx.xx为pXML文件名。IMAGE元素可在块层和内嵌层,有BODY,PAGE,CELL,LI,BLOCKQUOTE,PRE,PARAGRAPH等父元素和如下属性:
a)href=文件名,常为图像文件的相对路经;
b)format=文件格式。对于word解析器,位图类型有BMP、JPEG、GIF。
c)width和height为图像的宽和高。
d)x和y为图像在一页中的位置,主要是针对pdf文档而言。
e)number为该图像相对其它图像或段落的位置。
f)alt为在超文本中的图像描述文本。
17)LINK元素描述连接,常出现在PARAGRAPH中,且有文本描述。LINK元素有PARAGRAPH,SPECIALTEXT等父元素和#PCDATA,SPECIALTEXT子元素,有href和alt属性,可出现在内嵌层。
18)FOOTNOTE和ENDNOTE元素描述文档的脚注,可出现在文档的末尾或PARAGRAPH元素中。有BODY,PARAGRAPH父元素,所有的块层的元素度可作为其子元素,有ref,reftype,label等属性。
19)HEADER and FOOTER元素描述文档的页眉页脚,可出现在文档的末尾或PARAGRAPH元素中。有BODY父元素,所有的块层的元素度可作为其子元素。有如下属性
a)number描述HEADER或FOOTER元素所在的分区编码;
b)headerType用于描述HEADER或FOOTER元素是首页、最后页、奇偶数等。
20)ANCHOR元素描述一个文档能访问到的地址,等价于超文本中的<A>,可在PARAGRAPH元素内部或外部,类似于MARKER元素。有BODY,PAGE,CELL,LI,BLOCKQUOTE,PRE,PARAGRAPH,SPECIALTEXT等父元素,有name和number属性,其中number属性描述ANCHOR元素的相对位置。ANCHOR元素可出现在块层和内嵌层中。
21)TAB元素用于描述文档中的TAB符,所有的内嵌层元素都可作为其父元素,可出现在内嵌层。
22)HR元素仅用于描述超文本文档所有的内嵌层元素都可作为其父元素,可出现在块层。
23)MARKER元素是一个文件中的终止符,其父元素有块容器和PARAGRAPH,属性有id,number等,可出现在块层和内嵌层中。
24)TABLE元素描述源文档中的一个表,其父元素有BODY,PAGE,SECTIONCELL,LI,BLOCKQUOTE,PRE,其子元素有TGROUP,COLUMN,ROW,属性有number来描述它出现的位置,可出现在块层中。
25)TGROUP,TBODY,THEAD,TFOOT元素用于描述源文档中的表,属性有用于描述TGROUP中的栏数的cols,可出现在块层中。
26)ROW元素是TABLE元素的子元素,用于描述表中的单一行,CELL为其子元素,有rowtype、Style和number属性,其中,若rowtype为header则为头行,若为data则为普通行;Style为该行的格式;number为该行在整个文档中的位置。
27)CELL元素是ROW元素的子元素,用于描述表中的一格,子元素有PARAGRAPH,LIST,TABLE,LIST,BLOCKQUOTE,PRE,IMAGE,ANCHOR等。CELL元素有celltype、Style、number等属性,其中,celltype=header,则该行为表的头行,若celltype=data则该行为表的普通行;Style描述该表格的格式;number描述该表格在整个文档的位置。
28)COLUMN元素TABLE元素的子元素,用于描述表中的单一列。对于Word,MIF等文档,指定column的宽度和映射到CALs表较容易;对于PDF文档时,当指定一个pagedef时,COLUMN元素是指在一页中的某个区域。有符TABLE,TGROUP等父元素没有子元素,有column-id及width属性。其中,column-id是指其在表中的列的序号;width描述该列的宽度。
29)COLUMN-DEF元素用于描述列,有TABLE父元素和COLUMN子元素,有描述列数的cols属性。
30)LIST元素用于描述文档中的一个列表。在pXML中分OL、UL和DL,其中,OL表示排序列表;UL表示无序的、浮动的列表;DL表示无序的、不浮动的数据列表。任何块容器都可作为其父元素,其元素为LI,有type、Style和Number属性。其中,type为OL、UL、或DL;Number描述列表在文档中的位置;Style描述列表的格式。另外,LIST元素可出现在块层中。
31)LI元素是LIST子元素,描述列表项,有PARAGRAPH,LIST,TABLE,LI,BLOCKQUOTE,PRE,IMAGE,ANCHOR等子元素,且有level、number、Style、type等属性。其中,level值代表该列表内嵌的层级;number表示列表项在列表中的位置;Style表示列表项的格式、type常为空,若列表类型为DL,则其为DT或DL,表示其是否为头或数据项。
32)LABEL元素是针对word文档而定义的,作为LI元素的子元素,有PARAGRAPH和LI父元素,其子元素有#PCDATA。
33)BLOCKQUOTE元素描述一个内嵌文本,块容器可作为其父元素、块级元素可作为其子元素,有number属性来描述其中文档中的相对位置,可出现在块层。
34)PRE元素是用于将其包起来的文字排版、格式,原封不动的呈现出来,块容器可作为其父元素,块层元素可作为其子元素,有描述其在文档中的相对位置的number属性,并可出现在块层。
35)BREAK元素描述源文档中的分隔符,块容器和内嵌容器均可作为其父元素,无子元素,有type和number属性,且可出现在块层和内嵌层。其中,type属性用于描述其类型,如页分隔、列分隔、行分隔等;number属性描述BREAK元素在文档中的相对位置。
36)FRAME元素用于描述文档中的文本帧,有BODY,SECTION,PAGE等父元素,所有的块级元素都可作为其子元素,有x,y,top,left,height,width,number等属性,且可出现在块层级。
37)SVG元素用于描述外部的SVG文件,仅用于pdf文档中,有PAGE父元素,无子元素,有src属性,可出现在块层上。其中,src为SVG的相对或绝对文件名。
38)FIELD元素用于描述嵌套在源文档中的文本中的一个域,常用于word文档中,有PARAGRAPH,TEXT,SPECIALTEXT等父元素和#PCDATA子元素,有用于描述域码的code属性,能用于内嵌层。
39)INDEXITEM元素用于描述来自MIF文件中的索引项,有PARAGRAPH,TEXT,SPECIALTEXT等父元素和inline子元素,有primary、secondary、tertiary等属性。其中,primary为初始索引项;secondary为次索引项;tertiary为第三次索引项,可用于内嵌层。
6.在权利4中的属性可用于多个元素,有些属性用于特定的元素,在这里将列出一些主要的元素的属性的定义。
1)Style属性给PARAGRAPH或SPECIALTEXT的格式的一个名称。在Word和Framemaker文档中,Style属性是指段落或字符集的格式;在超文本中,若源文本是在<H1>到<H7>标签中,则标签名附加在Style属性,较容易找到使用的是那个头。在超文本中,Style属性也可能包括″classname″,即在<P class=myheading>中,Style属性将被转换成在pXML中的格式<PARAGRAPH Style=″myheading″>。对于如超文本而言,Style属性可能有多个格式,在转换成pXML时将其用逗号隔开。<PARAGRAPH>和<SPECIALTEXT>元素常有该属性。
2)css-style属性用于描述超文本源文件。若超文本的paragraph元素有style属性包含有CSS属性,在pXML中将逐字地包含在该元素中。若超文本是<p style=″font-size:9;color:red;″,则在pXML中的css-style属性是<PARAGRAPH css-style=″font-size:9;color:red;″>。
3)number属性是指一组从1开始的数值,用来描述当前元素在文档中的位置,以便于确定元素发生的先后顺序。所有的BODY元素都具有number属性。
4)font,font-size,font-fixed,origfont是用于描述与字体相关的属性。其中,在word或pdf文档中,font-size按点值指定,在超文本中是指一个从1到7的相对值,1对应于H1,7对应于H7。font-fixed是true或false,一般而言Courier集子体是固定子体宽度。有<PARAGRAPH>,<SPECIALTEXT>,<TEXT>,<STYLE>等元素具有以上属性。
5)emphasis,emphasis-bold,emphasis-italic,emphasis-underline,emphasis-superscript,emphasis-subscript属性用于修饰基本子体,常用于<PARAGRAPH>元素层或在PARAGRAPH中的<SPECIALTEXT>。这些属性赋值为true或false。所有解析器都要求执行emphasis,emphasis-bold,emphasis-italic,and emphasis-underline属性。而superscript和subscript仅用于特定的解析器。有<PARAGRAPH>,<SPECIALTEXT>,<TEXT>,and<STYLE>等元素具有这些属性。
6)x,y,height,width,top和left属性常被解析器用在处理特定格式的文档中,如pdf文档。其中x和y坐标是指基于页的坐标,数字是点值或其它相对测定值,依赖于源内容。在一些元素中,常用top和left而不是x和y。所有BODY的块元素有x,y,height和width属性。SPECIALTEXT和TEXT属性只有在数据源为pdf文档时才有以上属性。
7)align,valign,leftindent,rightindent,spacebefore,spaceafter和textindent属性用于描述段落层的格式信息。其中,align为left,center,right,justify或blank;valign为top,middle,bottom或blank;leftndent为段落靠左缩进的大小;rightindent为段落靠右缩进的大小;linespacing为行间距,缺省值为1,即单行距;spacebefore为段前值;spaceafter为段后值;textindent为首行缩进值。除了如SPECIALTEXT,LINK内嵌元素外,其它元素都具有这些属性。
8)border-left,border-right,border-top,border-bottom属性表示偏左、偏右、偏上、偏下,它们可设为true或false来描述表对象,也可为数值表示边界的长度。这些属性也可有边界颜色。有TABLE、CELL和ROW具有上属性。
9)top-padding,left-padding,right-padding,bottom-padding属性设为整数值,表示在表中格的填充颜色。TABLE和CELL有以上属性。
10)rowspan和colspan属性设为数值,表示表格的行跨度和列跨度,仅CELL有这些属性。
11)width-type和height-type属性仅用于从word文档中生成的表格,可设为auto、percent、points、fixed等。
7.在权利2、3中的文档解析器具有解析其所对应文档中的如下内容:
1)能解析其所对应文档中的图的功能。在文档解析器中可选择地将bitmap、矢量图、WMF文件功能转换成所需格式的图像,并在pXML中用IMAGE来标注。对于office文档中的OLE对象,是将其视为WMF文件来处理。
2)能解析所对应文档中的书签、分隔符、域、页眉、页脚、片断、脚注等功能,分别在pXML中用ANCHOR、BREAK、FIELD、HEADER、FOOTER、SECTION及PARAGRAPH中的Footnote格式来标注。分隔符分为page、column、section等三种类型。
3)能解析所对应文档中的文本格式信息,如字体、字体颜色、大小、黑体、斜体等,定义为PARAGRAPH元素中属性。
4)能解析文档中的隐藏文本功能,在转换后的pXML中用SPECIALTEXT把隐藏文本进行标记。
5)能解析文本中的连接功能,并在pXML中link标注。
6)能解析文档中的列举功能,并在pXML中列举用LIST标注、列举中的条用LABEL标注。
7)能解析文档中的表功能,采用,并在pXML中用TABLE、TGROUP、TBODY、THEAD及COLUMN等来标注表。
8)能解析如pdf、MIF、HTML、XML等文档中的分层结构,在pXML中用FRAME来描述文档中的分层结构。在份层结构中有以下主要元素用Layoutdefs,定义layoutdef的头信息、用MarginDef定义一系列页的边界、用PageDef定义为某页或一系列页中的正方块定义某种类型的块等。
8.在权利2中的如Java、C++等程序文件解析器可解析程序文件中的类名、类路经、类参数等文档内容。
9.在权利3中还包括调用外部程序来进行文档内容的转换,接口为-I{输入},-O{输出}。而在解析其它XML格式文档或纯文本文档的过程中还可调用XSLT来解析文档,生成pXML,调用格式包括XSLT文件名、XSLT参数,例如XSLTArguments=[arg1=value1|arg2=value2|arg3=value3]。
10.XML Hub开放接口,通过动态加载未知格式文档的解析器来实现对未知文档的解析。
CNA2006100725321A 2006-04-12 2006-04-12 可扩展标记语言集中器 Pending CN101055577A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNA2006100725321A CN101055577A (zh) 2006-04-12 2006-04-12 可扩展标记语言集中器
US12/296,493 US8151183B2 (en) 2006-04-12 2007-03-30 System and method for facilitating content display on portable devices
PCT/CN2007/001056 WO2007115485A1 (en) 2006-04-12 2007-03-30 System and method for facilitating content display on portable devices
CN2007800014854A CN101361059B (zh) 2006-04-12 2007-03-30 支持在便携设备上显示内容的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100725321A CN101055577A (zh) 2006-04-12 2006-04-12 可扩展标记语言集中器

Publications (1)

Publication Number Publication Date
CN101055577A true CN101055577A (zh) 2007-10-17

Family

ID=38580708

Family Applications (2)

Application Number Title Priority Date Filing Date
CNA2006100725321A Pending CN101055577A (zh) 2006-04-12 2006-04-12 可扩展标记语言集中器
CN2007800014854A Expired - Fee Related CN101361059B (zh) 2006-04-12 2007-03-30 支持在便携设备上显示内容的系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2007800014854A Expired - Fee Related CN101361059B (zh) 2006-04-12 2007-03-30 支持在便携设备上显示内容的系统和方法

Country Status (3)

Country Link
US (1) US8151183B2 (zh)
CN (2) CN101055577A (zh)
WO (1) WO2007115485A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262676A (zh) * 2011-08-15 2011-11-30 何琦 可扩展标记语言文件转换器及其转换方法
CN102298575A (zh) * 2010-06-28 2011-12-28 北大方正集团有限公司 一种带格式的Word文件内容拷贝和粘贴的方法及系统
CN102693254A (zh) * 2011-01-18 2012-09-26 三星电子株式会社 发送数据的方法和设备以及处理数据的方法和设备
CN102799571A (zh) * 2011-05-23 2012-11-28 成都科创知识产权研究所 Word文件生成图片的方法及系统
CN102844749A (zh) * 2010-05-08 2012-12-26 惠普发展公司,有限责任合伙企业 对文件执行转写请求
CN102866986A (zh) * 2012-08-30 2013-01-09 中国矿业大学 一种文档格式转换系统
CN102981849A (zh) * 2012-11-13 2013-03-20 北京空间飞行器总体设计部 一种基于xml的航天器通用化指令生成方法
CN103020023A (zh) * 2012-12-12 2013-04-03 中国南方电网有限责任公司超高压输电公司广州局 电力行业技术监督系统的电子文档数据自动存储读取方法
CN103177045A (zh) * 2011-12-26 2013-06-26 中国移动通信集团广东有限公司 文本解析方法及装置
CN103729339A (zh) * 2014-01-26 2014-04-16 广州视源电子科技股份有限公司 一种文件转换方法及装置
CN103970750A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种生成html网页的方法和装置
CN106022716A (zh) * 2010-11-04 2016-10-12 中兴通讯股份有限公司 一种移动终端多用户协同图形编辑的方法及系统
CN106777404A (zh) * 2017-03-29 2017-05-31 北京亿科天元信息技术有限公司 从LaTeX格式到XML格式的转换系统及转换方法
CN107644027A (zh) * 2016-07-20 2018-01-30 江苏云媒数字科技有限公司 一种超媒体元数据合成与转换系统
WO2018028127A1 (zh) * 2016-08-09 2018-02-15 广州视睿电子科技有限公司 存储文件的解析方法和装置
CN108108339A (zh) * 2018-01-10 2018-06-01 北京仁和汇智信息技术有限公司 一种pdf边界及网格线标识的方法及装置
CN108491492A (zh) * 2018-03-15 2018-09-04 传神语联网网络科技股份有限公司 一种文档在线可视化拆分以及自动合并的方法、系统
CN109636346A (zh) * 2018-12-14 2019-04-16 金蝶软件(中国)有限公司 一种文件处理方法以及erp客户端
CN109918622A (zh) * 2019-02-27 2019-06-21 中国地质大学(武汉) 基于JAVA实现由Word文档向LaTeX文档转换的方法及系统
CN110263221A (zh) * 2019-06-21 2019-09-20 福建南威软件有限公司 一种基于xml操作word文档的方法及系统
CN110995942A (zh) * 2019-12-06 2020-04-10 科大国创软件股份有限公司 一种基于界面可视化的软交换自动呼叫方法及系统
CN111125441A (zh) * 2019-11-08 2020-05-08 广东电网有限责任公司 一种Xml文件信息处理系统
CN111581948A (zh) * 2020-04-03 2020-08-25 北京百度网讯科技有限公司 文档解析方法、装置、设备及存储介质

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4983436B2 (ja) * 2007-06-28 2012-07-25 ブラザー工業株式会社 データ構造、言語ファイル、情報処理装置および印刷装置
US8326814B2 (en) 2007-12-05 2012-12-04 Box, Inc. Web-based file management system and service
US9613150B2 (en) * 2007-12-28 2017-04-04 International Business Machines Corporation Remote viewing of documents via the web in real-time
US8031694B2 (en) * 2008-02-08 2011-10-04 Amdocs Software Systems Limited System and method for formatting data for a mobile communication device and transmitting the data to the mobile communication device
KR101517618B1 (ko) * 2008-10-31 2015-05-04 삼성전자주식회사 웹 컨텐츠를 효율적으로 디스플레이하기 위한 장치 및 방법
US8438472B2 (en) 2009-01-02 2013-05-07 Apple Inc. Efficient data structures for parsing and analyzing a document
US20100180192A1 (en) * 2009-01-09 2010-07-15 Cerner Innovation, Inc. Dynamically configuring a presentation layer associated with a webpage delivered to a client device
US8347208B2 (en) * 2009-03-04 2013-01-01 Microsoft Corporation Content rendering on a computer
US9003309B1 (en) * 2010-01-22 2015-04-07 Adobe Systems Incorporated Method and apparatus for customizing content displayed on a display device
JP5530217B2 (ja) * 2010-02-24 2014-06-25 富士フイルム株式会社 文書閲覧システム及びドキュメント変換サーバ
US20110307808A1 (en) * 2010-06-10 2011-12-15 Microsoft Corporation Rendering incompatible content within a user interface
CN102375859B (zh) * 2010-08-25 2013-05-08 阿里巴巴集团控股有限公司 一种信息处理的方法及设备
US8442998B2 (en) 2011-01-18 2013-05-14 Apple Inc. Storage of a document using multiple representations
WO2012099617A1 (en) 2011-01-20 2012-07-26 Box.Net, Inc. Real time notification of activities that occur in a web-based collaboration environment
US9015601B2 (en) 2011-06-21 2015-04-21 Box, Inc. Batch uploading of content to a web-based collaboration environment
US9063912B2 (en) 2011-06-22 2015-06-23 Box, Inc. Multimedia content preview rendering in a cloud content management system
US9652741B2 (en) 2011-07-08 2017-05-16 Box, Inc. Desktop application for access and interaction with workspaces in a cloud-based content management system and synchronization mechanisms thereof
US9978040B2 (en) 2011-07-08 2018-05-22 Box, Inc. Collaboration sessions in a workspace on a cloud-based content management system
US10956485B2 (en) 2011-08-31 2021-03-23 Google Llc Retargeting in a search environment
US10630751B2 (en) 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
US8650188B1 (en) 2011-08-31 2014-02-11 Google Inc. Retargeting in a search environment
US9197718B2 (en) 2011-09-23 2015-11-24 Box, Inc. Central management and control of user-contributed content in a web-based collaboration environment and management console thereof
US8515902B2 (en) 2011-10-14 2013-08-20 Box, Inc. Automatic and semi-automatic tagging features of work items in a shared workspace for metadata tracking in a cloud-based content management system with selective or optional user contribution
EP2587456A3 (en) * 2011-10-23 2017-09-20 Technion Research & Development Foundation Ltd. Method and systems for generating a dynamic multimodal and multidimensional presentation
US9098474B2 (en) 2011-10-26 2015-08-04 Box, Inc. Preview pre-generation based on heuristics and algorithmic prediction/assessment of predicted user behavior for enhancement of user experience
WO2013062599A1 (en) 2011-10-26 2013-05-02 Box, Inc. Enhanced multimedia content preview rendering in a cloud content management system
US8990307B2 (en) 2011-11-16 2015-03-24 Box, Inc. Resource effective incremental updating of a remote client with events which occurred via a cloud-enabled platform
GB2500152A (en) 2011-11-29 2013-09-11 Box Inc Mobile platform file and folder selection functionalities for offline access and synchronization
US9019123B2 (en) 2011-12-22 2015-04-28 Box, Inc. Health check services for web-based collaboration environments
US9904435B2 (en) 2012-01-06 2018-02-27 Box, Inc. System and method for actionable event generation for task delegation and management via a discussion forum in a web-based collaboration environment
US11232481B2 (en) 2012-01-30 2022-01-25 Box, Inc. Extended applications of multimedia content previews in the cloud-based content management system
US9965745B2 (en) 2012-02-24 2018-05-08 Box, Inc. System and method for promoting enterprise adoption of a web-based collaboration environment
US9195636B2 (en) 2012-03-07 2015-11-24 Box, Inc. Universal file type preview for mobile devices
US9054919B2 (en) 2012-04-05 2015-06-09 Box, Inc. Device pinning capability for enterprise cloud service and storage accounts
US9575981B2 (en) 2012-04-11 2017-02-21 Box, Inc. Cloud service enabled to handle a set of files depicted to a user as a single file in a native operating system
US20130282729A1 (en) * 2012-04-24 2013-10-24 Michael J. Fisher Intelligent highlighting system
US9413587B2 (en) 2012-05-02 2016-08-09 Box, Inc. System and method for a third-party application to access content within a cloud-based platform
WO2013166520A1 (en) 2012-05-04 2013-11-07 Box, Inc. Repository redundancy implementation of a system which incrementally updates clients with events that occurred via cloud-enabled platform
US9691051B2 (en) 2012-05-21 2017-06-27 Box, Inc. Security enhancement through application access control
US9027108B2 (en) 2012-05-23 2015-05-05 Box, Inc. Systems and methods for secure file portability between mobile applications on a mobile device
US8914900B2 (en) 2012-05-23 2014-12-16 Box, Inc. Methods, architectures and security mechanisms for a third-party application to access content in a cloud-based platform
US9021099B2 (en) 2012-07-03 2015-04-28 Box, Inc. Load balancing secure FTP connections among multiple FTP servers
GB2505072A (en) 2012-07-06 2014-02-19 Box Inc Identifying users and collaborators as search results in a cloud-based system
US9712510B2 (en) 2012-07-06 2017-07-18 Box, Inc. Systems and methods for securely submitting comments among users via external messaging applications in a cloud-based platform
US9792320B2 (en) 2012-07-06 2017-10-17 Box, Inc. System and method for performing shard migration to support functions of a cloud-based service
US20140026041A1 (en) * 2012-07-17 2014-01-23 Microsoft Corporation Interacting with a document as an application
US9473532B2 (en) 2012-07-19 2016-10-18 Box, Inc. Data loss prevention (DLP) methods by a cloud service including third party integration architectures
US8868574B2 (en) 2012-07-30 2014-10-21 Box, Inc. System and method for advanced search and filtering mechanisms for enterprise administrators in a cloud-based environment
US9794256B2 (en) 2012-07-30 2017-10-17 Box, Inc. System and method for advanced control tools for administrators in a cloud-based service
US9369520B2 (en) 2012-08-19 2016-06-14 Box, Inc. Enhancement of upload and/or download performance based on client and/or server feedback information
US8745267B2 (en) 2012-08-19 2014-06-03 Box, Inc. Enhancement of upload and/or download performance based on client and/or server feedback information
US9558202B2 (en) 2012-08-27 2017-01-31 Box, Inc. Server side techniques for reducing database workload in implementing selective subfolder synchronization in a cloud-based environment
US9135462B2 (en) 2012-08-29 2015-09-15 Box, Inc. Upload and download streaming encryption to/from a cloud-based platform
US9195519B2 (en) 2012-09-06 2015-11-24 Box, Inc. Disabling the self-referential appearance of a mobile application in an intent via a background registration
US9117087B2 (en) 2012-09-06 2015-08-25 Box, Inc. System and method for creating a secure channel for inter-application communication based on intents
US9311071B2 (en) 2012-09-06 2016-04-12 Box, Inc. Force upgrade of a mobile application via a server side configuration file
US9292833B2 (en) 2012-09-14 2016-03-22 Box, Inc. Batching notifications of activities that occur in a web-based collaboration environment
US10200256B2 (en) 2012-09-17 2019-02-05 Box, Inc. System and method of a manipulative handle in an interactive mobile user interface
US9553758B2 (en) 2012-09-18 2017-01-24 Box, Inc. Sandboxing individual applications to specific user folders in a cloud-based service
US10915492B2 (en) 2012-09-19 2021-02-09 Box, Inc. Cloud-based platform enabled with media content indexed for text-based searches and/or metadata extraction
US9959420B2 (en) 2012-10-02 2018-05-01 Box, Inc. System and method for enhanced security and management mechanisms for enterprise administrators in a cloud-based environment
US9705967B2 (en) 2012-10-04 2017-07-11 Box, Inc. Corporate user discovery and identification of recommended collaborators in a cloud platform
US9495364B2 (en) 2012-10-04 2016-11-15 Box, Inc. Enhanced quick search features, low-barrier commenting/interactive features in a collaboration platform
US9665349B2 (en) 2012-10-05 2017-05-30 Box, Inc. System and method for generating embeddable widgets which enable access to a cloud-based collaboration platform
JP5982343B2 (ja) 2012-10-17 2016-08-31 ボックス インコーポレイテッドBox, Inc. クラウドベース環境におけるリモートキー管理
US9756022B2 (en) 2014-08-29 2017-09-05 Box, Inc. Enhanced remote key management for an enterprise in a cloud-based environment
CN103777989A (zh) * 2012-10-25 2014-05-07 阿里巴巴集团控股有限公司 用于将视觉稿源文件生成html标记的方法及系统
US10235383B2 (en) 2012-12-19 2019-03-19 Box, Inc. Method and apparatus for synchronization of items with read-only permissions in a cloud-based environment
US9396245B2 (en) 2013-01-02 2016-07-19 Box, Inc. Race condition handling in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform
US9953036B2 (en) 2013-01-09 2018-04-24 Box, Inc. File system monitoring in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform
EP2755151A3 (en) 2013-01-11 2014-09-24 Box, Inc. Functionalities, features and user interface of a synchronization client to a cloud-based environment
CN103116604B (zh) * 2013-01-15 2016-06-29 北京天智通达信息技术有限公司 一种数字阅读格式到数字多维度多媒体(dmm)格式的转换方法
EP2757491A1 (en) 2013-01-17 2014-07-23 Box, Inc. Conflict resolution, retry condition management, and handling of problem files for the synchronization client to a cloud-based platform
US10846074B2 (en) 2013-05-10 2020-11-24 Box, Inc. Identification and handling of items to be ignored for synchronization with a cloud-based platform by a synchronization client
US10725968B2 (en) 2013-05-10 2020-07-28 Box, Inc. Top down delete or unsynchronization on delete of and depiction of item synchronization with a synchronization client to a cloud-based platform
GB2515192B (en) 2013-06-13 2016-12-14 Box Inc Systems and methods for synchronization event building and/or collapsing by a synchronization component of a cloud-based platform
US9805050B2 (en) 2013-06-21 2017-10-31 Box, Inc. Maintaining and updating file system shadows on a local device by a synchronization client of a cloud-based platform
US10229134B2 (en) 2013-06-25 2019-03-12 Box, Inc. Systems and methods for managing upgrades, migration of user data and improving performance of a cloud-based platform
US10110656B2 (en) 2013-06-25 2018-10-23 Box, Inc. Systems and methods for providing shell communication in a cloud-based platform
CN103389968B (zh) * 2013-07-10 2016-02-17 百度时代网络技术(北京)有限公司 一种富文本显示实现方法及系统
US9535924B2 (en) 2013-07-30 2017-01-03 Box, Inc. Scalability improvement in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform
US10509527B2 (en) 2013-09-13 2019-12-17 Box, Inc. Systems and methods for configuring event-based automation in cloud-based collaboration platforms
GB2518298A (en) 2013-09-13 2015-03-18 Box Inc High-availability architecture for a cloud-based concurrent-access collaboration platform
US9704137B2 (en) 2013-09-13 2017-07-11 Box, Inc. Simultaneous editing/accessing of content by collaborator invitation through a web-based or mobile application to a cloud-based collaboration platform
US8892679B1 (en) 2013-09-13 2014-11-18 Box, Inc. Mobile device, methods and user interfaces thereof in a mobile device platform featuring multifunctional access and engagement in a collaborative environment provided by a cloud-based platform
US9535909B2 (en) 2013-09-13 2017-01-03 Box, Inc. Configurable event-based automation architecture for cloud-based collaboration platforms
US9213684B2 (en) 2013-09-13 2015-12-15 Box, Inc. System and method for rendering document in web browser or mobile device regardless of third-party plug-in software
CN104462029B (zh) * 2013-09-18 2017-11-21 北京新媒传信科技有限公司 一种智能终端中富文本显示的方法和系统
US9703757B2 (en) * 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
CN104572671A (zh) * 2013-10-15 2015-04-29 北大方正集团有限公司 一种多标签文件处理器
CN104572606B (zh) * 2013-10-17 2018-01-26 北大方正集团有限公司 电子书处理方法和装置
US10866931B2 (en) 2013-10-22 2020-12-15 Box, Inc. Desktop application for accessing a cloud collaboration platform
CN103678701A (zh) * 2013-12-31 2014-03-26 福建四创软件有限公司 基于WebService的防灾减灾信息处理系统及方法
WO2015154164A1 (en) * 2014-04-07 2015-10-15 Zination Inc. Methods and systems relating to electronic multi-domain publishing
US10530854B2 (en) 2014-05-30 2020-01-07 Box, Inc. Synchronization of permissioned content in cloud-based environments
US9602514B2 (en) 2014-06-16 2017-03-21 Box, Inc. Enterprise mobility management and verification of a managed application by a content provider
US10574442B2 (en) 2014-08-29 2020-02-25 Box, Inc. Enhanced remote key management for an enterprise in a cloud-based environment
US9894119B2 (en) 2014-08-29 2018-02-13 Box, Inc. Configurable metadata-based automation and content classification architecture for cloud-based collaboration platforms
US10038731B2 (en) 2014-08-29 2018-07-31 Box, Inc. Managing flow-based interactions with cloud-based shared content
US10204095B1 (en) * 2015-02-10 2019-02-12 West Corporation Processing and delivery of private electronic documents
US10318614B2 (en) * 2015-07-01 2019-06-11 Tnq Books And Journals Private Limited Transformation of marked-up content into a file format that enables automated browser based pagination
WO2017002130A1 (en) * 2015-07-01 2017-01-05 Tnq Books And Journals Private Limited Transformation of marked-up content to a reversible file format for automated browser based pagination
CN108170697B (zh) * 2017-07-12 2021-08-20 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器
CN107357765B (zh) * 2017-07-14 2018-11-09 北京神州泰岳软件股份有限公司 Word文档碎片化方法及装置
US11792145B2 (en) * 2018-03-29 2023-10-17 Zipwhip, Llc Portable document file communication system
CN109918351B (zh) * 2019-02-28 2021-04-23 中国地质大学(武汉) 一种Beamer演示文稿向PowerPoint演示文稿转换的方法及系统
US11055378B1 (en) 2020-08-21 2021-07-06 Coupang Corp. Systems and methods for loading websites with multiple items
CN112579940A (zh) * 2020-12-17 2021-03-30 北京航天云路有限公司 一种可视化大屏接入视频会议界面的方法
DE102021203507A1 (de) * 2021-04-09 2022-10-13 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Beschreiben und Auslesen eines nicht-flüchtigen elektronischen Speichers
US20220351054A1 (en) * 2021-04-29 2022-11-03 Verizon Patent And Licensing Inc. Systems and methods for generating customer journeys for an application based on process management rules
CN116579296A (zh) * 2023-07-04 2023-08-11 北京佳萌锐普科技发展有限公司 B/s架构电子文档预览处理方法、装置、介质及设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6725426B1 (en) * 2000-03-17 2004-04-20 Broadvision, Inc. Mechanism for translating between word processing documents and XML documents
US20020099598A1 (en) * 2001-01-22 2002-07-25 Eicher, Jr. Daryl E. Performance-based supply chain management system and method with metalerting and hot spot identification
US7120702B2 (en) * 2001-03-03 2006-10-10 International Business Machines Corporation System and method for transcoding web content for display by alternative client devices
US7627354B2 (en) * 2002-08-30 2009-12-01 Qualcomm Incorporated Display format for handheld wireless communication devices
KR100461019B1 (ko) * 2002-11-01 2004-12-09 한국전자통신연구원 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
US20040128342A1 (en) * 2002-12-31 2004-07-01 International Business Machines Corporation System and method for providing multi-modal interactive streaming media applications
US20050005259A1 (en) * 2003-03-14 2005-01-06 Infowave Software, Inc. System and method for communication and mapping of business objects between mobile client devices and a plurality of backend systems
US8635218B2 (en) * 2003-09-02 2014-01-21 International Business Machines Corporation Generation of XSLT style sheets for different portable devices
CN100363925C (zh) * 2003-09-29 2008-01-23 中国人民解放军理工大学通信工程学院 兼容移动访问的多媒体网页快速适配技术

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909675B2 (en) 2010-05-08 2014-12-09 Hewlett-Packard Development Company, L.P. Executing transcription requests on files
CN102844749A (zh) * 2010-05-08 2012-12-26 惠普发展公司,有限责任合伙企业 对文件执行转写请求
CN102844749B (zh) * 2010-05-08 2016-05-18 惠普发展公司,有限责任合伙企业 对文件执行转写请求
CN102298575A (zh) * 2010-06-28 2011-12-28 北大方正集团有限公司 一种带格式的Word文件内容拷贝和粘贴的方法及系统
CN106022716A (zh) * 2010-11-04 2016-10-12 中兴通讯股份有限公司 一种移动终端多用户协同图形编辑的方法及系统
CN102693254A (zh) * 2011-01-18 2012-09-26 三星电子株式会社 发送数据的方法和设备以及处理数据的方法和设备
CN102693254B (zh) * 2011-01-18 2018-05-04 三星电子株式会社 发送数据的方法和设备以及处理数据的方法和设备
US9294594B2 (en) 2011-01-18 2016-03-22 Samsung Electronics Co., Ltd. Method and apparatus for transmitting data and method and apparatus for processing data
CN102799571A (zh) * 2011-05-23 2012-11-28 成都科创知识产权研究所 Word文件生成图片的方法及系统
CN102799571B (zh) * 2011-05-23 2015-06-10 成都科创知识产权研究所 Word文件生成图片的方法及系统
CN102262676A (zh) * 2011-08-15 2011-11-30 何琦 可扩展标记语言文件转换器及其转换方法
CN103177045A (zh) * 2011-12-26 2013-06-26 中国移动通信集团广东有限公司 文本解析方法及装置
CN102866986A (zh) * 2012-08-30 2013-01-09 中国矿业大学 一种文档格式转换系统
CN102981849B (zh) * 2012-11-13 2015-10-21 北京空间飞行器总体设计部 一种基于xml的航天器通用化指令生成方法
CN102981849A (zh) * 2012-11-13 2013-03-20 北京空间飞行器总体设计部 一种基于xml的航天器通用化指令生成方法
CN103020023A (zh) * 2012-12-12 2013-04-03 中国南方电网有限责任公司超高压输电公司广州局 电力行业技术监督系统的电子文档数据自动存储读取方法
CN103970750B (zh) * 2013-01-25 2018-10-02 腾讯科技(深圳)有限公司 一种生成html网页的方法和装置
CN103970750A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种生成html网页的方法和装置
CN103729339A (zh) * 2014-01-26 2014-04-16 广州视源电子科技股份有限公司 一种文件转换方法及装置
CN107644027A (zh) * 2016-07-20 2018-01-30 江苏云媒数字科技有限公司 一种超媒体元数据合成与转换系统
WO2018028127A1 (zh) * 2016-08-09 2018-02-15 广州视睿电子科技有限公司 存储文件的解析方法和装置
CN106777404A (zh) * 2017-03-29 2017-05-31 北京亿科天元信息技术有限公司 从LaTeX格式到XML格式的转换系统及转换方法
CN108108339A (zh) * 2018-01-10 2018-06-01 北京仁和汇智信息技术有限公司 一种pdf边界及网格线标识的方法及装置
CN108491492A (zh) * 2018-03-15 2018-09-04 传神语联网网络科技股份有限公司 一种文档在线可视化拆分以及自动合并的方法、系统
CN109636346A (zh) * 2018-12-14 2019-04-16 金蝶软件(中国)有限公司 一种文件处理方法以及erp客户端
CN109636346B (zh) * 2018-12-14 2020-12-01 金蝶软件(中国)有限公司 一种文件处理方法以及erp客户端
CN109918622A (zh) * 2019-02-27 2019-06-21 中国地质大学(武汉) 基于JAVA实现由Word文档向LaTeX文档转换的方法及系统
CN109918622B (zh) * 2019-02-27 2020-12-08 中国地质大学(武汉) 基于JAVA实现由Word文档向LaTeX文档转换的方法
CN110263221A (zh) * 2019-06-21 2019-09-20 福建南威软件有限公司 一种基于xml操作word文档的方法及系统
CN111125441A (zh) * 2019-11-08 2020-05-08 广东电网有限责任公司 一种Xml文件信息处理系统
CN110995942A (zh) * 2019-12-06 2020-04-10 科大国创软件股份有限公司 一种基于界面可视化的软交换自动呼叫方法及系统
CN111581948A (zh) * 2020-04-03 2020-08-25 北京百度网讯科技有限公司 文档解析方法、装置、设备及存储介质
CN111581948B (zh) * 2020-04-03 2024-02-09 北京百度网讯科技有限公司 文档解析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101361059A (zh) 2009-02-04
US20090125802A1 (en) 2009-05-14
CN101361059B (zh) 2012-08-22
WO2007115485A1 (en) 2007-10-18
US8151183B2 (en) 2012-04-03

Similar Documents

Publication Publication Date Title
CN101055577A (zh) 可扩展标记语言集中器
CN101361063B (zh) 支持基于规则的文档内容挖掘的系统与方法
US8484552B2 (en) Extensible stylesheet designs using meta-tag information
Raggett HTML 3.2 reference specification.
CN100350372C (zh) 一种打印系统
US7899826B2 (en) Semantic reconstruction
US7721195B2 (en) RTF template and XSL/FO conversion: a new way to create computer reports
US7613996B2 (en) Enabling selection of an inferred schema part
US7676741B2 (en) Structural context for fixed layout markup documents
US9384225B2 (en) Systems and methods for providing hi-fidelity contextual search results
CN1530833A (zh) 提高计算机软件应用程序粘贴功能的方法和系统
Fenyö The Biopolymer Markup Language.
CN1763748A (zh) 电子归档系统和电子归档方法
CN113139145B (zh) 页面生成方法、装置、电子设备及可读存储介质
Williams et al. Data storage and extraction in engineering software using XML
CN1471679A (zh) 采用元标志信息的可扩展格式底稿设计
Hughes et al. Triple-s XML: A standard within a standard
Mathiak et al. Improving literature preselection by searching for images
CN101833544A (zh) 从可移植电子文档中提取文字部件的方法和系统
Mathiak et al. Mining PDF documents for pictures
CN116226563A (zh) 富文本编辑方法、装置、电子设备及计算机可读存储介质
Mathiak et al. Analysing layout information: searching PDF documents for pictures.
CN114722321A (zh) 网页内容处理方法、装置、电子设备和存储介质
Bago et al. Interoperability of an 18th century Italian-Latin-Croatian dictionary
Ingold et al. Document Analysis Revisited for Web Documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication