CN1392986A - 用于产生各种呈现的结构化文档的方法和装置 - Google Patents

用于产生各种呈现的结构化文档的方法和装置 Download PDF

Info

Publication number
CN1392986A
CN1392986A CN01800133A CN01800133A CN1392986A CN 1392986 A CN1392986 A CN 1392986A CN 01800133 A CN01800133 A CN 01800133A CN 01800133 A CN01800133 A CN 01800133A CN 1392986 A CN1392986 A CN 1392986A
Authority
CN
China
Prior art keywords
document
metafile
display object
dtd
readable medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01800133A
Other languages
English (en)
Inventor
E·S·黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XMLCities Inc
Original Assignee
XMLCities Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XMLCities Inc filed Critical XMLCities Inc
Publication of CN1392986A publication Critical patent/CN1392986A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种使用用户定义的文档类型定义中的标识符来将非结构化的文档转换结构化的文档。所述用户定义的文档类型定义中的标识符,用于关联非结构化文档中选定的对象或组对象,这样选定的对象或组对象的关联信息,可以便于利用用于在各种媒质上呈现的标识语言产生文件。

Description

用于产生各种呈现的结构化文档的方法和装置
相关申请的交叉引用
本申请要求1/31/2000申请的标题为″Method and Apparatusfor Generating Structured Documents with User-defined DocumentType Definitions Using Structure-based Font Information″(使用基于结构的字体信息用于产生具有自定义文档类型定义的结构化文档的方法和装置)的临时申请No.60/179,330的权利,其因此为所有目的被引用结合。
发明领域
本发明通常涉及文件处理和电子出版系统领域,更特别涉及一种用于产生具有自定义文档类型定义的结构化文档的方法和装置。本发明还涉及一种机制,其提供给用户以便使用该方法和装置来为各种呈现转换非结构化文档,其中,非结构化文档被定义为通过一个编辑应用程序(例如文字处理)组成的、编辑或管理的文档。
发明背景
互联网是世界上一个快速发展的互连计算机的通信网络。同时,这些数百万的连接计算机形成一个巨大的超级链接信息的仓库,从任何地方在任何时候通过任意的连接计算机可以很容易访问之。每年随着数百万的web页面产生并增加到这个巨大的仓库中,存在一个极大的需要来快速并容易地把诸如呈现、数据表或手册之类的文档转换为可由互联网上的另外一个应用程序或计算机呈现或访问的一种格式。
所熟知的是,可呈现到web浏览应用程序(例如一个浏览器)上的一种较好的格式是以标识语言的形式,比如超级文本标识语言(HTML)、可扩展标识语言(XML)、标准通用标识语言(SGML)或者无线标识语言(WML)之类的。为了web浏览应用程序而如此组成、编辑或管理的文件或文档通常被称为结构化文件或文档。在所有结构化文档的好处当中,提供自定义文档类型定义(DTD)或文档概要定义的能力开启了一种新的信息交换或存储的范例。可是,挑战是如何产生具有任意自定义DTD的结构化文档。
一个具有特定DTD的非结构化文档可以是从一个非结构化文档中产生或者从具有其他DTD类型的结构化文档中转换而来。这里有若干用于产生结构化文档的编辑器。典型的编辑器包括Adobe FrameMaker、Arbortext Epic和SoftQuad XMetal。这些编辑器通常提供一个结构视图以及一个文字处理视图,在此,文字处理视图类似传统的非结构化文档的文字处理环境同时结构视图包含定义在某个DTD中的数据要素的文件结构。为了从这些编辑器中的刻线(scratch)中产生一个结构化文档,用户通常需要在文字处理视图中产生一个非结构化文档。随着一个期望的DTD载入,用户根据定义在DTD中的文档要素来在结构视图中来构造一棵文件结构树。通常,用户忙于通过把数据要素从产生的文档中拷贝与粘贴或者拖与落入文件结构树的过程中。
为了在这些编辑器中把具有一个DTD的结构化文档转换为另外一个DTD,人们需要加载在结构化文档中,以便把文档要素的标记和属性从一个DTD修改为另一个,并以便拖曳该数据要素或者在新的DTD中解析与再定义的文档要素相关的新建数据要素。
在上述的过程中,在数据要素和文档要素之间的关联是一个关键性的和努力性的数据处理,用于创建一个非结构化文档或结构化文档或者将其转换为具有特定DTD的一个结构化文档。已经建议了若干方法来将数据要素和文档要素关联以便简化结构化文档的产生。作为例子,一种关键字提取方法从非结构化文档中提取表示文件结构的关键字并且把关键字/正文对使用作为文档要素和数据要素之间的关联。一种坐标方法通过对坐标文件的坐标进行分类来把数据要素与文档要素中的标识语言标记关联。一种逻辑结构方法通过匹配预确定模式分析文件结构并根据分析的文档要素来解析数据要素。尽管如此,上面没有一种方法已经考虑使用标识符(例如字体信息)来把数据要素和文档要素关联起来。因此,需要一种一般的方法来使用自定义文档类型定义中的标志符信息以便把用于产生结构化文档的数据要素和文档元件关联。
另外,典型的编辑器所需要的程序某种程度上是冗长而繁重的,并且天性是高成本的。经常,有许多文档要转换的一个企业不得不外购该过程——由于与转换过程相关的低效率和缓慢性。在另一端,服务提供者处理的转换过程难以被量化,因为它主要涉及取决于文档复杂性的人工的和重复的过程。因此,另一个需要是一种机制,以可确定费用的方式用于对各种呈现的非结构化文档到结构化文档的转换进行量化。
发明内容
考虑到上述问题已构成了本发明并且本发明需要并且具有通过互联网的呈现的特定应用。本发明的特征之一是使用DTD文件中的标识符以便关联选定对象或组对象以使选定对象或组对象的关联信息可以促进以适于各种媒质上的呈现的标识语言的形式产生文件。
本发明可被实现为一种方法、一种系统、一种产品或另一种实际的形式。根据一个实施例,本发明是一种方法。该方法接收一个定义文件并和该定义文件一起显示一个图元文件,该定义文件包括文档类型定义(DTD),该图元文件包括若干可显示的对象和每一可显示对象的各个装饰(decoration)属性。该定义文件包括一个文档要素的结构,每一个相应于图元文件中的可显示对象之一。某些文档要素包括许多标识符,每一标识符被分配给一个文档要素。在一个实施例中,标识符是数字和/或字母。在另外一个实施例中,标识符是字体名称、颜色名称、大小、字体类型、颜色、格式、各种效果或其它符号中的一个或多个。该方法把至少一个标识符与一个可显示对象相关联。
根据另外一个实施,本发明被实现为一种用于提供文档转换过程的方法,该方法包括激活一个具有记数系统的计数器,把非结构化文档转换为图元文件,其中,图元文件包括若干可显示的对象和每一可显示对象的各个装饰(decoration)属性,接收包括与非结构化文档有关的文档类型定义(DTD)在内的一个定义文件;产生一个修改的图元文件,其包括与定义文件中的一个定义相关的至少一个可显示对象的关联信息;以及只要修改的图元文件要被存储就使计数器加1。
在下列说明和产生的附图中说明的实施例中,本发明的运用中获得的上述的目的和优点。
附图说明
关于下列说明、附加的权利要求和附图,本发明的这些和其他特点、方面和优点将变得更好理解,附图中:
图1A表示根据本发明优选实施例可以实现本发明的一种基本系统结构;
图1B表示一种系统的内部结构,其中可以实现本发明从而达到在被本发明中期望的结果;
图2A阐明了一个非结构化文档的例子,其可以通过一个编辑工具被组成、编辑或管理;
图2B是文档类型定义(DTD)的例子;
图2C表示以图2B中的文档类型定义(DTD)为基础如图2A所示的非结构化文档的结构化文档;
图3A说明了如本发明一个实施例所述的功能图;
图3B表示如本发明一个实施例所述的实现转换模块的一种可视环境;
图3C表示关于如图3B所示的图元文件中可显示对象以XML格式设计的格式表(style sheet)的例子;
图3D表示来自dongle(道尔)的一则典型消息;
图3E表示如本发明一个实施例所述使用包括转换模块的实施在内的一个产品的流程图;
图4说明数据处理装置的框图,该数据处理装置使用基于结构的字体信息来把未结构化或结构化文档输入、编辑并转换到具有自定义DTD的结构化文档;
图5是在图2B中的DTD中定义的文档要素的关联表和字体属性;
图6表示图1中的非结构化文档的一个编辑结果,在此,基于图5中的关联表,每个解析的数据要素已经被分配了字体属性;
图7表示一个转换过程,它把图6中的解析的数据要素转换为具有图2B中典型DTD的期望的结构化文档;
图8是一个中间的结构化文档,它包含解析的数据要素,该解析的数据要素具有与字体文档要素列表相关的分配字体ID;
图9表示一个转换过程,它把图6中的中间的结构化文档转换为具有图2B中DTD的期望的结构化文档;以及
图10表示使用转换的可扩展格式语言(XSLT)的在图9中的转换过程的一种实施。
最佳实施方式
在本发明的下列详细说明中,阐明了很多特殊的细节以便提供对本发明的全面理解。可是,对本领域的普通技术人员来说很明显,没有这些特殊的细节也可以实践本发明。在其他实例中,为了避免使本发明的各方面不必要地变得不明朗,没有详细描述熟知的方法、程序、组件以及整机线路。详细的说明以程序、逻辑块、处理的形式和直接或间接地类似耦合到网络上的数据处理设备操作的其它符号表示而大量存在。这些处理描述和表述是由本领域有经验的或者精通的技术人员使用的方法以便把他们工作的实质最有效地传送给本领域的其他技术人员。
在此,关于″一个实施例″或″一实施例″表示有关于该实施例描述的特定的特点、结构或特征可以被包括在本发明的至少一个实施例中。在说明书中的各个位置的短语″在一个实施例中″出现不一定都是指同一实施例,也不是互斥的其他实施例的单独或可选实施例。此外,表示本发明的一个或多个实施例的流程图或图表中的模块顺序不是固有地表示任何特定的顺序也不是意味着本发明的任何限制。
现在参见附图,其中,整个若干视图中,类似数字是指类似的部分。图1A表示根据本发明优选实施例可以实现本发明的一种基本系统结构。利用在计算机100上执行的一个编辑工具可能创建诸如产品说明、功能列表和价格预定之类的非结构化文档。通过一个编辑工具创建的文件或文档被称为非结构化文档。典型的编辑工具可以包括Microsoft Office(例如,Microsoft Word、Microsoft PowerPoint和Microsoft Excel),Adobe FrameMaker和Adobe Photoshop。非结构化文档可以被上载到可担任中央仓库的计算设备102上。计算设备102可以是来自Sun Microsystems(www.sun.com)的一个服务站或者是用实现本发明的一个实施例的遵照和链接版本装载的一台式计算机。
在一个设置中,计算机100和计算设备102是不可分离的并且执行文档转换过程和产生可以用诸如XML或HTML之类的标识语言格式最终表示的结构化文档。一个应用中,以XML的形式表示的结构化文档被转换成HTML格式并通过一专用网110到一个服务服务器104变成可利用的,该服务服务器104主管通常称为一个www(环球信息网)站点。
在一种情况中,用户使用一台式计算机106,该台式计算机106运行了浏览应用程序并且连接到数据网络108上以便访问服务服务器104上的文件。在计算机102中通过结构化文档表示的这些文件可以表示通过一个编辑工具最初组成的最近的产品信息。
正如在下面将解释的,本发明不局限于互联网应用程序。它可在个人计算机中实践,其中,用户经常以文字处理格式产生文档,比如FrameMaker或Microsoft Word之类的。本发明可被应用来把文档转换为一种标识表示,而不管实际的文字处理格式。
图1B表示一种系统118的内部结构,其中可以实现本发明从而达到在被本发明中期望的结果。系统118可以与客户机设备(例如计算机100、102或106)或者服务器设备(例如服务器104)通信。如图1B所示,系统108包括与数据总线120接口的中央处理器(CPU)和设备接口124。为了同步操作CPU 122执行某些指令来管理所有的设备和连接到数据总线120上的接口并且设备接口124可连接到诸如计算机102之类的一个外部设备上,因此由此而来的文档通过数据总线120被接收到存储器或者储存器中。显示接口126、网络接口128、打印机接口130和软盘驱动器接口138也与数据总线120接口。通常,本发明一个实施例的编译的和链接的版本通过软盘驱动器接口138、网络接口128、设备接口124或连接到数据总线120上的其他接口而装载到储存器136中。
诸如随机访问存储器(RAM)之类的主存储器132也与数据总线120接口以便向CPU 122提供指令并访问存储器存储136的数据和其它指令。特别地,当执行储存的应用程序(例如本发明的遵照和链接的版本)时,使CPU 122操作数据来达到本发明预期的结果。提供ROM(只读存储器)134用于存储诸如键盘140、显示126和鼠标142操作的基础输入输出操作系统(BIOS)之类的常量指令序列,如果有的话。
图2A阐明了一个非结构化文档200的例子,其可以通过一个编辑工具被组成、编辑或管理。在一个非结构化文档中,通常以序列的形式表示数据,该序列通常遵循一种读取顺序(例如自上而下和从左到右)。此序列可被解析为数据要素段,在此,每个数据要素102被分配装饰属性(decoration attributes)或诸如位置、字体颜色、字体大小、字体类型、格式和各种效果等等之类的信息。当包含数据要素的一个文件由编辑工具显示在显示屏上时,装饰信息基本上是为了适当的布置和呈现目的。
按照一个实施例,一个非结构化文档被打印到包含装饰信息的一种图元文件格式。图元文件格式的一个例子是通常使用的可移植数据格式(PDF)。图元文件格式的一个优点是它独立于编辑工具以及或许独立于计算机的独立性以使可以在许多不同的环境中同样打开或读取图元文件格式。
诸如SGML和XML之类的一个结构化文档以文档类型定义(DTD)开始。图2B说明了″制法类型″(recipe-type)文档的DTD 208的例子,其中文档要被分解成为文档要素的结构。一个特定的文档要素210可以包含其它的文档要素和属性。文档要素212的另外一个例子只包含解析的字符数据。
图2C表示相对于图2B中的DTD 208从图2A中的非结构化文档200相应转换而来的结构化文档220。如此图所示,在非结构化文档中的数据序列被解析成为与结构化文件的以DTD形式定义的文档要素相关的数据要素。
不同于非结构化文档,结构化文档可以通过文档要素容易地访问某些信息。一个结构化文档的呈现通常以分开的格式表的形式来定义,例如,写入级联格式表(CSS)或者可扩展格式语言用于对对象进行格式化(XSL-FO),其通译每个文档要素的布置。这个特点允许对于不同的媒质通过不同的格式表让一个结构化文档呈现于不同的布置中。通常,诸如非结构化文档中的字体信息之类的装饰信息或者格式化属性,除非在DTD中定义为文档要素的属性,否则在一个非结构化文档被转换成一个相应的结构化文档之后被抛弃。格式化信息的进一步修改通常将不影响已转换的结构化文档。
图3A说明了如本发明一个实施例所述的功能图300。转换模块302包括关联模块304和集成模块306。关联模块304接收一个非结构化文档,最好以图元文件的格式。同时,关联模块304还接收被称为定义文件的一个文件,包括预定义的DTD。通常,根据非结构化文档的特性或用途定义DTD。例如,非结构化文档是在收到的一个类别中,例如图2A中的文档200,按照″收到类型″(receipt-type)文档设计如图2B所示的定义文件中的DTD。
为了更进一步地理解关联模块304,图3B表示如本发明一个实施例所述的实现转换模块302的环境320。环境320包括为用户提供的两个显示322和324以便执行把非结构化文档转换为标识语言形式的文件(称为标识语言文件)。显示322用于显示该非结构化文档。在一个优选实施例中,装载该非结构化文档的图元文件版本用于显示。一个图元文件,涉及该非结构化文档或者它的打印版本,通常包含许多可显示的对象。每个对象是一类或一组字符或单词或者一种图示。如图显示322中所示,每个字或一个孤立的数字是一个可显示对象,其在图元文件中固有地被转入。换言之,每个对象通过包括(但不限制于此)对象的类型、大小、颜色和位置在内的若干属性或装饰信息来定义,如此以致它可以是正确地″打印″。若干对象可以依据它们的含义或用途由用户手动地归类。例如,组对象326包括三个字符类型对象″Green″(绿)、″Chili″(红辣椒)和″Salsa″(酱汁)。自然,这三个字符类型对象形成一个名称作为一个组对象326。至于显示322中其余的被显示图元文件也可执行对象分组。
显示324用于显示为显示322中的图元文件准备的一个定义文件。为了易于关联模块304的操作,定义文件被图形地显示为″DTDPool″328。例如,图2B中的DTD 208的图解表示被使用于显示324中以便说明文档要素之中的层次关系。
因此,对于最终将图元文件转换为XML文件的一个实施例,从″DTD Pool″328中产生一个辅助的XML树330。辅助的XML树330还表示文档要素中的层次关系。此外,把每一文档要素分配给一个标识符,其可以包括(但是不限制于此)数字、名称、字体、类型名称或者颜色。在一个实施例中,标志符在每一文档要素的″数据″中。为了把组对象326与文档要素″标题″332关联,在选择组对象326被选择之后激活″数据″334。本发明中的特征之一是一个基础的关联,其把组对象326与″数据″334中的标志符相关联。特别是在一个实施例中,如果″数据″334中的标志符是颜色,″green″(绿色),则组对象326以绿色被高亮显示以便表示这个组对象已经与DTD相关。如果标志符是字体,″Anal″(解析),则组对象326以格式解析的形式被高亮显示以便表示这个组对象已经与DTD相关。
同样地,在″成分″之下,组对象340可以与数据342中的标识符相关,在″成分″的″数量″之下,组对象344可以与数据346中的标志符相关等等。结果,显示322中的图元文件已经被分段并且在其中的可显示对象分别被归类然后通过一个标识符把每一组对象与加载的DTD中的文档要素相关。显示322现在具有一个修改的图元文件310,在下面将说明它的一个例子。
现在回来参见图3A,把修改的图元文件310输入给另外接收格式表的一个集成模块306。按照来自图元文件中的对象将显示在其上的媒质,通常把一个格式表配置来包括映射规则。一个典型的媒质是可通过浏览器(例如来自微软的Internet Explore)访问的一种文件的web呈现。因此,该文件是诸如HTML或XML之类的标识语言的,称为一种标识语言文件。
图3C表示这样的关于图元文件中可显示对象以XML格式设计的格式表(style sheet)的例子。通常,一个格式表分别被设计为每一对象的位置、颜色或者大小以便对于一个特定的媒质可以达到一个适当的和注意的呈现。图3C中的例子是设计用于显示″收到类型″文件并当装载时使修改的图元文件产生一个适当的XML。换言之,集成模块306根据格式表从修改的图元文件中产生XML文件。在此给出说明,应当指出,不必把格式表输入到集成模块306。在一个实施中,利用DTD文件可以载入映射规则以使集成模块306根据装载的映射规则执行从修改的图元文件到一个标识语言文件的映射。
按照一个实施例,以软件的形式实现转换模块302并且可将其作为一种应用程序发送给用户或服务提供者。不言而喻,从非结构化文档到标识语言文件的转换过程难以用可确定成本的方式来量化。计数器308包括在转换模块302中。在一个实施例中,计数器308被配置来对要转换的图元文件中的页数进行计数。每次,在一个显示(即,一个页面显示)中的全部对象与一个DTD文件中的文档要素相关并且被另存为一个相应的修改的图元文件,计数器308增加。图3D表示保持在一个dongle中的计数结果的例子。一个dongle(明确的DONG-uhl)是一个机制,用于确保只有特许用户可以拷贝或使用一个特定的软件应用程序,特别是非常昂贵的程序。一个dongle的普通实现包括一个硬件密钥,其插入在计算机上的并行或串行端口中并且在继续运行以前一个软件应用程序访问它用于检验;以类似的方式访问的特殊密钥软盘;以及登记数,其在工厂或在一个系统建立期间被装载入某种只读存储器的形式。
当dongle需要被重置时,可以以可确定成本的方式估计转换过程。按照一个实施例,包括转换模块302的实现在内的一种产品的所有者可以免费地或者以非常低的成本向用户分布该产品。典型情况下,用户需要从通过各种编辑工具组成、编辑或管理的非结构化文档中产生web页面的容量。对于用户以这样的方式接收产品的一个好处是在使用它以前不必为了获得该产品而付出很多资金。用户可以为产品的使用付款。因此,使用具有转换模块302的一个用途是管理它的使用。结果,该产品的所有者可以通过控制包含使用信息的dongle来控制该产品的使用。
图3E表示如本发明一个实施例所述使用包括转换模块302的实施在内的一个产品的流程图370。有时,产品被一个用户或者一个业务所租借。另一时间,该产品被一个服务提供者使用,该服务提供者向需要把非结构化文档转换为不同媒质呈现(在一个web站点上的呈现)的结构化文档的业务提供服务。
过程370在372处从编辑文档中产生图元文件开始。通常,编辑文档可能已经准备使用一个或多个编辑工具。如上所述,最好优先地从编辑文档中获得图元文件以使不必为不同编辑工具的每一个分别地配置转换模块302。可是,应当指出,图元文件的优先选择不是对本发明的一个固有限制而是使产品或转换模块302更有效地工作。本领域的技术人员理解可以配置一个转换接口或一个打印驱动器来适应任何类型的编辑文档或者产生图元文件。
一旦获得图元文件,则立刻把它们装载到一个可视的环境中,其中可以分别显示图元文件。图3B的环境320可适用的以使可以逐一地装载每一图元文件的页面用于显示。
在过程370允许用户更进一步继续以前,启动一个授权过程378来确保用户正在操作一个授权的产品。如上所述,一个典型的授权方法是通过由提供/拥有/控制该产品的企业或经销商预先设置的dongle。如果授权过程378表示过程370没有被授权,则通常向用户显示关于在哪里该产品可以被授权的一个显示。在设置授权376中的程序之一涉及转换或存储的页数的允许数量的购买。
按照一个实施例,一个dongle被用于耦合到执行过程370的一台计算机上。dongle包括第一和第二号码。第一号码是一个开始号码,例如,″10″,而第二号码是一个限制号码,例如,″1000″,其是指有1000页的转换文档可以被过程370处理和保存。
一旦过程370被允许继续到380,立刻允许用户或许按照它们的含义或者它们的用途并考虑到装载的DTD文件和在附近的显示来把若干可显示对象分别归类到组对象。在382处,组对象可以分别与DTD中的定义相关。至少某种定义具有许多标识符,优先地,每个标识符与一个定义相关或者指定给一个定义。
如上所述,在选定对象和定义之间动关联要被保存在修改的图元文件中。在过程370允许如此保存之前,在386处要检查一个计数器。在一个实施例中,比较dongle中的第一和第二号码。当第一号码基本上接近于第二号码时,例如两个号码是相同的,则过程370将询问允许使用的一个补充。通常,用户不得不使dongle被现在可以根据dongle中的信息征收费用的企业或者经销商进行重置或者重新架构。在384处,数字已经被重置现在允许过程370继续。
在386处,可以操作一个保存步骤。依靠一个精确的实施,修改的图元文件或一个标识语言文件可以被保存在存储空间中。根据一个预定义媒质呈现的一个格式表,从修改的图元文件中形成标识语言文件。在388处,计数器被增加。
在图3E中,应当指出在386处已检查计数器,特别是在384后。实际上,对本领域的技术人员来说已经很明显,实际上可以在沿着过程370的任何地方检查或者查阅计数器。在此处使用一个计数器的一个目的是使企业易于控制和确定过程370的应用以便可以确定成本并可以收费。
图4表示如本发明一个实施例所述的数据处理模块404的原理框图400。包括在集成模块306中的数据处理模块404包括一个输入模块406、一个编辑模块410和一个转换或过滤模块414。数据处理模块404执行的一个功能是把非结构化文档或者具有不同DTD的结构化文件转换成为具有预定义的或特定的DTD的相应结构化文档。
输入模块406从一个文档数据库402(其可以相应于图1A的计算设备102中的仓库)中加载文档或者输入文档。替代地,输入模块406可以开始一个新建文档408。应当指出,加载的或输入的文档,在某些情况下可以是未结构化的(例如,图元文件)或者结构化的并且可以已经包含预先产生的基于结构化的字体信息。
编辑模块410与输入模块406联系并为输入资料创建/编辑基于结构化的字体信息。此模块允许输入文档的数据要素的选择并提供一个编辑环境来改变所选择的数据要素的诸如字体类型、字体格式、字体颜色、字体大小和字体效果之类的字体属性。把输入文档解析成为数据要素以及分配字体属性的办法是以定义在期望的DTD中的文档要素的一个关联表和相关的字体属性412为基础的。DTD 412的一个典型的关联表500在图5中给出,它包含文档要素502、要素属性504、字体类型506、字体格式508、字体颜色510、字体大小512和字体效果514等各字段。
图6表示图2A的非结构化文档200的编辑结果600。每一个解析的数据要素或合并的对象602、604、606、608、610、612和614基于图5中的关联表已经被指定了字体属性并以相关的字体形式分别被显示。在解析期间,这个模块根据输入文档602的读取顺序来提供数据要素的序列选择以便编辑它们的字体信息。这个模块还允许数据要素的区域分组以便编辑它们的字体信息。这个模块还可以提供关联表的辅助视图。
转换或过滤模块414使用基于结构化的字体信息来把加载的文档转换成为具有自定义文档类型定义(DTD)的结构化文档。转换416的基于文档要素和字体字体的映射规则被输入或设计在这个模块中。
图7说明了把编辑文档602转换成为图2C的结构化文档220的映射规则的一个例子700。特别地,702开始而718结束″文档″要素,704开始而714结束″制法″文档,706形成″成分″要素,708形成″过程″要素,710形成″呈现″要素,以及712形成″起源″要素。在704、706、708、710和712中,基于结构化的字体信息用于定位数据要素并且该定位的数据要素被指定作为文档要素的属性或解析的字符数据。这些映射规则可以被实现为(但不限制于此)诸如Java、JavaScript之类的程序设计语言、用于转换的可扩展格式语言1(XSLT),C/C++,..等等,或者任何内建的或者可编程的硬件设备。转换文档可以被另存为一个文件文档或者被导出到文件数据库418中。
除了直接转换成期望的文档之外,转换模块还可以把编辑文档作为包含基于结构化的字体信息的中间的结构化文档而输出。该中间的结构化文档可以被再装载用于另外的编辑或批量转换。
编辑文档600的中间的结构化文档808的一个例子在图8中给出,在此,802包含具有特定的字体属性的″字体″要素而804包含具有关联字体信息的″font_ID″属性的解析数据要素。由于具有相同字体属性的解析数据要素已经依据中间的结构化文档中相同的″font_ID″而被分组,可以基于该分组的字体信息设计转换的映射规则。
图9说明了把中间的文档800转换成为结构化文档220的映射规则的一个例子。特别地,902开始而918结束″文档″要素,904开始而914结束″制法″文档,906形成″成分″要素,908形成″过程″要素,910形成″呈现″要素,以及912形成″起源″要素。在904、906、908、910和912中,分组的字体信息用于定位数据要素并且该定位的数据要素被指定作为文档要素的属性或解析的字符数据。
图10表示使用转换的可扩展格式语言(XSLT)的在图9中给出的映射规则实现的一种例子。
上述的发明最好优先地以软件、硬件或者二者组合的形式来实现。本发明的至少一些部分可以被具体化为计算机可读媒质上的计算机可读代码。计算机可读媒质是可以存储此后可以被一个计算设备读出的数据的任何数据存储设备。计算机可读媒质的例子包括只读存储器、随机访问存储器、磁盘驱动器、软磁盘、CD-ROM、DVD、磁带、光学数据存储设备、载波。计算机可读媒质还可以通过耦合计算机系统的网络来分布以便用一种分布的形式来储存并执行计算机可读代码。
已经以一定程度的特性足够详细地描述了本发明。本领域的技术人员应理解,只是已经用实例来进行实施例的公开,并且不偏离所要求的本发明的精神和范围,也可凭借在设备和各部分的组合中的许多替换。同时在此讨论的实施例依据格式和配置可以存在包括关于信息单元的呈现的某些限制,本发明具有超过这样的实施例的良好适用性,这可以被本领域的技术人员所估计到。因此,本发明的范围通过附加的权利要求而不是前述实施例的说明来定义。

Claims (42)

1.一种用于产生结构化文档的方法,该方法包括:
接收包括文档类型定义(DTD)在内的一个定义文件;
与该定义文件一起显示一个图元文件,该图元文件包括若干可显示对象和关于每一可显示对象的各自装饰属性;以及
把定义文件中的至少一个定义与一个可显示对象相关联。
2.如权利要求1所述的方法,还包括:
产生包括可显示对象的一个修改的图元文件,每一个可显示对象与定义文件中的至少一个定义相关。
3.如权利要求2所述方法,还包括根据一组映射规则来把修改的图元文件转换为一个标识语言文件。
4.如权利要求1所述的方法,其中,定义文件包括文档要素的结构,每一个文档要素相应于图元文件中的可显示对象之一。
5.如权利要求4所述的方法,其中,一些文档要素包括另一层次文档要素,每一个次文档要素对应于图元文件中的一个可显示对象。
6.如权利要求4所述的方法,其中,至少一些文档要素分别包括若干标识符,每一标识符被分配给至少一些文档要素之一。
7.如权利要求6所述的方法,其中,一些标识符是一个或多个数字和字母。
8.如权利要求6所述的方法,其中,从由字体类型、颜色名称、大小、格式和效果组成的一个分组中选择一些标识符。
9.如权利要求6所述的方法,其中,定义文件中的至少一个定义的关联包括:
选择可显示对象之一;以及
把一个标识符分配给选择的显示对象。
10.如权利要求9所述的方法,其中,一个标识符是一个数字或者一个字母。
11.如权利要求10所述的方法,其中,一个标识符是(i)字体类型、(ii)颜色、(iii)大小、(iv)格式和(v)效果中的一个或多个。
12.如权利要求1所述的方法,其中,图元文件是或者产生自一个非结构化文档,其通过一个编辑工具来组成、编辑或者管理。
13.如权利要求12所述的方法,其中,一些可显示对象是各自的字符分组。
14.如权利要求13所述的方法,其中,对于每一字符分组,装饰属性包括至少位置、字体颜色、字体大小、字体类型、格式、和效果。
15.一种用于产生结构化文档的方法,该方法包括:
激活包括第一显示和第二显示的一个环境,该第一显示显示一个图元文件而该第二显示显示包括文档类型定义(DTD)的一个定义文件,其中,图元文件包括若干可显示对象和关于每一可显示对象的各自的装饰属性,并且其中每一文档类型定义包括一个标识符;
把若干组对象分组,每一组对象包括若干可显示对象;以及
把每一组对象与在一个文档类型定义中的标识符相关联。
16.如权利要求15所述的方法,还包括产生一个修改的图元文件,其包括与在一个文档类型定义中的标识符相关的每一个组对象的信息。
17.如权利要求16所述方法,还包括根据一组映射规则来把修改的图元文件转换为一个标识语言文件。
18.如权利要求17所述的方法,其中,标识语言文件适于在一个所选择的媒质上呈现。
19.如权利要求18所述的方法,其中,所选择的媒质是互联网上的一种web呈现。
20.如权利要求18所述的方法,其中,标识语言文件是以从如下分组中选择的一种标识语言,该分组由超级文本标识语言(HTML)、简明的超级文本标识语言(cHTML)、可扩展标识语言(XML)、标准通用标识语言(SGML)或者无线标识语言(WML)组成。
21.如权利要求15所述的方法,其中,对于每一字符分组,装饰属性包括至少位置、字体类型、颜色、大小、格式、和效果。
22.如权利要求21所述的方法,其中,一些可显示对象是各自的字符分组。
23.如权利要求22所述的方法,其中,一些标识符是一个或多个数字和字母。
24.如权利要求23所述的方法,其中,标识符是(i)字体类型、(ii)颜色、(iii)大小、(iv)格式和(v)效果中的一个或多个。
25.一种包括由处理器执行的指令的机器可读媒质,该指令,当被处理器执行时,使处理器产生结构化文档,该机器可读媒质包括:
程序代码,用于接收包括文档类型定义(DTD)在内的一个定义文件;
程序代码,用于与该定义文件一起显示一个图元文件,该图元文件包括若干可显示对象和关于每一可显示对象的各自装饰属性;以及
程序代码,用于把定义文件中的至少一个定义与一个可显示对象相关联。
26.如权利要求25所述的机器可读媒质,还包括:程序代码,用于产生包括可显示对象的一个修改的图元文件,其每一个可显示对象与定义文件中的至少一个定义相关。
27.如权利要求25所述的机器可读媒质,还包括:程序代码,用于根据一组映射规则来把修改的图元文件转换为一个标识语言文件。
28.如权利要求25所述的机器可读媒质,其中,定义文件包括文档要素的结构,每一个文档要素相应于图元文件中的可显示对象之一。
29.如权利要求28所述的机器可读媒质,其中,一些文档要素包括另一层次文档要素,每一个次文档要素对应于图元文件中的一个可显示对象。
30.如权利要求28所述的机器可读媒质,其中,至少一些文档要素分别包括若干标识符,每一标识符被分配给至少一些文档要素之一。
31.如权利要求30所述的机器可读媒质,其中,一些标识符是数字或者字母之一。
32.如权利要求30所述的机器可读媒质,其中,从由字体类型、颜色名称、大小、格式和效果组成的一个分组中选择一些标识符。
33.如权利要求30所述的机器可读媒质,其中,定义文件中的至少一个定义的关联包括:
程序代码,用于选择可显示对象之一;以及
程序代码,用于把一个标识符分配给选择的显示对象。
34.如权利要求33所述的机器可读媒质,其中,一个标识符是一个或多个数字以及字母。
35.如权利要求34所述的机器可读媒质,其中,一个标识符是(i)字体类型、(ii)颜色、(iii)大小、(iv)格式和(v)效果中的一个或多个。
36.如权利要求25所述的机器可读媒质,其中,图元文件是或者产生自一个非结构化文档,其通过一个编辑工具来组成、编辑或者管理。
37.如权利要求36所述的机器可读媒质,其中,一些可显示对象是各自的字符分组。
38.如权利要求37所述的机器可读媒质,其中,对于每一字符分组,装饰属性包括至少位置、字体颜色、字体大小、字体类型、格式、和效果。
39.一种包括由处理器执行的指令的机器可读媒质,该指令,当被处理器执行时,使处理器产生结构化文档,该机器可读媒质包括:
程序代码,用于激活包括第一显示和第二显示的一个环境,该第一显示显示一个图元文件而该第二显示显示包括文档类型定义(DTD)的一个定义文件,其中,图元文件包括若干可显示对象和关于每一可显示对象的各自的装饰属性,并且其中每一文档类型定义包括一个标识符;
程序代码,用于把若干组对象分组,每一组对象包括若干可显示对象;以及
程序代码,用于把每一组对象与在一个文档类型定义中的标识符相关联。
40.如权利要求39所述的机器可读媒质,还包括:程序代码,用于产生一个修改的图元文件,其包括与在一个文档类型定义中的标识符相关的每一个组对象的信息。
41.如权利要求40所述的机器可读媒质,还包括:程序代码,用于根据一组映射规则来把修改的图元文件转换为一个标识语言文件。
42.如权利要求39所述的方法,其中,对于每一字符分组,装饰属性包括至少位置、字体类型、颜色、大小、格式、和效果,并且其中一些可显示对象是各自的字符分组。
CN01800133A 2000-01-31 2001-01-08 用于产生各种呈现的结构化文档的方法和装置 Pending CN1392986A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17933000P 2000-01-31 2000-01-31
US60/179,330 2000-01-31

Publications (1)

Publication Number Publication Date
CN1392986A true CN1392986A (zh) 2003-01-22

Family

ID=22656117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01800133A Pending CN1392986A (zh) 2000-01-31 2001-01-08 用于产生各种呈现的结构化文档的方法和装置

Country Status (11)

Country Link
US (2) US6910182B2 (zh)
EP (1) EP1166214B1 (zh)
JP (1) JP2003521069A (zh)
KR (1) KR20010110671A (zh)
CN (1) CN1392986A (zh)
AT (1) ATE300766T1 (zh)
AU (2) AU2775401A (zh)
CA (1) CA2365622A1 (zh)
DE (1) DE60112188T2 (zh)
RU (1) RU2001128738A (zh)
WO (2) WO2001055900A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100437594C (zh) * 2005-09-02 2008-11-26 鸿富锦精密工业(深圳)有限公司 图元关联操作系统及方法
CN1867911B (zh) * 2003-10-23 2010-06-09 微软公司 用于文件转换的系统和方法
CN101464870B (zh) * 2007-12-21 2011-03-23 鸿富锦精密工业(深圳)有限公司 冲压模具零件跨图档拷贝系统及方法
CN102144227A (zh) * 2008-09-23 2011-08-03 杰夫·施托尔曼 与基于文档类型的文档处理相关的方法及设备
CN101385011B (zh) * 2005-04-22 2011-09-28 微软公司 用于提供以不可用字体格式化的文字元素的准确视觉再现的方法
CN103885925A (zh) * 2013-03-28 2014-06-25 中国证券监督管理委员会信息中心 一种xbrl实例文档的封装方法
CN106933781A (zh) * 2015-12-30 2017-07-07 航天信息软件技术有限公司 一种word文档数据写入系统和方法
CN107093055A (zh) * 2010-12-23 2017-08-25 微软技术许可有限责任公司 用于信息电子集聚的技术
CN107301162A (zh) * 2016-04-14 2017-10-27 珠海金山办公软件有限公司 一种识别文字文档的方法及装置

Families Citing this family (160)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000054175A1 (en) * 1999-03-09 2000-09-14 Koninklijke Philips Electronics N.V. Method of coding a document
US7966234B1 (en) 1999-05-17 2011-06-21 Jpmorgan Chase Bank. N.A. Structured finance performance analytics system
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
WO2001077847A1 (en) * 2000-04-07 2001-10-18 Financeware.Com Method and apparatus for rendering electronic documents
US7249095B2 (en) 2000-06-07 2007-07-24 The Chase Manhattan Bank, N.A. System and method for executing deposit transactions over the internet
US8396859B2 (en) 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
AUPQ950400A0 (en) * 2000-08-17 2000-09-07 Peruch, Stephen Sebastian Computer implemented system and method of transforming a source file into transformed file using a set of trigger instructions
US7386790B2 (en) * 2000-09-12 2008-06-10 Canon Kabushiki Kaisha Image processing apparatus, server apparatus, image processing method and memory medium
US7313541B2 (en) 2000-11-03 2007-12-25 Jpmorgan Chase Bank, N.A. System and method for estimating conduit liquidity requirements in asset backed commercial paper
WO2002037622A2 (en) * 2000-11-06 2002-05-10 Vitesse Semiconductor Corporation Method of controlling the turn off characteristics of a vcsel diode
US7181684B2 (en) * 2000-12-12 2007-02-20 Oracle International Corporation Dynamic tree control system
US7013309B2 (en) * 2000-12-18 2006-03-14 Siemens Corporate Research Method and apparatus for extracting anchorable information units from complex PDF documents
US7107279B2 (en) * 2000-12-20 2006-09-12 Insitech Group, Inc. Rapid development in a distributed application environment
US20020129061A1 (en) * 2001-03-07 2002-09-12 Swart Stacey J. Method and apparatus for creating files that are suitable for hardcopy printing and for on-line use
US7703009B2 (en) * 2001-04-09 2010-04-20 Huang Evan S Extensible stylesheet designs using meta-tag information
JP2003036152A (ja) * 2001-05-17 2003-02-07 Matsushita Electric Ind Co Ltd 情報印刷システム
US7272594B1 (en) 2001-05-31 2007-09-18 Autonomy Corporation Ltd. Method and apparatus to link to a related document
US20030093565A1 (en) * 2001-07-03 2003-05-15 Berger Adam L. System and method for converting an attachment in an e-mail for delivery to a device of limited rendering capability
US20030037023A1 (en) * 2001-08-07 2003-02-20 Intelliclaim Emulation process for making changes and revisions to computer data files
US7373597B2 (en) * 2001-10-31 2008-05-13 University Of Medicine & Dentistry Of New Jersey Conversion of text data into a hypertext markup language
US8117533B2 (en) * 2002-03-12 2012-02-14 International Business Machines Corporation Method and system for stylesheet rule creation, combination, and removal
US7337391B2 (en) * 2002-03-12 2008-02-26 International Business Machines Corporation Method and system for stylesheet execution interactive feedback
US7992088B2 (en) * 2002-03-12 2011-08-02 International Business Machines Corporation Method and system for copy and paste technology for stylesheet editing
US7093195B2 (en) * 2002-03-21 2006-08-15 International Business Machines Corporation Standards-based formatting of flat files into markup language representations
US7305455B2 (en) 2002-03-21 2007-12-04 International Business Machines Corporation Interfacing objects and markup language messages
US7315980B2 (en) 2002-03-21 2008-01-01 International Business Machines Corporation Method and apparatus for generating electronic document definitions
US7130842B2 (en) * 2002-03-21 2006-10-31 International Business Machines Corporation Method and apparatus for generating electronic document definitions
JP2003296223A (ja) * 2002-03-29 2003-10-17 Fuji Xerox Co Ltd ウェブページ提供方法および装置並びにプログラム
US20030208460A1 (en) * 2002-05-06 2003-11-06 Ncr Corporation Methods, systems and data structures to generate and link reports
US8224723B2 (en) 2002-05-31 2012-07-17 Jpmorgan Chase Bank, N.A. Account opening system, method and computer program product
US7117429B2 (en) * 2002-06-12 2006-10-03 Oracle International Corporation Methods and systems for managing styles electronic documents
JP4227468B2 (ja) * 2002-06-24 2009-02-18 キヤノン株式会社 画像形成装置及び方法、並びに制御プログラム
US7607081B1 (en) 2002-06-28 2009-10-20 Microsoft Corporation Storing document header and footer information in a markup language document
US7562295B1 (en) 2002-06-28 2009-07-14 Microsoft Corporation Representing spelling and grammatical error state in an XML document
US7533335B1 (en) 2002-06-28 2009-05-12 Microsoft Corporation Representing fields in a markup language document
US7523394B2 (en) * 2002-06-28 2009-04-21 Microsoft Corporation Word-processing document stored in a single XML file that may be manipulated by applications that understand XML
US7650566B1 (en) 2002-06-28 2010-01-19 Microsoft Corporation Representing list definitions and instances in a markup language document
US7584419B1 (en) 2002-06-28 2009-09-01 Microsoft Corporation Representing non-structured features in a well formed document
US7565603B1 (en) 2002-06-28 2009-07-21 Microsoft Corporation Representing style information in a markup language document
US7496834B2 (en) 2002-08-23 2009-02-24 Lg Electronics, Inc. Electronic document request/supply method based on XML
US7322022B2 (en) * 2002-09-05 2008-01-22 International Business Machines Corporation Method for creating wrapper XML stored procedure
US20040083196A1 (en) * 2002-10-29 2004-04-29 Jason Reasor Hardware property management system and method
DE10250842B4 (de) * 2002-10-31 2010-11-11 OCé PRINTING SYSTEMS GMBH Verfahren, Computerprogrammprodukt und Vorrichtung zum Verarbeiten eines Dokumentendatenstroms eines Eingangsformates zu einem Ausgangsformat
KR100636909B1 (ko) 2002-11-14 2006-10-19 엘지전자 주식회사 확장성 표기 언어 기반의 전자문서 버전 매김 및 버전을이용한 갱신 문서 제공 방법
US7293031B1 (en) * 2002-11-21 2007-11-06 Ncr Corp. Report specification generators and interfaces
JP2004192427A (ja) * 2002-12-12 2004-07-08 Internet Disclosure Co Ltd 財務関係開示書類作成システム
TW583556B (en) * 2002-12-20 2004-04-11 Inst Information Industry Method for translating web page document into web service interface and storage medium storing computer program for executing the method
US20040177315A1 (en) * 2003-03-03 2004-09-09 International Business Machines Corporation Structured document bounding language
US7213201B2 (en) * 2003-03-03 2007-05-01 International Business Machines Corporation Meta editor for structured documents
AU2003901428A0 (en) * 2003-03-24 2003-04-10 Objective Systems Pty Ltd A system and method for formatting and distributing reading material
JP3982454B2 (ja) * 2003-05-27 2007-09-26 ソニー株式会社 携帯型電子機器、ウェブページ処理方法およびプログラム
US7770184B2 (en) 2003-06-06 2010-08-03 Jp Morgan Chase Bank Integrated trading platform architecture
US7970688B2 (en) 2003-07-29 2011-06-28 Jp Morgan Chase Bank Method for pricing a trade
US7657832B1 (en) * 2003-09-18 2010-02-02 Adobe Systems Incorporated Correcting validation errors in structured documents
US7188127B2 (en) 2003-10-07 2007-03-06 International Business Machines Corporation Method, system, and program for processing a file request
US20050097450A1 (en) * 2003-10-31 2005-05-05 Spx Corporation System and method for composition and decomposition of information objects
US20050097449A1 (en) * 2003-10-31 2005-05-05 Jurgen Lumera System and method for content structure adaptation
US20050114764A1 (en) * 2003-11-25 2005-05-26 Gudenkauf John C. Producing a page of information based on a dynamic edit form and one or more transforms
US20050114765A1 (en) * 2003-11-25 2005-05-26 Gudenkauf John C. Producing a page of information based on a dynamic edit form and one or more transforms
US7162692B2 (en) * 2003-12-11 2007-01-09 International Business Machines Corporation Differential dynamic content delivery
US9378187B2 (en) * 2003-12-11 2016-06-28 International Business Machines Corporation Creating a presentation document
TWI242727B (en) * 2003-12-12 2005-11-01 Inst Information Industry System and method of online education website establishment
US7430707B2 (en) 2004-01-13 2008-09-30 International Business Machines Corporation Differential dynamic content delivery with device controlling action
US7571380B2 (en) 2004-01-13 2009-08-04 International Business Machines Corporation Differential dynamic content delivery with a presenter-alterable session copy of a user profile
US8499232B2 (en) * 2004-01-13 2013-07-30 International Business Machines Corporation Differential dynamic content delivery with a participant alterable session copy of a user profile
US7890848B2 (en) 2004-01-13 2011-02-15 International Business Machines Corporation Differential dynamic content delivery with alternative content presentation
GB2411014A (en) * 2004-02-11 2005-08-17 Autonomy Corp Ltd Automatic searching for relevant information
FR2868036B1 (fr) * 2004-03-24 2006-06-02 Eca Societe Par Actions Simpli Dispositif de mise a l'eau et de recuperation d'un vehicule submersible
JP4423613B2 (ja) * 2004-03-30 2010-03-03 日本ビクター株式会社 電子化サービスマニュアル生成方法、電子化サービスマニュアル生成装置、電子化サービスマニュアル生成用プログラム並びにこのプログラムが記録された記録媒体
US8423447B2 (en) 2004-03-31 2013-04-16 Jp Morgan Chase Bank System and method for allocating nominal and cash amounts to trades in a netted trade
US7827239B2 (en) * 2004-04-26 2010-11-02 International Business Machines Corporation Dynamic media content for collaborators with client environment information in dynamic client contexts
US7519683B2 (en) 2004-04-26 2009-04-14 International Business Machines Corporation Dynamic media content for collaborators with client locations in dynamic client contexts
DE102004021269A1 (de) * 2004-04-30 2005-11-24 OCé PRINTING SYSTEMS GMBH Verfahren, Vorrichtung und Computerprogrammprodukt zum Erzeugen eines seiten- und/oder bereichsstrukturierten Datenstroms aus einem Zeilendatenstrom
US20050257193A1 (en) * 2004-05-13 2005-11-17 Alexander Falk Method and system for visual data mapping and code generation to support data integration
JP2005352696A (ja) * 2004-06-09 2005-12-22 Canon Inc 画像処理装置及びその制御方法、プログラム
JP4154368B2 (ja) * 2004-06-15 2008-09-24 キヤノン株式会社 文書処理装置及び文書処理方法、文書処理プログラム
US7487208B2 (en) 2004-07-08 2009-02-03 International Business Machines Corporation Differential dynamic content delivery to alternate display device locations
US8185814B2 (en) 2004-07-08 2012-05-22 International Business Machines Corporation Differential dynamic delivery of content according to user expressions of interest
US7426538B2 (en) 2004-07-13 2008-09-16 International Business Machines Corporation Dynamic media content for collaborators with VOIP support for client communications
US9167087B2 (en) 2004-07-13 2015-10-20 International Business Machines Corporation Dynamic media content for collaborators including disparate location representations
US7693770B2 (en) 2004-08-06 2010-04-06 Jp Morgan Chase & Co. Method and system for creating and marketing employee stock option mirror image warrants
US7536634B2 (en) * 2005-06-13 2009-05-19 Silver Creek Systems, Inc. Frame-slot architecture for data conversion
US7599952B2 (en) * 2004-09-09 2009-10-06 Microsoft Corporation System and method for parsing unstructured data into structured data
WO2006051960A1 (ja) * 2004-11-12 2006-05-18 Justsystems Corporation 文書処理装置及び文書処理方法
US7818342B2 (en) * 2004-11-12 2010-10-19 Sap Ag Tracking usage of data elements in electronic business communications
US7711676B2 (en) * 2004-11-12 2010-05-04 Sap Aktiengesellschaft Tracking usage of data elements in electronic business communications
JPWO2006051957A1 (ja) * 2004-11-12 2008-05-29 株式会社ジャストシステム 文書処理装置及び文書処理方法
US7865519B2 (en) * 2004-11-17 2011-01-04 Sap Aktiengesellschaft Using a controlled vocabulary library to generate business data component names
JP4868733B2 (ja) * 2004-11-25 2012-02-01 キヤノン株式会社 構造化文書処理装置及び構造化文書処理方法、プログラム
US20060116864A1 (en) * 2004-12-01 2006-06-01 Microsoft Corporation Safe, secure resource editing for application localization with automatic adjustment of application user interface for translated resources
US20070041041A1 (en) * 2004-12-08 2007-02-22 Werner Engbrocks Method and computer program product for conversion of an input document data stream with one or more documents into a structured data file, and computer program product as well as method for generation of a rule set for such a method
US20060129745A1 (en) * 2004-12-11 2006-06-15 Gunther Thiel Process and appliance for data processing and computer program product
KR100709379B1 (ko) * 2004-12-30 2007-04-20 주식회사 엔리치텍 메타파일을 이용한 문서양식 제작방법
US7693848B2 (en) * 2005-01-10 2010-04-06 Xerox Corporation Method and apparatus for structuring documents based on layout, content and collection
US7412649B2 (en) * 2005-01-24 2008-08-12 International Business Machines Corporation Viewing and editing markup language files with complex semantics
WO2006081428A2 (en) 2005-01-27 2006-08-03 Symyx Technologies, Inc. Parser for generating structure data
US7996443B2 (en) * 2005-02-28 2011-08-09 Microsoft Corporation Schema grammar and compilation
US8688569B1 (en) 2005-03-23 2014-04-01 Jpmorgan Chase Bank, N.A. System and method for post closing and custody services
US7475340B2 (en) * 2005-03-24 2009-01-06 International Business Machines Corporation Differential dynamic content delivery with indications of interest from non-participants
US7493556B2 (en) * 2005-03-31 2009-02-17 International Business Machines Corporation Differential dynamic content delivery with a session document recreated in dependence upon an interest of an identified user participant
US7756839B2 (en) 2005-03-31 2010-07-13 Microsoft Corporation Version tolerant serialization
US7634515B2 (en) * 2005-05-13 2009-12-15 Microsoft Corporation Data model and schema evolution
US7587671B2 (en) * 2005-05-17 2009-09-08 Palm, Inc. Image repositioning, storage and retrieval
US7895219B2 (en) * 2005-05-23 2011-02-22 International Business Machines Corporation System and method for guided and assisted structuring of unstructured information
US7822682B2 (en) 2005-06-08 2010-10-26 Jpmorgan Chase Bank, N.A. System and method for enhancing supply chain transactions
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
US7567928B1 (en) 2005-09-12 2009-07-28 Jpmorgan Chase Bank, N.A. Total fair value swap
US20070067397A1 (en) * 2005-09-19 2007-03-22 Available For Licensing Systems and methods for sharing documents
US7818238B1 (en) 2005-10-11 2010-10-19 Jpmorgan Chase Bank, N.A. Upside forward with early funding provision
US7730388B2 (en) * 2005-11-03 2010-06-01 Microsoft Corporation Converting an enhanced metafile into a chronologically independent object property list for conversion into a PDF document
WO2007064050A1 (en) * 2005-11-29 2007-06-07 Our Tech Co., Ltd. System offering a data- skin based on standard schema and the method
US7921367B2 (en) * 2005-12-20 2011-04-05 Oracle International Corp. Application generator for data transformation applications
US9207917B2 (en) 2005-12-20 2015-12-08 Oralce International Corporation Application generator for data transformation applications
US20070198516A1 (en) * 2006-01-31 2007-08-23 Ganapathy Palamadai R Method of and system for organizing unstructured information utilizing parameterized templates and a technology presentation layer
US8280794B1 (en) 2006-02-03 2012-10-02 Jpmorgan Chase Bank, National Association Price earnings derivative financial product
CN101055578A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 基于规则的文档内容挖掘器
US8407585B2 (en) * 2006-04-19 2013-03-26 Apple Inc. Context-aware content conversion and interpretation-specific views
US7620578B1 (en) 2006-05-01 2009-11-17 Jpmorgan Chase Bank, N.A. Volatility derivative financial product
US7647268B1 (en) 2006-05-04 2010-01-12 Jpmorgan Chase Bank, N.A. System and method for implementing a recurrent bidding process
US7916972B2 (en) * 2006-07-31 2011-03-29 Xerox Corporation Landmark-based form reading with declarative language
US9811868B1 (en) 2006-08-29 2017-11-07 Jpmorgan Chase Bank, N.A. Systems and methods for integrating a deal process
US20090300482A1 (en) * 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
US20080065671A1 (en) * 2006-09-07 2008-03-13 Xerox Corporation Methods and apparatuses for detecting and labeling organizational tables in a document
US7827096B1 (en) 2006-11-03 2010-11-02 Jp Morgan Chase Bank, N.A. Special maturity ASR recalculated timing
US7801926B2 (en) 2006-11-22 2010-09-21 Microsoft Corporation Programmable logic and constraints for a dynamically typed storage system
JP2010514021A (ja) * 2006-12-22 2010-04-30 シーメンス アクチエンゲゼルシヤフト 機械で実行可能な目標コードをソースコードから生成する方法、所属のコンピュータプログラムおよびコンピュータシステム
US8095575B1 (en) * 2007-01-31 2012-01-10 Google Inc. Word processor data organization
US20080320401A1 (en) * 2007-06-21 2008-12-25 Padmashree B Template-based deployment of user interface objects
US20090259995A1 (en) * 2008-04-15 2009-10-15 Inmon William H Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
US9852127B2 (en) 2008-05-28 2017-12-26 International Business Machines Corporation Processing publishing rules by routing documents based on document conceptual understanding
US10169546B2 (en) * 2008-05-28 2019-01-01 International Business Machines Corporation Generating document processing workflows configured to route documents based on document conceptual understanding
US20090327213A1 (en) * 2008-06-25 2009-12-31 Microsoft Corporation Document index for handheld application navigation
US20090327862A1 (en) * 2008-06-30 2009-12-31 Roy Emek Viewing and editing markup language files with complex semantics
US8261186B2 (en) * 2009-01-02 2012-09-04 Apple Inc. Methods for efficient cluster analysis
US8108766B2 (en) * 2009-03-20 2012-01-31 Xerox Corporation XPath-based display of a paginated XML document
US8312390B2 (en) 2009-06-10 2012-11-13 Microsoft Corporation Dynamic screentip language translation
US8738514B2 (en) 2010-02-18 2014-05-27 Jpmorgan Chase Bank, N.A. System and method for providing borrow coverage services to short sell securities
US8352354B2 (en) 2010-02-23 2013-01-08 Jpmorgan Chase Bank, N.A. System and method for optimizing order execution
US8543911B2 (en) 2011-01-18 2013-09-24 Apple Inc. Ordering document content based on reading flow
US8442998B2 (en) 2011-01-18 2013-05-14 Apple Inc. Storage of a document using multiple representations
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
US8910039B2 (en) * 2011-09-09 2014-12-09 Accenture Global Services Limited File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface
US20150199307A1 (en) * 2012-08-08 2015-07-16 Google Inc. Pluggable Architecture For Optimizing Versioned Rendering of Collaborative Documents
EP4174866A1 (en) * 2021-10-27 2023-05-03 Koninklijke Philips N.V. User-guided structured document modeling
US9323767B2 (en) 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system
CN103885972B (zh) * 2012-12-20 2017-02-08 北大方正集团有限公司 一种文档内容结构化的方法及装置
US9588675B2 (en) 2013-03-15 2017-03-07 Google Inc. Document scale and position optimization
US20160371238A1 (en) * 2013-07-09 2016-12-22 Blueprint Sofware Systems Inc, Computing device and method for converting unstructured data to structured data
US10318582B2 (en) 2015-03-30 2019-06-11 Vmware Inc. Indexing electronic documents
US10089388B2 (en) 2015-03-30 2018-10-02 Airwatch Llc Obtaining search results
US10229209B2 (en) 2015-03-30 2019-03-12 Airwatch Llc Providing search results based on enterprise data
US9361086B1 (en) 2015-04-22 2016-06-07 International Business Machines Corporation Collating and intelligently sequencing installation documentation
US10572579B2 (en) * 2015-08-21 2020-02-25 International Business Machines Corporation Estimation of document structure
US9881003B2 (en) * 2015-09-23 2018-01-30 Google Llc Automatic translation of digital graphic novels
US10089285B2 (en) * 2016-12-14 2018-10-02 Rfpio, Inc. Method to automatically convert proposal documents
DE102016224894A1 (de) * 2016-12-14 2018-06-14 Robert Bosch Gmbh Diagnose-Dongle für ein Werkzeug und Verfahren zur Diagnose und/oder Steuerung eines Werkzeugs mittels eines Diagnose-Dongles
KR101965563B1 (ko) * 2017-03-17 2019-04-04 주식회사 인프라웨어 전자 문서 편집 방법 및 장치
KR101774257B1 (ko) * 2017-05-15 2017-09-04 주식회사 한글과컴퓨터 객체의 서식을 유지하는 문서 편집 장치 및 그의 동작 방법
US10452904B2 (en) 2017-12-01 2019-10-22 International Business Machines Corporation Blockwise extraction of document metadata
US10592738B2 (en) * 2017-12-01 2020-03-17 International Business Machines Corporation Cognitive document image digitalization

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276793A (en) * 1990-05-14 1994-01-04 International Business Machines Corporation System and method for editing a structured document to preserve the intended appearance of document elements
JP3023690B2 (ja) * 1990-06-15 2000-03-21 富士ゼロックス株式会社 文書処理装置及び方法
GB9225566D0 (en) * 1992-12-07 1993-01-27 Incontext Corp System for display of structured documents
US5386369A (en) * 1993-07-12 1995-01-31 Globetrotter Software Inc. License metering system for software applications
WO1996017310A1 (en) 1994-11-29 1996-06-06 Avalanche Development Company System and process for creating structured documents
US6003048A (en) * 1995-04-27 1999-12-14 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
JPH0969101A (ja) 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
JPH10116275A (ja) * 1996-10-11 1998-05-06 Fuji Xerox Co Ltd 文書スタイル編集装置
JPH10307816A (ja) * 1997-05-08 1998-11-17 Just Syst Corp 構造化文書処理装置、構造化文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1867911B (zh) * 2003-10-23 2010-06-09 微软公司 用于文件转换的系统和方法
CN101385011B (zh) * 2005-04-22 2011-09-28 微软公司 用于提供以不可用字体格式化的文字元素的准确视觉再现的方法
CN100437594C (zh) * 2005-09-02 2008-11-26 鸿富锦精密工业(深圳)有限公司 图元关联操作系统及方法
CN101464870B (zh) * 2007-12-21 2011-03-23 鸿富锦精密工业(深圳)有限公司 冲压模具零件跨图档拷贝系统及方法
CN102144227A (zh) * 2008-09-23 2011-08-03 杰夫·施托尔曼 与基于文档类型的文档处理相关的方法及设备
US9715491B2 (en) 2008-09-23 2017-07-25 Jeff STOLLMAN Methods and apparatus related to document processing based on a document type
CN102144227B (zh) * 2008-09-23 2017-10-31 杰夫·施托尔曼 与基于文档类型的文档处理相关的方法及设备
CN107093055A (zh) * 2010-12-23 2017-08-25 微软技术许可有限责任公司 用于信息电子集聚的技术
CN103885925A (zh) * 2013-03-28 2014-06-25 中国证券监督管理委员会信息中心 一种xbrl实例文档的封装方法
CN103885925B (zh) * 2013-03-28 2017-04-26 中国证券监督管理委员会信息中心 一种xbrl实例文档的封装方法
CN106933781A (zh) * 2015-12-30 2017-07-07 航天信息软件技术有限公司 一种word文档数据写入系统和方法
CN107301162A (zh) * 2016-04-14 2017-10-27 珠海金山办公软件有限公司 一种识别文字文档的方法及装置

Also Published As

Publication number Publication date
AU2001226368A1 (en) 2001-08-07
KR20010110671A (ko) 2001-12-13
US20010032218A1 (en) 2001-10-18
WO2001055900A1 (en) 2001-08-02
JP2003521069A (ja) 2003-07-08
EP1166214B1 (en) 2005-07-27
ATE300766T1 (de) 2005-08-15
WO2001055900A9 (en) 2002-04-18
EP1166214A1 (en) 2002-01-02
DE60112188D1 (de) 2005-09-01
US20010032217A1 (en) 2001-10-18
AU2775401A (en) 2001-08-07
CA2365622A1 (en) 2001-08-02
WO2001055899A1 (en) 2001-08-02
DE60112188T2 (de) 2005-12-29
RU2001128738A (ru) 2003-07-20
US6910182B2 (en) 2005-06-21

Similar Documents

Publication Publication Date Title
CN1392986A (zh) 用于产生各种呈现的结构化文档的方法和装置
Chaudhri et al. XML data management: native XML and XML-enabled database systems
KR100898476B1 (ko) 스키마 기반의 계층적 데이터 구조를 단층적 데이터구조로 변환하기 위한 방법 및 시스템
KR100372584B1 (ko) 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체
US20050235202A1 (en) Automatic graphical layout printing system utilizing parsing and merging of data
US20010014900A1 (en) Method and system for separating content and layout of formatted objects
US7475337B1 (en) Generating structured documents by associating document elements in a first display with displayed document type definitions in a second display
CN104636393A (zh) 基于用户自定义行为分析的自适应报表的构建方法
US20020002566A1 (en) Transfromation of marked up documents using a base architecture
CN112667563A (zh) 一种文档管理及操作方法和系统
CN105069116A (zh) 一种将json串转化为数组的方法及系统
Connolly et al. The Evolution of Web Documents: The Ascent of XML.
CN115525624A (zh) 批量数据建模和数据处理的方法
Suzuki et al. Managing the software design documents with XML
KR100581687B1 (ko) 이기종의 데이타베이스 관리시스템 통합방법 및 그 방법을실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는기록매체
CN1464439A (zh) 在web应用中产生定制商业报表的系统和方法
CN1967580A (zh) 电子帐单的实现方法
CN118679480A (zh) 来自剪贴板缓冲区的智能表格粘贴
EP1447756B1 (en) Network-based document management system
GB2458692A (en) A process for generating database-backed, web-based documents
CN1549157A (zh) 文档浏览控制系统及方法
CN1652074A (zh) 一种实现报表展示的方法
KR20030095546A (ko) 웹모듈을 이용한 웹페이지 및 웹사이트 구축방법
CN1471679A (zh) 采用元标志信息的可扩展格式底稿设计
JP2002175297A (ja) Xmlを用いた情報資源管理方法及びシステム、コンピュータプログラム製品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication