CN1525357B - 用于显示数据格式化文档中未标注文本节点的方法和设备 - Google Patents

用于显示数据格式化文档中未标注文本节点的方法和设备 Download PDF

Info

Publication number
CN1525357B
CN1525357B CN2004100082506A CN200410008250A CN1525357B CN 1525357 B CN1525357 B CN 1525357B CN 2004100082506 A CN2004100082506 A CN 2004100082506A CN 200410008250 A CN200410008250 A CN 200410008250A CN 1525357 B CN1525357 B CN 1525357B
Authority
CN
China
Prior art keywords
mark
document
text node
data layout
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2004100082506A
Other languages
English (en)
Other versions
CN1525357A (zh
Inventor
B·M·琼斯
R·A·里特尔
M·萨维基
E·M·桑得兰德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1525357A publication Critical patent/CN1525357A/zh
Application granted granted Critical
Publication of CN1525357B publication Critical patent/CN1525357B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02BHYDRAULIC ENGINEERING
    • E02B5/00Artificial water canals, e.g. irrigation canals
    • E02B5/08Details, e.g. gates, screens
    • E02B5/085Arresting devices for waterborne materials, e.g. gratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Structural Engineering (AREA)
  • Civil Engineering (AREA)
  • Mechanical Engineering (AREA)
  • Document Processing Apparatus (AREA)

Abstract

方法和系统提供显示相应数据格式化文档中的未标注文本节点的树形视图。当用户开始用想要的数据格式结构标注文档时,诸如象XML的标记语言,向用户显示树形视图窗格,为用户提供当前应用于文档的数据结构分层显示,或在用户用数据结构标注文档时为用户提供应用于文档的数据结构分层显示。在树形视图中,在相对于其兄弟数据元素的任意未标注文本节点的位置上显示指示符。如果用户对准了树形视图中给定未标注文本节点指示符,将相应文档中的相应文本节点突出显示给用户以向用户显示尚未用数据结构标注过的文本节点位置。

Description

用于显示数据格式化文档中未标注文本节点的方法和设备
技术领域
本发明涉及用于显示数据格式化文档中未标注文本节点的方法和系统。
背景技术
计算机软件应用程序允许用户创建各种文档辅助他们工作、教育与休闲。例如,字处理应用程序允许用户创建信件、文章、书籍、备忘录等等。电子制表软件应用程序允许用户存储、处理、打印和显示各种字母数字数据。这种应用程序具有许多众所周知的能力,包括丰富的编辑、安排格式和计算。
为跟上这种计算机软件应用程序更高级功能的需要,软件开发者已开始使用结构化数据格式,包括标记语言,诸如可扩展标记语言(XML),来允许用户标注软件应用程序文档以给文档有用的结构,这个结构与负责创建该文档的软件应用程序的正常功能或关联于该文档的可视格式是分离的。例如,用户可能希望在她的字处理应用程序上创建用于准备简历、遗嘱或她希望传送给出版商的文章的模板文档。通过将结构应用于文档,接收文档的个人或机构可通过处理文档使用这个结构,以利用由文档结构定义的数据。
一些字处理应用程序允许用户用XML元素标注字处理文档,因此用户可为插入文档的数据定义某个数据类型和数据定义。例如,简历文档可包括“Experience”(经历)段,其中用户将包括现在和过去的工作经历。使用XML,用户可能希望标记文档的“Experience(经历)”段来定义,某些容许的信息以规定次序以规定数量可包括在文档的Experience(经历)段中。例如,用户可希望标记文档的Experience(经历)段以包含四个现在或过去的Experience(经历)项。
遗憾的是,这种计算机软件应用程序的大多数用户不具有对诸如XML的标记语言的必要的理解来正确应用容许的标记语言元素于文档。尤其是,一些诸如XML之类的标记语言具有规定可应用于文档的容许的标记结构的规则。按照许多XML大纲(schema),混合内容或者是不允许的或者为用户产生一错误情况。也就是说,如果用户使用了父XML元素,其中用户使用了许多子XML元素,那么可能不允许用户在父元素结构中包括不用结构标记的数据或文本节点,父元素结构中数据或文本节点具有已合适地用XML结构标记的兄弟(sibling)元素。例如,简历文档可用适合于简历的Experience(经历)段的结构标记。可用被称为<experience>的父元素标注Experience(经历)段。在Experience(经历)段内,可包括称为<employer1>、<employer2>和<employer3>的子元素来在整个经历结构内添加结构。如果用户包括未用数据结构标记的数据,例如,在<employer1>和<employer2>之间的“dates of employment(工作日期)”,则“dates of employment”可看作Employer(用人单位)1和Employer(用人单位)2元素的未标注或未结构化的兄弟元素。
按照许多象XML这样的数据格式,因为数据包括在数据结构内但没有用它自己的结构标注且不是关联于结构的相邻数据的一部分,这造成了混合内容情形。甚至如果由给定用户所用的数据格式版本允许这样的混合内容情形,用户可能没有注意到她未能用合适的结构标注未标注的数据。如果对于用户和由用户使用的数据格式版本留下这种未标注数据是可接受的,则用户可选择这样做,但可能有在文档中定位未标注数据的困难时间。因而,需要一方法和系统,用于显示文档中未标注文本节点来允许用户了解未标注数据的位置和上下文。
关于这些和其它考虑,产生了本发明。
概述
本发明实施例提供方法和系统,用于提供在相应文档中显示未标注文本节点的数据树形视图。诸如字处理文档的计算机生成文档的用户将大纲关联于文档,该文档设定数据类型、标注规则和过程,可用用于结构化该文档各部分的数据格式标注该文档。按照本发明的一个方面,用户将一大纲附着于文档,该文档预设了数据类型、数据结构和用于该文档的元素规则,使得用户可用数据格式结构标注该文档。可供选择,用户可接收一文档,该文档具有附着于或关联于该文档的大纲。
当用户开始用诸如XML结构之类的想要的数据格式标记文档时,各用户显示一树形视图窗格,为用户提供当前应用于文档的元素结构的分级显示,或在用户用结构标注文档时提供用户应用于文档的结构的分级显示。按照本发明的一个方面,为用户提供的结构分级显示是显示父数据结构元素和相关的子数据元素和兄弟数据元素的树形视图。提供给用户的树形视图结构以彼此相关和相对于父元素的次序显示每个子元素及兄弟元素,按照在正由用户标注的相应文档中排序和关联那些元素。
在树形视图显示期间,做出关于是否相应文档中的任何文本节点都未用结构标注,但在文档内具有兄弟元素的判定。当显示树形视图时,显示父元素的名称,接着是子元素的名称,按照那些子元素在文档中对应于的父元素的顺序。在树形视图中,诸如省略号(...)之类的指示符显示在任意未标注文本节点相对其兄弟元素的位置中。可供选择,文本节点的值可显示在任意未标注文本节点相对其兄弟元素的位置中。按照本发明的一个方面,可提供附加的帮助窗格向用户提供可用于应用到未标注文本节点的诸如XML元素的建议数据元素列表。
如果用户关注在树形视图中给定的未结构化文本节点指示符上,则向用户突出显示相应文档中的相应文本节点,以向用户示出未用结构标注的文本节点的位置。因而,警告用户未标注或未结构化文本节点的存在和位置,且用户可通过选择相应树形视图中的未标注文本节点指示符(例如,省略号或文本节点值)导航到文档中未标注文本节点的位置。一旦用户定位了未标注文本节点并突出显示了包含在未标注文本节点中的数据,用户可为未标注文本节点选择建议数据结构元素之一,且未标注文本节点将自动地用所选元素结构标注。可供选择地,用户可手工插入期望的结构,或者用户可决定不向文本节点添加结构。
附图说明
表现本发明特色的这些和其它特点和优点将从以下详细描述的阅读和相关附图的查阅变得显而易见。要理解前面的基本描述和后面的详细描述都只是示例性的和说明性的而非限制如权利要求所述的本发明。
图1是计算机和相关外围设备的和网络化设备的方框图,它提供了本发明的示例性操作环境。
图2示出软件应用程序的计算机屏幕显示,该程序用于创建文档和用数据格式结构标注文档和显示相关树形视图。
图3示出图2的计算机屏幕显示,它给出了图2所示的未标注文本节点的标注。
图4是一流程图,示出用于显示格式化数据文档中未标注文本节点位置的方法。
详细说明
下列本发明实施例的描述是参考上述附图进行的,其中几幅图中相同的数字指相同的部分或部件。本发明专注于显示诸如象XML的标记语言文档的数据格式化文档中的未标注文本节点的位置和关系的方法和系统。
操作环境
图1及下列讨论意在提供本发明可在其中实施的适合的计算机环境简单概括的描述。虽然本发明将在运行于与个人计算机一起的操作系统上的应用程序的通用环境中描述,那些本领域熟练技术人员将认识到本发明还可以结合其它程序模块实现。通常,程序模块包括完成特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构等。而且,那些本领域的熟练技术人员将理解本发明可与其它计算机系统配置一起实施,包括手持设备、多处理器系统、基于微处理器或可编程消费电子设备、蜂窝电话、小型机、主机计算机等等。本发明还可在分布式计算环境中实施,其中任务是由通过通信网络连接的远程处理设备完成的。在分布式计算环境中,程序模块可位于本地和远程存储器设备中。
参考图1,实现本发明的示例性系统包括一常规个人计算机20,它包括处理单元21、系统存储器22和连接系统存储器至处理单元21的系统总线23。系统存储器22包括只读存储器(ROM)24和随机访问存储器(RAM)25。基本输入/输出系统26(BIOS),包含诸如在起动期间帮助个人计算机20内部元件之间传送信息的基本例程。被存储在ROM24中。个人计算机20还包括硬盘驱动器27、磁盘驱动器28,例如读取或写入可移动盘29、及光盘驱动器30,例如读取CD-ROM盘31或读取或写入其它光介质。硬盘驱动器27、磁盘驱动器28和光盘驱动器30分别通过硬盘驱动器接口32、磁盘驱动器接口33和光盘驱动器接口34连接到系统总线23上。驱动器及其相关的计算机可读介质为个人计算机20提供非易失存储器。尽管以上计算机可读介质的描述指硬盘、可移动磁盘和CD-ROM盘,那些本领域熟练技术人员应该理解由计算机可读的其它类型介质,诸如磁盒、闪存卡、数字视频盘、伯努利盒等等也可用于示例性操作系统。
许多程序模块可被存储于驱动器和RAM25,包括操作系统35、一或多个应用程序100、字处理程序模块37(或其它类型的程序模块)、程序数据,诸如货单38,和其它程序模块(未示出)。
用户可通过键盘40和诸如鼠标42的指点设备将命令和信息输入到个人计算机20中。其它输入设备(未示出)可包括话筒、游戏杆、游戏垫、卫星式转盘、扫描仪等等。这些和其它输入设备常常通过连接到系统总线的串行接口46连接至处理单元21,但是也可以通过其它接口连接,诸如游戏端口或通用串行总线(USB)。显示器47或其它类型的显示设备也通过一个接口诸如视频适配器48连接至系统总线23。除显示器之外,个人计算机一般包括其它外部输出设备(未示出),诸如扬声器或打印机196。
个人计算机20可在一个使用逻辑连接至一或多个远程计算机诸如远程计算机49的网络化环境中运行。远程计算机49可以是服务器、路由器、对等设备或其它普通网络节点,且一般包括许多或全部相对于个人计算机20所述的元件,尽管只有存储器设备50在图1中示出。图1中所示的逻辑连接包括局域网(LAN)51和广域网(WAN)52。这样网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN网络环境中使用时,个人计算机20通过网络接口53连接至LAN51。当在WAN网络环境中使用时,个人计算机20一般包括调制解调器54或用于建立在WAN52诸如因特网上的通信的其它工具。调制解调器54,可以是内置的或外置的,可通过串行接口46连接至系统总线23。在网络化环境中,相对于个人计算机20所述的程序模块,或其一部分,可存储在远程存储器设备中。将理解到所示的网络连接是示例性的,并且可使用用于在计算机之间建立通信链路的其它方法。
运行
如图2所示,示出了例示性软件应用程序屏幕显示150。显示在显示150中的屏幕是各种软件应用程序屏幕显示的示例,诸如字处理器显示、电子制表软件显示、web浏览器显示等等。屏幕显示150示出了示例性字处理器应用程序显示,具有用于文档输入和编辑的工作空间155。按照图2中的例示性实例,正由用户创建文章文档,它有文章标题160和文章子标题165。如那些本领域熟练技术人员应该理解的,图2所示的文本只是作为例子,且输入工作空间155的数据可以是在其下创建文档的软件应用程序所允许的、包括字母数字文本和图像在内的任意类型格式。
如工作空间155所示,许多数据格式结构化元素将示出来标注文档。图2所示的数据格式是依照可扩展标记语言的。应该理解,图2所示的XML结构只是作为例子,因为本发明的功能同样应用于向用户显示应用了数据格式化的文档的数据结构的任意数据格式。例如,<article>标记185包括在文档的开始和结束以定义文档为一“article(文章)”文档,且各种其它元素诸如<body>元素205和<location>元素210包括在“article”结构里。如那些本领域熟练人员众所周知的,文档的XML标注允许用户用某些数据类型和数据结构定义文档的各部分。例如,用户可在<title>元素195内定义文档的一部分,包括类型“title(标题)”的数据并包括为标题规定的允许结构。
为了给文档提供带有一组管理数据类型和结构的语法规则,它们可包括在诸如图2所示的“article”文档的给定文档中,将大纲附着于或关联于文档来提供管理每个数据结构元素和标记的规则,有了这些元素和规则用户可标注给定文档。例如,“article”文档可具有诸如“article-schema.xsd”的附着或关联大纲文件来提供容许的XML元素组,诸如<article>元素、<title>元素、<body>元素等等。大纲文件包括管理那些元素可应用于文档的次序的规则和关联于应用于文档的各个元素的特殊规则。例如,附着或关联于“article”文档的大纲,在图2中所示的,可规定关联于给定元素的数据,例如日期元素必须包括日元素,后面跟着月元素,后面再跟着年元素。此外,大纲可要求关联于日期元素的数据必须就在<location>元素210之前。
如那些本领域熟练技术人员所理解的,XML大纲文件的开发者确定了XML元素的名称和那些元素所允许的相关数据类型与数据结构。然后,按照给定大纲文件用XML结构标注的文档的所有用户都可利用包含在XML结构内的数据而不考虑文档的全局类型和结构。例如,如果将在图2中所示的“article”文档传送给文档出版商,出版商可开发软件应用程序来分析文档找到由出版商使用的文档内数据的特定类型。出版商可以,例如,只希望发布文章标题作为整篇文章未来出版的广告。使用附着于文档的大纲文件,出版商将了解关联于XML元素<title>元素已按管理该文档的大纲文件准备好。因而,出版商可开发一软件应用程序来定位<title>元素并抽取相关于它的数据插入出版商自己的文档,用这个数据作为整篇文章未来出版的广告。
出版商可抽取这个数据而不考虑文档的其它方面,诸如其位置和包含在“body”段中内的数据。这通过文档的每个用户遵循附着于或关联于文档的大纲文件中规定的数据类型和数据结构规则这一事实而变得可能。大纲文件可附着于文档,或者大纲文件可在独立的位置维护,诸如在可由文档访问的大纲文件库中。也就是说,文档可包含文件路径指针或唯一的名字空间标识符(例如,URI或URN)来定位和/或识别向文档提供管理文档XML结构的大纲文件。还是参考图2,<article>标记185示出一标注在文档的XML结构的父标记。诸如<heading>元素190、<body>元素205的元素示出全局“article”结构内关于标记185的子元素。<title>元素195和<subtitle>元素200示出<heading>元素190的子元素。同样,<location>元素210示出<body>元素205的子元素。
如上所述,正如那些本领域熟练技术人员应该理解的,本发明实施例并不限于带有可扩展标记语言结构的文档标注的显示。本发明实施例可同样用于向任意使用任何诸如超文本标记语言(HTML)等等的其它类型数据格式化语言或系统的文档添加标注。也就是说,本发明实施例可用来显示其它类型的、诸如HTML元素的标记语言元素的树形视图,以及相应的指示符作为警告用户错误的方法或者允许用户导航到关联于错误标记的文本或数据的方法,在相应的指示符处元素未被合适地应用或者有遗漏。
如图2所示,两个文本节点“10/28/2002”170和“the quick brown fox...”180包括在文档中,但没用结构标注。在其它已标注的文档中包含未标注或未结构化数据,表示了混合内容文档。按照许多大纲的规则,未标注文本节点170和180违反了大纲规则,因为它们位于具有兄弟结构化元素的结构中。例如,如图2所示,文本节点170和180位于<body>元素205的结构内,而兄弟的<location>元素210位于未标注文本节点170和180之间。按照许多大纲,混合内容或者不允许或者产生编辑程序模块的二义性,因为未标注数据不可由数据结构编辑程序模块操作。从用户观点看,未标注数据可能表示用户想要标注但错误地未能适当标注的数据,或者数据可能表示用户故意未能标注的数据,但在缺少结构以帮助用户导航至该数据时,用户就不能方便地定位文档中的数据。例如,用户可能只想标注包含在图2所示的文章文档中的段落的标题句,但用户故意不想标注每个段落中的剩余句子。在没有数据结构对每个这种段落中未标注句子的帮助的情况下,用户可能会发现难以方便地导航到那些句子。
按照本发明实施例,为用户提供树形视图窗格250来向用户以分层显示(outline)形式显示已以彼此相关的次序和位置应用于文档的数据格式诸如XML标记和元素。例如,如图2所示,示出<article>标记具有<heading>元素作为<article>标记的子元素。<title>元素和<subtitle>元素示出为<heading>元素的子元素。<body>元素示出为<article>标记的子元素,而<location>元素示出为<body>元素的子元素。按照本发明实施例,未标注文本节点指示符270和未标注文本节点指示符280示出于树形视图窗格250中作为<body>元素265的子元素。指示符270和280表示相应文档的未标注文本节点170和180。此外,根据指示符相对于<location>元素的位置,提供直观的说明来显示由指示符270和280表示的文本节点具有兄弟元素,即<location>元素210。按照本发明的一个实施例,且如图2所示,指示符270和280是包括在树形视图上的该位置中的省略号(...),如果适当地用数据格式化结构标注那些文本节点时,用于文本节点170和180的适当标注的元素否则将驻留在该位置处。
可供选择,文本节点的值可包括在树形视图上的该位置中,如果适当地用数据格式化结构标注那些文本节点时,用于文本节点170和180的适当标注的元素否则将驻留在该位置处。例如,如果未标注文本节点值为“John Doe”而不是在该文本节点的树中位置处显示(...),则真实值,例如,“John Doe”就可显示在树中。为了展示,值可被格式化为区分于其它信息,诸如斜体或粗体化该值(例如,John Doe)。如果用户选择指示符270或指示符280,关联于所选指示符的相应文档中的文本被突出显示于文档,这样向用户示出相应于指示符270或280的未标注文本节点的位置。如果指示符向用户报警应该用数据格式化结构标注的文本节点,用户可选择相应的指示符作为立即导航到文本节点位置的方法,以便将结构应用于文本节点。另一方面,如果用户不希望将结构应用于未标注文本节点,用户也可利用本发明功能通过选择相应的指示符270或180导航到文本节点。如那些本领域熟练技术人员应该理解的,用户可按照各种方法选择指示符,包括将用户光标放在想要的指示符270或280上并选择该指示符。可供选择的,用户可用用户鼠标箭头对准在想要的指示符270或280并单击适当的键。
还是参考图2,提供建议结构窗格300来向用户提议应用于未标注文本节点的建议结构。如那些本领域熟练技术人员应该理解的,在窗格300中建议结构是基于录属于文档的大纲的。例如,窗格300包括<date>元素310和<main>元素320。按照可描述标注示于图2的文章文档的可接受结构的示例性大纲,可规定<date>元素和<main>元素。因而,因为图2所示的文档未用<date>元素或<main>元素标注,在窗格300中提供那些元素来向用户提供有用的信息作为按照相关大纲可应用于文档的结构。用户可如上所述地通过选择指示符270选择未标注文本节点170。一旦用户选择指示符270,包括日期“10/28/2002”的文本节点170被突出显示给用户。如果用户想要将日期元素310应用于文本节点170,用户可输入文章主体并手工用<date>元素标注日期文本节点。可供选择,一旦用户通过选择指示符突出显示了文本节点170,用户可从建议的结构窗格300中选择<date>元素310,且文本节点170将自动用该元素标注。
现在参考图3,文本节点170和180在用户用数据格式化结构标注那些文本节点后示出,如上参考图2所述。日期文本节点170示于图3,包含在<date>元素215中,而文本节点180在<main>元素220内显示。如树形视图窗格250所示,一旦未标注文本节点已经用结构标注,则相应的树形视图改变以显示应用于文本的<date>元素和<main>元素。与图2所示的示例比较,树形视图窗格250中的指示符270和280由<date>元素和<main>元素的名称所替代。因而,树形视图窗格250的快速浏览现在显示了当前元素结构,并向用户显示了没有未标注文本节点仍存在于文档中。
图4是一流程图,示出显示数据格式化文档中未标注文本节点的位置的方法。仅作为示例,图4参考图2和3中所示的由XML结构标记的示例文章文档来描述。如应该理解的,按照本发明实施例,图4的描述同样可应用于任何用户想用诸如XML的标记语言标注的文档。
方法400始于开始步骤405并继续至步骤410,在那里用户打开文档,诸如图2和3所示的文档。在步骤415,想要用数据结构标注文档的用户获得关联于该文档的大纲文件。如应该理解的,由用户编辑的文章文档可有一已附着的或关联于该文档的关联大纲文件,如此文档包括指向大纲文件的文件路径指针以获得管理文档结构化标注的大纲文件的使用。可供选择地,用户可接收不带关联大纲文件的文档或者用户可创建该文章文档作为一原始文档,且大纲文件尚不存在。如果大纲文件还未附着于文档,或者如果文档不参考创建文档的应用程序所知道的大纲名字空间,用户不需要获得适当的大纲文件或创建-大纲文件。创建文档的应用程序,例如字处理程序,将能够通过窗格250向用户显示合适的文档结构,包括在未标注文本节点170或180上的标注的缺少。但是,应用程序在没有大纲文件的情况下将没有验证树和保证正确结构的能力。
在步骤402,用户开始用数据结构元素标注文档,因此文档以后的用户可根据用户用来标注文档的数据结构利用包含在文档内的数据。例如,如果用户正为出版商准备文章文档,用户可要求文档按照一特定大纲文件来标注,使得在文档从用户被发送到出版商后,出版商可快速和容易地从文档中抽取所需要的数据。在步骤425,通过用户选择,或者自动地或者可选地由用户选择向用户提供树形视图窗格250。
在步骤430,做出是否文档中的任意未标注文本节点170或180具有诸如<location>元素210的兄弟元素的判定。在步骤435,显示树形视图以当前应用于文档的现有的父和子元素。在步骤440,在文档中相对于其它结构的那些文本节点的位置上,向用户提供指示符270和280(例如,省略号(...))以指示未标注文本节点170和180的存在和位置。
在步骤445,在窗格300中为潜在的应用程序提供未标注文本节点170和180的建议结构化元素的列表。在步骤450,用户可选择文本节点指示符270或280,以便在文档内导航到相关文本节点。在步骤445,关联于用户所选的指示符270或280的文本节点在文档中突出显示以为了导航而提示用户文本节点的位置或允许用户应用一元素于未标注文本节点。在步骤460,用户可标注突出显示的文本节点。方法终止于步骤495。
如上所述,提供了显示标记语言文档中未标注文本节点的方法和系统,以提示用户未标注文本节点的存在与位置。对于那些本领域熟练技术人员,各种修改或变体可在不脱离本发明的范围和精神下在本发明中进行是显然的。本发明的其它实施例对于那些本领域熟练技术人员来说在考虑这里所揭示的本发明的说明书目和实施下都是显而易见的。

Claims (20)

1.一种用于定位文档中的未标注文本节点的方法,包括:
用数据格式的元素标注所述文档;
为未标注文本节点分配一个指示符,该指示符表示文档中未标注文本节点的存在;
显示一树形视图分层显示,显示应用于所述文档的数据格式元素以及所述未标注文本节点的指示符,其中在树形视图分层显示上一个相对于树形视图分层显示上所显示的数据格式元素的位置上显示未标注文本节点的指示符,指示了文档中的未标注文本节点相对于文档中标注文本节点位置的位置;
在树形视图分层显示中选择未标注文本节点的指示符;
响应于选择该未标注文本节点的指示符,突出显示所述文档中所相应的未标注文本节点。
2.如权利要求1所述的方法,在通过树形视图分层显示来显示未标注文本节点的指示符步骤之前,还包括:
分析所述文档以判定所述文档中是否存在任何未标注文本节点;以及
确定所述文档中所述未标注文本节点的位置。
3.如权利要求2的方法,还包括:
判定所述未标注文本节点是否需要按照关联于所述数据格式的规则标注。
4.如权利要求3所述的方法,还包括:
判定所述未标注文本节点是否有任何兄弟标注元素,其中所述未标注文本节点和所述兄弟标注元素具有共同的父元素。
5.如权利要求4所述的方法,还包括:
通过树形视图分层显示显示每个应用于所述文档的父数据格式元素的名称。
6.如权利要求5所述的方法,还包括:
通过树形视图分层显示,在树形视图分层显示上相对于子数据格式元素的父数据格式元素的位置来显示每个应用于所述文档的子数据格式元素的名称。
7.如权利要求6所述的方法,还包括:
通过树形视图分层显示,相对于所述子数据格式元素的任何兄弟数据格式元素的位置来显示应用于所述文档的任意子数据格式元素的名称。
8.如权利要求7所述的方法,还包括:
按照大纲显示应用于所述未标注文本节点的建议的数据格式元素列表。
9.如权利要求8所述的方法,其特征在于,突出显示所述文档中所述未标注文本节点的步骤包括在文档中突出显示所述未标注文本节点以定位所述文档中所述未标注文本节点。
10.如权利要求9所述的方法,还包括:
用数据格式元素标注未标注文本节点。
11.如权利要求10所述的方法,在用数据格式元素标注未标注文本节点步骤之前,还包括从建议的数据格式元素列表中选择建议的数据格式元素。
12.如权利要求11所述的方法,根据从建议的数据格式元素列表中建议的数据格式元素的选择,自动用所选建议的数据格式元素标注未标注文本节点。
13.如权利要求1所述的方法,其特征在于,所述数据格式是可扩展标记语言XML。
14.如权利要求1所述的方法,其特征在于,所述数据格式是超文本标记语言HTML。
15.如权利要求1所述的方法,其特征在于,所述未标注文本节点的指示符是一位于所述树形视图分层显示上的省略号(...)。
16.如权利要求1所述的方法,其特征在于,所述未标注文本节点的指示符是所述文本节点的值。
17.如权利要求1所述的方法,还包括:
在树形视图分层显示窗格中显示所述树形视图分层显示。
18.如权利要求1所述的方法,在用所述数据格式的元素标注所述文档步骤之前,还包括下列步骤:
将一大纲附着于所述文档,定义与要应用于所述文档的所述数据格式相关联的规则;
在用所述数据格式的元素标注所述文档步骤之后,读取所述大纲,以确定与应用所述数据格式的元素于所述文档相关联的所述规则;以及
用所述大纲验证所述树形视图分层显示,以确定所述文档是否依照所述大纲用所述数据格式元素标注。
19.一种用于定位文档中的未标注文本节点的设备,包括:
用于用数据格式的元素标注所述文档的装置;
用于为未标注文本节点分配一个指示符的装置,该指示符表示文档中未标注文本节点的存在;
用于显示一树形视图分层显示的装置,该装置显示应用于所述文档的数据格式元素以及所述未标注文本节点的指示符,其中在树形视图分层显示上一个相对于树形视图分层显示上所显示的数据格式元素的位置上显示未标注文本节点的指示符,指示了文档中的未标注文本节点相对于文档中标注文本节点位置的位置;
用于在树形视图分层显示中选择未标注文本节点的指示符的装置;以及
响应于选择该未标注文本节点的指示符,用于突出显示所述文档中所相应的未标注文本节点的装置。
20.如权利要求19所述的设备,其特征在于,在通过所述树形视图分层显示显示未标注文本节点的指示符之前,所述设备还包括:
用于分析所述文档以判定所述文档中是否存在任何未标注文本节点的装置;
用于确定所述文档中所述未标注文本节点的位置的装置;以及
用于判定所述未标注文本节点是否需要按照关联于标记语言的规则标注的装置。
CN2004100082506A 2003-02-28 2004-03-01 用于显示数据格式化文档中未标注文本节点的方法和设备 Expired - Fee Related CN1525357B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/377,581 US7325186B2 (en) 2003-02-28 2003-02-28 Method and system for showing unannotated text nodes in a data formatted document
US10/377581 2003-02-28
US10/377,581 2003-02-28

Publications (2)

Publication Number Publication Date
CN1525357A CN1525357A (zh) 2004-09-01
CN1525357B true CN1525357B (zh) 2010-06-16

Family

ID=32771535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004100082506A Expired - Fee Related CN1525357B (zh) 2003-02-28 2004-03-01 用于显示数据格式化文档中未标注文本节点的方法和设备

Country Status (5)

Country Link
US (1) US7325186B2 (zh)
EP (1) EP1452973A3 (zh)
JP (1) JP2004265403A (zh)
KR (1) KR100995234B1 (zh)
CN (1) CN1525357B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003901428A0 (en) * 2003-03-24 2003-04-10 Objective Systems Pty Ltd A system and method for formatting and distributing reading material
US8223355B2 (en) * 2003-06-16 2012-07-17 Hewlett-Packard Development Company, L.P. Cellular telephone protocol adaptive printing
US7313756B2 (en) * 2003-12-15 2007-12-25 Microsoft Corporation Schema editor extensions
US8134575B2 (en) 2004-09-30 2012-03-13 Microsoft Corporation Maintaining graphical presentations based on user customizations
US8510657B2 (en) 2004-09-30 2013-08-13 Microsoft Corporation Editing the text of an arbitrary graphic via a hierarchical list
US7348982B2 (en) 2004-09-30 2008-03-25 Microsoft Corporation Method, system, and computer-readable medium for creating and laying out a graphic within an application program
US7412649B2 (en) * 2005-01-24 2008-08-12 International Business Machines Corporation Viewing and editing markup language files with complex semantics
US8943035B2 (en) * 2005-11-14 2015-01-27 Patrick J. Ferrel Distributing web applications across a pre-existing web
US8438486B2 (en) 2006-02-09 2013-05-07 Microsoft Corporation Automatically converting text to business graphics
US7958444B2 (en) * 2006-06-15 2011-06-07 Xerox Corporation Visualizing document annotations in the context of the source document
US8006179B2 (en) * 2006-07-31 2011-08-23 Microsoft Corporation Wrapping nodes in a drawing canvas
US7743079B1 (en) 2006-07-31 2010-06-22 Microsoft Corporation Managing data across a semantic data view and a presentation data view
US10055392B2 (en) 2008-05-12 2018-08-21 Adobe Systems Incorporated History-based archive management
US9418054B2 (en) * 2008-05-12 2016-08-16 Adobe Systems Incorporated Document comment management
US9176943B2 (en) 2008-05-12 2015-11-03 Adobe Systems Incorporated Comment presentation in electronic documents
US9329744B2 (en) 2008-05-12 2016-05-03 Adobe Systems Incorporated Segmented scroll bar
US7949633B1 (en) 2008-05-12 2011-05-24 Adobe Systems Incorporated Shared edit access of electronic content
US8996621B2 (en) 2008-05-12 2015-03-31 Adobe Systems Incorporated Asynchronous comment updates
US7945595B1 (en) 2008-05-12 2011-05-17 Adobe Systems Incorporated System and method for generating an item list in electronic content
US8375291B2 (en) 2008-11-07 2013-02-12 Web Filings, Inc. Method and system for generating and utilizing persistent electronic tick marks
US9563616B2 (en) * 2008-11-07 2017-02-07 Workiva Inc. Method and system for generating and utilizing persistent electronic tick marks and use of electronic support binders
CN101446973B (zh) * 2008-12-19 2010-11-10 北京数码大方科技有限公司 用于管理信息系统的树视图节点加载显示方法
US8799325B2 (en) 2010-03-12 2014-08-05 Microsoft Corporation Reordering nodes in a hierarchical structure
CN102831167B (zh) * 2012-07-24 2015-01-07 东软集团股份有限公司 图结构的xml处理方法及装置
US9563846B2 (en) 2014-05-01 2017-02-07 International Business Machines Corporation Predicting and enhancing document ingestion time
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
CN104461348B (zh) * 2014-10-31 2018-09-04 小米科技有限责任公司 信息选取方法及装置
US10176157B2 (en) * 2015-01-03 2019-01-08 International Business Machines Corporation Detect annotation error by segmenting unannotated document segments into smallest partition
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置
CN112307717A (zh) * 2019-10-16 2021-02-02 北京字节跳动网络技术有限公司 文本标注信息展示方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038320A1 (en) * 2000-06-30 2002-03-28 Brook John Charles Hash compact XML parser
US20020147748A1 (en) * 2001-04-09 2002-10-10 Xmlcities, Inc. Extensible stylesheet designs using meta-tag information
US20020161801A1 (en) * 2001-04-26 2002-10-31 Hind John R. Efficient processing of extensible markup language documents in content based routing networks

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9225566D0 (en) * 1992-12-07 1993-01-27 Incontext Corp System for display of structured documents
US5623681A (en) 1993-11-19 1997-04-22 Waverley Holdings, Inc. Method and apparatus for synchronizing, displaying and manipulating text and image documents
US6681370B2 (en) 1999-05-19 2004-01-20 Microsoft Corporation HTML/XML tree synchronization
US6721727B2 (en) 1999-12-02 2004-04-13 International Business Machines Corporation XML documents stored as column data
US6779154B1 (en) 2000-02-01 2004-08-17 Cisco Technology, Inc. Arrangement for reversibly converting extensible markup language documents to hypertext markup language documents
US20030041076A1 (en) 2001-03-14 2003-02-27 Lucovsky Mark H. Schema-based services for identity-based access to calendar data
WO2002097667A2 (en) * 2001-05-31 2002-12-05 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
US6720948B2 (en) 2001-10-11 2004-04-13 International Business Machines Corporation Method, program, and system for communicating between a pointing device and a host computer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038320A1 (en) * 2000-06-30 2002-03-28 Brook John Charles Hash compact XML parser
US20020147748A1 (en) * 2001-04-09 2002-10-10 Xmlcities, Inc. Extensible stylesheet designs using meta-tag information
US20020161801A1 (en) * 2001-04-26 2002-10-31 Hind John R. Efficient processing of extensible markup language documents in content based routing networks

Also Published As

Publication number Publication date
EP1452973A3 (en) 2006-04-05
US20040172594A1 (en) 2004-09-02
KR100995234B1 (ko) 2010-11-17
EP1452973A2 (en) 2004-09-01
KR20040077529A (ko) 2004-09-04
JP2004265403A (ja) 2004-09-24
CN1525357A (zh) 2004-09-01
US7325186B2 (en) 2008-01-29

Similar Documents

Publication Publication Date Title
CN1525357B (zh) 用于显示数据格式化文档中未标注文本节点的方法和设备
US7007033B1 (en) Management of markup language data mappings available to a spreadsheet application workbook
US7096422B2 (en) Markup language visual mapping
US20180165255A1 (en) System and method to facilitate content distribution
KR100889906B1 (ko) 전자화 서비스 매뉴얼 생성 방법, 부가 데이터 생성 방법, 전자화 서비스 매뉴얼 생성 장치, 부가 데이터 생성 장치, 전자화 서비스 매뉴얼 생성용 프로그램 및 부가 데이터 생성용 프로그램이 기록된 기록 매체
EP1376392A2 (en) Method and system for associating actions with semantic labels in electronic documents
US8577887B2 (en) Content grouping systems and methods
JP2001306654A (ja) 様々な形式の内容を出版するためのリポジトリ
US20080028301A1 (en) Document markup processing system and method
US20100325528A1 (en) Automated formatting based on a style guide
KR100522186B1 (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
Gulbransen Using XML
Lenz et al. Office 2003 XML: Integrating Office with the Rest of the World
US7225398B1 (en) Using icons to show the validity of computer language structural elements applicable to a computer-generated document
Chase XML primer plus
US11687300B2 (en) Systems and methods for creating customized print or electronic materials
Dunn Single-source publishing with XML
Hsu et al. A markup approach to surveys and questionnaires
Wempen Special Edition Using Microsoft Office Word 2007
KR20030014812A (ko) 전자책 겸용 데스크탑 편집 시스템 및 방법, 그 프로그램소스를 기록한 기록매체
Wooldridge et al. Creating Web Pages Simplified
Allen Guidelines for dissertations, theses, and project reports in the Department of Computer Science and Engineering
Willett Office XP Bible
Maivald et al. A Designer's Guide to Adobe InDesign and XML: Harness the Power of XML to Automate Your Print and Web Workflows
Jacobs Microsoft Office Excel 2007: The L Line

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150506

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150506

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100616

Termination date: 20200301

CF01 Termination of patent right due to non-payment of annual fee