CN101385023B - 矢量图形文档中的列表检测 - Google Patents

矢量图形文档中的列表检测 Download PDF

Info

Publication number
CN101385023B
CN101385023B CN2007800051444A CN200780005144A CN101385023B CN 101385023 B CN101385023 B CN 101385023B CN 2007800051444 A CN2007800051444 A CN 2007800051444A CN 200780005144 A CN200780005144 A CN 200780005144A CN 101385023 B CN101385023 B CN 101385023B
Authority
CN
China
Prior art keywords
tabulation
list
vector graphics
document
subclauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800051444A
Other languages
English (en)
Other versions
CN101385023A (zh
Inventor
A·葛堪
E·S·赖斯
J·G·布朗
J·J·迪尼埃兹
J·D·麦克盖萨
K·S·赛德奇
M·刘
O·H·弗尔
R·罗佩茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101385023A publication Critical patent/CN101385023A/zh
Application granted granted Critical
Publication of CN101385023B publication Critical patent/CN101385023B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

各种技术和方法检测基于矢量图形的文档中的列表并以各种有意义的方式使用这些列表。该系统使用一组规则来检测基于矢量图形的文档中的至少一个列表。模式检测逻辑标识可能开始列表的各字符、符号、数字、字母和/或图像。另外的模式检测逻辑确定列表是否存在。该系统可以标识和分析标项目符号的列表、标号的或标字母的列表、以及作为两者的任意组合的嵌套列表。内容一旦被标识,就被转换成经修改的格式。可以将该内容以更适合由目标应用程序输出或使用的该经修改的格式输出到该目标应用程序。

Description

矢量图形文档中的列表检测
背景
如可移植文档格式(PDF)等基于矢量图形的文档交换格式提供了允许以标准化方式为用户解释和显示文档的一组呈现指令,而不要求用户的计算机具有用以创建该内容的原始软件应用程序。MICROSOFT
Figure S2007800051444D00011
创建了XML文件规范(XML Paper Specification,XPS)作为一种基于矢量图形的文档格式,以允许以标准化的和有意义的方式来呈现XML内容。基于矢量图形的文档的一个问题是阅览应用程序除了如何将一特定文档正确呈现之外,可能对其真实内容只有极少的了解。例如,阅览应用程序可能不知道该文档的内容包括一个或多个标项目符号的或标号的列表。
列表能以比纯文本更易于阅读和理解的方式来传递信息。基于矢量图形的文档中列表的存在在将该文档转换成目标应用程序中所使用的对最终用户更友好的格式时带来了具体的问题。阅览应用程序会具有描述如何绘制列表的信息,但其不一定含有指示其正在绘制的是一个列表的任何信息,所以其能力可能被限于以对用户有意义的方式读取或复制列表。有意义地呈现列表的问题因可能存在嵌套列表,即列表中的列表而变复杂。取标号为1、2、3的主列表作为示例。假定条目1由其下标号为a、b和c的条目组成。在由小写字母指定的该列表中,“a”包含条目1)和2)——这实际上是第三个列表。从该示例中可以看到,该列表从编程观点来看实际上由三个列表组成。
概述
公开了允许检测基于矢量图形的文档,包括基于XML的文档中的列表并以有意义的方式来呈现该列表的各种技术和方法。标项目符号的列表以及标号的列表可以基于一组规则来标识。所公开的一种或多种技术和方法通过检测并区分各种模式来做到这一点。这包括搜索可能开始列表的字符、符号、数字、字母和/或图像。该技术确定其是否表示列表的开头。在后续行中搜索模式以确定列表是否存在。此外,使用逻辑以搜索并标识嵌套列表。作为示例而非局限,该技术可以标识其中嵌套了标号的列表的标项目符号的列表,反之亦然。该系统允许将内容以更适合由目标应用程序输出或使用的经修改的格式输出到目标应用程序。另选地或另外地,列表可被识别并转换到一屏幕阅读器,该屏幕阅读器理解该输入并利用语音输出技术来形成表示该列表的正确的可听声音。
提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图简述
图1是一个实现的计算机系统的图解视图。
图2是一个实现中在图1的计算机系统上的操作的列表解析程序的图解视图。
图3是用于图1的系统的一个实现的高级处理流程图。
图4是用于图1的系统的一个实现的处理流程图,示出了在从矢量图形内容中检测和呈现标项目符号的列表时所涉及的各个阶段。
图5是用于图1的系统的一个实现的处理流程图,示出了在从矢量图形内容中检测和呈现标号的或标字母的列表时所涉及的用户选择和各个阶段。
图6是用于图1的系统的一个实现的处理流程图,示出了在检测和呈现嵌套列表时所涉及的各个阶段。
图7是用于图1的系统的一个实现的流程图,其示出了从基于矢量图形的文档到目标应用程序的复制和粘贴过程以及在该目标应用程序中呈现列表。
图8是用于图1的系统的一个实现的图表,其示出了XML格式的指定列表的矢量图形文档的一部分。
图9是用于图1的系统的一个实现的模拟屏幕,其示出了图8的含有列表的XML代码如何用文档呈现实用程序来可视化。
图10是用于图1的系统的一个实现的模拟屏幕,其示出了图8的XML列表内容在被复制到使用不同文档格式的另一应用程序后如何被呈现。
图11是用于图1的系统的一个实现的流程图,其示出了为列表呈现可听输出的屏幕阅读器。
详细描述
出于促进对本发明的原理的理解的目的,现将对图中所示的各实施方式进行参考,并且也将使用特定的语言来描述这些实施方式。然而,将理解的是,并无意由此作出范围上的限制。在所述实施方式中的任何更改和进一步修正,以及对在此所述的原理的进一步应用都被设想是本领域的技术人员通常能想到的。
该系统可以在一般的上下文中被描述为用于基于XPS文档或其它基于矢量图形的文档格式中所给出的呈现指令来检测列表和列表条目的应用程序,但该系统还适合除此之外的其它目的。在此所描述的一项或多项技术可以被实现为诸如MICROSOFT
Figure S2007800051444D00031
Office Word、MICROSOFT
Figure S2007800051444D00032
Office POWERPOINT
Figure S2007800051444D00033
Adobe Acrobat、XPS阅览器等软件程序中的特征,和/或来自于允许创建列表或可以利用列表的任何其它类型的程序或服务的特征。如在此更详细地描述的,在该系统的一个实现中,列表被识别并被转换成目标应用程序中所使用的格式。在另一实现中,列表可被识别并被转换到一屏幕阅读器,该屏幕阅读器理解该输入并利用语音输出技术来形成标识该列表的正确的可听声音,阅读该列表中的文本,然后对正在听的人解释该列表的顺序。
如图1所示,用于实现该系统的一个或多个部分的一种示例性计算机系统包括诸如计算设备100等计算设备。在其最基本的配置中,计算设备100通常包括至少一个处理单元102和存储器104。取决于计算设备的确切配置和类型,存储器104可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或这两者的某种组合。这一最基本配置通过虚线106示于图1中。
另外,设备100还可具有附加的特征/功能。例如,设备100还可以包括附加存储(可移动和/或不可移动的),包括但不限于磁或光盘或带。这样的附加存储以可移动存储108和不可移动存储110示于图1中。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储器104、可移动存储108和不可移动存储110都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储、盒式磁带、磁带、磁盘存储或其它磁存储设备、或可用以存储所需信息并可由计算机100访问的任何其它介质。任何这种计算机存储介质都可以是设备100的一部分。
计算设备100包括允许计算设备100与诸如XPS文档或其它基于矢量图形的文档等一个或多个文档115进行通信的一个或多个通信连接114。计算设备100还可以与一个或多个其它计算机和/或应用程序113进行通信。设备100也可以具有输入设备112,如键盘、鼠标、笔、语音输入设备、触摸输入设备等等。还可以包括诸如显示器、扬声器、打印机、屏幕阅读器等的输出设备111。这些设备是本领域中公知的,因而无需在此处详加讨论。
现在转向图2,并继续参考图1,示出了在计算设备100上操作的列表识别应用程序200。列表识别应用程序200是驻留于计算设备100上的应用程序中的一个。另选地或另外地,列表识别应用程序200的一个或多个部分可以是系统存储器104的一部分、可以在其它计算机和/或应用程序113上、或可以是计算机软件领域的技术人员能想到的其它此类变型。
列表识别应用程序200包括负责实现在此描述的一些或全部技术的程序逻辑204。程序逻辑204包括用以检测标项目符号的或标号的列表的逻辑206和用以应用递归算法以检测列表中的嵌套列表的逻辑208。程序逻辑204还包括用于以更适合输出或使用的经修改的格式来将(诸)列表的内容输出或显示到如文件、显示设备、屏幕阅读器和/或另一应用程序等的逻辑210。程序逻辑220包括用以操作该应用程序的其它逻辑。在一个实现中,程序逻辑204可用于诸如使用对程序逻辑204中的一个过程的单次调用而通过编程从另一程序调用。
在一个实现中,程序逻辑204驻留于计算设备100上。然而,可以理解,程序逻辑204可以另选地或另外地被具体化为一个或多个计算机上和/或不同的变型中的计算机可执行指令。作为一个非限制性示例,程序逻辑204的一个或多个部分可以另选地或另外地被实现为在需要时被调用的基于Web的应用程序。
现在转向图3,并继续参考图1-2,更详细地描述了用以实现列表识别应用程序200的一种或多种实现的各个阶段。图3是用于列表识别应用程序200的高级流程图。在一种形式中,图3的过程至少部分地在计算设备100的操作逻辑中实现。虽然列表识别应用程序200在此处的某一些实现中被描述为识别XPS文档或类似的基于XML的文档格式中的列表,但可以理解,在其它实现中,列表识别应用程序200可与利用矢量图形的任何类型的文档格式一起工作。在此所使用的术语基于矢量图形的文档旨在包括包含诸如用以呈现文本、线条和/或填满的形状的指令等的用以将文档呈现到输出设备上的指令的任何类型的文档。作为另一非限制性示例,呈现指令包括诸如提供关于标项目符号的和/或标号的列表条目的位置和/或内容的细节的指令等列表呈现指令。
该过程在图3上从起始点240处开始,其中接收通过编程来自于程序的选择或来自于用户的选择,以访问部分(如一页)或全部诸如XPS文档或类似的基于XML的文档等基于矢量图形的文档(阶段242)。如何接收选择的一些非限制性示例包括用户所打开的文件或用户所粘贴到应用程序中的文本。在一个实现中,系统读取该基于矢量图形的文档(阶段244)并执行程序逻辑206以确定是否存在一个或多个列表(阶段246)。列表识别应用程序200执行程序逻辑206来分析该列表(阶段248)。列表识别应用程序200执行程序逻辑210来以更适合输出或使用的经修改的格式将该一个或多个列表输出到如文件、屏幕阅读器和/或另一应用程序(阶段250)。在一个实现中,该经修改的格式包括目标应用程序所理解的格式。该过程结束于结束点252。
现在转向图4-5,并继续参考图2-3,示出了在检测各种列表时所涉及的各个阶段。图4示出了在一个实现中用以检测列表内容的各个阶段。在一种形式中,图4的过程至少部分地在计算设备100的操作逻辑中实现。该过程在起始点320处开始,其中系统通过编程或通过用户选择接收基于矢量图形的文档(阶段322)。扫描该文档内容以寻找一个或多个标项目符号的列表的存在(阶段323)。
系统检测一行中可能是列表开头的首字符或图像(324)。作为示例而非局限,该字符可以是连字号(-)、星号(*)、大于号(>)、加号(+)或是可以表示标项目符号的列表的开头的另一键盘字符或图像。系统通过扫描下一行以查看它是否以相同的字符开始来确定那是否是列表的开头(判定点326)。如果是,则进行另外的考虑来确定两行是否都组成列表中的条目。例如,如果正被考虑的行上的首字符的左缩进与第一行上的首字符相同(判定点328),则系统还要检验来查看关于首单词的左缩进是否相同(判定点332)。
在一个实现中,如果满足所有这些准则,则该条目就被认为是列表条目。在另一实现中,使用这些准则中的某一些和/或另外的准则来确定该条目是标项目符号的列表条目。系统继续检验该列表中的更多条目(阶段334)。如果还没发现列表的结尾(判定点336),则该过程以查找带有相同的字符或图像的另一连续的条目开始来重复(阶段326)。
如果系统评估该一个或多个不同列表准则并确定该条目不是先前列表的一部分,则其随后就检验来查看该条目是否是嵌套的列表的一部分(判定点330)。如果检测到一个可能的嵌套列表(判定点330),则还评估该列表准则来寻找可能的嵌套列表。一旦标识了所有可能的列表并到达了该文档的结尾(判定点331),则系统就执行用以将该内容改变为目标文档的格式的逻辑(阶段338),然后适当地显示该内容(阶段340)。该过程结束于结束点342。
现在转向图5,并继续参考图2-3,示出了用以检测并分析基于矢量图形的文档中为标号的或标字母的列表的内容的各个阶段。在一种形式中,图5的过程至少部分地在计算设备100的操作逻辑中实现。该过程在起始点370处开始,其中系统通过编程或通过用户选择接收基于矢量图形的文档(阶段372)。扫描该文档内容以寻找一个或多个列表的存在(374)。系统检测一行的可能是列表的开头的首个数字或字母(376)。作为示例而非局限,该字符可以是罗马数字或算术数字、单个或复合数字、大写字母或小写字母。
系统通过扫描下一行以查看其是否以相同的字符开始来检测那是否是列表的开头(判定点378)。如果是,则进行另外的考虑来确定两行是否都组成列表中的条目。这些考虑包括但不限于,该数字或字母的左缩进(阶段382)、该数字或字母后的首单词的左缩进(阶段384)以及下一个单词的左缩进(阶段386)对于两条目来说是否都相同。在一个实现中,如果满足所有这些准则,则该条目就被认为是标号的或标字母的列表条目。在另一实现中,使用这些准则中的某一些来确定该条目是标号的或标字母的列表条目。系统继续检验列表中的更多条目(阶段388)。如果还没发现列表的结尾(判定点390),则该过程以查找带有连续字母或数字的另一连续条目开始来重复(阶段378)。
如果系统评估该一个或多个不同列表准则并确定该条目不是先前列表的一部分,则其随后检验来查看该条目是否是嵌套列表的一部分(判定点380)。如果检测到一个可能的嵌套列表(判定点380),则重复这些阶段来寻找嵌套列表。一旦标识了所有可能的列表并到达了该文档的结尾(判定点391),则系统就执行用以将该内容改变为目标文档的格式的逻辑(阶段392),然后适当地显示该内容(阶段394)。该过程结束于结束点396。
如前面所讨论的,在一个实现中,系统也可以检测嵌套列表。作为示例而非局限,系统可以检测标号的或标字母的列表的标项目符号的列表,以及标号的或标字母的列表中的标号的或标字母的列表。图6是用于一个实现的过程流程图,其示出了检测嵌套列表并将其正确显示时所涉及的一个或多个阶段。在一种形式中,图6的过程至少部分地在计算设备100的操作逻辑中实现。在一个实现中,该过程可以标识以多种级别存在于其它列表中的任意数量的嵌套列表。该过程在起始点410处开始,其中系统识别列表的存在(阶段412),以及第一个列表条目的开头(阶段414)。系统识别该第一个条目不是先前已识别的列表的延续,而可能是嵌套列表的第一个条目(阶段416)。应用规则以检验下一行来查看其是否是嵌套列表的一部分。这些规则包括但不限于,检验下一行的首字符(阶段418)、下一行的首字符的缩进(阶段420)以及下一行该字符后的首单词的缩进(阶段422)。如果发现两个或更多条目满足所有这些准则,则执行用于分析嵌套列表的规则(阶段424)。
也检查该嵌套列表中的条目(阶段426)来查看是否存在不止一级的嵌套。如果找到(阶段428),则系统执行递归算法以检验嵌套列表的第二级中的条目。这将持续到对所有等级的列表标识了所有条目为止。条目被相应地分组并编译,以使它们可以被正确地显示在屏幕上或在目标应用程序中打印(阶段430)。该过程结束于结束点432。
图7是高级流程图,示出了用户可以用来将列表内容从基于矢量图形的文档中复制和粘贴到利用一不同格式的目标应用程序或文档中的过程。在一种形式中,图7的过程至少部分地在计算设备100上的操作逻辑中实现。该过程在起始点450处开始,此时用户从源应用程序中的基于矢量图形的文档中选择内容时(阶段452)。用户选择将该内容复制并粘贴到目标应用程序中的选项(阶段454)。源应用程序检测列表的存在并基于该文档中存在的列表呈现指令来解释该列表(阶段456)。源应用程序将该内容转换成更适合在目标应用程序中输出或使用的经修改的格式(阶段458)。经修改的内容的一些非限制性示例包括丰富文本、不包括呈现指令的XML、该内容的某一些或全部的图形表示以及许多其它变型。源应用程序将经修改的内容提供给目标应用程序(阶段460)。作为一个非限制性示例,源应用程序可以通过将其置于可用以通过编程或通过用户选择而将该内容粘贴到目标应用程序的剪切板上来提供该经修改的内容。目标应用程序适当地输出或使用该经修改的内容,如为用户将其呈现到输出设备上(阶段462)。该过程结束于结束点464。
现转向图8-10,示出了模拟图表和屏幕以显示本机XML代码和标签的一个实现,以及该XML代码如何被诸如阅览器等源应用程序解释,然后如何被显示在目标应用程序中。图8示出关于部分文档的XML代码500,其在一个实现中可以从诸如XPS文档或其它基于矢量图形的文档115等的源处接收。在所示的示例中,该XML代码是使用XML文件规范(XPS)句法来书写的。在所示的示例中,文档500包括各种包含关于特定列表条目的规范的标签,如标签502。也可使用众多其它列表指示符。此外,一些、全部、另外的和/或其它标签和/或文本内容也可以在文档500中使用。在其它实现中,根本没使用XML标签。
图9示出关于一个实现的模拟屏幕508,其示出XML内容500在阅览器应用程序中如何以对用户更友好的方式显示。注意,项目符号510和520用以图形地示出列表。
图10示出用于一个实现的模拟屏幕530,其显示目标应用程序中的被复制、转换并且粘贴到目标应用程序中或刚从该目标应用程序打开然后就被转换的XML内容。注意,显示了主列表560以及嵌套列表570、580和585,根据列表是否是嵌套的,每个列表都有不同的项目符号和缩进。还示出了第二列表590的起点,连同伴随的嵌套列表595。
图11示出在一个实现中使用列表识别程序200的一种形式的屏幕阅读器的流程图。在一种形式中,图11的过程至少部分地在计算设备100的操作逻辑中实现。屏幕阅读器向不能清楚地看到屏幕的人描述计算机屏幕上有什么。屏幕阅读器对视觉受损的人是有用的工具。该过程在起始点600处开始,在此用户或系统选择基于矢量图形的文档中的内容(阶段602)。屏幕阅读器解释该文档内容,包括列表(阶段604),并将以有意义的方式可听地传达该信息(阶段606)。作为示例而非局限,屏幕阅读器对标项目符号的列表的可听输出可以包括这些口述单词:“标项目符号的列表。第一个项目符号:[阅读该文本];第二个项目符号:[阅读该文本]。”作为示例而非局限,屏幕阅读器对标号的列表的可听输出可以包括这些口述单词:“标号的列表。条目数字1:[阅读该文本];条目数字2:[阅读该文本]。”许多其它变型也是可能的。该过程结束于结束点608。
虽然以对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不一定要限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式来公开的。落入在此所描述的和/或所附权利要求所描述的实现的精神之内的所有等效技术方案、更改和修正都期望受到保护。
例如,计算机软件领域的普通技术人员将认识到,在此讨论的示例中所描述的客户机和/或服务器安排、用户界面屏幕内容和/或数据布局可以在一台或多台计算机上不同地组织以包括比各示例中所描绘的更少或更多的选项或特征。

Claims (17)

1.一种用以识别基于矢量图形的文档中的列表的方法,包括:
接收原始格式的所述基于矢量图形的文档,所述原始格式具有用于所述基于矢量图形的文档中的至少一个列表的一组列表呈现指令;
分析所述基于矢量图形的文档以确定所述基于矢量图形的文档中存在至少一个列表并标识多个列表条目,其中所述标识是基于相应列表条目的关于首单词的相同单词缩进,其中相应列表条目的所述首单词跟随在指示所述列表条目的字母、数字和符号中的至少一个之后;以及
将所述列表以经修改的格式输出到一输出介质,所述经修改的格式是基于所述输出介质的类型来选择的。
2.如权利要求1所述的方法,其特征在于,所述基于矢量图形的文档是以基于XML的文档格式来存储的。
3.如权利要求1所述的方法,其特征在于,所述输出介质是显示器。
4.如权利要求1所述的方法,其特征在于,所述输出介质是屏幕阅读器,并且其中,所述列表中的一组内容被可听地描述给用户。
5.如权利要求1所述的方法,其特征在于,所述至少一个列表是标项目符号的列表。
6.如权利要求1所述的方法,其特征在于,所述至少一个列表是标号的列表。
7.如权利要求1所述的方法,其特征在于,对所述基于矢量图形的文档进行分析包括:
基于相应列表条目的相同首字符和所述首字符的相同缩进中的至少之一来标识多个列表条目。
8.如权利要求1所述的方法,其特征在于,对所述基于矢量图形的文档进行分析的步骤包括:
基于相应列表条目的连续首字符和关于所述首字符的相同缩进中的至少之一来标识多个列表条目。
9.如权利要求1所述的方法,其特征在于,对所述基于矢量图形的文档进行分析被配置成检测嵌套列表,并且其中,输出所述嵌套列表包括以所述经修改的格式来呈现所述嵌套列表。
10.如权利要求1所述的方法,其特征在于,当用户选择将所述基于矢量图形的文档的一部分复制到目标应用程序的选项时,接收所述基于矢量图形的文档;其中对所述基于矢量图形的文档的分析由源应用程序执行;其中所述经修改的格式由所述源应用程序创建,然后被发送到所述目标应用程序以输出到所述输出介质;并且其中,所述经修改的格式是所述目标应用程序所使用的格式。
11.一种用于检测基于矢量图形的文档中的至少一个列表的方法,包括:
使用一组规则检测所述基于矢量图形的文档中的至少一个列表,所述规则包括:
通过应用第一逻辑以确定多个列表条目是否具有相同的首字符、具有所述首字符的相同缩进以及具有关于首单词的相同单词缩进,来检测是否存在标项目符号的列表,其中相应列表条目的所述首单词跟随在所述相应列表条目的所述首字符之后;以及
通过应用第二逻辑以确定所述多个列表条目是否具有连续的首字符、具有关于所述首字符的相同缩进以及具有关于首单词的相同单词缩进,来检测是否存在标号的列表,其中相应列表条目的所述首单词跟随在所述相应列表条目的所述首字符之后;
将所述至少一个列表转换成经修改的格式;以及
将所述经修改的格式的所述至少一个列表输出到输出介质。
12.如权利要求11所述的方法,其特征在于,所述基于矢量图形的文档是XML文档。
13.如权利要求11所述的方法,其特征在于,所述输出介质选自由显示设备、文件、屏幕阅读器和单独的应用程序所组成的组。
14.如权利要求11所述的方法,其特征在于,所述至少一个列表是标项目符号的列表。
15.如权利要求11所述的方法,其特征在于,所述至少一个列表是标号的列表。
16.一种用于解释基于矢量图形的文档的方法,包括下列步骤:
接收来自用户的从所述基于矢量图形的文档选择部分内容的输入,所述内容含有包含一组列表呈现指令的原始格式;
解释所述列表呈现指令以检测存在于所选部分内容中的至少一个列表并标识多个列表条目,其中所述标识是基于相应列表条目的关于首单词的相同单词缩进,其中相应列表条目的所述首单词跟随在指示所述列表条目的字母、数字和符号中的至少一个之后;
将所述内容转换成比所述原始格式更适合在目标应用程序中输出的经修改的格式;以及
将所述内容以所述经修改的格式提供给所述目标应用程序以供输出。
17.如权利要求16所述的方法,其特征在于,对所述内容的选择是从基于XML的格式的基于矢量图形的文档中选择的。
CN2007800051444A 2006-02-09 2007-01-19 矢量图形文档中的列表检测 Expired - Fee Related CN101385023B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/351,065 2006-02-09
US11/351,065 US7836399B2 (en) 2006-02-09 2006-02-09 Detection of lists in vector graphics documents
PCT/US2007/001289 WO2007094913A1 (en) 2006-02-09 2007-01-19 Detection of lists in vector graphics documents

Publications (2)

Publication Number Publication Date
CN101385023A CN101385023A (zh) 2009-03-11
CN101385023B true CN101385023B (zh) 2011-10-05

Family

ID=38335206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800051444A Expired - Fee Related CN101385023B (zh) 2006-02-09 2007-01-19 矢量图形文档中的列表检测

Country Status (5)

Country Link
US (1) US7836399B2 (zh)
KR (1) KR20080100179A (zh)
CN (1) CN101385023B (zh)
BR (1) BRPI0706718A2 (zh)
WO (1) WO2007094913A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8057679B2 (en) 2008-07-09 2011-11-15 Baxter International Inc. Dialysis system having trending and alert generation
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
EP2732381A4 (en) 2011-07-11 2015-10-21 Paper Software LLC METHOD AND SYSTEM TO SEARCH FOR A DOCUMENT
CA2840233A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
US10540426B2 (en) * 2011-07-11 2020-01-21 Paper Software LLC System and method for processing document
US10572578B2 (en) 2011-07-11 2020-02-25 Paper Software LLC System and method for processing document
US9251287B2 (en) 2011-08-26 2016-02-02 International Business Machines Corporation Automatic detection of item lists within a web page
US9384172B2 (en) * 2012-07-06 2016-07-05 Microsoft Technology Licensing, Llc Multi-level list detection engine
US9483740B1 (en) 2012-09-06 2016-11-01 Go Daddy Operating Company, LLC Automated data classification
US9516089B1 (en) * 2012-09-06 2016-12-06 Locu, Inc. Identifying and processing a number of features identified in a document to determine a type of the document
CN102929859B (zh) * 2012-09-27 2015-07-08 东莞宇龙通信科技有限公司 辅助阅读的方法及装置
US10061773B1 (en) * 2013-08-12 2018-08-28 Ca, Inc. System and method for processing semi-structured data
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与系统
US9311295B2 (en) * 2014-01-30 2016-04-12 International Business Machines Corporation Procedure extraction and enrichment from unstructured text using natural language processing (NLP) techniques
US9842251B2 (en) 2016-01-29 2017-12-12 Konica Minolta Laboratory U.S.A., Inc. Bulleted lists
US9858129B2 (en) * 2016-02-16 2018-01-02 International Business Machines Corporation Dynamic copy content retrieval
CN107291560A (zh) * 2016-03-31 2017-10-24 北京三星通信技术研究有限公司 一种智能设备的内容确定方法和装置
US11514258B2 (en) * 2018-09-20 2022-11-29 International Business Machines Corporation Table header detection using global machine learning features from orthogonal rows and columns
US11262979B2 (en) * 2019-09-18 2022-03-01 Bank Of America Corporation Machine learning webpage accessibility testing tool
EP3862918B1 (en) * 2020-02-07 2023-11-01 MyScript Structural decomposition in handwriting
US20240126800A1 (en) * 2022-10-16 2024-04-18 Oracle International Corporation Generating tagged content from a list in an electronic document

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1107169A2 (en) * 1999-12-02 2001-06-13 Hewlett-Packard Company, A Delaware Corporation Method and apparatus for performing document structure analysis

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613019A (en) * 1993-05-20 1997-03-18 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
US5517578A (en) * 1993-05-20 1996-05-14 Aha! Software Corporation Method and apparatus for grouping and manipulating electronic representations of handwriting, printing and drawings
US6587587B2 (en) * 1993-05-20 2003-07-01 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
JP4074366B2 (ja) * 1998-02-24 2008-04-09 コニカミノルタビジネステクノロジーズ株式会社 画像検索装置及び方法並びに画像検索プログラムを記録した記録媒体
US6487566B1 (en) * 1998-10-05 2002-11-26 International Business Machines Corporation Transforming documents using pattern matching and a replacement language
US6209124B1 (en) * 1999-08-30 2001-03-27 Touchnet Information Systems, Inc. Method of markup language accessing of host systems and data using a constructed intermediary
US6430624B1 (en) * 1999-10-21 2002-08-06 Air2Web, Inc. Intelligent harvesting and navigation system and method
US6757870B1 (en) * 2000-03-22 2004-06-29 Hewlett-Packard Development Company, L.P. Automatic table detection method and system
US6782380B1 (en) * 2000-04-14 2004-08-24 David Victor Thede Method and system for indexing and searching contents of extensible mark-up language (XML) documents
DE10041165B4 (de) * 2000-08-21 2005-07-07 Leica Microsystems Heidelberg Gmbh Verfahren und Anordnung zur Steuerung von Analyse- und Einstellvorgängen eines Mikroskops
US7194411B2 (en) * 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading
WO2002097667A2 (en) * 2001-05-31 2002-12-05 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
US20040006742A1 (en) 2002-05-20 2004-01-08 Slocombe David N. Document structure identifier
US7295708B2 (en) * 2003-09-24 2007-11-13 Microsoft Corporation System and method for detecting a list in ink input
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7508985B2 (en) * 2003-12-10 2009-03-24 International Business Machines Corporation Pattern-matching system
US7394935B2 (en) * 2004-09-21 2008-07-01 Microsoft Corporation System and method for editing a hand-drawn chart in ink input

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1107169A2 (en) * 1999-12-02 2001-06-13 Hewlett-Packard Company, A Delaware Corporation Method and apparatus for performing document structure analysis

Also Published As

Publication number Publication date
WO2007094913A1 (en) 2007-08-23
BRPI0706718A2 (pt) 2011-04-05
CN101385023A (zh) 2009-03-11
US20070185837A1 (en) 2007-08-09
US7836399B2 (en) 2010-11-16
KR20080100179A (ko) 2008-11-14

Similar Documents

Publication Publication Date Title
CN101385023B (zh) 矢量图形文档中的列表检测
US7707488B2 (en) Analyzing lines to detect tables in documents
CN101443790B (zh) 数字图像中的非回流内容的有效处理
US9032285B2 (en) Selective content extraction
DE et al. Automated detection of reference structures in law
US8672682B2 (en) Conversion of alphabetic words into a plurality of independent spellings
US20140258852A1 (en) Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document
CN113610068B (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN112733056B (zh) 一种文档处理方法、装置、设备及存储介质
Shillingsburg Development principles for virtual archives and editions
WO1986005294A1 (en) Electronic text handling
Blenkhorn et al. Automated braille production from word-processed documents
US7359850B2 (en) Spelling and encoding method for ideographic symbols
Bartalesi Lenzi et al. Investigating an accessible and usable ePub book via VoiceOver: a case study
CN113345409B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
KR20190093439A (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
CN115080743A (zh) 数据处理方法、数据处理装置、电子设备及存储介质
JP2005070939A (ja) 文字列処理装置、文字列処理方法、プログラム及び記録媒体
JP2006252164A (ja) 中国語文書処理装置
US11170182B2 (en) Braille editing method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same
CN113052179B (zh) 多音字处理方法、装置、电子设备及存储介质
JP7561378B2 (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
NARAYANA et al. Data Mining Methods for Performing a Plagiarism Check
US9405732B1 (en) System and method for displaying quotations
CN114970493A (zh) 生成标记语料的方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150505

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150505

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111005

Termination date: 20190119