CN101308488A - 基于版式文件的文档流式信息处理方法及装置 - Google Patents

基于版式文件的文档流式信息处理方法及装置 Download PDF

Info

Publication number
CN101308488A
CN101308488A CNA2008101144372A CN200810114437A CN101308488A CN 101308488 A CN101308488 A CN 101308488A CN A2008101144372 A CNA2008101144372 A CN A2008101144372A CN 200810114437 A CN200810114437 A CN 200810114437A CN 101308488 A CN101308488 A CN 101308488A
Authority
CN
China
Prior art keywords
content
document
layout files
information
streaming information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101144372A
Other languages
English (en)
Other versions
CN101308488B (zh
Inventor
仇睿恒
王毅
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN2008101144372A priority Critical patent/CN101308488B/zh
Publication of CN101308488A publication Critical patent/CN101308488A/zh
Priority to EP09757091A priority patent/EP2291010A1/en
Priority to JP2011511963A priority patent/JP2011523133A/ja
Priority to PCT/CN2009/072147 priority patent/WO2009146657A1/zh
Priority to US12/996,225 priority patent/US20110087959A1/en
Application granted granted Critical
Publication of CN101308488B publication Critical patent/CN101308488B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于版式文件的文档流式信息处理方法及装置,具体公开了如下技术方案:获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。从而使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式信息的处理更加灵活、简化。

Description

基于版式文件的文档流式信息处理方法及装置
技术领域
本发明涉及计算机信息处理技术领域,特别涉及基于版式文件的文档流式信息处理方法及装置。
背景技术
版式文件采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个文档显示的位置和尺寸等,从而使文档打印出来的结果和在计算机上浏览的结果一致,而且在任何计算机环境下具有显示一致性的特点,以保证真实地重现文档的原貌,例如目前的PDF文件就是一种比较典型的版式文件。由于版式文件的相对稳定性,因此非常适合作为电子文档的最终发布和传播形式,广泛用于电子公文、电子书、电子期刊、电子报纸等领域。
随着计算机技术的普及和信息技术的发展,版式文件的数量呈现爆炸性增长,同时目前客户端种类增多,例如PDA、智能手机等,用户要求在多种客户端上都能够方便的阅读版式文件,这就要求客户端能够突破版式文件显示固定的局限性,根据显示设备屏幕的大小对版式文件的内容重新进行排版。同时由于版式文件用绝对数值精确指定每个文档显示的位置和尺寸,使得它不利于编辑,每次修改文档内容后都需要对布局重新计算,重写整个文档的布局信息,因此对版式文件内容的检索、结构化存储、修改、提取等编辑操作都会非常麻烦。
对版式文件进行排版和重新排版处理都需要参照版式文件中的文档流式信息,其中文档流式信息包含文档结构信息、阅读线索和版面信息等,然而目前大量的版式文件中都还不包含这类文档流式信息。
发明内容
有鉴于此,本发明提供一种基于版式文件的文档流式信息处理方法及装置,用以切实可行的描述版式文件的文档流式信息,并使版式文件的文档流式信息描述简化。
本发明提供以下技术方案:
一种基于版式文件的文档流式信息处理方法,包括步骤:
获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;
根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;
描述所述版式文件的内容块划分结果信息;
根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。
一种基于版式文件的文档流式信息处理装置,包括:
文档流式信息获得模块,用于获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;
内容块划分模块,用于根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;
内容块划分结果信息描述模块,用于描述所述版式文件的内容块划分结果信息;
文档流式信息描述模块,用于根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。
本发明有益效果如下:
本发明提供的技术方案通过获得版式文件的文档流式信息,根据获得的文档流式信息,对版式文件的文档内容进行内容块划分,描述内容块划分结果信息,根据内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式信息的处理更加灵活、简化。
附图说明
图1为本发明实施例中,基于版式文件的文档流式信息处理方法流程示意图;
图2为本发明实施例中,描述基于内容块划分后的版式文件的文档流式信息示意图;
图3为本发明实施例中,版式文件及其内容描述示意图;
图4为本发明实施例中,图3所示版式文件的内容块划分方式示意图;
图5为本发明实施例中,描述图3所示版式文件的内容块划分结果信息示意图;
图6为本发明实施例中,图3所示版式文件划分内容块后的文档流式信息中的文档结构信息示意图;
图7为本发明实施例中,图3所示版式文件划分内容块后的文档流式信息中的文档版面自适应呈现信息示意图;
图8为本发明实施例中,基于版式文件的文档流式信息处理装置结构示意图;
图9为本发明实施例中,采用划分内容参考序列的方法对版式文件的文档内容进行内容块划分示意图。
具体实施方式
本发明实施例中,首先获得版式文件的文档流式信息,根据获得的流式信息将版式文件的文档内容划分为多个内容块,并描述内容块划分结果信息,再根据得到的内容块划分结果信息,描述划分为多个内容块的版式文件的文档流式信息,从而可以切实可行的描述版式文件的文档流式信息,并使版式文件的文档流式信息描述简化。
下面结合说明书附图对本发明实施例进行详细说明。
如图1所示,为基于版式文件的文档流式信息处理方法流程图,具体包括如下步骤:
步骤101,获得版式文件的文档流式信息;其中这里的版式文件可以指整个版式文件,也可以指整个版式文件中的一页文件或几页文件等;版式文件的文档流式信息具体指版式文件中文档内容结构信息和/或版式文件中文档版面自适应呈现信息,可以但不限于包含以下三类信息:
文档内容结构信息,包括文档的章节信息、各章节内部内容块顺序以及内容块中各图元的顺序等;
阅读线索信息,具体指除了上述文档内容结构信息提供的阅读顺序外,根据具体需要提供的额外的阅读顺序信息,它是提供给用户的可选的阅读顺序信息。阅读线索信息可以是版式文件全部文档内容的阅读顺序信息,也可以是版式文件部分文档内容的阅读顺序信息;
版面信息,具体指版式文件版面重排时决定图元最终呈现效果的信息,包括图元自身或者内容块自身的版面属性,以及同一内容块中各图元之间或者各内容块之间的版面关系,例如指定图片的文字衬托方式或指定多个内容块的分栏信息。上述版面重排指的是由于版面大小或者版面内容发生变化时,根据一定规则重新组织版面中的各图元,形成版面展现结果的过程。
本发明实施例这里可以通过以下三种方式中的一种或者几种的组合来获得版式文件的文档流式信息:
对于已经包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以通过对版式文件的各种文档内容来源进行解析,直接获得版式文件的文档流式信息,例如,对于与版式文件所对应的、已经包含部分文档流式信息的电子文档,如HTML、Microsoft Word等,可以利用该文档的文档处理系统,对其中的文档流式信息进行提取,例如对于Microsoft Word文档可以利用Office自动化对象来获得其文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以利用各种识别算法或智能理解算法,对版式文件进行计算来获得版式文件的文档流式信息,例如,可以通过基于文档分析和文档理解的处理系统来对版式文件进行计算,以获得该版式文件的文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,还可以通过接收外界用户输入的针对版式文件的文档流式信息,来获得版式文件的文档流式信息,例如,用户可以通过一个带有图形界面的计算机应用程序,通过对版式文件的文档内容进行标注,来实现输入该版式文件的文档流式信息。
步骤102,根据上述获得的文档流式信息,对该版式文件的文档内容进行内容块划分;
将版式文件的文档内容划分为多个内容块可以通过基于版式文件直接组织的方法来实现:即将版式文件的每一组命令语句、或每一组对象或者每一段内容描述作为一个内容块单位,对该版式文件的文档内容进行内容块划分处理,具体来说,按照文档流式信息的需要,可以使用语句号、语句长度、语句偏移量,或对象标识、对象偏移量,或内容标识、内容偏移量或者某些特殊符号等方式,将该版式文件的文档内容拆分成不同的内容块。其中,各个划分出的内容块之间允许内容相互重叠,且可以为每个划分出的内容块赋予一个唯一编号。
此外,对版式文件的文档内容进行内容块划分,还可以通过划分内容参考序列的方法来实现,具体步骤为:
获取版式文件的内容参考序列,其中内容参考序列是指将版式文件文档内容中的文本、图片、表格等各种图元按照某种确定的顺序排列为一个有序序列,这种顺序可以是图元在版式文件内容数据流中出现的先后顺序,也可以是文档树结构的某种遍历顺序。将获取的内容参考序列通过某种方式划分为多个有序的内容参考子序列,将每个划分出的内容参考子序列作为一个内容块;这些内容参考子序列允许内容相互重叠,并且可以为每个划分出的内容参考子序列赋予一个唯一编号。其中可以利用图元在内容参考序列中的偏移位置,来划分内容参考序列,也可以依据内容参考序列中某种或某些特殊图元符号的位置,来划分内容参考序列,还可以依据内容参考序列中某种或某些标识的位置,来划分内容参考序列。
步骤103,根据上述内容块的划分结果,描述该版式文件的内容块划分结果信息;其中可以但不限于采用结构化标记语言(例如XML语言、SGML语言等)来描述内容块划分结果信息。
步骤104,根据上述描述出的内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。
其中描述基于内容块划分后的该版式文件的文档流式信息,具体是指描述各内容块本身的文档流式信息和各内容块之间的关系,包括文档结构信息、阅读线索信息和版面信息等。其中可以但不限于采用XML语言、SGML语言来描述基于内容块划分后的该版式文件的文档流式信息。
可以进而将上述描述得到的内容块划分结果信息与文档流式信息进行关联,并将关联后的内容块划分结果信息与文档流式信息对应存储。此外内容块划分结果信息和文档流式信息可以与版式文件分开存放,也可以嵌入到版式文件中,成为版式文件中的一个数据块。
图2是依照本发明提供的方法描述基于内容块划分后的版式文件的文档流式信息示意图,将版式文件205的文档内容划分为多个内容块,并采用结构化标记语言来描述内容块划分结果信息204,根据内容块划分结果信息204,描述基于内容块划分后的该版式文件205的文档流式信息,文档流式信息包括文档结构信息201、阅读线索信息202和版面信息203,其中该实施例中文档流式信息(包括基于内容块划分后的该版式文件205的文档结构信息201、阅读线索信息202和版面信息203)和内容块划分结果信息204,与版式文件205是分开存放的。
下面将给出更为具体的实施例。
如图3所示,一个显示如301的版式文件,其文档内容描述为302和303所示,其中包含文本对象和图像图元对象。302是版式文件的文本对象和图像图元对象的内容定义,每个内容定义在版式文件中拥有一个对象标识(ID)。303表示了在版式文件中根据对象标识(ID)来使用已经定义的图元对象或文本对象,从而在版式文件显示时显示出302中定义的图元对象和文本对象。
图4和图5是通过智能理解算法对图3中的版式文件301进行计算而获得对应该版式文件301的文档流式信息后,对版式文件301的文档内容进行内容块划分,并且描述内容块划分结果信息的具体实施例示意图。其中图4示出了一种对版式文件的文档内容进行内容块划分处理的方式,按照将形成版式文件的不同对象划分为不同内容块的方式,将版式文件301中标识为1和3的图元对象划分为一个内容块,划分出的该内容块的编号为9,将标识为2的图元对象划分为一个内容块,划分出的该内容块的编号为8。图5为采用XML语言描述内容块划分结果信息的示意图。
图6、图7是针对基于内容块划分后的版式文件的文档流式信息示意图。其中图6是基于内容块划分后的版式文件的文档流式信息中的文档结构信息,该文档结构信息指定了文档的章节树和各章节内的内容块顺序(图中具体使用内容块编号表示),具体来说,图6声明了版式文件中的一个段落,此段落中包含了编号为8和9的内容块。图7是基于内容块划分后的版式文件的文档流式信息中的文档版面自适应呈现信息示意图,其具体指定了编号为9的内容块中对象标识为1的文本对象和对象标识为3的图元对象的顺序调整方式,即将对象标识为3的图元对象插入到对象标识为1的文本对象“这是一”的第一个字之后。
阅读线索信息是一种特殊的文档内容结构信息,它可以从已有的文档内容结构信息中直接获取,也可以由用户自由指定,阅读线索信息的处理方式与文档内容结构信息的处理方式一致,所以这里没有展示阅读线索信息的实例。
相应的,本发明实施例还提供了一种基于版式文件的文档流式信息处理装置,其结构如图8所示,包括:
文档流式信息获得模块801,用于获得版式文件的文档流式信息,其中这里的版式文件可以指整个版式文件,也可以指整个版式文件中的一页文件或几页文件等;版式文件的文档流式信息具体指版式文件中文档内容结构信息和/或版式文件中文档版面自适应呈现信息,可以但不限于包含以下三类信息:
文档内容结构信息,包括文档的章节信息、各章节内部内容块顺序以及内容块中各图元的顺序等;
阅读线索信息,具体指除了上述文档内容结构信息提供的阅读顺序外,根据具体需要提供的额外的阅读顺序信息,它是提供给用户的可选的阅读顺序信息。阅读线索信息可以是版式文件全部文档内容的阅读顺序信息,也可以是版式文件部分文档内容的阅读顺序信息;
版面信息,具体指版式文件版面重排时决定图元最终呈现效果的信息,包括图元自身或者内容块自身的版面属性,以及同一内容块中各图元之间或者各内容块之间的版面关系,例如指定图片的文字衬托方式或指定多个内容块的分栏信息。上述版面重排指的是由于版面大小或者版面内容发生变化时,根据一定规则重新组织版面中的各图元,形成版面展现结果的过程。
内容块划分模块802,用于根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分。
内容块划分结果信息描述模块803,用于描述所述版式文件的内容块划分结果信息;
文档流式信息描述模块804,用于根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息;
关联并存储模块805,用于将描述得到的内容块划分结果信息和描述得到的文档流式信息进行关联并存储。
下面结合图8对本发明提供的基于版式文件的文档流式信息处理装置的工作过程进行详细描述。
文档流式信息获得模块801采用以下至少一种方式来获得版式文件的文档流式信息:
对于已经包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以通过对版式文件的各种文档内容来源进行解析,直接获得版式文件的文档流式信息,例如,对于与版式文件所对应的、已经包含部分文档流式信息的电子文档,如HTML、Microsoft Word等,可以利用该文档的文档处理系统,对其中的文档流式信息进行提取,例如对于Microsoft Word文档可以利用Office自动化对象来获得其文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,可以利用各种识别算法或智能理解算法,对版式文件进行计算来获得版式文件的文档流式信息,例如,可以通过基于文档分析和文档理解的处理系统来对版式文件进行计算,以获得该版式文件的文档流式信息;
对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来源时,还可以通过接收外界用户输入的针对版式文件的文档流式信息,来获得版式文件的文档流式信息,例如,用户可以通过一个带有图形界面的计算机应用程序,通过对版式文件的文档内容进行标注,来实现输入该版式文件的文档流式信息。
内容块划分模块802根据获得的文档流式信息,将版式文件的每一组命令语句、或每一组对象或者每一段内容描述作为一个内容块单位,对该版式文件的文档内容进行内容块划分处理。具体来说,按照文档流式信息的需要,可以使用语句号、语句长度、语句偏移量,或对象标识、对象偏移量,或内容标识、内容偏移量或者某些特殊符号等方式,将该版式文件的文档内容拆分成不同的内容块。其中,各个划分出的内容块之间允许内容相互重叠,且可以为每个划分出的内容块赋予一个唯一编号。
参照图9,将版式文件划分为多个内容块还可以利用内容参考序列获取子模块901来获取版式文件的内容参考序列,内容块划分子模块902根据获得的文档流式信息,将获取的内容参考序列划分为多个内容参考子序列,每个内容参考子序列作为划分出的一个内容块,这些内容参考子序列允许内容相互重叠,并且可以为每个划分出的内容参考子序列赋予一个唯一编号。
内容块划分结果信息描述模块803根据上述内容块划分结果,描述该版式文件的内容块划分结果信息,其中可以但不限于采用结构化标记语言(例如XML语言、SGML语言等)来描述内容块划分结果信息。
文档流式信息描述模块804根据上述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息,其中描述基于内容块划分后的该版式文件的文档流式信息,具体是指描述各内容块本身的文档流式信息和各内容块之间的关系,包括文档结构信息、阅读线索信息和版面信息等。其中可以但不限于采用XML语言、SGML语言来描述基于内容块划分后的该版式文件的文档流式信息。
关联并存储模块805将上述内容块划分结果信息和文档流式信息进行关联,并将关联后的内容块划分结果信息与文档流式信息对应存储。其中,内容块划分结果信息和文档流式信息可以与版式文件分开存放,也可以嵌入到版式文件中,成为版式文件中的一个数据块。
在实际应用中,可以将上述存储的内容块划分结果信息与文档流式信息通过转发或复制等方式移动到其他的存储设备上,从而使其他的用户终端能够直接、方便的使用基于内容块划分后的该版式文件的文档流式信息。
另外,与本发明实施例提供的基于版式文件的文档流式信息处理系统交互的外部系统可能有格式转换系统。版面重排系统等,这些系统利用基于内容块划分后的版式文件的文档流式信息再对版式文件进行处理,例如信息提取。重排页面。转换为其他格式的文件等。
综上所述,本发明提供的基于版式文件的文档流式信息处理方法和系统通过获得版式文件的文档流式信息,根据获得的流式信息将版式文件的文档内容划分为多个内容块,并描述内容块划分结果信息,再根据得到的内容块划分结果信息,描述划分为多个内容块的版式文件的文档流式信息,从而可以切实可行的描述版式文件的文档流式信息,并使版式文件的文档流式信息描述简化。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1、一种基于版式文件的文档流式信息处理方法,其特征在于,包括:
获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;
根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;
描述所述版式文件的内容块划分结果信息;
根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。
2、如权利要求1所述的方法,其特征在于,采用以下至少一种方式获取版式文件的文档流式信息:
根据版式文件的文档内容来源,获得该版式文件的文档流式信息;
对该版式文件进行计算获得该版式文件的文档流式信息;
通过接收外界输入的针对该版式文件的文档流式信息,来获得该版式文件的文档流式信息。
3、如权利要求1所述的方法,其特征在于,根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分具体为:
将形成版式文件的每组命令语句分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或
将形成版式文件的每组对象分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或
将形成版式文件的每组内容描述分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分。
4、如权利要求1所述的方法,其特征在于,根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分具体包括;
获取形成所述版式文件的内容参考序列;
根据所述获得的文档流式信息,将所述获取的内容参考序列划分为多个内容参考子序列,每个内容参考子序列作为划分出的一个内容块。
5、如权利要求1所述的方法,其特征在于,还包括:
将描述得到的内容块划分结果信息和描述得到的文档流式信息进行关联并存储。
6、如1~5任一权利要求所述的方法,其特征在于,采用结构化标记语言来描述内容块划分结果信息和文档流式信息。
7、一种基于版式文件的文档流式信息处理装置,其特征在于,包括:
文档流式信息获得模块,用于获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;
内容块划分模块,用于根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;
内容块划分结果信息描述模块,用于描述所述版式文件的内容块划分结果信息;
文档流式信息描述模块,用于根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。
8、如权利要求7所述的装置,其特征在于,所述文档流式信息获得模块采用以下至少一种方式获取版式文件的文档流式信息:
根据版式文件的文档内容来源,获得该版式文件的文档流式信息;
对该版式文件进行计算获得该版式文件的文档流式信息;
通过接收外界输入的针对该版式文件的文档流式信息,来获得该版式文件的文档流式信息。
9、如权利要求7所述的装置,其特征在于,所述内容块划分模块将形成版式文件的每组命令语句分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或
将形成版式文件的每组对象分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分;或
将形成版式文件的每组内容描述分别作为一个内容块单位,对所述版式文件的文档内容进行内容块划分。
10、如权利要求7所述的装置,其特征在于,所述内容块划分模块包括:
内容参考序列获取子模块,用于获取形成所述版式文件的内容参考序列;
内容块划分子模块,用于根据所述获得的文档流式信息,将所述获取的内容参考序列划分为多个内容参考子序列,每个内容参考子序列作为划分出的一个内容块。
11、如权利要求7所述的装置,其特征在于,还包括:
关联存储模块,用于将描述得到的内容块划分结果信息和描述得到的文档流式信息进行关联并存储。
12、如7~11任一权利要求所述的装置,其特征在于,采用结构化标记语言来描述内容块划分结果信息和文档流式信息。
CN2008101144372A 2008-06-05 2008-06-05 基于版式文件的文档流式信息处理方法及装置 Expired - Fee Related CN101308488B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN2008101144372A CN101308488B (zh) 2008-06-05 2008-06-05 基于版式文件的文档流式信息处理方法及装置
EP09757091A EP2291010A1 (en) 2008-06-05 2009-06-05 Structure processing method and apparatus for layout file
JP2011511963A JP2011523133A (ja) 2008-06-05 2009-06-05 レイアウトファイルの構造処理方法及び装置
PCT/CN2009/072147 WO2009146657A1 (zh) 2008-06-05 2009-06-05 版式文件的结构处理方法及装置
US12/996,225 US20110087959A1 (en) 2008-06-05 2009-06-06 Method and device for processing the structure of a layout file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101144372A CN101308488B (zh) 2008-06-05 2008-06-05 基于版式文件的文档流式信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN101308488A true CN101308488A (zh) 2008-11-19
CN101308488B CN101308488B (zh) 2010-06-02

Family

ID=40124948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101144372A Expired - Fee Related CN101308488B (zh) 2008-06-05 2008-06-05 基于版式文件的文档流式信息处理方法及装置

Country Status (5)

Country Link
US (1) US20110087959A1 (zh)
EP (1) EP2291010A1 (zh)
JP (1) JP2011523133A (zh)
CN (1) CN101308488B (zh)
WO (1) WO2009146657A1 (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009146657A1 (zh) * 2008-06-05 2009-12-10 北大方正集团有限公司 版式文件的结构处理方法及装置
CN101963955A (zh) * 2010-09-17 2011-02-02 深圳市万兴软件有限公司 XML格式文档转换为Word格式文档的系统和方法
CN102045388A (zh) * 2010-11-25 2011-05-04 汉王科技股份有限公司 在线阅读装置及在线阅读方法
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
CN102521219A (zh) * 2011-12-19 2012-06-27 方正国际软件有限公司 版式与流式混合排版系统及其排版方法
CN102541826A (zh) * 2010-12-27 2012-07-04 北大方正集团有限公司 文字块内容重组方法及装置
CN102541819A (zh) * 2010-12-27 2012-07-04 北大方正集团有限公司 一种电子文档阅读模式处理的方法及装置
CN101887413B (zh) * 2009-05-14 2012-07-04 北大方正集团有限公司 版式表格的结构处理方法和系统
CN102841886A (zh) * 2011-06-21 2012-12-26 北大方正集团有限公司 拆分文档的方法和装置
CN103150704A (zh) * 2011-12-07 2013-06-12 中国移动通信集团广东有限公司 一种数据处理方法及装置
CN103294650A (zh) * 2012-02-29 2013-09-11 北大方正集团有限公司 一种显示电子文档的方法和装置
CN104142961A (zh) * 2013-05-10 2014-11-12 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法
CN104424174A (zh) * 2013-09-11 2015-03-18 北京大学 文档处理系统和文档处理方法
CN104536947A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN104572606A (zh) * 2013-10-17 2015-04-29 北大方正集团有限公司 电子书处理方法和装置
CN105260353A (zh) * 2015-10-23 2016-01-20 北大方正集团有限公司 一种移动终端的排版方法及装置
WO2016008347A1 (zh) * 2014-07-17 2016-01-21 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN105760358A (zh) * 2014-12-19 2016-07-13 阿里巴巴集团控股有限公司 电子书版面重排和电子书展示的方法及其装置
CN106708801A (zh) * 2016-11-29 2017-05-24 深圳市天朗时代科技有限公司 用于文本的校对方法
CN106802880A (zh) * 2015-11-25 2017-06-06 阿里巴巴集团控股有限公司 一种电子文档内容显示、处理方法及装置
CN107153633A (zh) * 2016-03-02 2017-09-12 北大方正集团有限公司 在线文档文件的切分方法和在线文档文件的切分系统
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN111046096A (zh) * 2019-12-16 2020-04-21 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN112732654A (zh) * 2021-01-12 2021-04-30 江苏中威科技软件系统有限公司 将文件的生命周期信息注册到ofd版式文件的方法
CN112883249A (zh) * 2021-03-26 2021-06-01 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法
CN113408251A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 版式文档的处理方法、装置、电子设备及可读存储介质
CN115017877A (zh) * 2022-08-10 2022-09-06 佳瑛科技有限公司 一种版式文件的储存方法及样本数据库本地重建方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078966A1 (en) * 2010-09-29 2012-03-29 International Business Machines Corporation File System With Content Identifiers
CN103927296A (zh) * 2014-03-06 2014-07-16 广东电网公司电网规划研究中心 输变电工程word文档段落内容中工程特性指标的智能提取方法
CN103914440A (zh) * 2014-03-06 2014-07-09 广东电网公司电网规划研究中心 输变电工程word文档表格内容中工程特性指标的智能提取方法
US10380227B2 (en) 2015-06-07 2019-08-13 Apple Inc. Generating layout for content presentation structures
CN109815243B (zh) * 2019-02-18 2020-03-03 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN112533022A (zh) * 2019-08-30 2021-03-19 中兴通讯股份有限公司 云化机顶盒透明度叠加方法、云化机顶盒及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5089990A (en) * 1984-08-14 1992-02-18 Sharp Kabushiki Kaisha Word processor with column layout function
JPH04185050A (ja) * 1990-11-20 1992-07-01 Ricoh Co Ltd ミクストモード端末装置
JP3489119B2 (ja) * 1991-08-09 2004-01-19 富士ゼロックス株式会社 文書処理装置
US6665841B1 (en) * 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
JP3835194B2 (ja) * 2001-03-30 2006-10-18 セイコーエプソン株式会社 ディジタルコンテンツ作成システム及びディジタルコンテンツ作成プログラム
US20040205553A1 (en) * 2001-08-15 2004-10-14 Hall David M. Page layout markup language
CN1529264A (zh) * 2003-10-06 2004-09-15 李少峰 通过文字块位置编码查找相关联多媒体内容的方法
WO2006046523A1 (ja) * 2004-10-25 2006-05-04 Nec Corporation 文書解析システム、及び文書適応システム
JP4047326B2 (ja) * 2004-11-25 2008-02-13 キヤノン株式会社 レイアウト装置、レイアウト方法及びプログラム
JP4733415B2 (ja) * 2005-04-05 2011-07-27 シャープ株式会社 電子文書の表示装置及び方法、並びにコンピュータプログラム
US7392473B2 (en) * 2005-05-26 2008-06-24 Xerox Corporation Method and apparatus for determining logical document structure
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
CN100429643C (zh) * 2005-12-07 2008-10-29 段君雷 面向多媒体网络电子出版物制作的实现方法
CN100356372C (zh) * 2005-12-31 2007-12-19 无锡永中科技有限公司 计算机版式文件生成方法和打开方法
US7788579B2 (en) * 2006-03-06 2010-08-31 Ricoh Co., Ltd. Automated document layout design
CN101169777A (zh) * 2007-11-13 2008-04-30 无锡永中科技有限公司 实现文字处理软件版式兼容的方法
CN101308488B (zh) * 2008-06-05 2010-06-02 北京大学 基于版式文件的文档流式信息处理方法及装置

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009146657A1 (zh) * 2008-06-05 2009-12-10 北大方正集团有限公司 版式文件的结构处理方法及装置
CN101887413B (zh) * 2009-05-14 2012-07-04 北大方正集团有限公司 版式表格的结构处理方法和系统
CN101963955A (zh) * 2010-09-17 2011-02-02 深圳市万兴软件有限公司 XML格式文档转换为Word格式文档的系统和方法
CN101963955B (zh) * 2010-09-17 2013-01-30 深圳市万兴软件有限公司 XML格式文档转换为Word格式文档的系统和方法
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
CN102479173B (zh) * 2010-11-25 2013-11-06 北京大学 识别版面阅读顺序的方法及装置
CN102045388A (zh) * 2010-11-25 2011-05-04 汉王科技股份有限公司 在线阅读装置及在线阅读方法
CN102045388B (zh) * 2010-11-25 2013-05-29 汉王科技股份有限公司 在线阅读装置及在线阅读方法
CN102541826A (zh) * 2010-12-27 2012-07-04 北大方正集团有限公司 文字块内容重组方法及装置
CN102541819A (zh) * 2010-12-27 2012-07-04 北大方正集团有限公司 一种电子文档阅读模式处理的方法及装置
CN102541826B (zh) * 2010-12-27 2014-08-06 北大方正集团有限公司 文字块内容重组方法及装置
CN102841886A (zh) * 2011-06-21 2012-12-26 北大方正集团有限公司 拆分文档的方法和装置
CN102841886B (zh) * 2011-06-21 2015-09-16 北大方正集团有限公司 拆分文档的方法和装置
CN103150704B (zh) * 2011-12-07 2016-04-27 中国移动通信集团广东有限公司 一种数据处理方法及装置
CN103150704A (zh) * 2011-12-07 2013-06-12 中国移动通信集团广东有限公司 一种数据处理方法及装置
CN102521219A (zh) * 2011-12-19 2012-06-27 方正国际软件有限公司 版式与流式混合排版系统及其排版方法
CN103294650B (zh) * 2012-02-29 2016-02-03 北大方正集团有限公司 一种显示电子文档的方法和装置
CN103294650A (zh) * 2012-02-29 2013-09-11 北大方正集团有限公司 一种显示电子文档的方法和装置
CN104142961A (zh) * 2013-05-10 2014-11-12 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法
CN104142961B (zh) * 2013-05-10 2017-08-25 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法
US9569407B2 (en) 2013-05-10 2017-02-14 Peking University Founder Group Co., Ltd. Apparatus and a method for logically processing a composite graph in a formatted document
CN104424174B (zh) * 2013-09-11 2017-11-07 北京大学 文档处理系统和文档处理方法
CN104424174A (zh) * 2013-09-11 2015-03-18 北京大学 文档处理系统和文档处理方法
CN104572606B (zh) * 2013-10-17 2018-01-26 北大方正集团有限公司 电子书处理方法和装置
CN104572606A (zh) * 2013-10-17 2015-04-29 北大方正集团有限公司 电子书处理方法和装置
CN105446946A (zh) * 2014-07-17 2016-03-30 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN105446946B (zh) * 2014-07-17 2019-08-02 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
WO2016008347A1 (zh) * 2014-07-17 2016-01-21 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN104536947A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN105760358A (zh) * 2014-12-19 2016-07-13 阿里巴巴集团控股有限公司 电子书版面重排和电子书展示的方法及其装置
CN105760358B (zh) * 2014-12-19 2019-07-23 阿里巴巴集团控股有限公司 电子书版面重排和电子书展示的方法及其装置
CN105260353A (zh) * 2015-10-23 2016-01-20 北大方正集团有限公司 一种移动终端的排版方法及装置
CN106802880A (zh) * 2015-11-25 2017-06-06 阿里巴巴集团控股有限公司 一种电子文档内容显示、处理方法及装置
CN106802880B (zh) * 2015-11-25 2020-12-04 创新先进技术有限公司 一种电子文档内容显示、处理方法及装置
CN107153633A (zh) * 2016-03-02 2017-09-12 北大方正集团有限公司 在线文档文件的切分方法和在线文档文件的切分系统
CN106708801A (zh) * 2016-11-29 2017-05-24 深圳市天朗时代科技有限公司 用于文本的校对方法
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN107977346B (zh) * 2017-11-23 2021-06-15 深圳市亿图软件有限公司 一种pdf文档编辑方法及终端设备
CN111046096B (zh) * 2019-12-16 2023-11-24 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN111046096A (zh) * 2019-12-16 2020-04-21 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN112732654A (zh) * 2021-01-12 2021-04-30 江苏中威科技软件系统有限公司 将文件的生命周期信息注册到ofd版式文件的方法
CN112883249A (zh) * 2021-03-26 2021-06-01 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法
CN112883249B (zh) * 2021-03-26 2022-10-14 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法
CN113408251B (zh) * 2021-06-30 2023-08-18 北京百度网讯科技有限公司 版式文档的处理方法、装置、电子设备及可读存储介质
CN113408251A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 版式文档的处理方法、装置、电子设备及可读存储介质
CN115017877A (zh) * 2022-08-10 2022-09-06 佳瑛科技有限公司 一种版式文件的储存方法及样本数据库本地重建方法
CN115017877B (zh) * 2022-08-10 2022-10-11 佳瑛科技有限公司 一种版式文件的储存方法及样本数据库本地重建方法

Also Published As

Publication number Publication date
CN101308488B (zh) 2010-06-02
US20110087959A1 (en) 2011-04-14
EP2291010A1 (en) 2011-03-02
WO2009146657A1 (zh) 2009-12-10
JP2011523133A (ja) 2011-08-04

Similar Documents

Publication Publication Date Title
CN101308488B (zh) 基于版式文件的文档流式信息处理方法及装置
CN111433762B (zh) 将软件应用的用户界面中的内容以图形方式进行组织
CN101271463B (zh) 版式文件的结构处理方法和系统
KR101627169B1 (ko) 증강현실 컨텐츠 저작 및 제공 시스템
US8996981B2 (en) Managing forms in electronic documents
US7982737B2 (en) System and method for independent font substitution of string characters
US20070266309A1 (en) Document transfer between document editing software applications
CN108710601B (zh) 一种文本显示方法及其设备、存储介质、电子设备
CN101751476A (zh) 电子书签标记方法和装置
WO2016032080A1 (ko) 메타 데이터를 이용한 차트 변환 시스템 및 그 방법
CN101751379B (zh) 一种电子报纸文档制作的方法和设备
CN101771681A (zh) 一种页面显示控制方法、服务器及系统
CN103309879B (zh) 一种管理word文档中的标记的方法及装置
CN104111922A (zh) 一种流式文档的处理方法及装置
CN101963954A (zh) 一种文字显示的方法及装置
CN102830947A (zh) 一种基于报表打印模板格式实现的报表打印控件
CN116383546B (zh) 文件处理方法、系统、计算机设备及计算机可读存储介质
JP2005004726A (ja) 電子化サービスマニュアル生成方法、付加データ生成方法、電子化サービスマニュアル生成用プログラム、並びに付加データ生成用プログラム
CN101655835B (zh) 电子文档中文字信息处理、输出和字符检索的方法及装置
CN107423271B (zh) 文档生成方法和装置
CN102110108B (zh) 一种对小样文件的处理方法及装置
CN103065337A (zh) 二维图形文件解析绘制系统及方法
CN112445474B (zh) 长文本文件名的显示方法、存储介质
CN110457659B (zh) 条款文档生成方法及终端设备
CN106484759B (zh) 交互式电子白板存储文件的解析方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220624

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee before: Peking University

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100602

CF01 Termination of patent right due to non-payment of annual fee