CN102110108A - 一种对小样文件的处理方法及装置 - Google Patents

一种对小样文件的处理方法及装置 Download PDF

Info

Publication number
CN102110108A
CN102110108A CN2009102439756A CN200910243975A CN102110108A CN 102110108 A CN102110108 A CN 102110108A CN 2009102439756 A CN2009102439756 A CN 2009102439756A CN 200910243975 A CN200910243975 A CN 200910243975A CN 102110108 A CN102110108 A CN 102110108A
Authority
CN
China
Prior art keywords
page
sample file
correspondence
content
positional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102439756A
Other languages
English (en)
Other versions
CN102110108B (zh
Inventor
张冠男
缪萍
杨燕菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN200910243975.6A priority Critical patent/CN102110108B/zh
Publication of CN102110108A publication Critical patent/CN102110108A/zh
Application granted granted Critical
Publication of CN102110108B publication Critical patent/CN102110108B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种对小样文件的处理方法及装置,用于解决从小样文件中提取信息不方便的问题。主要技术方案包括:确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在所述小样文件中的位置信息以及所述每页内容对应的页码;根据确定的所述位置信息从所述小样文件中获取所述排版文件中指定页数范围内每页内容对应的指定属性的对象,并分别利用每页内容对应的页码标识获取的所述对象后,将获取的所述对象按照指定格式保存。根据该技术方案,通过对小样文件进行处理,从小样文件中获取指定属性的对象并存储为设定格式,从而方便用户获取和利用。

Description

一种对小样文件的处理方法及装置
技术领域
本发明涉及数据排版技术领域,尤其涉及一种对小样文件的处理方法及装置。
背景技术
小样文件,是指使用特定语言注解信息的文本文件,已经普遍被出版界所编制和使用。小样文件中包含书籍的内容以及书籍的各种版式信息,采用特定语言描述书籍的板式、样式、数学公式、表格等各种对象。
目前小样文件多采用专门用以排版的类似HTML 1.0的标记语言进行编写,业界称该语言为BD语言。BD语言由100多个注解组成,每个注解都有自己的功能,指明排版的某些要求,并有确定的作用范围。BD语言每个注解都有一个或多个参数可选择,每个参数对应某个功能。多个注解联合使用,就可以完成比较复杂的版面排版。
小样文件通常保存的是一本书籍的全部信息,对于编辑等排版领域的工作人员来说,方便对书籍内容以及格式的全面了解。但从应用广泛应用角度而言,小样文件存在如下局限性:
首先,小样文件中不仅包括了正文内容、目录、附录和页边页脚上面的文字内容,也包括了对书籍中所有文字、表格、图片的尺寸、字体、颜色等的定义。而且往往一本书籍的内容是保存在多份小样文件中,甚至于书籍中某一页的内容保存在多份小样文件中。
其次,一般小样文件采用的编写语言一般专门用于排版,所以在除排版外的一些场合使用时,例如只想将书本的内容存入数据库或者将某一页的内容显示在网页上时,从小样文件中获取内容将会变得非常复杂。
综上所述,基于小样文件存在的上述局限性,使得小样文件的应用范围非常有限,不方便直接从小样文件中提取需要的信息,例如,书籍正文部分某页的文本内容。
发明内容
有鉴于此,本发明实施例提供一种对小样文件的处理方法及装置,用于解决从小样文件中提取信息不方便的问题。
本发明实施例通过如下技术方案实现:
根据本发明实施例的一个方面,提供了一种对小样文件的处理方法。
根据本发明实施例提供的对小样文件的处理方法,包括:
确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在所述小样文件中的位置信息以及所述每页内容对应的页码;
根据确定的所述位置信息从所述小样文件中获取所述排版文件中指定页数范围内每页内容对应的指定属性的对象,并分别利用每页内容对应的页码标识获取的所述对象后,将获取的所述对象按照指定格式保存。
根据本发明实施例的另一个方面,还提供了一种对小样文件的处理装置。
根据本发明实施例提供的对小样文件的处理装置,包括:
信息确定单元,用于确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在所述小样文件中的位置信息以及所述每页内容对应的页码;
获取单元,用于根据所述信息确定单元确定的所述位置信息从所述小样文件中获取所述排版文件中指定页数范围内每页内容对应的指定属性的对象;
存储单元,用于分别利用每页内容对应的页码标识所述获取单元获取的所述对象后,将获取的所述对象按照指定格式保存。
通过本发明实施例提供的上述至少一个技术方案,确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在小样文件中的位置信息以及每页内容对应的页码,根据确定的位置信息从小样文件中获取排版文件中指定页数范围内每页内容对应的指定属性的对象,并分别利用每页内容对应的页码标识获取的对象后,将获取的对象按照指定格式保存。根据该技术方案,通过对小样文件进行处理,从小样文件中获取指定属性的对象并存储为设定格式,从而方便用户获取和利用。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的对小样文件的处理流程图一;
图2为本发明实施例提供的确定每页内容对应的属性对象信息的流程图一;
图3为本发明实施例提供的确定每页内容对应的属性对象信息的流程图二;
图4为本发明实施例提供的对小样文件的处理流程图二;
图5为本发明实施例提供的对小样文件的处理装置示意图一;
图6为本发明实施例提供的对小样文件的处理装置示意图二。
具体实施方式
为了给出便于从小样文件中提取信息的实现方案,本发明实施例提供了一种对小样文件的处理方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
根据本发明实施例,首先提供了一种对小样文件的处理方法,通过对小样文件进行处理,提取出方便用户获取的信息。
如图1所示,本发明实施例提供的对小样文件的处理过程,包括如下步骤:
步骤101、确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在小样文件中的位置信息以及每页内容对应的页码;
步骤102、根据确定的位置信息,从小样文件中获取排版文件中指定页数范围内每页内容对应的指定属性的对象;
步骤103、分别利用每页内容对应的页码标识获取的对象后,将获取的对象按照指定格式保存。
本发明优选实施例中,上述步骤101的具体执行过程,即确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在小样文件中的位置信息以及每页内容对应的页码,如图2所示,包括如下步骤:
步骤201、根据小样文件中包括的版面信息,生成虚拟显示页面;
步骤202、在生成的虚拟显示页面上显示小样文件对应排版文件中的每页内容,并在显示每页内容的过程中,记录当前页对应的页码以及当前页对应的不同属性对象在小样文件中的获取位置;
步骤203、将记录的当前页对应的不同属性对象在小样文件中的获取位置信息确定为当前页内容对应的不同属性对象在所述小样文件中的位置信息。
更为具体地,步骤202的具体执行过程,即在生成的虚拟显示页面上显示小样文件对应排版文件中的当前页内容,包括:
根据小样文件确定当前页内容对应的各属性对象以及各属性对象对应的显示样式;
根据确定的显示样式,在虚拟显示页面中显示所述各属性对象。
为了更好地理解本发明实施例,以下结合更为详细的实施例对确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在小样文件中的位置信息以及每页内容对应的页码进行说明,如图3所示,包括如下步骤:
步骤301、从小样文件中获取用于显示的版面信息。
该步骤中,获取的版面信息包括排版文件中每页内容显示的高和宽,更为具体地,还包括页边距、页眉页脚等信息。
步骤302、在内存中根据获取的版面信息生成一个虚拟显示页面。
该步骤中,生成的虚拟显示页面的尺寸为版面信息中指定的高宽。
步骤303、依照小样文件的顺序读取小样文件,读取小样文件内容。
步骤304、对读取的小样文件的注解进行解析,若解析结果为字体或段落等显示样式信息,则根据该显示样式信息设定当前虚拟显示页面的属性;若解析结果为正文内容,则读取对应的正文内容。
步骤305、根据获得的正文内容以及显示样式信息,在生成的虚拟显示页面上显示正文内容。
步骤306、从小样文件中获取当前显示的内容对应的页码,显示在虚拟页面上。
该步骤中,获取的页码信息可以为汉字、阿拉伯数字或者罗马数字。
步骤307、在当前虚拟显示页面排满后,记录当前页码上显示的信息,包括本页内容从小样文件中的获取位置、本页对应的页码。
进一步地,记录的信息还可以包括本页所使用的页码类型、本页相对页码信息等。
该步骤中,将记录的信息保存,并且将当前总页码计数加一。
步骤308、将所有小样文件全部依次处理完后,将针对每页记录的信息保存,生成一个辅助的文件。
该步骤中,生成的辅助文件中记录有全书的总页数、每页内容对应的不同属性对象在小样文件中的位置信息以及每页内容对应的页码等信息。
本发明优选实施例中,上述步骤102的具体执行过程,即根据确定的位置信息,从述小样文件中获取排版文件中当前页内容对应的指定属性的对象,包括如下两种方式:
方式一
针对要提取的属性设置提取关键字,并根据预设的提取关键字确定与提取关键字匹配的提取属性,根据确定的位置信息,从小样文件中提取当前页内容对应的提取属性的对象。
方式二
针对要提取的属性设置删除关键字,并根据预设的删除关键字确定与删除关键字匹配的删除属性,根据确定的位置信息从小样文件中删除当前页内容对应的删除属性的对象,并获取删除对象后当前页内容对应的未删除对象。
本发明优选实施例中,步骤103中,将获取的对象按照指定格式保存时,其中指定格式可以根据用户需求灵活设置,例如,可以以表格格式保存,或者根据提取或删除属性建立索引,以方便查找和获取。进一步地,为了方便获取的对象信息的扩展,可以将获取的对象转换为扩展标记语言XML格式保存。
相对于小样文件来说,XML文件具有良好的数据结构和可扩展性,是一种非常简单的数据存储语言,应用非常广泛。用XML格式存储从小样文件中提取出的对象后,页码信息会保存在“PageNum”字段中,提取出的当页内容(即对象)可以保存在“PageContent”字段中。用户可以非常简单地获取到以XML格式存在的文件,并应用在所需要的地方。根据本发明实施例提供的一个以XML格式存储的文件如下:
<Book>
  <Content>
    <Page>
       <PageNum>1</PageNum>
       <PageContent><![CDATA[第1页内容]]></PageContent>
     </Page>
     <Page>
        <PageNum>2</PageNum>
      <PageContent><![CDATA[第2页内容]]></PageContent>
    </Page>
    <Page>
      <PageNum>3</PageNum>
      <PageContent><![CDATA[第3页内容]]></PageContent>
    </Page>
  </Content>
</Book>
根据以上存储方式,Book节点下面有一个Content节点,Content节点下有N个Page节点,数字排版文件中的一页即对应于一个Page节点。其中,每个Page节点的结构也是固定的,如下:
PAGE-|-PageNum
     |-PageContent
所以,在获取小样文件的内容时,优选地以页为单位,在内容中生成一个如上面结构的树形结构,再将此树形结构各项内容依次写入一份空白的XML文件中,比如某个Page节点,首先在文件中写入<Page>的标签,再在Page标签内写入<PageNum>和<PageContent>的标签,然后将此页的PageNum和PageContent数据写入对应的标签内即可转换为XML格式。
如图4所示,本发明实施例提供的一个更为具体的实施例中,小样文件对应的排版文件为书籍,其中,对小样文件的处理过程包括如下步骤:
步骤401、打开小样文件并获得小样文件的对应书籍的总页数。
该步骤中,小样文件的对应书籍总页数包括:书籍前言页数、书籍正文页数以及数据附录页数。
步骤402、根据预设的关键字获取小样文件每一页内容对应的提取对象及对应的页码。
该步骤中,若预设的关键字为删除关键字,则获取小样文件页内容,在保证文章原有段落结构的基础上,过滤掉与预设删除关键字匹配的内容对象,例如,可以设置删除关键字对应的属性为数学公式、图片,特殊符号等,根据此删除关键字,将每页中的数学公式、图片,特殊符号等删除,剩下的内容即为要提取的内容。
进一步地,在获取到页内容文本后,根据本页的页码来判断本页内容是否属于正文,以及相对应的本页内容的相对页码(即在正文中对应的页码),其中,根据页码确定该页是否属于正文的过程如下:
例如,一本书一共100页,前言占10页,内容80页,附录10页。在处理小样文件时,能够确定三个页码区间:第1至第10页、第11至第90页、第91至第100页,页码均为小写罗马数字,并且页码从1开始。确定是否属于正文的过程为:将页码为阿拉伯数字,并且页码跨度最大的部分确定为正文。例如,在获取第50页的内容时,可由第50页处在正文页码区间内得知此页属于正文页,并可由正文在书籍中对应的页数从第11页开始,在正文部分对应的页数从1开始可知,第50页在书籍对应的总页码应该是40。
步骤403、将按页获取的小样文件内容数据写入XML文件。
该步骤中,首先查看页内容是否属于正文,若不属于正文,可以将该页对应的页码特殊标记,例如,将页码记为“*+页码“样式,用于与正文页码进行区分,以便于用户获取正文以及非正文内容。
然后,依次将页码及页内容文本添加入XML树结构中,并生成XML文件。
XML语言本身有良好的数据结构、跨平台行和可扩展性,是处理结构化文档信息的有力工具,很多场合都应用XML文件来做数据交换,数据传输的工作。使用XML文件来存储小样文件的内容文本。其结构化的特性可以很好的以页为单位存储小样的内容,并且它易于应用的特点也可以使用户可以很好的将其应用在数据库、网站等不同的方向。
由小样文件中按页获取小样文件内容文本的过程中,在保证文章原有段落结构的基础上,采用删除(过滤)或提取的方式从小样文件中提取需要的对象内容,可以进一步对该页内每个段落进行格式化处理,例如。获取到一个段落的全部内容后,首先要在段首添加空格,以便于上一段区分开,然后将段尾的多余的空格去掉,并在段尾处添加回车。另外,如果一页中最后N个段落都只是回车或者空格而没有内容,则删除这些段落,再将所获得的小样文件页内容文本输出到XML文件中。
与上述流程对应,本发明实施例还提供了一种对小样文件的处理装置,基于该装置,如图5所示,该装置包括:
信息确定单元501、获取单元502以及存储单元503;
其中:
信息确定单元501,用于确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在小样文件中的位置信息以及每页内容对应的页码;
获取单元502,用于根据信息确定单元501确定的位置信息,从小样文件中获取该排版文件中指定页数范围内每页内容对应的指定属性的对象;
存储单元503,用于分别利用每页内容对应的页码标识获取单元502获取的对象后,将获取的对象转换为指定格式保存。
进一步地,如图6所示,本发明优选实施例中,上述信息确定单元501还可以进一步包括:
显示页面生成模块501A、显示模块501B以及信息记录模块501C;
其中,
显示页面生成模块501A,用于根据小样文件中包括的版面信息,生成虚拟显示页面;
显示模块501B,用于在显示页面生成模块501A生成的虚拟显示页面上显示小样文件对应排版文件中的每页内容;
信息记录模块501C,用于在显示模块501B显示每页内容的过程中,记录当前页对应的页码以及当前页对应的不同属性对象在小样文件中的获取位置;并将记录的当前页对应的不同属性对象在小样文件中的获取位置信息确定为当前页内容对应的不同属性对象在小样文件中的位置信息。
进一步地,本发明优选实施例中,上述显示模块501B,具体用于:
根据小样文件确定当前页内容对应的各属性对象以及各属性对象对应的显示样式;
根据确定的显示样式,在虚拟显示页面中显示各属性对象。
进一步地,本发明优选实施例中,上述获取单元502,具体用于:
根据预设的提取关键字确定与提取关键字匹配的提取属性,根据确定的位置信息从小样文件中提取当前页内容对应的提取属性的对象;或
根据预设的删除关键字确定与删除关键字匹配的删除属性,根据确定的位置信息从小样文件中删除当前页内容对应的删除属性的对象,并获取删除所述对象后当前页内容对应的未删除对象。
进一步地,本发明优选实施例中,上述存储单元503,具体用于:
将获取的对象转换为扩展标记语言XML格式保存。
应当理解,上述装置包括的各个单元或模块仅为逻辑划分,可以根据需要对上述单元进行拆分或组合。并且,本实施例提供的对小样文件的处理装置所实现的功能与上述实施例提供的对小样文件的处理方法流程一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。
通过本发明实施例提供的上述至少一个技术方案,确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在小样文件中的位置信息以及每页内容对应的页码,根据确定的位置信息从小样文件中获取排版文件中指定页数范围内每页内容对应的指定属性的对象,并分别利用每页内容对应的页码标识获取的对象后,将获取的对象转换为指定格式保存。根据该技术方案,通过对小样文件进行处理,从小样文件中获取指定属性的对象并存储为设定格式,从而方便用户获取和利用。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种对小样文件的处理方法,其特征在于,包括:
确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在所述小样文件中的位置信息以及所述每页内容对应的页码;
根据确定的所述位置信息从所述小样文件中获取所述排版文件中指定页数范围内每页内容对应的指定属性的对象,并分别利用每页内容对应的页码标识获取的所述对象后,将获取的所述对象按照指定格式保存。
2.如权利要求1所述的方法,其特征在于,确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在所述小样文件中的位置信息以及所述每页内容对应的页码,包括:
根据所述小样文件中包括的版面信息,生成虚拟显示页面;
在所述虚拟显示页面上显示所述小样文件对应排版文件中的每页内容,并在显示每页内容的过程中,记录当前页对应的页码以及当前页对应的不同属性对象在所述小样文件中的获取位置;
将记录的当前页对应的不同属性对象在所述小样文件中的获取位置信息确定为当前页内容对应的不同属性对象在所述小样文件中的位置信息。
3.如权利要求2所述的方法,其特征在于,在所述虚拟显示页面上显示所述小样文件对应排版文件中的当前页内容,包括:
根据所述小样文件确定当前页内容对应的各属性对象以及各属性对象对应的显示样式;
根据确定的所述显示样式,在所述虚拟显示页面中显示所述各属性对象。
4.如权利要求1所述的方法,其特征在于,根据确定的所述位置信息从所述小样文件中获取所述排版文件中当前页内容对应的指定属性的对象,包括:
根据预设的提取关键字确定与所述提取关键字匹配的提取属性,根据确定的所述位置信息从所述小样文件中提取当前页内容对应的所述提取属性的对象;或
根据预设的删除关键字确定与所述删除关键字匹配的删除属性,根据确定的所述位置信息从所述小样文件中删除当前页内容对应的所述删除属性的对象,并获取删除所述对象后当前页内容对应的未删除对象。
5.如权利要求1所述的方法,其特征在于,将获取的所述对象按照指定格式保存,包括:
将获取的所述对象按照扩展标记语言XML格式保存。
6.一种对小样文件的处理装置,其特征在于,包括:
信息确定单元,用于确定待处理小样文件对应排版文件中每页内容对应的不同属性对象在所述小样文件中的位置信息以及所述每页内容对应的页码;
获取单元,用于根据所述信息确定单元确定的所述位置信息从所述小样文件中获取所述排版文件中指定页数范围内每页内容对应的指定属性的对象;
存储单元,用于分别利用每页内容对应的页码标识所述获取单元获取的所述对象后,将获取的所述对象按照指定格式保存。
7.如权利要求6所述的装置,其特征在于,所述信息确定单元,包括:
显示页面生成模块,用于根据所述小样文件中包括的版面信息,生成虚拟显示页面;
显示模块,用于在所述显示页面生成模块生成的虚拟显示页面上显示所述小样文件对应排版文件中的每页内容;
信息记录模块,用于在所述显示模块显示每页内容的过程中,记录当前页对应的页码以及当前页对应的不同属性对象在所述小样文件中的获取位置;并将记录的当前页对应的不同属性对象在所述小样文件中的获取位置信息确定为当前页内容对应的不同属性对象在所述小样文件中的位置信息。
8.如权利要求7所述的装置,其特征在于,所述显示模块,具体用于:
根据所述小样文件确定当前页内容对应的各属性对象以及各属性对象对应的显示样式;
根据确定的所述显示样式,在所述虚拟显示页面中显示所述各属性对象。
9.如权利要求6所述的装置,其特征在于,所述获取单元,具体用于:
根据预设的提取关键字确定与所述提取关键字匹配的提取属性,根据确定的所述位置信息从所述小样文件中提取当前页内容对应的所述提取属性的对象;或
根据预设的删除关键字确定与所述删除关键字匹配的删除属性,根据确定的所述位置信息从所述小样文件中删除当前页内容对应的所述删除属性的对象,并获取删除所述对象后当前页内容对应的未删除对象。
10.如权利要求6所述的装置,其特征在于,所述存储单元,具体用于:
将获取的所述对象按照扩展标记语言XML格式保存。
CN200910243975.6A 2009-12-28 2009-12-28 一种对小样文件的处理方法及装置 Expired - Fee Related CN102110108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910243975.6A CN102110108B (zh) 2009-12-28 2009-12-28 一种对小样文件的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910243975.6A CN102110108B (zh) 2009-12-28 2009-12-28 一种对小样文件的处理方法及装置

Publications (2)

Publication Number Publication Date
CN102110108A true CN102110108A (zh) 2011-06-29
CN102110108B CN102110108B (zh) 2014-01-08

Family

ID=44174271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910243975.6A Expired - Fee Related CN102110108B (zh) 2009-12-28 2009-12-28 一种对小样文件的处理方法及装置

Country Status (1)

Country Link
CN (1) CN102110108B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214244A (zh) * 2011-07-07 2011-10-12 深圳市万兴软件有限公司 docx文件信息解析方法及系统
CN103186519A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 双向排版方法和设备
CN103377182A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 流式排版页码的方法和装置
CN104111922A (zh) * 2013-04-16 2014-10-22 北大方正集团有限公司 一种流式文档的处理方法及装置
CN109815446A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086198A1 (en) * 2003-10-21 2005-04-21 Masahiro Shimizu Device and method for processing information, recording medium, computer program and contents-related data
CN101281544A (zh) * 2008-05-13 2008-10-08 北大方正集团有限公司 一种将小样文件转换为扩展标记语言文件的方法和系统
JP2009169593A (ja) * 2008-01-15 2009-07-30 Masatake Nishigami 商取引データ検索用サーバ

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086198A1 (en) * 2003-10-21 2005-04-21 Masahiro Shimizu Device and method for processing information, recording medium, computer program and contents-related data
JP2009169593A (ja) * 2008-01-15 2009-07-30 Masatake Nishigami 商取引データ検索用サーバ
CN101281544A (zh) * 2008-05-13 2008-10-08 北大方正集团有限公司 一种将小样文件转换为扩展标记语言文件的方法和系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214244A (zh) * 2011-07-07 2011-10-12 深圳市万兴软件有限公司 docx文件信息解析方法及系统
CN103186519A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 双向排版方法和设备
WO2013097805A1 (zh) * 2011-12-31 2013-07-04 北大方正集团有限公司 双向排版方法和设备
US9613005B2 (en) 2011-12-31 2017-04-04 Peking University Founder Group Co., Ltd. Method and apparatus for bidirectional typesetting
CN103186519B (zh) * 2011-12-31 2017-04-05 北大方正集团有限公司 双向排版方法和设备
CN103377182A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 流式排版页码的方法和装置
CN104111922A (zh) * 2013-04-16 2014-10-22 北大方正集团有限公司 一种流式文档的处理方法及装置
CN104111922B (zh) * 2013-04-16 2017-04-19 北大方正集团有限公司 一种流式文档的处理方法及装置
CN109815446A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备
CN109815446B (zh) * 2018-12-28 2023-04-07 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN102110108B (zh) 2014-01-08

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
EP2291010A1 (en) Structure processing method and apparatus for layout file
CN106354740A (zh) 一种电子试卷的导入方法
US20030004991A1 (en) Correlating handwritten annotations to a document
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
Griffiths et al. Learning LaTeX
CN107145479A (zh) 基于文本语义的篇章结构分析方法
CN104063364A (zh) 一种pdf文档识别方法
CN102110108B (zh) 一种对小样文件的处理方法及装置
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
CN103902918A (zh) 一种从Word文档中快速提取文字格式的方法和装置
Stokes et al. Modeling Medieval Handwriting: A New Approach to Digital Palaeography.
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
Blenkhorn et al. Automated braille production from word-processed documents
CN101464875A (zh) 使用xml表示电子字典数据的方法
CN105447027A (zh) 一种pdf文档目录的获取方法及装置
CN113033162A (zh) 一种可控制编辑规则的电子文档转换方法
US20150095314A1 (en) Document search apparatus and method
CN105320716A (zh) 数字出版物的自动标注方法
CN103942182B (zh) 一种英文文本格式优化方法及装置
CN104536948A (zh) 版式文档的处理方法及装置
CN102982036A (zh) 一种语料结构化的方法及装置
US7539611B1 (en) Method of identifying and highlighting text
Pandey Proposal to Encode the Sharada Script in ISO/IEC 10646
JP4415768B2 (ja) 住所テーブル生成支援方法及び装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140108

Termination date: 20191228

CF01 Termination of patent right due to non-payment of annual fee