CN107301180A - 一种文档结构的分析方法和装置 - Google Patents

一种文档结构的分析方法和装置 Download PDF

Info

Publication number
CN107301180A
CN107301180A CN201610233947.6A CN201610233947A CN107301180A CN 107301180 A CN107301180 A CN 107301180A CN 201610233947 A CN201610233947 A CN 201610233947A CN 107301180 A CN107301180 A CN 107301180A
Authority
CN
China
Prior art keywords
attribute
document
read
determinant
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610233947.6A
Other languages
English (en)
Inventor
谢德意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weide Kechuang Information Co Ltd
Original Assignee
Shenzhen Weide Kechuang Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weide Kechuang Information Co Ltd filed Critical Shenzhen Weide Kechuang Information Co Ltd
Priority to CN201610233947.6A priority Critical patent/CN107301180A/zh
Publication of CN107301180A publication Critical patent/CN107301180A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种文档结构的分析方法,其包括如下步骤:读取文档全文;从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;提取所有标签并创建成结构树。本发明还提供一种文档结构的分析装置。通过这种方式,用户在查阅文档时无需单页浏览,通过创建的文档结构即可快速定位到文档对应位置处,方便用户根据文档结构精准快速地查阅文档内容。

Description

一种文档结构的分析方法和装置
技术领域
本发明涉及文档数据分析领域,特别涉及一种文档结构的分析方法和装置。
背景技术
一般而言,各种类型的文档都有着自己特定的专有格式,例如,发明专利文档,通常包括有说明书摘要、摘要附图、权利要求书、说明书以及说明书附图这五部分。用户阅读专利文档采用的多为PDF或者Word等格式进行阅读,由于这些文档没有对应于说明书、权利要求书、附图等内容进行标签分类,用户在查阅这些专利文档时需要单页浏览,因此,当需要查阅大量专利文档时或者查阅具有数百页的专利文档时,用户必将浪费大量时间及精力去阅读,与之同理,阅读其他类型的文档也会出现上述问题,给用户阅览文档带来很大的不便。
发明内容
鉴于以上内容,有必要提供一种文档结构的分析方法和装置,能够获取文档的特定文字和格式并创建出相应地文档结构,方便用户根据文档结构精准快速地查阅文档内容。
为解决上述技术问题,本发明采用的一种技术方案是:提供一种文档结构的分析方法,该方法包括如下步骤:
读取文档全文;
从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取所有标签并创建成结构树。
其中,所述读取文档全文的步骤之前还包括:定义预设属性。
其中,所述从所述文档全文中查找所述有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签的步骤包括:
根据所述文档全文的顺序依次读取关键属性;
将读取的所述关键属性与所述预设属性相互匹配;
若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
其中,所述关键属性包括字体样式、段落样式、文字属性、标题级别或特殊文字中的一种或多种。
其中,若读取的所述关键属性与下列所述预设属性中任意一项相匹配,则判断所述关键属性为有效属性:所述预设属性包括 “说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的标题,其中,所述“说明书”包括 “技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字。
其中,所述提取所有标签并创建成结构树的步骤包括:
根据每一所述标签在所述文档中的位置依次读取每个所述标签;
依据每一所述标签之间的逻辑层次关系建立逻辑结构树。
其中,所述预设属性包括文档规则库,所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则及自定义规则;若读取的所述关键属性与所述预设属性的所述文档规则库相匹配,若读取的所述关键属性与所述文档规则库不匹配,则在所述文档对应的位置处创建提示标记。
本发明采用的另一种技术方案是:提供一种文档结构的分析装置,包括:
读取模块,用于读取文档全文;
查找模块,用于从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取模块,用于提取所有标签并创建成结构树。
其中,所述分析装置还包括:
预设模块,用于定义预设属性。
其中,所述查找模块中还包括:
顺序读取单元,用于根据所述文档全文的顺序依次读取关键属性;
匹配单元,用于将读取的所述关键属性与所述预设属性相互匹配;
判断属性单元,用于判断所属关键属性是否为有效属性,若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
创建标签单元,用于创建标签,若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
相较于现有技术,本发明提供的一种文档结构的分析方法和系统,能够获取文档的特定格式并创建出相应地文档结构,用户在查阅这些专利文档时无需单页浏览,通过创建的文档结构即可快速定位到文档对应位置处,方便用户根据文档结构精准快速地查阅文档内容。
附图说明
图1是本发明一种文档的分析方法第一实施方式的流程示意图;
图2是本发明一种文档的分析方法第二实施方式的流程示意图;
图3是图2中从所述文档全文中查找所述有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签的具体流程示意图;
图4是图2中提取所有标签并创建成结构树的具体流程示意图;
图5是本发明一种文档的分析装置第一实施方式的结构示意图;
图6是本发明一种文档的分析装置第二实施方式的结构示意图。
具体实施方式
下面结合附图和实施方式对本发明进行详细说明。
请参阅图1,图1是本发明一种文档的分析方法第一实施方式的流程示意图,本实施方式提供了一种文档结构的分析方法,包括如下步骤:
S120:读取文档全文。
所述文档全文为文本文档格式,包括但不限于Word、PDF、JPG、TIFF等格式。
所述文档包括但不限于论文、科技文献或专利文献等任意类型。
读取文档的顺序在本实施方式中并不做限制,可从文档开始直至结尾依序读取文档的每一字符,也可跳跃式读取文档,当然,任何读取文档的方式都应在读取完文档全文的前提下进行。
S140:从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签。
所述有效属性是指各种类型文档的特定文字内容,且该等文字内容具有特定格式,若在读取文档中,获取特定文字内容且同时满足特定格式时,则被定义为有效属性。其中,特定格式包括文字的字体、字号、样式、标题级别等能够反映文档类型的属性。
例如,当文档为发明专利时,通常包括有说明书摘要、摘要附图、权利要求书、说明书以及说明书附图这五部分,且这些文字都有自己特定的标题格式;进一步地,说明书的格式还必须包括以下各部分,且每一部分前面都会写明相应标题:技术领域、背景技术、发明内容、附图说明及具体实施方式。又如,当文档为论文文献时,通常由题名、作者、目录、摘要、关键词、正文、参考文献和附录等各部分组成。以上只是对文档类型做举例说明,并不对文档类型做相应地限制,本实施方式中还包括但不限于其他如科技文献、 各种公文、报告等文档。
当在读取文档时,查找到上述所描述对应文档的文字内容,且获取到文字内容的格式满足特定格式时,则可判定为属于有效属性,于此同时,在获取到该有效属性在所述文档的对应位置处创建相应地标签。
若未查找到上述所描述对应文档的文字内容,或是查找到对应文字内容,但获取的文字内容的格式不能满足特定格式时,则判定其不属于有效属性,继续读取文档其他还未读取的内容,直至获取到有效属性并创建标签。
当创建完某一标签后,继续读取文档其他内容,直至完成文档全文的查找操作,即完成此步步骤。
S160:提取所有标签并创建成结构树。
经过S140和S160两步步骤后,所述文档内容都以提取出有效属性并对应具有相应地标签。提取出所有创建的标签,并根据标签顺序构造出结构树,完成文档的分析过程。
区别于现有技术,本实施方式通过读取文档全文,获取到文档的有效属性并创建结构树形式的标签,简洁清晰地展现出文档相应结构,用户在查阅这些文档时无需单页浏览,通过创建的文档结构即可快速定位到文档对应位置处,方便用户根据文档结构精准快速地查阅文档内容。
请参阅图2,图2是本发明一种文档的分析方法第二实施方式的流程示意图,本实施方式的方法包括如下步骤:
S210:定义预设属性。
所述预设属性是指预先设定属性规则,包括但不限定于特定文字内容、特定格式等属性。其中,特定格式包括文字的字体、字号、样式、标题级别等能够反映文档类型的属性。
例如,当所需读取的文档为发明专利文档时,所述预设属性可包括但不限于“说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的文字及相应地标题格式,其中,所述“说明书”可包括但不限于“技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字及相应格式;当所需读取文档为论文文献时,所述预设属性可包括但不限于题名、作者、目录、摘要、关键词、正文、参考文献和附录等文字及相应格式。以上只是对所需读取的个别文档类型做举例说明,并不对文档类型做相应地限制,本实施方式中还包括但不限于其他如科技文献、 各种公文、报告等文档;且本实施方式并不限定预设属性必须要根据读取的文档类型定义相应的预设属性,也可根据各种不同类型文档自定义出多种预设属性,以满足各种类型文档的结构分析。
可以理解地,所述预设属性还可进一步地包括文档规则库,所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则或自定义规则等规则。
例如,以专利文档为例,撰写法规中的规则可以包括如发明名称中不能包括“及其他”、“及其类似物” 等含糊的词语,“方法”、“装置”、“组合物”、“化合物” 等笼统词汇,超过25个字或40个字等满足撰写法规中的预设规则;常用逻辑规则可为如依序包括第一、第二、第三等步骤,若获取到文档中跳过其中某一序列步骤而到达下一序列,则可定义成常用逻辑规则范畴;自定义规则包括用户特定撰写的某些规则内容。如此,通过定义预设文档规则库,不仅能够满足用户撰写的不同需求,同时能够协助并提醒用户撰写的规范性。
S220:读取文档全文。
S240:从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签。
S220和S240这两个步骤同第一实施方式中的S120和S140的步骤相同,在此不再赘述。
请参阅图3,进一步地,在其他一些实施方式中,在S240的所述从所述文档全文中查找所述有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签的步骤具体包括:
S241:根据所述文档全文的顺序依次读取关键属性;
依序从文档开始读取到结尾直至读取完所述文档全文,读取完该所述文档全文中的所有关键属性。其中,所述关键属性是指文档中可能满足所述有效属性中的内容,具体可包括但不限于字体样式、段落样式、文字属性、标题级别等各种内容。
S242:将读取的所述关键属性与所述预设属性相互匹配;
在获取到文档中的每一关键属性后,将该关键属性与定义的所述预设属性相互匹配,直至所读取的所有关键属性与所述预设属性相互匹配完毕。
S243:若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;
S244:若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
当读取到文档中的某一关键属性时,与定义的预设属性相互匹配,若该关键属性的字体字样、段落样式、文字属性或标题级别等内容能与预设属性中一项或多项匹配,则说明能够满足有效属性,判断该关键属性为有效属性,并将其所述文档对应的位置处创建标签。否则判断读取的所述关键属性为无效属性,继续读取所述文档中的下一关键属性,直至整个文档读取完毕。
可以理解的,当所述预设属性中包括文档规则库时,且获取到文档中关键属性不能满足预设的文档规则库时,可在此关键属性所在的文档的位置处作出醒目标识以提醒用户。
S260:提取所有标签并创建成结构树。
请参阅图4,进一步地,在其他一些实施方式中,在S260的提取所有标签并创建成结构树的步骤中具体包括:
S261:根据每一所述标签在所述文档中的位置依次读取每个所述标签。
S262:依据每一所述标签之间的逻辑层次关系建立逻辑结构树。
获取所有标签的逻辑层次关系,具体地,获取两两相邻的标签的所属结构是否是属于同一逻辑层次,若属于同一逻辑层次,则将两标签建立为并列同节关系,若获取的两两相邻的标签的所属结构不属于同一逻辑层次,比如是上级或下级的层次关系,则将两标签建立为上下分节关系,以此类推,比对完所有标签以建立出具有逻辑层次关系的逻辑结构树。
区别于现有技术,本实施方式通过定义预设属性,并将文档中读取的关键属性与预设属性相互匹配符,来获取该关键属性是否属于有效属性,能够进一步地加强文档有效属性的获取能力,减少有效属性未能获取到的情况发生,提高文档结构的分析准确性;而且,通过标签之间的逻辑层次关系建立成逻辑结构树,能更直观地呈现出文档的结构,以方便用户更加精准地快速查阅。此外,通过定义文档规则库,且在文档内容不满足所述文档规则库的预设条件时作出醒目标识,用以提醒用户。
请参阅图5,图5是本发明一种文档的分析装置第一实施方式的结构示意图。本实施方式的分析装置100包括读取模块120、查找模块140以及提取模块160。
读取模块120,用于读取文档全文。
所述文档全文为文本文档格式,包括但不限于Word、PDF、JPG、TIFF等格式。所述文档包括但不限于论文、科技文献或专利文献等任意类型。
所述读取模块120读取文档的顺序在本实施方式中并不做限制,可从文档开始直至结尾依序读取文档的每一字符,也可跳跃式读取文档,当然,任何读取文档的方式都应在读取完文档全文的前提下进行。
查找模块140,用于从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签。
所述有效属性是指各种类型文档的特定文字内容,且该等文字内容具有特定格式,若在读取文档中,获取特定文字内容且同时满足特定格式时,则被定义为有效属性。其中,特定格式包括文字的字体、字号、样式、标题级别等能够反映文档类型的属性。
当读取模块120在读取文档时,查找模块140查找到对应文档的文字内容,且获取到文字内容的格式满足特定格式时,则可判定为属于有效属性,于此同时,在获取到该有效属性在所述文档的对应位置处创建相应地标签。
若查找模块140未查找到对应文档的文字内容,或是查找到对应文字内容,但获取的文字内容的格式不能满足特定格式时,则判定其不属于有效属性,读取模块120继续读取文档其他还未读取的内容,直至获取到有效属性并创建标签。
当创建完某一标签后,读取模块120继续读取文档其他内容,直至查找模块140完成文档全文的查找操作。
提取模块160,用于提取所有标签并创建成结构树。
当查找模块140完成文档全文的查找操作后,提取模块160提取出所有创建的标签,并根据标签顺序创建出结构树。
进一步地,请参阅图6,图6是本发明一种文档的分析装置第二实施方式的结构示意图。该分析装置200包括预设模块210、读取模块220、查找模块240以及提取模块260。其中,读取模块220采用上文第一实施方式中的读取模块120,在此不再赘述。
查找模块240进一步包括顺序读取单元241、匹配单元242、判断属性单元243及创建标签单元244。
顺序读取单元241,用于根据所述文档全文的顺序依次读取关键属性。
顺序读取单元241依序从文档开始读取到结尾直至读取完所述文档全文,读取完该所述文档全文中的所有关键属性。其中,所述关键属性是指文档中可能满足所述有效属性中的内容,具体可包括但不限于字体样式、段落样式、文字属性、标题级别等各种内容。
匹配单元242,用于将读取的所述关键属性与所述预设属性相互匹配。
顺序读取单元241在获取到文档中的每一关键属性后,匹配单元242将该关键属性与定义的所述预设属性相互匹配,直至所读取的所有关键属性与所述预设属性相互匹配完毕。
判断属性单元243,用于判断所属关键属性是否为有效属性,若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;
创建标签单元244,用于创建标签,若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
进一步地,提取模块260还可包括逻辑结构创建单元,用于获取所有标签的逻辑层次关系并创建出标签的逻辑结构树。
区别于现有技术,本实施方式文档的分析装置通过读取模块读取文档全文,再有查找模块获取到文档的有效属性并由提取模块创建出结构树形式的标签,简洁清晰地展现出文档相应结构,用户在查阅这些文档时无需单页浏览,通过创建的文档结构即可快速定位到文档对应位置处,方便用户根据文档结构精准快速地查阅文档内容。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文档结构的分析方法,其特征在于,该方法包括如下步骤:
读取文档全文;
从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取所有标签并创建成结构树。
2.如权利要求1所述的分析方法,其特征在于,所述读取文档全文的步骤之前还包括:定义预设属性。
3.如权利要求2所述的分析方法,其特征在于,所述从所述文档全文中查找所述有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签的步骤包括:
根据所述文档全文的顺序依次读取关键属性;
将读取的所述关键属性与所述预设属性相互匹配;
若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
4.如权利要求3所述的分析方法,其特征在于,所述关键属性包括字体样式、段落样式、文字属性、标题级别或特殊文字中一种或多种。
5.如权利要求4所述的分析方法,其特征在于,若读取的所述关键属性与下列所述预设属性中任意一项相匹配,则判断所述关键属性为有效属性:所述预设属性包括 “说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的标题,其中,所述“说明书”包括 “技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字。
6.如权利要求1所述的分析方法,其特征在于,所述提取所有标签并创建成结构树的步骤包括:
根据每一所述标签在所述文档中的位置依次读取每个所述标签;
依据每一所述标签之间的逻辑层次关系建立逻辑结构树。
7.如权利要求3所述的分析方法,其特征在于,所述预设属性包括文档规则库,所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则及自定义规则;若读取的所述关键属性与所述预设属性的所述文档规则库相匹配,若读取的所述关键属性与所述文档规则库不匹配,则在所述文档对应的位置处创建提示标记。
8.一种文档结构的分析装置,所述装置用于包括非易失性内存的计算机系统中,其特征在于,包括:
读取模块,用于读取文档全文;
查找模块,用于从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取模块,用于提取所有标签并创建成结构树。
9.如权利要求8所述的分析装置,其特征在于,所述分析装置还包括:
预设模块,用于定义预设属性。
10.如权利要求9所述的分析装置,其特征在于,所述查找模块中还包括:
顺序读取单元,用于根据所述文档全文的顺序依次读取关键属性;
匹配单元,用于将读取的所述关键属性与所述预设属性相互匹配;
判断属性单元,用于判断所属关键属性是否为有效属性,若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
创建标签单元,用于创建标签,若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
CN201610233947.6A 2016-04-16 2016-04-16 一种文档结构的分析方法和装置 Pending CN107301180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610233947.6A CN107301180A (zh) 2016-04-16 2016-04-16 一种文档结构的分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610233947.6A CN107301180A (zh) 2016-04-16 2016-04-16 一种文档结构的分析方法和装置

Publications (1)

Publication Number Publication Date
CN107301180A true CN107301180A (zh) 2017-10-27

Family

ID=60136980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610233947.6A Pending CN107301180A (zh) 2016-04-16 2016-04-16 一种文档结构的分析方法和装置

Country Status (1)

Country Link
CN (1) CN107301180A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133016A (zh) * 2017-12-22 2018-06-08 大连景竣科技有限公司 一种办公用文档定位系统及方法
CN110929048A (zh) * 2018-08-30 2020-03-27 广州金山移动科技有限公司 一种书签生成方法、装置、电子设备及存储介质
CN110956019A (zh) * 2019-11-27 2020-04-03 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040163041A1 (en) * 2003-02-13 2004-08-19 Paterra, Inc. Relational database structures for structured documents
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CN102479248A (zh) * 2011-05-30 2012-05-30 北京中科希望软件股份有限公司 一种电子文档结构化处理的方法和系统
CN104572745A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 文档结构化方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040163041A1 (en) * 2003-02-13 2004-08-19 Paterra, Inc. Relational database structures for structured documents
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CN102479248A (zh) * 2011-05-30 2012-05-30 北京中科希望软件股份有限公司 一种电子文档结构化处理的方法和系统
CN104572745A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 文档结构化方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133016A (zh) * 2017-12-22 2018-06-08 大连景竣科技有限公司 一种办公用文档定位系统及方法
CN110929048A (zh) * 2018-08-30 2020-03-27 广州金山移动科技有限公司 一种书签生成方法、装置、电子设备及存储介质
CN110956019A (zh) * 2019-11-27 2020-04-03 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN107145479B (zh) 基于文本语义的篇章结构分析方法
EP1679625B1 (en) Method and apparatus for structuring documents based on layout, content and collection
CN104346319B (zh) 检查文档样式的方法及系统
US6178417B1 (en) Method and means of matching documents based on text genre
CN104598577B (zh) 一种网页正文的提取方法
CN111797630B (zh) 一种面向pdf格式论文的生物医学实体识别方法
CN102855244B (zh) 文档目录处理方法和装置
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN104123269A (zh) 一种基于模板的出版物半自动生成方法及系统
CN102541948A (zh) 用于提取文档结构的方法和装置
CN107301180A (zh) 一种文档结构的分析方法和装置
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN106874240A (zh) 数字出版方法及系统
Yacoub et al. Perfectdoc: A ground truthing environment for complex documents
EP2544100A2 (en) Method and system for making document modules
Bloechle et al. XCDF: a canonical and structured document format
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN102110108B (zh) 一种对小样文件的处理方法及装置
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
CN105320716A (zh) 数字出版物的自动标注方法
CN101673406A (zh) 字体设置方法和装置
Liao et al. Combining Language Model with Sentiment Analysis for Opinion Retrieval of Blog-Post.
Chanod et al. From legacy documents to xml: A conversion framework
Taghva et al. Autotag: A tool for creating structured document collections from printed materials

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination