CN107301180A

CN107301180A - 一种文档结构的分析方法和装置

Info

Publication number: CN107301180A
Application number: CN201610233947.6A
Authority: CN
Inventors: 谢德意
Original assignee: Shenzhen Weide Kechuang Information Co Ltd
Current assignee: Shenzhen Weide Kechuang Information Co Ltd
Priority date: 2016-04-16
Filing date: 2016-04-16
Publication date: 2017-10-27

Abstract

本发明提出一种文档结构的分析方法，其包括如下步骤：读取文档全文；从所述文档全文中查找所有有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签；提取所有标签并创建成结构树。本发明还提供一种文档结构的分析装置。通过这种方式，用户在查阅文档时无需单页浏览，通过创建的文档结构即可快速定位到文档对应位置处，方便用户根据文档结构精准快速地查阅文档内容。

Description

一种文档结构的分析方法和装置

技术领域

本发明涉及文档数据分析领域，特别涉及一种文档结构的分析方法和装置。

背景技术

一般而言，各种类型的文档都有着自己特定的专有格式，例如，发明专利文档，通常包括有说明书摘要、摘要附图、权利要求书、说明书以及说明书附图这五部分。用户阅读专利文档采用的多为PDF或者Word等格式进行阅读，由于这些文档没有对应于说明书、权利要求书、附图等内容进行标签分类，用户在查阅这些专利文档时需要单页浏览，因此，当需要查阅大量专利文档时或者查阅具有数百页的专利文档时，用户必将浪费大量时间及精力去阅读，与之同理，阅读其他类型的文档也会出现上述问题，给用户阅览文档带来很大的不便。

发明内容

鉴于以上内容，有必要提供一种文档结构的分析方法和装置，能够获取文档的特定文字和格式并创建出相应地文档结构，方便用户根据文档结构精准快速地查阅文档内容。

为解决上述技术问题，本发明采用的一种技术方案是：提供一种文档结构的分析方法，该方法包括如下步骤：

读取文档全文；

从所述文档全文中查找所有有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签；

提取所有标签并创建成结构树。

其中，所述读取文档全文的步骤之前还包括：定义预设属性。

其中，所述从所述文档全文中查找所述有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签的步骤包括：

根据所述文档全文的顺序依次读取关键属性；

将读取的所述关键属性与所述预设属性相互匹配；

若读取的所述关键属性与所述预设属性相匹配，则判断所述关键属性为有效属性，若读取的所述关键属性为无效属性，则继续读取所述文档中的下一关键属性；及

若读取的所述关键属性为有效属性，则将所述有效属性在所述文档对应的位置处创建标签，并继续读取所述文档的下一关键属性，直至整个文档读取完毕。

其中，所述关键属性包括字体样式、段落样式、文字属性、标题级别或特殊文字中的一种或多种。

其中，若读取的所述关键属性与下列所述预设属性中任意一项相匹配，则判断所述关键属性为有效属性：所述预设属性包括 “说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的标题，其中，所述“说明书”包括 “技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字。

其中，所述提取所有标签并创建成结构树的步骤包括：

根据每一所述标签在所述文档中的位置依次读取每个所述标签；

依据每一所述标签之间的逻辑层次关系建立逻辑结构树。

其中，所述预设属性包括文档规则库，所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则及自定义规则；若读取的所述关键属性与所述预设属性的所述文档规则库相匹配，若读取的所述关键属性与所述文档规则库不匹配，则在所述文档对应的位置处创建提示标记。

本发明采用的另一种技术方案是：提供一种文档结构的分析装置，包括：

读取模块，用于读取文档全文；

查找模块，用于从所述文档全文中查找所有有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签；

提取模块，用于提取所有标签并创建成结构树。

其中，所述分析装置还包括：

预设模块，用于定义预设属性。

其中，所述查找模块中还包括：

顺序读取单元，用于根据所述文档全文的顺序依次读取关键属性；

匹配单元，用于将读取的所述关键属性与所述预设属性相互匹配；

判断属性单元，用于判断所属关键属性是否为有效属性，若读取的所述关键属性与所述预设属性相匹配，则判断所述关键属性为有效属性，若读取的所述关键属性为无效属性，则继续读取所述文档中的下一关键属性；及

创建标签单元，用于创建标签，若读取的所述关键属性为有效属性，则将所述有效属性在所述文档对应的位置处创建标签，并继续读取所述文档的下一关键属性，直至整个文档读取完毕。

相较于现有技术，本发明提供的一种文档结构的分析方法和系统，能够获取文档的特定格式并创建出相应地文档结构，用户在查阅这些专利文档时无需单页浏览，通过创建的文档结构即可快速定位到文档对应位置处，方便用户根据文档结构精准快速地查阅文档内容。

附图说明

图1是本发明一种文档的分析方法第一实施方式的流程示意图；

图2是本发明一种文档的分析方法第二实施方式的流程示意图；

图3是图2中从所述文档全文中查找所述有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签的具体流程示意图；

图4是图2中提取所有标签并创建成结构树的具体流程示意图；

图5是本发明一种文档的分析装置第一实施方式的结构示意图；

图6是本发明一种文档的分析装置第二实施方式的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，图1是本发明一种文档的分析方法第一实施方式的流程示意图，本实施方式提供了一种文档结构的分析方法，包括如下步骤：

S120：读取文档全文。

所述文档全文为文本文档格式，包括但不限于Word、PDF、JPG、TIFF等格式。

所述文档包括但不限于论文、科技文献或专利文献等任意类型。

读取文档的顺序在本实施方式中并不做限制，可从文档开始直至结尾依序读取文档的每一字符，也可跳跃式读取文档，当然，任何读取文档的方式都应在读取完文档全文的前提下进行。

S140：从所述文档全文中查找所有有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签。

所述有效属性是指各种类型文档的特定文字内容，且该等文字内容具有特定格式，若在读取文档中，获取特定文字内容且同时满足特定格式时，则被定义为有效属性。其中，特定格式包括文字的字体、字号、样式、标题级别等能够反映文档类型的属性。

例如，当文档为发明专利时，通常包括有说明书摘要、摘要附图、权利要求书、说明书以及说明书附图这五部分，且这些文字都有自己特定的标题格式；进一步地，说明书的格式还必须包括以下各部分，且每一部分前面都会写明相应标题：技术领域、背景技术、发明内容、附图说明及具体实施方式。又如，当文档为论文文献时，通常由题名、作者、目录、摘要、关键词、正文、参考文献和附录等各部分组成。以上只是对文档类型做举例说明，并不对文档类型做相应地限制，本实施方式中还包括但不限于其他如科技文献、各种公文、报告等文档。

当在读取文档时，查找到上述所描述对应文档的文字内容，且获取到文字内容的格式满足特定格式时，则可判定为属于有效属性，于此同时，在获取到该有效属性在所述文档的对应位置处创建相应地标签。

若未查找到上述所描述对应文档的文字内容，或是查找到对应文字内容，但获取的文字内容的格式不能满足特定格式时，则判定其不属于有效属性，继续读取文档其他还未读取的内容，直至获取到有效属性并创建标签。

当创建完某一标签后，继续读取文档其他内容，直至完成文档全文的查找操作，即完成此步步骤。

S160：提取所有标签并创建成结构树。

经过S140和S160两步步骤后，所述文档内容都以提取出有效属性并对应具有相应地标签。提取出所有创建的标签，并根据标签顺序构造出结构树，完成文档的分析过程。

区别于现有技术，本实施方式通过读取文档全文，获取到文档的有效属性并创建结构树形式的标签，简洁清晰地展现出文档相应结构，用户在查阅这些文档时无需单页浏览，通过创建的文档结构即可快速定位到文档对应位置处，方便用户根据文档结构精准快速地查阅文档内容。

请参阅图2，图2是本发明一种文档的分析方法第二实施方式的流程示意图，本实施方式的方法包括如下步骤：

S210：定义预设属性。

所述预设属性是指预先设定属性规则，包括但不限定于特定文字内容、特定格式等属性。其中，特定格式包括文字的字体、字号、样式、标题级别等能够反映文档类型的属性。

例如，当所需读取的文档为发明专利文档时，所述预设属性可包括但不限于“说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的文字及相应地标题格式，其中，所述“说明书”可包括但不限于“技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字及相应格式；当所需读取文档为论文文献时，所述预设属性可包括但不限于题名、作者、目录、摘要、关键词、正文、参考文献和附录等文字及相应格式。以上只是对所需读取的个别文档类型做举例说明，并不对文档类型做相应地限制，本实施方式中还包括但不限于其他如科技文献、各种公文、报告等文档；且本实施方式并不限定预设属性必须要根据读取的文档类型定义相应的预设属性，也可根据各种不同类型文档自定义出多种预设属性，以满足各种类型文档的结构分析。

可以理解地，所述预设属性还可进一步地包括文档规则库，所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则或自定义规则等规则。

例如，以专利文档为例，撰写法规中的规则可以包括如发明名称中不能包括“及其他”、“及其类似物” 等含糊的词语，“方法”、“装置”、“组合物”、“化合物” 等笼统词汇，超过25个字或40个字等满足撰写法规中的预设规则；常用逻辑规则可为如依序包括第一、第二、第三等步骤，若获取到文档中跳过其中某一序列步骤而到达下一序列，则可定义成常用逻辑规则范畴；自定义规则包括用户特定撰写的某些规则内容。如此，通过定义预设文档规则库，不仅能够满足用户撰写的不同需求，同时能够协助并提醒用户撰写的规范性。

S220：读取文档全文。

S240：从所述文档全文中查找所有有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签。

S220和S240这两个步骤同第一实施方式中的S120和S140的步骤相同，在此不再赘述。

请参阅图3，进一步地，在其他一些实施方式中，在S240的所述从所述文档全文中查找所述有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签的步骤具体包括：

S241：根据所述文档全文的顺序依次读取关键属性；

依序从文档开始读取到结尾直至读取完所述文档全文，读取完该所述文档全文中的所有关键属性。其中，所述关键属性是指文档中可能满足所述有效属性中的内容，具体可包括但不限于字体样式、段落样式、文字属性、标题级别等各种内容。

S242：将读取的所述关键属性与所述预设属性相互匹配；

在获取到文档中的每一关键属性后，将该关键属性与定义的所述预设属性相互匹配，直至所读取的所有关键属性与所述预设属性相互匹配完毕。

S243：若读取的所述关键属性与所述预设属性相匹配，则判断所述关键属性为有效属性，若读取的所述关键属性为无效属性，则继续读取所述文档中的下一关键属性；

S244：若读取的所述关键属性为有效属性，则将所述有效属性在所述文档对应的位置处创建标签，并继续读取所述文档的下一关键属性，直至整个文档读取完毕。

当读取到文档中的某一关键属性时，与定义的预设属性相互匹配，若该关键属性的字体字样、段落样式、文字属性或标题级别等内容能与预设属性中一项或多项匹配，则说明能够满足有效属性，判断该关键属性为有效属性，并将其所述文档对应的位置处创建标签。否则判断读取的所述关键属性为无效属性，继续读取所述文档中的下一关键属性，直至整个文档读取完毕。

可以理解的，当所述预设属性中包括文档规则库时，且获取到文档中关键属性不能满足预设的文档规则库时，可在此关键属性所在的文档的位置处作出醒目标识以提醒用户。

S260：提取所有标签并创建成结构树。

请参阅图4，进一步地，在其他一些实施方式中，在S260的提取所有标签并创建成结构树的步骤中具体包括：

S261：根据每一所述标签在所述文档中的位置依次读取每个所述标签。

S262：依据每一所述标签之间的逻辑层次关系建立逻辑结构树。

获取所有标签的逻辑层次关系，具体地，获取两两相邻的标签的所属结构是否是属于同一逻辑层次，若属于同一逻辑层次，则将两标签建立为并列同节关系，若获取的两两相邻的标签的所属结构不属于同一逻辑层次，比如是上级或下级的层次关系，则将两标签建立为上下分节关系，以此类推，比对完所有标签以建立出具有逻辑层次关系的逻辑结构树。

区别于现有技术，本实施方式通过定义预设属性，并将文档中读取的关键属性与预设属性相互匹配符，来获取该关键属性是否属于有效属性，能够进一步地加强文档有效属性的获取能力，减少有效属性未能获取到的情况发生，提高文档结构的分析准确性；而且，通过标签之间的逻辑层次关系建立成逻辑结构树，能更直观地呈现出文档的结构，以方便用户更加精准地快速查阅。此外，通过定义文档规则库，且在文档内容不满足所述文档规则库的预设条件时作出醒目标识，用以提醒用户。

请参阅图5，图5是本发明一种文档的分析装置第一实施方式的结构示意图。本实施方式的分析装置100包括读取模块120、查找模块140以及提取模块160。

读取模块120，用于读取文档全文。

所述文档全文为文本文档格式，包括但不限于Word、PDF、JPG、TIFF等格式。所述文档包括但不限于论文、科技文献或专利文献等任意类型。

所述读取模块120读取文档的顺序在本实施方式中并不做限制，可从文档开始直至结尾依序读取文档的每一字符，也可跳跃式读取文档，当然，任何读取文档的方式都应在读取完文档全文的前提下进行。

查找模块140，用于从所述文档全文中查找所有有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签。

当读取模块120在读取文档时，查找模块140查找到对应文档的文字内容，且获取到文字内容的格式满足特定格式时，则可判定为属于有效属性，于此同时，在获取到该有效属性在所述文档的对应位置处创建相应地标签。

若查找模块140未查找到对应文档的文字内容，或是查找到对应文字内容，但获取的文字内容的格式不能满足特定格式时，则判定其不属于有效属性，读取模块120继续读取文档其他还未读取的内容，直至获取到有效属性并创建标签。

当创建完某一标签后，读取模块120继续读取文档其他内容，直至查找模块140完成文档全文的查找操作。

提取模块160，用于提取所有标签并创建成结构树。

当查找模块140完成文档全文的查找操作后，提取模块160提取出所有创建的标签，并根据标签顺序创建出结构树。

进一步地，请参阅图6，图6是本发明一种文档的分析装置第二实施方式的结构示意图。该分析装置200包括预设模块210、读取模块220、查找模块240以及提取模块260。其中，读取模块220采用上文第一实施方式中的读取模块120，在此不再赘述。

查找模块240进一步包括顺序读取单元241、匹配单元242、判断属性单元243及创建标签单元244。

顺序读取单元241，用于根据所述文档全文的顺序依次读取关键属性。

顺序读取单元241依序从文档开始读取到结尾直至读取完所述文档全文，读取完该所述文档全文中的所有关键属性。其中，所述关键属性是指文档中可能满足所述有效属性中的内容，具体可包括但不限于字体样式、段落样式、文字属性、标题级别等各种内容。

匹配单元242，用于将读取的所述关键属性与所述预设属性相互匹配。

顺序读取单元241在获取到文档中的每一关键属性后，匹配单元242将该关键属性与定义的所述预设属性相互匹配，直至所读取的所有关键属性与所述预设属性相互匹配完毕。

判断属性单元243，用于判断所属关键属性是否为有效属性，若读取的所述关键属性与所述预设属性相匹配，则判断所述关键属性为有效属性，若读取的所述关键属性为无效属性，则继续读取所述文档中的下一关键属性；

创建标签单元244，用于创建标签，若读取的所述关键属性为有效属性，则将所述有效属性在所述文档对应的位置处创建标签，并继续读取所述文档的下一关键属性，直至整个文档读取完毕。

进一步地，提取模块260还可包括逻辑结构创建单元，用于获取所有标签的逻辑层次关系并创建出标签的逻辑结构树。

区别于现有技术，本实施方式文档的分析装置通过读取模块读取文档全文，再有查找模块获取到文档的有效属性并由提取模块创建出结构树形式的标签，简洁清晰地展现出文档相应结构，用户在查阅这些文档时无需单页浏览，通过创建的文档结构即可快速定位到文档对应位置处，方便用户根据文档结构精准快速地查阅文档内容。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文档结构的分析方法，其特征在于，该方法包括如下步骤：

读取文档全文；

提取所有标签并创建成结构树。

2.如权利要求1所述的分析方法，其特征在于，所述读取文档全文的步骤之前还包括：定义预设属性。

3.如权利要求2所述的分析方法，其特征在于，所述从所述文档全文中查找所述有效属性，并将每一所述有效属性在所述文档的对应位置处创建标签的步骤包括：

根据所述文档全文的顺序依次读取关键属性；

将读取的所述关键属性与所述预设属性相互匹配；

4.如权利要求3所述的分析方法，其特征在于，所述关键属性包括字体样式、段落样式、文字属性、标题级别或特殊文字中一种或多种。

5.如权利要求4所述的分析方法，其特征在于，若读取的所述关键属性与下列所述预设属性中任意一项相匹配，则判断所述关键属性为有效属性：所述预设属性包括 “说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的标题，其中，所述“说明书”包括 “技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字。

6.如权利要求1所述的分析方法，其特征在于，所述提取所有标签并创建成结构树的步骤包括：

依据每一所述标签之间的逻辑层次关系建立逻辑结构树。

7.如权利要求3所述的分析方法，其特征在于，所述预设属性包括文档规则库，所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则及自定义规则；若读取的所述关键属性与所述预设属性的所述文档规则库相匹配，若读取的所述关键属性与所述文档规则库不匹配，则在所述文档对应的位置处创建提示标记。

8.一种文档结构的分析装置，所述装置用于包括非易失性内存的计算机系统中，其特征在于，包括：

读取模块，用于读取文档全文；

提取模块，用于提取所有标签并创建成结构树。

9.如权利要求8所述的分析装置，其特征在于，所述分析装置还包括：

预设模块，用于定义预设属性。

10.如权利要求9所述的分析装置，其特征在于，所述查找模块中还包括：