CN115129817A

CN115129817A - 一种Word文档大纲抽取的方法

Info

Publication number: CN115129817A
Application number: CN202210794259.2A
Authority: CN
Inventors: 陈刚
Original assignee: Shanghai Yanshu Computer Technology Co ltd
Current assignee: Shanghai Yanshu Computer Technology Co ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-09-30

Abstract

本发明公开了一种Word文档大纲抽取的方法，包括以下步骤：步骤一：Word文档导入系统；将用来作为参考资料的Word文档通过系统终端导入系统；步骤二：读取Word文档格式信息；通过解析模块接收导入系统的Word文档，然后由提取单元对Word文档的文本、字体、字号、格式属性和段落格式进行提取，生成的以段落为单元的结构化数据，与Word文档一起传输给文档预处理模块进行处理。本发明采用了知识图谱、NLP等技术。本发明可以对Word文档的大纲进行识别与提取，提取出的大纲可以供用户在确立文章大纲时参考借鉴，为撰写者节约撰写应用文所需要的时间，提高业务处理效率。

Description

一种Word文档大纲抽取的方法

技术领域

本发明涉及文档抽取技术领域，具体是一种Word文档大纲抽取的方法。

背景技术

应用文是现代企业处理日常业务常用的实用性文体，随着信息技术的推广普及，企事业单位所面对的业务量与日俱增。为了提高处理日常业务工作的质量与效率，就需要员工能撰写更多更好的应用文。

由于应用文本身的特点，撰写者想要撰写高质量的应用文，需要在参考大量高相关度的资料后，搭建出层级清晰、逻辑严密的文章大纲。

然而在实际写作中，不少人不会写大纲，或者不习惯于写大纲，即便愿意写大纲的，也会因为收集资料，反复修改大纲等动作消耗大量时间。

因此，本发明提供了一种Word文档大纲抽取的方法，以解决上述背景技术中提出的问题。

发明内容

本发明的目的在于提供一种Word文档大纲抽取的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种Word文档大纲抽取的方法，包括以下步骤：

步骤一：Word文档导入系统；

将用来作为参考资料的Word文档通过系统终端导入系统；

步骤二：读取Word文档格式信息；

通过解析模块接收导入系统的Word文档，然后由提取单元对Word文档的文本、字体、字号、格式属性和段落格式进行提取，生成的以段落为单元的结构化数据，与Word文档一起传输给文档预处理模块进行处理；

步骤三：对Word文档进行预处理；

通过预处理模块，接收解析模块发送的Word文档与结构化数据。由合并单元，合并每个段落的字体、字号及其格式属性，使文本格式一致；再交由列表单元，根据合并后的段落，以标点符号为标准进行划分，生成段落第一句与剩余文本；

并根据生成的段落第一句与剩余文本，更新单元结构化数据后，将单元结构数据添加至列表，最后将按照段落划分的全文传输给大纲提取模块；

预处理模块中的统计单元则读取结构化数据中的字体字号目录属性，并对其分别进行统计，并把字体字号的组合以段落为单元分组并统计其中每个组合的数量，同时统计段落具有的目录格式属性值。将统计出的结果分别传输给大纲验证模块与大纲提取模块；

步骤四：提取Word文档的大纲；

大纲提取模块，接收预处理模块传输的按照段落划分的全文和统计结果。标题标记单元先读取全文第一个段落的字体和字号，再查看统计结果中相同字体字号组合统计值是否唯一，如果唯一则标记为标题；

层级规则匹配单元，依据文档的编号库，将范围内段落匹配到的符合规则的第一个段落或段落的第一句，设置为当前层级规则样本并传输给大纲标记单元；

并且大纲标记单元接收层级规则匹配单元发送的层级规则样本，依据样本规则提取范围内相同规则的段落标记为当前层级大纲，最后将标记完成的大纲发送给大纲验证模块；

存在层级错误问题时：

则传输给层级错误修正单元进行修正，层级错误修正单元，读取大纲，划分可能的上层级大纲区域，将区域内段落依据字体，字号及格式属性计算分值，标记得分最高段落为大纲，如果标记成功则将新生成的大纲提交至大纲生成单元；

存在大纲缺失问题时：

则传输给大纲缺失修正单元进行修正，大纲缺失修正单元，提取当前层级大纲的字体，字号及格式属性，在缺失范围内匹配完全一致段落，标记为缺失的大纲，再次对大纲序号验证，若非连续递增则提交新生成的大纲至大纲生成单元；

存在大纲重复问题时：

则传输给大纲重复修正单元进行修正。大纲重复修正单元，取消重复大纲标记，提取剩余大纲字体，字号及格式属性，对取消的大纲进行验证，完全一致则提交新大纲至大纲生成单元；

大纲生成单元：

用于接受判断单元或其它单元传输的大纲并予以生成，大纲生成单元，接收其它单元传输的大纲后，将紧跟在大纲后的正文标记为归属于该大纲的文本内容，并将生成的内容予以保存，供撰写者确立大纲时进行参考。

步骤五：验证提取的大纲是否完善；

大纲验证模块接收大纲提取模块提取出的大纲，并由判断单元根据编号库中的大纲序号，判断提取出的大纲存在什么问题，按照存在的问题类型交由对应的单元进行处理；

存在层级错误问题时：

存在大纲缺失问题时：

存在大纲重复问题时：

大纲生成单元：

一种Word文档大纲抽取的方法，所述大纲提取模块，包含标题标记单元、大纲标记单元和层级规则匹配单元，用于提取大纲；

标题标记单元，读取文档的第一个段落的字体和字号，将符合标准的标记为标题；

层级规则匹配单元，依据文档的编号库，将符合规则的段落或第一句话，设置为规则样本并传输给大纲标记单元；

大纲标记单元接收层级规则样本后，按照规则标记层级大纲，并将生成的大纲发送给大纲验证模块。

优选的：大纲验证模块，包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元，用于生成大纲和标记文本内容并加以保存。

优选的：层级错误修正单元对存在层级错误问题的大纲，通过重新标记大纲进行层级修复，大纲缺失修正单元对存在缺失问题的大纲，通过重新提取缺失大纲补全缺失的大纲。

优选的：大纲重复修正单元对存在重复问题的大纲，通过取消重复的大纲标记删除重复的大纲。

优选的：大纲生成单元，接收其它单元最终传输的大纲，并将大纲后的正文标记为该大纲的文本内容，并对生成的结果予以保存。

与现有技术相比，本发明的有益效果是：

本发明采用了知识图谱、NLP等技术。本发明可以对Word文档的大纲进行识别与提取，提取出的大纲可以供用户在确立文章大纲时参考借鉴，为撰写者节约撰写应用文所需要的时间，提高业务处理效率。

附图说明

图1是本申请实施例1提供的一种Word文档大纲抽取的方法的立体结构示意图。

图2是本申请实施例1提供的一种Word文档大纲抽取的方法中系统的结构示意图。

图中：

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

请参阅图1～2，本发明实施例中，一种Word文档大纲抽取的方法，

一种Word文档大纲抽取的方法，包括以下步骤：

步骤一：Word文档导入系统；

将用来作为参考资料的Word文档通过系统终端导入系统；

步骤二：读取Word文档格式信息；

步骤三：对Word文档进行预处理；

步骤四：提取Word文档的大纲；

存在层级错误问题时：

存在大纲缺失问题时：

存在大纲重复问题时：

大纲生成单元：

步骤五：验证提取的大纲是否完善；

存在层级错误问题时：

存在大纲缺失问题时：

存在大纲重复问题时：

大纲生成单元：

大纲标记单元接收层级规则样本后，按照规则标记层级大纲，并将生成的大纲发送给大纲验证模块；

大纲验证模块，包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元，用于生成大纲和标记文本内容并加以保存；

层级错误修正单元对存在层级错误问题的大纲，通过重新标记大纲进行层级修复，大纲缺失修正单元对存在缺失问题的大纲，通过重新提取缺失大纲补全缺失的大纲；

大纲重复修正单元对存在重复问题的大纲，通过取消重复的大纲标记删除重复的大纲；

大纲生成单元，接收其它单元最终传输的大纲，并将大纲后的正文标记为该大纲的文本内容，并对生成的结果予以保存；

工作原理：

首先通过终端，将所有收集到的与论文主题相关的参考论文的Word文档导入系统；

再通过系统读取导入的Word文档的信息，并提取Word文档的文本、字体、字号、格式属性等相关信息，生成结构化数据；

并且系统会根据上一步生成的结构化数据，对文档进行预处理。合并每个段落中的字体、字号及其格式属性。再对合并后的段落按照标点符号划分，生成段落第一句与剩余文本，按照生成的内容更新单元结构数据，并将更新的单元结构添加至列表，最后生成按照段落划分的全文；

对按照段落划分的全文进行大纲提取时，先标记出标题，再按照编号库将符合标准的段落或语句，设置为当前层级规则样本。最后将层级规则样本，按照样本规则进行标记，最后生成大纲；

对生成的大纲进行验证时，首先判断上一步的大纲存在什么问题，并进行处理，若存在层级错误问题，则重新划分正确的大纲。若存在大纲缺失问题，则重新提取正确的岗。若存在大纲重复问题，则删去重复的大纲，在修正完大纲存在的问题后，将大纲后的正文标记为该大纲的文本内容并加以保存。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种Word文档大纲抽取的方法，其特征在于，包括以下步骤：

步骤一：Word文档导入系统；

将用来作为参考资料的Word文档通过系统终端导入系统；

步骤二：读取Word文档格式信息；

通过解析模块接收导入系统的Word文档，然后由提取单元对Word文档的文本、字体、字号、格式属性和段落格式进行提取；

步骤三：对Word文档进行预处理；

步骤四：提取Word文档的大纲；

步骤五：验证提取的大纲是否完善；

大纲验证模块接收大纲提取模块提取出的大纲，并由判断单元根据编号库中的大纲序号，判断提取出的大纲存在什么问题，按照存在的问题类型交由对应的单元进行处理。

2.根据权利要求1所述的一种Word文档大纲抽取的方法，其特征在于，所述步骤二还包括：生成的以段落为单元的结构化数据，与Word文档一起传输给文档预处理模块进行处理。

3.根据权利要求1所述的一种Word文档大纲抽取的方法，其特征在于，所述步骤三还包括：预处理模块中的统计单元则读取结构化数据中的字体字号目录属性，并对其分别进行统计；

并把字体字号的组合以段落为单元分组并统计其中每个组合的数量，同时统计段落具有的目录格式属性值。将统计出的结果分别传输给大纲验证模块与大纲提取模块。

4.根据权利要求1所述的一种Word文档大纲抽取的方法，其特征在于，所述步骤四还包括有：层级规则匹配单元，依据文档的编号库，将范围内段落匹配到的符合规则的第一个段落或段落的第一句，设置为当前层级规则样本并传输给大纲标记单元；

并且大纲标记单元接收层级规则匹配单元发送的层级规则样本，依据样本规则提取范围内相同规则的段落标记为当前层级大纲，最后将标记完成的大纲发送给大纲验证模块。

5.根据权利要求1所述的一种Word文档大纲抽取的方法，其特征在于，所述步骤五还包括有：

存在层级错误问题时：

存在大纲缺失问题时：

存在大纲重复问题时：

大纲生成单元：

6.根据权利要求1所述的一种Word文档大纲抽取的系统，其特征在于，包括解析模块、预处理模块、大纲提取模块、大纲验证模块，所述解析模块，包含提取单元，用于提取Word文档的结构相关信息并生成结构化数据，最后传输给文档预处理模块；

预处理模块，包含合并单元、列表单元与统计单元，为后续的处理工作做前期铺垫；

合并单元，将接收到的Word文档与结构化数据，按照预设规则进行合并，并将合并后的结果传输给列表单元；

列表单元将合并后的段落，按照预设规则进行处理，最后生成按照段落划分的全文；

统计单元则读取解析模块发送的结构化数据，并按照预设规则，分别进行统计，将统计出的结果传输给大纲验证模块和大纲提取模块。

7.根据权利要求1所述的一种Word文档大纲抽取的方法，其特征在于，所述大纲提取模块，包含标题标记单元、大纲标记单元和层级规则匹配单元，用于提取大纲；

8.根据权利要求1所述的一种Word文档大纲抽取的方法，其特征在于，所述大纲验证模块，包含判断单元、层级修正单元、大纲缺失修正单元、大纲重复修正单元和大纲生成单元，用于生成大纲和标记文本内容并加以保存；

接收大纲提取模块发送的大纲后，判断单元判断大纲提取模块生成的大纲存在什么问题，并根据存在的问题类型发送至对应的单元进行处理；

大纲生成单元，接收其它单元最终传输的大纲，并将大纲后的正文标记为该大纲的文本内容，并对生成的结果予以保存。