CN106528877A - word文档的模块化方法及系统 - Google Patents
word文档的模块化方法及系统 Download PDFInfo
- Publication number
- CN106528877A CN106528877A CN201611138102.5A CN201611138102A CN106528877A CN 106528877 A CN106528877 A CN 106528877A CN 201611138102 A CN201611138102 A CN 201611138102A CN 106528877 A CN106528877 A CN 106528877A
- Authority
- CN
- China
- Prior art keywords
- catalogue
- document
- text
- module
- outline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了word文档的模块化方法及系统;包括:word文档分类;对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;根据正文模块与目录条目的关联关系生成文档,并进行发布。通过对word文档的大纲结构解析,排版内容读取,自定义标签处理,目录内容模块化标识和存储,实现word文档的自动载入和内容根据自定义标签模块划分,以及文档目录大纲和正文重构,为建立企业政策制度文库提供全方位支持。
Description
技术领域
本发明涉及一种word文档的模块化方法及系统。
背景技术
目前,企业的公文文档繁多,在工作中无法快速从多个文档中把目标内容搜索定位出来。同时,在word文档中记录个人笔记或书签收藏,容易受文档存储的物理位置影响而不能随时查阅。企业对于文档管理缺乏统一有效便捷的管理工具,往往通过大量的公司邮件来发布和管理公文文件,无法掌握员工对公文文件的学习认知程度和实施落实情况。
发明内容
本发明的目的就是为了解决word文档的目录结构和排版内容的读取、解析和重构等问题,本发明通过对word文档的大纲结构解析,排版内容读取,自定义标签处理,目录内容模块化标识和存储,实现word文档的自动载入和内容根据自定义标签模块划分,以及文档目录大纲和正文重构,为建立企业政策制度文库提供全方位支持。
为了实现上述目的,本发明采用如下技术方案:
word文档的模块化方法,包括:
步骤(1):word文档分类;
步骤(2):对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;
步骤(3):按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;
步骤(4):根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;
步骤(5)根据步骤(4)正文模块与目录条目的关联关系生成文档,并进行发布。
所述步骤(1)的文档分类分为公共文档分类和所属单位自定义文档分类,公共文档分类的文档允许被所有单位进行内容的查阅,所属单位自定义文档分类的文档只允许在本单位范围内进行内容的查阅。
所述步骤(2)的步骤为:
根据步骤(1)的文档分类,将word文档载入到相应的分类中;对word文档的目录大纲进行解析,得到若干目录条目;对word文档的正文内容进行读取;对于获取到的正文内容,记录正文与正文所属的目录条目之间的关系;
对于解析后目录大纲得到的若干目录条目,每个目录条目在存储过程中,每个目录条目的属性包括当前目录的内容,当前目录的ID和当前目录条目所属的父级目录的ID。
所述步骤(2)的步骤为:
步骤(21):将word文档载入到相应的分类中,存储word文档最后一段的段首和段尾的位置;
步骤(22):读取文档的一个段落;判断读取的段落是正文段落还是目录条目,
段落大纲级别为10或表格中的每个单元格都表示正文;
段落大纲级别为1-9表示目录条目;
若是正文段落就读取段首位置,进入步骤(23);若是目录条目就读取段首位置、段尾位置、段落内容以及段落的大纲级别;进入步骤(23);
步骤(23):判断段首位置与word文档最后一段的段首位置比较,是否一致,若一致就进入步骤(3),若不一致就判断是目录条目还是正文段落;若是目录条目就进入步骤(24);若是正文段落就进入步骤(22);
步骤(24):判断段落大纲级别是否等于1,若等于1,则判定为顶层目录;返回步骤(22);
若不等于1,则进一步寻找当前目录的父级目录;返回步骤(22)。
所述步骤(24)中寻找当前目录的父级目录的步骤为:
如果当前段落大纲级别等于上次读取的目录大纲级别,两个段落拥有相同的父级目录;
如果当前段落大纲级别小于上次读取的目录大纲级别,则当前目录的父级目录是上次读取目录向上找x级:
x=上次读取目录大纲级别-当前目录大纲级别+1;
如果当前段落大纲级别大于上次读取的目录大纲级别,则当前目录的父级目录为上次读取的段落的父级目录。
word文档的模块化系统,包括:
分类模块:用于word文档分类;
解析模块:对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;
划分模块:按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;
关联模块:根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;
发布模块:根据正文模块与目录条目的关联关系生成文档,并进行发布。
所述文档分类分为公共文档分类和所属单位自定义文档分类,公共文档分类的文档允许被所有单位进行内容的查阅,所属单位自定义文档分类的文档只允许在本单位范围内进行内容的查阅。
解析模块根据分类模块的文档分类,将word文档载入到相应的分类中;对word文档的目录大纲进行解析,得到若干目录条目;对word文档的正文内容进行读取;对于获取到的正文内容,记录正文与正文所属的目录条目之间的关系;
对于解析后目录大纲得到的若干目录条目,每个目录条目在存储过程中,每个目录条目的属性包括当前目录的内容,当前目录的ID和当前目录条目所属的父级目录的ID。
默认[MARK]标记作为文档非相关内容的标签。
本发明的有益效果:
1可以快速建立企业的政策、制度和指引等文件文库,把不同类别的非结构化文档转换成结构化数据,为用户提供社交化的内容管理方式,同时为企业的政策制定、公文解读和知识管理提供真实客观的用户数据。
2由于word文档是一种非结构化文档,需要实现对word解析后按自定义标签重新构造文档结构进行模块化管理,重构后的文档结构需要保留原文档的目录结构和内容排版在网页中展示。文档模块化的目的就是为了满足用户根据不同的内容范围进行二次划分,并对每个内容模块进行笔记和收藏。
3将word文档进行目录大纲和排版内容读取和解析,根据自定义标签划分模块,按照自定义文件分类重新构建结构化的文档目录索引、文章大纲和模块化内容。将用户笔记和关注收藏与模块建立关联关系,笔记和关注随时能分享给其他用户,让内容装载更多信息以及更高效的利用。企业文件文库的建立,使文件保存、搜索和利用方面更加灵活和方便,建立起一种新的文档、知识和交流管理方式。
附图说明
图1为文档模块化业务处理流程图;
图2为文档目录条目与正文段落解析流程图;
图3为特定标签[MARK]标记实际应用效果图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1首先建立文档所属分类,将word文档上传并载入,通过对word文档的目录大纲进行解析和排版内容进行读取,按照特定标签[MARK]来划分内容模块进行存储,每个模块都有唯一标识,模块划分完成后重新构建结构化的目录大纲,然后根据目录大纲与模块之间的关联关系进行内容编排。而用户笔记和关注仅与模块相关,实现笔记和关注的多次批量分享不会影响文档结构内容。
一、文档分类:
二、文档分类主要分为公共文档分类和所属单位自定义文档分类,公共文档分类可以在所有单位范围内容查阅,所属单位自定义文档分类只能在本单位范围内查阅。分类创建后,再把word文档上传和载入。
二、文档载入:如图2,word文档载入后,记录最后一个段落的段首和段尾位置,然后开始读取第一个段落,段落属性大纲级别为10或表格中的每个单元格都表示正文,大纲级别为1-9表示目录条目。
如果当前段落为正文,则记录段首位置;
如果当前段落为标题,则记录段首和段尾的位置。
若段首位置与文档最后一个段落的段首位置相同,则结束文档载入。
否则,正文段落继续读取下一段落,而目录条目需要进行目录大纲级别的比较。若段落大纲级别等于1是顶层目录,若段落大纲级别是2-9需要通过以下判断条件来寻找当前目录的父级目录:
1、当前段落大纲级别等于上次读取的目录大纲级别,两个段落拥有相同的父级目录。
2、当前段落大纲级别小于上次读取的目录大纲级别,父级目录是上次读取目录向上找x级:
X=上次读取目录大纲级别-当前目录大纲级别+1。
3、当前段落大纲级别大于上次读取的目录大纲级别,父级目录为上次读取的段落的父级目录。
找到父级目录后,继续读取下一段落直到所有段落读取完成为止。
标签划分模块:如图3,根据特定标签[MARK]字符串来匹配划分正文的模块起止位置,然后把每个模块关联到对应的目录下。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.word文档的模块化方法,其特征是,包括:
步骤(1):word文档分类;
步骤(2):对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;
步骤(3):按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;
步骤(4):根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;
步骤(5)根据步骤(4)正文模块与目录条目的关联关系生成文档,并进行发布。
2.如权利要求1所述的word文档的模块化方法,其特征是,
所述步骤(1)的文档分类分为公共文档分类和所属单位自定义文档分类,公共文档分类的文档允许被所有单位进行内容的查阅,所属单位自定义文档分类的文档只允许在本单位范围内进行内容的查阅。
3.如权利要求1所述的word文档的模块化方法,其特征是,所述步骤(2)的步骤为:
根据步骤(1)的文档分类,将word文档载入到相应的分类中;对word文档的目录大纲进行解析,得到若干目录条目;对word文档的正文内容进行读取;对于获取到的正文内容,记录正文与正文所属的目录条目之间的关系;
对于解析后目录大纲得到的若干目录条目,每个目录条目在存储过程中,每个目录条目的属性包括当前目录的内容,当前目录的ID和当前目录条目所属的父级目录的ID。
4.如权利要求1所述的word文档的模块化方法,其特征是,所述步骤(2)的步骤为:
步骤(21):将word文档载入到相应的分类中,存储word文档最后一段的段首和段尾的位置;
步骤(22):读取文档的一个段落;判断读取的段落是正文段落还是目录条目,
段落大纲级别为10或表格中的每个单元格都表示正文;
段落大纲级别为1-9表示目录条目;
若是正文段落就读取段首位置,进入步骤(23);若是目录条目就读取段首位置、段尾位置、段落内容以及段落的大纲级别;进入步骤(23);
步骤(23):判断段首位置与word文档最后一段的段首位置比较,是否一致,若一致就进入步骤(3),若不一致就判断是目录条目还是正文段落;若是目录条目就进入步骤(24);若是正文段落就进入步骤(22);
步骤(24):判断段落大纲级别是否等于1,若等于1,则判定为顶层目录;返回步骤(22);
若不等于1,则进一步寻找当前目录的父级目录;返回步骤(22)。
5.如权利要求4所述的word文档的模块化方法,其特征是,
所述步骤(24)中寻找当前目录的父级目录的步骤为:
如果当前段落大纲级别等于上次读取的目录大纲级别,两个段落拥有相同的父级目录;
如果当前段落大纲级别小于上次读取的目录大纲级别,则当前目录的父级目录是上次读取目录向上找x级:
x=上次读取目录大纲级别-当前目录大纲级别+1;
如果当前段落大纲级别大于上次读取的目录大纲级别,则当前目录的父级目录为上次读取的段落的父级目录。
6.word文档的模块化系统,其特征是,包括:
分类模块:用于word文档分类;
解析模块:对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;
划分模块:按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;
关联模块:根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;
发布模块:根据正文模块与目录条目的关联关系生成文档,并进行发布。
7.如权利要求6所述的word文档的模块化系统,其特征是,
所述文档分类分为公共文档分类和所属单位自定义文档分类,公共文档分类的文档允许被所有单位进行内容的查阅,所属单位自定义文档分类的文档只允许在本单位范围内进行内容的查阅。
8.如权利要求6所述的word文档的模块化系统,其特征是,
解析模块根据分类模块的文档分类,将word文档载入到相应的分类中;对word文档的目录大纲进行解析,得到若干目录条目;对word文档的正文内容进行读取;对于获取到的正文内容,记录正文与正文所属的目录条目之间的关系;
对于解析后目录大纲得到的若干目录条目,每个目录条目在存储过程中,每个目录条目的属性包括当前目录的内容,当前目录的ID和当前目录条目所属的父级目录的ID。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611138102.5A CN106528877A (zh) | 2016-12-12 | 2016-12-12 | word文档的模块化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611138102.5A CN106528877A (zh) | 2016-12-12 | 2016-12-12 | word文档的模块化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106528877A true CN106528877A (zh) | 2017-03-22 |
Family
ID=58343068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611138102.5A Pending CN106528877A (zh) | 2016-12-12 | 2016-12-12 | word文档的模块化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528877A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622087A (zh) * | 2017-08-17 | 2018-01-23 | 珠海云游道科技有限责任公司 | 便于用户操作的文档管理装置及方法 |
CN107632969A (zh) * | 2017-08-17 | 2018-01-26 | 珠海云游道科技有限责任公司 | 用于管理信息系统的文档生成方法及装置 |
CN108563747A (zh) * | 2018-04-13 | 2018-09-21 | 北京深度智耀科技有限公司 | 一种文档处理方法及装置 |
CN110427598A (zh) * | 2019-07-30 | 2019-11-08 | 吴昌议 | 一种继承工厂已有word操作规程实现作业信息化的方法 |
CN111026487A (zh) * | 2019-12-05 | 2020-04-17 | 国网山东省电力公司 | 一种基于rcp混合结构的财务悬浮系统 |
CN111144069A (zh) * | 2019-12-30 | 2020-05-12 | 北大方正集团有限公司 | 一种基于表格的目录排版方法、装置及存储介质 |
CN113361256A (zh) * | 2021-06-24 | 2021-09-07 | 上海真虹信息科技有限公司 | 一种基于Aspose技术的Word文档快速解析方法 |
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010042085A1 (en) * | 1998-09-30 | 2001-11-15 | Mark Peairs | Automatic document classification using text and images |
CN102317933A (zh) * | 2009-01-02 | 2012-01-11 | 苹果公司 | 用于文档重构的方法和系统 |
CN102541948A (zh) * | 2010-12-23 | 2012-07-04 | 北大方正集团有限公司 | 用于提取文档结构的方法和装置 |
CN102855244A (zh) * | 2011-06-28 | 2013-01-02 | 北大方正集团有限公司 | 文档目录处理方法和装置 |
-
2016
- 2016-12-12 CN CN201611138102.5A patent/CN106528877A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010042085A1 (en) * | 1998-09-30 | 2001-11-15 | Mark Peairs | Automatic document classification using text and images |
CN102317933A (zh) * | 2009-01-02 | 2012-01-11 | 苹果公司 | 用于文档重构的方法和系统 |
CN102541948A (zh) * | 2010-12-23 | 2012-07-04 | 北大方正集团有限公司 | 用于提取文档结构的方法和装置 |
CN102855244A (zh) * | 2011-06-28 | 2013-01-02 | 北大方正集团有限公司 | 文档目录处理方法和装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622087A (zh) * | 2017-08-17 | 2018-01-23 | 珠海云游道科技有限责任公司 | 便于用户操作的文档管理装置及方法 |
CN107632969A (zh) * | 2017-08-17 | 2018-01-26 | 珠海云游道科技有限责任公司 | 用于管理信息系统的文档生成方法及装置 |
CN107622087B (zh) * | 2017-08-17 | 2024-03-22 | 珠海云游道科技有限责任公司 | 便于用户操作的文档管理装置及方法 |
CN107632969B (zh) * | 2017-08-17 | 2024-03-29 | 珠海云游道科技有限责任公司 | 用于管理信息系统的文档生成方法及装置 |
CN108563747A (zh) * | 2018-04-13 | 2018-09-21 | 北京深度智耀科技有限公司 | 一种文档处理方法及装置 |
US10909187B2 (en) | 2018-04-13 | 2021-02-02 | Beijing Deep Intelligent Pharma Co., Ltd. | Document processing method and device |
CN110427598A (zh) * | 2019-07-30 | 2019-11-08 | 吴昌议 | 一种继承工厂已有word操作规程实现作业信息化的方法 |
CN111026487A (zh) * | 2019-12-05 | 2020-04-17 | 国网山东省电力公司 | 一种基于rcp混合结构的财务悬浮系统 |
CN111026487B (zh) * | 2019-12-05 | 2023-09-29 | 国网山东省电力公司 | 一种基于rcp混合结构的财务悬浮系统 |
CN111144069A (zh) * | 2019-12-30 | 2020-05-12 | 北大方正集团有限公司 | 一种基于表格的目录排版方法、装置及存储介质 |
CN113361256A (zh) * | 2021-06-24 | 2021-09-07 | 上海真虹信息科技有限公司 | 一种基于Aspose技术的Word文档快速解析方法 |
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528877A (zh) | word文档的模块化方法及系统 | |
CN102207948B (zh) | 一种事件陈述句素材库的生成方法 | |
CN106095796A (zh) | 分布式数据存储方法、装置及系统 | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
CN102317943A (zh) | 一种全文搜索的方法和装置 | |
CN106503079A (zh) | 一种日志管理方法及系统 | |
WO2021108038A1 (en) | Systems and methods for extracting and implementing document text according to predetermined formats | |
Eddy | Tools for reordering: commonplacing and the space of words in Linnaeus's Philosophia Botanica | |
Neudecker et al. | Large-scale refinement of digital historic newspapers with named entity recognition | |
CN103309879A (zh) | 一种管理word文档中的标记的方法及装置 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN103823868B (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
CN109903824A (zh) | 一种数字化病案分类管理系统及其使用方法 | |
CN101639840A (zh) | 网络信息语义结构识别方法和装置 | |
CN112199960B (zh) | 一种标准知识元粒度解析系统 | |
CN108932296A (zh) | 一种基于关联数据的小学语文作文素材结构化存储方法与装置 | |
CN104063367A (zh) | 注释检索装置、方法及程序 | |
CN102207947B (zh) | 一种直接引语素材库的生成方法 | |
CN117076692A (zh) | 一种档案在线管理方法及系统 | |
Jouis | Next Generation Search Engines: Advanced Models for Information Retrieval: Advanced Models for Information Retrieval | |
CN111159984A (zh) | 一种具有智能学习笔记功能的辅助阅读系统 | |
TW200807346A (en) | Knowledge framework system and method for integrating a knowledge management system with an e-learning system | |
CN111368515B (zh) | 基于pdf文档碎片化的行业动态交互式报告生成方法及系统 | |
Zhang et al. | An overview on supervised semi-structured data classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20200228 |
|
AD01 | Patent right deemed abandoned |