CN113779931A

CN113779931A - 基于Word的知识库构建方法及其控制方法

Info

Publication number: CN113779931A
Application number: CN202111012755.XA
Authority: CN
Inventors: 张少举; 陶静远; 吴海荣
Original assignee: Minshang Digital Technology Shenzhen Co ltd
Current assignee: Minshang Digital Technology Shenzhen Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-10

Abstract

本发明涉及基于Word的知识库构建方法及其控制方法。构建方法包括步骤：⑴登陆网站，选择或创建文档分类；⑵从本地选择要发布的word文档；⑶提交给转换器进行转换；⑷转换后的文件上传到文件系统；⑸将word的元数据信息保存到数据库，得到数据库记录ID；⑹基于转换后的文本内容，进行内容索引，同时也将作者、数据库ID进行索引；⑺刷新网站页面，在最近文档中，即可查到新上传的文档链接。

Description

基于Word的知识库构建方法及其控制方法

技术领域

本发明属于将Word文档进行在线预览，检索和云端存储的技术领域，特别涉及一种基于Word的知识库构建方法及其控制方法。

背景技术

公司内部的word文档非常多且分散，容易丢失，找到历史文档几乎是不可能的事情。在职人员离职流动，历史文档有哪些都不知道。word文档无法进行内容检索，无法以最快的速度找到对自己有用的文档。

CN201811043059.3公开了一种核电厂Word文件向基于模板的HTML文件的转换方法及装置,它的目的是提供一种最终生成的HTML文件结构性强，继承了Word文件内容的结构。该技术方案：创建HTML文件模板；将关键内容设置唯一的伪代码；从Word文件中读取文字内容及图形内容；将所读取的文字内容装入数组，并将所读取的图形内容装入文件夹；打开所创建的HTML文件模板；读取HTML文件模板的所设置的唯一的伪代码；建立HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系；以及基于HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系，将Word文件中的文字内容及图形内容注入到HTML文件中。本发明的转换方法仅由工程生产人员即可完成从Word文件到HTML文件的转换，转换周期大幅缩短。其不足之处是:

⑴该对比文献针对特定领域，其识别word元素能力有限；据该专利描述，其能够识别word文档里文本和图形元素。

⑵该对比文献转换后的是静态的html网页。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种通过将word进行h5转换，发布到服务器，使用户可以对word文档进行集中管理，包括存档，分类，索引，查看，充分发挥word文档所承载的知识价值，提升效率基于Word的知识库构建方法。本发明的另一目的是提供一种通过定制化解析Word文档，即通过在转换过程中加载自定义的css文件和js文件生成个性化排版的基于Word文档的知识库构建的控制方法。

本发明的技术解决方案是所述基于Word的知识库构建方法，其特殊之处在于，包括以下步骤：

⑴登陆网站，选择或创建文档分类；

⑵从本地选择要发布的word文档；

⑶提交给转换器进行转换；

⑷转换后的文件上传到文件系统；

⑸将word的元数据信息保存到数据库，得到数据库记录ID；

⑹基于转换后的文本内容，进行内容索引，同时也将作者、数据库ID进行索引；

⑺刷新网站页面，在最近文档中，即可查到新上传的文档链接。

作为优选：步骤⑶所述转换是指Word到H5的转换，所述转换器完成word文档内部元素的识别，并将其转换为对应的h5元素，进一步包括：

(3.1)读取word的大纲结构，将其转换为H5目录；

(3.2)读取段落内容，转换为H5段落；

(3.3)读取文本样式，将其转换为H5Css3样式；

(3.4)解析word里的超链接，转换成H5的超链接形式；

(3.5)读取word里的图片文件，将其转换为base64编码格式，展示在H5页面上；

(3.6)基于文档里的图片，创建H5版本的弹窗相册，提升word没有的图片查看体验；

(3.7)读取附件信息，将其上传到文件服务器，生成下载连接，展示在H5页面上；

(3.8)读取word数学公式信息，将其转换为xml代码或者png图片展示在H5页面上；

(3.9)读取表格信息，将其转换为H5支持的table。

作为优选：所述转换器在转换word过程中，如果遇到附件，借助于文件服务器的客户端将其上传到文件服务器，文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后，就能够点击下载。

作为优选：所述Word文档通过转换器转换成H5之后，对其基本元素进行索引，包括作者名称，发布日期，文档内容。

本发明的另一技术解决方案是所述基于Word的知识库构建的控制方法，其特殊之处在于，包括以下步骤：

⑴加载Word文档到内存；

⑵提取所有图片信息，将其转换成base64暂存，每个图片均有一个唯一ID对应，将图片ID与图片内容建立唯一映射关系，暂存；

⑶提取所有附件信息，将其上传到文件服务器得到文件服务器唯一ID；每个附件均有一个唯一ID对应，将附件ID与文件服务器ID建立唯一映射关系，暂存；

⑷解析Word文档内部的styles,xml,区分样式层级，建立层级关系，即目录的层级关系，且基于层级关系使用递归算法生成层级序号；

⑸进行段落解析；

⑹判断段落类别；

⑺表格段落；

⑻读取行列号，进行遍历输出；

⑼判断是否有合并列；

⑽若是，则进行合并列转换；

⑾进一步判断是否有合并行；

⑿若有，则按合并行进行转换；

⒀表格内段落解析，结束；

⒁承接步骤⑹，图片段落；

⒂基于图片ID到初始图片列表进行匹配，匹配成功，则转换成H5 image标签，将base64字符串存放到src属性上；

⒃承接步骤⑹，普通文本段落；

⒄读取样式信息，进行样式转换，输出到H5页面；

⒅判断是否包含超链接；

⒆若是，则进行超链接解析；

⒇进一步判断是否存在附件；

(21)与之前的附件列表进行id查找，匹配成功则转换成H5的超链接标签，结束；

(22)承接步骤⑹，大纲段落类型；

(23)基于段落内容，与大纲层级进行匹配，如匹配成功，则使用对应的层级样式对齐进行渲染，结束。

作为优选：步骤⑶所述的文件服务器是在转换器转换word过程中，如遇附件，则借助文件服务器客户端将其上传到所述文件服务器，所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中；这样发布到网站后，就能够点击下载。

作为优选：步骤⑷所述的递归算法生成层级序号，包括公式：

构建所述递归算法生成层级序号的本质就是构建目录的过程，具体的步骤如下：

⑴循环遍历各个段落，将具有标题样式的的段落提取出来；标题样式具备如下的特征：heading1，heading2，heading3；

⑵步骤⑴的循环过程中，提取出如下的特征值，结合元组的形式表达：

paragraph->catalog(content,level)

释义：当前段落paragraph是一个目录catalog，内容为content，所属层级为level；

⑶得到当前word文档的所有目录节点；此时，节点之间的层级关系并没有建立起来，接下来的步骤就是建立目录间层级关系；

⑷把目录抽象成一个树形结构，然后利用树形结构的特征对其进行封装；需要要注意word文档的一个隐藏特征关系，该特征关系是构建目录树形结构的关键；

⑸基于如上的特征，目录的层级关系建立；至于层级序号，如1.1,1.2,1.2.1,只需要遍历的过程中，将当前节点的拼接上其上级节点的序即可得到。

作为优选：所述步骤⑷的特征描述如下：

a.word文档段落是自上而下有序的，提取出来的大纲段落也是有序的；

b.第一次出现的大纲段落，肯定是层级最小的最顶层段落；

c.子级段落一定在其父段落出现之后；

d.距离子级段落最近的那个上级段落肯定为其父级段落。

作为优选：服务器包括：

文件服务器，用于存储转换后的附件在H5页面；

索引服务器，用于对文档内容、作者、发布时间进行索引，方便检索；

网站服务器，用于提供对H5页面的展示和文档的分类管理；包括：展示转换后的H5页面；提供文档下载功能；提供文档上传功能；提供文档分类功能。

与现有技术相比，本发明的有益效果:

⑴本发明除了文本，图形，还包括大纲目录结构，表格，数学公式，附件，超链接以及样式信息(粗体，下划线，删除线，字体颜色，背景色等等)，识别元素相对丰富。

⑵本发明生成的H5页面可对外提供访问接口，后期还可以动态对H5页面进行内容优化调整，比如调整目录的位置。

⑶本发明面向通用领域，有利于工程化部署，结合文件服务器，数据库服务器，网站服务器，索引服务器可以很轻松基于word文档构建组织(政府，企业，学校)内部的知识库系统。

⑶本发明为企业管理内部留存的word文档提供技术支持，通过将word进行h5转换(尽可能多的保留Word文档原始的排版)，发布到服务器，使企业可以对word文档进行集中管理，包括存档，分类，索引，查看。充分发挥word文档所承载的知识价值。提升企业管理，决策的效率。

⑷本发明的Word文档转换成H5网页：内容和排版和原始Word文档几乎保持一致，因而，配合网站服务器，可以对文档进行分类；配合索引服务器，可以对文档进行检索，比如按作者，内容；配合文件服务器，可以在线下载原本粘贴在word里的附件；公司内部从此可以对word文档进行统一高效的管理。

附图说明

图1是本发明基于Word的知识库构建方法的流程图；

图2是本发明基于Word的知识库构建的控制方法的流程图。

具体实施方式

本发明下面将结合附图作进一步详述：

请参阅图1所示，所述基于Word的知识库构建方法，包括步骤：

⑴登陆网站，选择或创建文档分类；

⑵从本地选择要发布的word文档；

⑶提交给转换器进行转换；

⑷转换后的文件上传到文件系统；

⑸将word的元数据信息，包括作者、发布时间、分类信息保存到数据库，得到数据库记录ID；

其中：步骤⑶所述转换是指Word到H5的转换，所述转换器完成word文档内部元素的识别，并将其转换为对应的h5元素，进一步包括：

(3.1)读取word的大纲结构，将其转换为H5目录；

(3.2)读取段落内容，转换为H5段落；

(3.3)读取文本样式，将其转换为H5Css3样式；

(3.4)解析word里的超链接，转换成H5的超链接形式；

(3.9)读取表格信息，将其转换为H5支持的table。

本实施例中，所述转换器在转换word过程中，如果遇到附件，借助于文件服务器的客户端将其上传到文件服务器，文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后，就能够点击下载。

本实施例中，所述Word文档通过转换器转换成H5之后，对其基本元素进行索引，包括作者名称，发布日期，文档内容。

请参阅图2所示，所述基于Word的知识库构建的控制方法，包括步骤：

⑴加载Word文档到内存；

⑷解析Word文档内部的styles,xml,区分样式层级，建立层级关系，即目录的层级关系，且基于层级关系使用递归算法生成层级序号，例如1，1，1，2，1；

⑸进行段落解析；

⑹判断段落类别；

⑺表格段落；

⑻读取行列号，进行遍历输出；

⑼判断是否有合并列；

⑽若是，则进行合并列转换；

⑾进一步判断是否有合并行；

⑿若有，则按合并行进行转换；

⒀表格内段落解析，结束；

⒁承接步骤⑹，图片段落；

⒃承接步骤⑹，普通文本段落；

⒄读取样式信息，进行样式转换，输出到H5页面；

⒅判断是否包含超链接；

⒆若是，则进行超链接解析；

⒇进一步判断是否存在附件；

(22)承接步骤⑹，大纲段落类型；

其中：步骤⑶所述的文件服务器是在转换器转换word过程中，如遇附件，则借助文件服务器客户端将其上传到所述文件服务器，所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中；这样发布到网站后，就能够点击下载。

其中：步骤⑷所述的递归算法生成层级序号，包括：

paragraph->catalog(content,level)

⑶得到当前word文档的所有目录节点；注意这里仅仅是得到了目录节点而已，节点之间的层级关系并没有建立起来，接下来的步骤就是建立目录间层级关系；

⑸基于如上的特征，目录的层级关系建立；至于层级序号，如1.1,1.2,1.2.1,只需要遍历的过程中，将当前节点的拼接上其上级节点的序即可得到；

该特征关系是构建目录树形结构的关键，特征描述如下：

a、word文档段落是自上而下有序的，提取出来的大纲段落也是有序的；

b、第一次出现的大纲段落，肯定是最顶层(层级最小)的段落；

c子级段落一定在其父段落出现之后；

d距离子级段落最近的那个上级段落肯定为其父级段落。

基于如上的特征，目录的层级关系就能建立起来了；至于层级序号，如1.1,1.2,1.2.1,只需要遍历的过程中，将当前节点的拼接上其上级节点的序号，自然就可以得到。

本实施例中，服务器包括：

文件服务器，用于存储转换后的附件在H5页面；

以上所述仅为本发明的较佳实施例，凡依本发明权利要求范围所做的均等变化与修饰，皆应属本发明权利要求的涵盖范围。

Claims

1.一种基于Word的知识库构建方法，其特征在于，包括以下步骤：

⑴登陆网站，选择或创建文档分类；

⑵从本地选择要发布的word文档；

⑶提交给转换器进行转换；

⑷转换后的文件上传到文件系统；

⑸将word的元数据信息保存到数据库，得到数据库记录ID；

2.根据权利要求1所述基于Word的知识库构建方法，其特征在于，步骤⑶所述转换是指Word到H5的转换，所述转换器完成word文档内部元素的识别，并将其转换为对应的h5元素，进一步包括：

(3.1)读取word的大纲结构，将其转换为H5目录；

(3.2)读取段落内容，转换为H5段落；

(3.3)读取文本样式，将其转换为H5 Css3样式；

(3.4)解析word里的超链接，转换成H5的超链接形式；

(3.9)读取表格信息，将其转换为H5支持的table。

3.根据权利要求2所述基于Word的知识库构建方法，其特征在于，所述转换器在转换word过程中，如果遇到附件，借助于文件服务器的客户端将其上传到文件服务器，文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后，就能够点击下载。

4.根据权利要求2所述基于Word的知识库构建方法，其特征在于，所述Word文档通过转换器转换成H5之后，对其基本元素进行索引，包括作者名称，发布日期，文档内容。

5.一种基于Word的知识库构建的控制方法，其特征在于，包括以下步骤：

⑴加载Word文档到内存；

⑸进行段落解析；

⑹判断段落类别；

⑺表格段落；

⑻读取行列号，进行遍历输出；

⑼判断是否有合并列；

⑽若是，则进行合并列转换；

⑾进一步判断是否有合并行；

⑿若有，则按合并行进行转换；

⒀表格内段落解析，结束；

⒁承接步骤⑹，图片段落；

⒃承接步骤⑹，普通文本段落；

⒄读取样式信息，进行样式转换，输出到H5页面；

⒅判断是否包含超链接；

⒆若是，则进行超链接解析；

⒇进一步判断是否存在附件；

(22)承接步骤⑹，大纲段落类型；

6.根据权利要求5所述基于Word的知识库构建的控制方法，其特征在于，步骤⑶所述的文件服务器是在转换器转换word过程中，如遇附件，则借助文件服务器客户端将其上传到所述文件服务器，所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中；这样发布到网站后，就能够点击下载。

7.根据权利要求5所述基于Word的知识库构建的控制方法，其特征在于，步骤⑷所述的递归算法生成层级序号，构建所述递归算法生成层级序号的本质就是构建目录的过程，具体的步骤如下：

⑵在步骤⑴的循环过程中，提取出如下的特征值，结合元组的形式表达：

paragraph->catalog(content,level)

⑸基于上述的特征，目录的层级关系建立；至于层级序号，如1.1,1.2,1.2.1,只需要遍历的过程中，将当前节点的拼接上其上级节点的序即可得到。

8.根据权利要求7所述基于Word的知识库构建的控制方法，其特征在于，所述步骤⑷的特征描述如下：

b.第一次出现的大纲段落，肯定是层级最小的最顶层段落；

c.子级段落一定在其父段落出现之后；

d.距离子级段落最近的那个上级段落肯定为其父级段落。

9.根据权利要求5或6所述基于Word的知识库构建的控制方法，其特征在于，服务器包括：

文件服务器，用于存储转换后的附件在H5页面；