CN113779931A - 基于Word的知识库构建方法及其控制方法 - Google Patents
基于Word的知识库构建方法及其控制方法 Download PDFInfo
- Publication number
- CN113779931A CN113779931A CN202111012755.XA CN202111012755A CN113779931A CN 113779931 A CN113779931 A CN 113779931A CN 202111012755 A CN202111012755 A CN 202111012755A CN 113779931 A CN113779931 A CN 113779931A
- Authority
- CN
- China
- Prior art keywords
- word
- document
- paragraph
- file
- converting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000009411 base construction Methods 0.000 title claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000003860 storage Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract 1
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于Word的知识库构建方法及其控制方法。构建方法包括步骤:⑴登陆网站,选择或创建文档分类;⑵从本地选择要发布的word文档;⑶提交给转换器进行转换;⑷转换后的文件上传到文件系统;⑸将word的元数据信息保存到数据库,得到数据库记录ID;⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。
Description
技术领域
本发明属于将Word文档进行在线预览,检索和云端存储的技术领域,特别涉及一种基于Word的知识库构建方法及其控制方法。
背景技术
公司内部的word文档非常多且分散,容易丢失,找到历史文档几乎是不可能的事情。在职人员离职流动,历史文档有哪些都不知道。word文档无法进行内容检索,无法以最快的速度找到对自己有用的文档。
CN201811043059.3公开了一种核电厂Word文件向基于模板的HTML文件的转换方法及装置,它的目的是提供一种最终生成的HTML文件结构性强,继承了Word文件内容的结构。该技术方案:创建HTML文件模板;将关键内容设置唯一的伪代码;从Word文件中读取文字内容及图形内容;将所读取的文字内容装入数组,并将所读取的图形内容装入文件夹;打开所创建的HTML文件模板;读取HTML文件模板的所设置的唯一的伪代码;建立HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系;以及基于HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系,将Word文件中的文字内容及图形内容注入到HTML文件中。本发明的转换方法仅由工程生产人员即可完成从Word文件到HTML文件的转换,转换周期大幅缩短。其不足之处是:
⑴该对比文献针对特定领域,其识别word元素能力有限;据该专利描述,其能够识别word文档里文本和图形元素。
⑵该对比文献转换后的是静态的html网页。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种通过将word进行h5转换,发布到服务器,使用户可以对word文档进行集中管理,包括存档,分类,索引,查看,充分发挥word文档所承载的知识价值,提升效率基于Word的知识库构建方法。本发明的另一目的是提供一种通过定制化解析Word文档,即通过在转换过程中加载自定义的css文件和js文件生成个性化排版的基于Word文档的知识库构建的控制方法。
本发明的技术解决方案是所述基于Word的知识库构建方法,其特殊之处在于,包括以下步骤:
⑴登陆网站,选择或创建文档分类;
⑵从本地选择要发布的word文档;
⑶提交给转换器进行转换;
⑷转换后的文件上传到文件系统;
⑸将word的元数据信息保存到数据库,得到数据库记录ID;
⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;
⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。
作为优选:步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:
(3.1)读取word的大纲结构,将其转换为H5目录;
(3.2)读取段落内容,转换为H5段落;
(3.3)读取文本样式,将其转换为H5Css3样式;
(3.4)解析word里的超链接,转换成H5的超链接形式;
(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;
(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;
(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;
(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;
(3.9)读取表格信息,将其转换为H5支持的table。
作为优选:所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。
作为优选:所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。
本发明的另一技术解决方案是所述基于Word的知识库构建的控制方法,其特殊之处在于,包括以下步骤:
⑴加载Word文档到内存;
⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;
⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;
⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号;
⑸进行段落解析;
⑹判断段落类别;
⑺表格段落;
⑻读取行列号,进行遍历输出;
⑼判断是否有合并列;
⑽若是,则进行合并列转换;
⑾进一步判断是否有合并行;
⑿若有,则按合并行进行转换;
⒀表格内段落解析,结束;
⒁承接步骤⑹,图片段落;
⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;
⒃承接步骤⑹,普通文本段落;
⒄读取样式信息,进行样式转换,输出到H5页面;
⒅判断是否包含超链接;
⒆若是,则进行超链接解析;
⒇进一步判断是否存在附件;
(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;
(22)承接步骤⑹,大纲段落类型;
(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。
作为优选:步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。
作为优选:步骤⑷所述的递归算法生成层级序号,包括公式:
构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:
⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;
⑵步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:
paragraph->catalog(content,level)
释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;
⑶得到当前word文档的所有目录节点;此时,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;
⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;
⑸基于如上的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到。
作为优选:所述步骤⑷的特征描述如下:
a.word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;
b.第一次出现的大纲段落,肯定是层级最小的最顶层段落;
c.子级段落一定在其父段落出现之后;
d.距离子级段落最近的那个上级段落肯定为其父级段落。
作为优选:服务器包括:
文件服务器,用于存储转换后的附件在H5页面;
索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;
网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。
与现有技术相比,本发明的有益效果:
⑴本发明除了文本,图形,还包括大纲目录结构,表格,数学公式,附件,超链接以及样式信息(粗体,下划线,删除线,字体颜色,背景色等等),识别元素相对丰富。
⑵本发明生成的H5页面可对外提供访问接口,后期还可以动态对H5页面进行内容优化调整,比如调整目录的位置。
⑶本发明面向通用领域,有利于工程化部署,结合文件服务器,数据库服务器,网站服务器,索引服务器可以很轻松基于word文档构建组织(政府,企业,学校)内部的知识库系统。
⑶本发明为企业管理内部留存的word文档提供技术支持,通过将word进行h5转换(尽可能多的保留Word文档原始的排版),发布到服务器,使企业可以对word文档进行集中管理,包括存档,分类,索引,查看。充分发挥word文档所承载的知识价值。提升企业管理,决策的效率。
⑷本发明的Word文档转换成H5网页:内容和排版和原始Word文档几乎保持一致,因而,配合网站服务器,可以对文档进行分类;配合索引服务器,可以对文档进行检索,比如按作者,内容;配合文件服务器,可以在线下载原本粘贴在word里的附件;公司内部从此可以对word文档进行统一高效的管理。
附图说明
图1是本发明基于Word的知识库构建方法的流程图;
图2是本发明基于Word的知识库构建的控制方法的流程图。
具体实施方式
本发明下面将结合附图作进一步详述:
请参阅图1所示,所述基于Word的知识库构建方法,包括步骤:
⑴登陆网站,选择或创建文档分类;
⑵从本地选择要发布的word文档;
⑶提交给转换器进行转换;
⑷转换后的文件上传到文件系统;
⑸将word的元数据信息,包括作者、发布时间、分类信息保存到数据库,得到数据库记录ID;
⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;
⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。
其中:步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:
(3.1)读取word的大纲结构,将其转换为H5目录;
(3.2)读取段落内容,转换为H5段落;
(3.3)读取文本样式,将其转换为H5Css3样式;
(3.4)解析word里的超链接,转换成H5的超链接形式;
(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;
(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;
(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;
(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;
(3.9)读取表格信息,将其转换为H5支持的table。
本实施例中,所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。
本实施例中,所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。
请参阅图2所示,所述基于Word的知识库构建的控制方法,包括步骤:
⑴加载Word文档到内存;
⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;
⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;
⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号,例如1,1,1,2,1;
⑸进行段落解析;
⑹判断段落类别;
⑺表格段落;
⑻读取行列号,进行遍历输出;
⑼判断是否有合并列;
⑽若是,则进行合并列转换;
⑾进一步判断是否有合并行;
⑿若有,则按合并行进行转换;
⒀表格内段落解析,结束;
⒁承接步骤⑹,图片段落;
⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;
⒃承接步骤⑹,普通文本段落;
⒄读取样式信息,进行样式转换,输出到H5页面;
⒅判断是否包含超链接;
⒆若是,则进行超链接解析;
⒇进一步判断是否存在附件;
(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;
(22)承接步骤⑹,大纲段落类型;
(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。
其中:步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。
其中:步骤⑷所述的递归算法生成层级序号,包括:
构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:
⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;
⑵步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:
paragraph->catalog(content,level)
释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;
⑶得到当前word文档的所有目录节点;注意这里仅仅是得到了目录节点而已,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;
⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;
⑸基于如上的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到;
该特征关系是构建目录树形结构的关键,特征描述如下:
a、word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;
b、第一次出现的大纲段落,肯定是最顶层(层级最小)的段落;
c子级段落一定在其父段落出现之后;
d距离子级段落最近的那个上级段落肯定为其父级段落。
基于如上的特征,目录的层级关系就能建立起来了;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序号,自然就可以得到。
本实施例中,服务器包括:
文件服务器,用于存储转换后的附件在H5页面;
索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;
网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求范围所做的均等变化与修饰,皆应属本发明权利要求的涵盖范围。
Claims (9)
1.一种基于Word的知识库构建方法,其特征在于,包括以下步骤:
⑴登陆网站,选择或创建文档分类;
⑵从本地选择要发布的word文档;
⑶提交给转换器进行转换;
⑷转换后的文件上传到文件系统;
⑸将word的元数据信息保存到数据库,得到数据库记录ID;
⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;
⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。
2.根据权利要求1所述基于Word的知识库构建方法,其特征在于,步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:
(3.1)读取word的大纲结构,将其转换为H5目录;
(3.2)读取段落内容,转换为H5段落;
(3.3)读取文本样式,将其转换为H5 Css3样式;
(3.4)解析word里的超链接,转换成H5的超链接形式;
(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;
(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;
(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;
(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;
(3.9)读取表格信息,将其转换为H5支持的table。
3.根据权利要求2所述基于Word的知识库构建方法,其特征在于,所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。
4.根据权利要求2所述基于Word的知识库构建方法,其特征在于,所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。
5.一种基于Word的知识库构建的控制方法,其特征在于,包括以下步骤:
⑴加载Word文档到内存;
⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;
⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;
⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号;
⑸进行段落解析;
⑹判断段落类别;
⑺表格段落;
⑻读取行列号,进行遍历输出;
⑼判断是否有合并列;
⑽若是,则进行合并列转换;
⑾进一步判断是否有合并行;
⑿若有,则按合并行进行转换;
⒀表格内段落解析,结束;
⒁承接步骤⑹,图片段落;
⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;
⒃承接步骤⑹,普通文本段落;
⒄读取样式信息,进行样式转换,输出到H5页面;
⒅判断是否包含超链接;
⒆若是,则进行超链接解析;
⒇进一步判断是否存在附件;
(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;
(22)承接步骤⑹,大纲段落类型;
(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。
6.根据权利要求5所述基于Word的知识库构建的控制方法,其特征在于,步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。
7.根据权利要求5所述基于Word的知识库构建的控制方法,其特征在于,步骤⑷所述的递归算法生成层级序号,构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:
⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;
⑵在步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:
paragraph->catalog(content,level)
释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;
⑶得到当前word文档的所有目录节点;此时,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;
⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;
⑸基于上述的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到。
8.根据权利要求7所述基于Word的知识库构建的控制方法,其特征在于,所述步骤⑷的特征描述如下:
a.word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;
b.第一次出现的大纲段落,肯定是层级最小的最顶层段落;
c.子级段落一定在其父段落出现之后;
d.距离子级段落最近的那个上级段落肯定为其父级段落。
9.根据权利要求5或6所述基于Word的知识库构建的控制方法,其特征在于,服务器包括:
文件服务器,用于存储转换后的附件在H5页面;
索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;
网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012755.XA CN113779931A (zh) | 2021-08-31 | 2021-08-31 | 基于Word的知识库构建方法及其控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012755.XA CN113779931A (zh) | 2021-08-31 | 2021-08-31 | 基于Word的知识库构建方法及其控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779931A true CN113779931A (zh) | 2021-12-10 |
Family
ID=78840440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111012755.XA Pending CN113779931A (zh) | 2021-08-31 | 2021-08-31 | 基于Word的知识库构建方法及其控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779931A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801149A (zh) * | 2004-12-16 | 2006-07-12 | 微软公司 | 用于将格式化文档转化为网页的系统和方法 |
CN107145479A (zh) * | 2017-05-04 | 2017-09-08 | 北京文因互联科技有限公司 | 基于文本语义的篇章结构分析方法 |
CN110083805A (zh) * | 2018-01-25 | 2019-08-02 | 北京大学 | 一种将Word文件转换为EPUB文件的方法及系统 |
CN110569492A (zh) * | 2019-09-09 | 2019-12-13 | 中国工商银行股份有限公司 | 一种带附件的在线文档生成方法及服务器 |
CN112527291A (zh) * | 2020-12-01 | 2021-03-19 | 瀚云科技有限公司 | 网页生成方法、装置、电子设备及存储介质 |
CN113033162A (zh) * | 2021-04-08 | 2021-06-25 | 成都微视联软件技术有限公司 | 一种可控制编辑规则的电子文档转换方法 |
-
2021
- 2021-08-31 CN CN202111012755.XA patent/CN113779931A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801149A (zh) * | 2004-12-16 | 2006-07-12 | 微软公司 | 用于将格式化文档转化为网页的系统和方法 |
CN107145479A (zh) * | 2017-05-04 | 2017-09-08 | 北京文因互联科技有限公司 | 基于文本语义的篇章结构分析方法 |
CN110083805A (zh) * | 2018-01-25 | 2019-08-02 | 北京大学 | 一种将Word文件转换为EPUB文件的方法及系统 |
CN110569492A (zh) * | 2019-09-09 | 2019-12-13 | 中国工商银行股份有限公司 | 一种带附件的在线文档生成方法及服务器 |
CN112527291A (zh) * | 2020-12-01 | 2021-03-19 | 瀚云科技有限公司 | 网页生成方法、装置、电子设备及存储介质 |
CN113033162A (zh) * | 2021-04-08 | 2021-06-25 | 成都微视联软件技术有限公司 | 一种可控制编辑规则的电子文档转换方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083805B (zh) | 一种将Word文件转换为EPUB文件的方法及系统 | |
US9390097B2 (en) | Dynamic generation of target files from template files and tracking of the processing of target files | |
JP5435568B2 (ja) | データアクセス及びプレゼンテーション要素を再利用する方法及び装置 | |
US20050198567A1 (en) | Web navigation method and system | |
CN108255972A (zh) | 一种全文检索方法及系统 | |
WO2006102512A2 (en) | Change control management of xml documents | |
Bouche et al. | The new numdam platform | |
CN116090416B (zh) | 基于标准知识图谱的标准编写方法、系统、设备及介质 | |
Stinson et al. | Encoding medieval music notation for research | |
Chortaras et al. | WITH: human-computer collaboration for data annotation and enrichment | |
CN113779931A (zh) | 基于Word的知识库构建方法及其控制方法 | |
Cherkashin et al. | Digital archives supporting document content inference | |
CN113657080A (zh) | 一种基于xml的结构化系统及数据包创建方法 | |
JP2003288332A (ja) | 構造化文書作成支援方法及び構造化文書作成支援システム | |
Claivaz et al. | From fulltext documents to structured citations: Cern's automated solution | |
Wisneski et al. | Implementing TEI projects and accompanying metadata for small libraries: rationale and best practices | |
Lang | Review of Perseus digital library | |
CN111061863B (zh) | 期刊目录展示方法、装置及设备 | |
Abi Assaf et al. | Automated Submission of Digital Content to Digital Repositories Through Web API | |
Faulhaber | PhiloBiblon and the Semantic Web. Notes for a Future History | |
Webb | EAD in the department of special collections and western manuscripts at the bodleian library, United Kingdom | |
US11921797B2 (en) | Computer service for indexing threaded comments with pagination support | |
Gavrilă et al. | A New Challenge in the Data Processing of Non-Standard Texts Containing Accents/Diacritics: A Case Study | |
Martoglia et al. | A tool for semiautomatic cataloguing of an islamic digital library: a use case from the Digital Maktaba project (short paper) | |
Jain et al. | CS5604: Team 1 ETD Collection Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211210 |