CN113779931A - 基于Word的知识库构建方法及其控制方法 - Google Patents

基于Word的知识库构建方法及其控制方法 Download PDF

Info

Publication number
CN113779931A
CN113779931A CN202111012755.XA CN202111012755A CN113779931A CN 113779931 A CN113779931 A CN 113779931A CN 202111012755 A CN202111012755 A CN 202111012755A CN 113779931 A CN113779931 A CN 113779931A
Authority
CN
China
Prior art keywords
word
document
paragraph
file
converting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111012755.XA
Other languages
English (en)
Inventor
张少举
陶静远
吴海荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minshang Digital Technology Shenzhen Co ltd
Original Assignee
Minshang Digital Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minshang Digital Technology Shenzhen Co ltd filed Critical Minshang Digital Technology Shenzhen Co ltd
Priority to CN202111012755.XA priority Critical patent/CN113779931A/zh
Publication of CN113779931A publication Critical patent/CN113779931A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于Word的知识库构建方法及其控制方法。构建方法包括步骤:⑴登陆网站,选择或创建文档分类;⑵从本地选择要发布的word文档;⑶提交给转换器进行转换;⑷转换后的文件上传到文件系统;⑸将word的元数据信息保存到数据库,得到数据库记录ID;⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。

Description

基于Word的知识库构建方法及其控制方法
技术领域
本发明属于将Word文档进行在线预览,检索和云端存储的技术领域,特别涉及一种基于Word的知识库构建方法及其控制方法。
背景技术
公司内部的word文档非常多且分散,容易丢失,找到历史文档几乎是不可能的事情。在职人员离职流动,历史文档有哪些都不知道。word文档无法进行内容检索,无法以最快的速度找到对自己有用的文档。
CN201811043059.3公开了一种核电厂Word文件向基于模板的HTML文件的转换方法及装置,它的目的是提供一种最终生成的HTML文件结构性强,继承了Word文件内容的结构。该技术方案:创建HTML文件模板;将关键内容设置唯一的伪代码;从Word文件中读取文字内容及图形内容;将所读取的文字内容装入数组,并将所读取的图形内容装入文件夹;打开所创建的HTML文件模板;读取HTML文件模板的所设置的唯一的伪代码;建立HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系;以及基于HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系,将Word文件中的文字内容及图形内容注入到HTML文件中。本发明的转换方法仅由工程生产人员即可完成从Word文件到HTML文件的转换,转换周期大幅缩短。其不足之处是:
⑴该对比文献针对特定领域,其识别word元素能力有限;据该专利描述,其能够识别word文档里文本和图形元素。
⑵该对比文献转换后的是静态的html网页。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种通过将word进行h5转换,发布到服务器,使用户可以对word文档进行集中管理,包括存档,分类,索引,查看,充分发挥word文档所承载的知识价值,提升效率基于Word的知识库构建方法。本发明的另一目的是提供一种通过定制化解析Word文档,即通过在转换过程中加载自定义的css文件和js文件生成个性化排版的基于Word文档的知识库构建的控制方法。
本发明的技术解决方案是所述基于Word的知识库构建方法,其特殊之处在于,包括以下步骤:
⑴登陆网站,选择或创建文档分类;
⑵从本地选择要发布的word文档;
⑶提交给转换器进行转换;
⑷转换后的文件上传到文件系统;
⑸将word的元数据信息保存到数据库,得到数据库记录ID;
⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;
⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。
作为优选:步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:
(3.1)读取word的大纲结构,将其转换为H5目录;
(3.2)读取段落内容,转换为H5段落;
(3.3)读取文本样式,将其转换为H5Css3样式;
(3.4)解析word里的超链接,转换成H5的超链接形式;
(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;
(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;
(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;
(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;
(3.9)读取表格信息,将其转换为H5支持的table。
作为优选:所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。
作为优选:所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。
本发明的另一技术解决方案是所述基于Word的知识库构建的控制方法,其特殊之处在于,包括以下步骤:
⑴加载Word文档到内存;
⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;
⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;
⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号;
⑸进行段落解析;
⑹判断段落类别;
⑺表格段落;
⑻读取行列号,进行遍历输出;
⑼判断是否有合并列;
⑽若是,则进行合并列转换;
⑾进一步判断是否有合并行;
⑿若有,则按合并行进行转换;
⒀表格内段落解析,结束;
⒁承接步骤⑹,图片段落;
⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;
⒃承接步骤⑹,普通文本段落;
⒄读取样式信息,进行样式转换,输出到H5页面;
⒅判断是否包含超链接;
⒆若是,则进行超链接解析;
⒇进一步判断是否存在附件;
(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;
(22)承接步骤⑹,大纲段落类型;
(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。
作为优选:步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。
作为优选:步骤⑷所述的递归算法生成层级序号,包括公式:
构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:
⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;
⑵步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:
paragraph->catalog(content,level)
释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;
⑶得到当前word文档的所有目录节点;此时,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;
⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;
⑸基于如上的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到。
作为优选:所述步骤⑷的特征描述如下:
a.word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;
b.第一次出现的大纲段落,肯定是层级最小的最顶层段落;
c.子级段落一定在其父段落出现之后;
d.距离子级段落最近的那个上级段落肯定为其父级段落。
作为优选:服务器包括:
文件服务器,用于存储转换后的附件在H5页面;
索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;
网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。
与现有技术相比,本发明的有益效果:
⑴本发明除了文本,图形,还包括大纲目录结构,表格,数学公式,附件,超链接以及样式信息(粗体,下划线,删除线,字体颜色,背景色等等),识别元素相对丰富。
⑵本发明生成的H5页面可对外提供访问接口,后期还可以动态对H5页面进行内容优化调整,比如调整目录的位置。
⑶本发明面向通用领域,有利于工程化部署,结合文件服务器,数据库服务器,网站服务器,索引服务器可以很轻松基于word文档构建组织(政府,企业,学校)内部的知识库系统。
⑶本发明为企业管理内部留存的word文档提供技术支持,通过将word进行h5转换(尽可能多的保留Word文档原始的排版),发布到服务器,使企业可以对word文档进行集中管理,包括存档,分类,索引,查看。充分发挥word文档所承载的知识价值。提升企业管理,决策的效率。
⑷本发明的Word文档转换成H5网页:内容和排版和原始Word文档几乎保持一致,因而,配合网站服务器,可以对文档进行分类;配合索引服务器,可以对文档进行检索,比如按作者,内容;配合文件服务器,可以在线下载原本粘贴在word里的附件;公司内部从此可以对word文档进行统一高效的管理。
附图说明
图1是本发明基于Word的知识库构建方法的流程图;
图2是本发明基于Word的知识库构建的控制方法的流程图。
具体实施方式
本发明下面将结合附图作进一步详述:
请参阅图1所示,所述基于Word的知识库构建方法,包括步骤:
⑴登陆网站,选择或创建文档分类;
⑵从本地选择要发布的word文档;
⑶提交给转换器进行转换;
⑷转换后的文件上传到文件系统;
⑸将word的元数据信息,包括作者、发布时间、分类信息保存到数据库,得到数据库记录ID;
⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;
⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。
其中:步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:
(3.1)读取word的大纲结构,将其转换为H5目录;
(3.2)读取段落内容,转换为H5段落;
(3.3)读取文本样式,将其转换为H5Css3样式;
(3.4)解析word里的超链接,转换成H5的超链接形式;
(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;
(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;
(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;
(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;
(3.9)读取表格信息,将其转换为H5支持的table。
本实施例中,所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。
本实施例中,所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。
请参阅图2所示,所述基于Word的知识库构建的控制方法,包括步骤:
⑴加载Word文档到内存;
⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;
⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;
⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号,例如1,1,1,2,1;
⑸进行段落解析;
⑹判断段落类别;
⑺表格段落;
⑻读取行列号,进行遍历输出;
⑼判断是否有合并列;
⑽若是,则进行合并列转换;
⑾进一步判断是否有合并行;
⑿若有,则按合并行进行转换;
⒀表格内段落解析,结束;
⒁承接步骤⑹,图片段落;
⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;
⒃承接步骤⑹,普通文本段落;
⒄读取样式信息,进行样式转换,输出到H5页面;
⒅判断是否包含超链接;
⒆若是,则进行超链接解析;
⒇进一步判断是否存在附件;
(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;
(22)承接步骤⑹,大纲段落类型;
(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。
其中:步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。
其中:步骤⑷所述的递归算法生成层级序号,包括:
构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:
⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;
⑵步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:
paragraph->catalog(content,level)
释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;
⑶得到当前word文档的所有目录节点;注意这里仅仅是得到了目录节点而已,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;
⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;
⑸基于如上的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到;
该特征关系是构建目录树形结构的关键,特征描述如下:
a、word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;
b、第一次出现的大纲段落,肯定是最顶层(层级最小)的段落;
c子级段落一定在其父段落出现之后;
d距离子级段落最近的那个上级段落肯定为其父级段落。
基于如上的特征,目录的层级关系就能建立起来了;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序号,自然就可以得到。
本实施例中,服务器包括:
文件服务器,用于存储转换后的附件在H5页面;
索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;
网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求范围所做的均等变化与修饰,皆应属本发明权利要求的涵盖范围。

Claims (9)

1.一种基于Word的知识库构建方法,其特征在于,包括以下步骤:
⑴登陆网站,选择或创建文档分类;
⑵从本地选择要发布的word文档;
⑶提交给转换器进行转换;
⑷转换后的文件上传到文件系统;
⑸将word的元数据信息保存到数据库,得到数据库记录ID;
⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;
⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。
2.根据权利要求1所述基于Word的知识库构建方法,其特征在于,步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:
(3.1)读取word的大纲结构,将其转换为H5目录;
(3.2)读取段落内容,转换为H5段落;
(3.3)读取文本样式,将其转换为H5 Css3样式;
(3.4)解析word里的超链接,转换成H5的超链接形式;
(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;
(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;
(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;
(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;
(3.9)读取表格信息,将其转换为H5支持的table。
3.根据权利要求2所述基于Word的知识库构建方法,其特征在于,所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。
4.根据权利要求2所述基于Word的知识库构建方法,其特征在于,所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。
5.一种基于Word的知识库构建的控制方法,其特征在于,包括以下步骤:
⑴加载Word文档到内存;
⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;
⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;
⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号;
⑸进行段落解析;
⑹判断段落类别;
⑺表格段落;
⑻读取行列号,进行遍历输出;
⑼判断是否有合并列;
⑽若是,则进行合并列转换;
⑾进一步判断是否有合并行;
⑿若有,则按合并行进行转换;
⒀表格内段落解析,结束;
⒁承接步骤⑹,图片段落;
⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;
⒃承接步骤⑹,普通文本段落;
⒄读取样式信息,进行样式转换,输出到H5页面;
⒅判断是否包含超链接;
⒆若是,则进行超链接解析;
⒇进一步判断是否存在附件;
(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;
(22)承接步骤⑹,大纲段落类型;
(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。
6.根据权利要求5所述基于Word的知识库构建的控制方法,其特征在于,步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。
7.根据权利要求5所述基于Word的知识库构建的控制方法,其特征在于,步骤⑷所述的递归算法生成层级序号,构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:
⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;
⑵在步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:
paragraph->catalog(content,level)
释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;
⑶得到当前word文档的所有目录节点;此时,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;
⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;
⑸基于上述的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到。
8.根据权利要求7所述基于Word的知识库构建的控制方法,其特征在于,所述步骤⑷的特征描述如下:
a.word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;
b.第一次出现的大纲段落,肯定是层级最小的最顶层段落;
c.子级段落一定在其父段落出现之后;
d.距离子级段落最近的那个上级段落肯定为其父级段落。
9.根据权利要求5或6所述基于Word的知识库构建的控制方法,其特征在于,服务器包括:
文件服务器,用于存储转换后的附件在H5页面;
索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;
网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。
CN202111012755.XA 2021-08-31 2021-08-31 基于Word的知识库构建方法及其控制方法 Pending CN113779931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012755.XA CN113779931A (zh) 2021-08-31 2021-08-31 基于Word的知识库构建方法及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012755.XA CN113779931A (zh) 2021-08-31 2021-08-31 基于Word的知识库构建方法及其控制方法

Publications (1)

Publication Number Publication Date
CN113779931A true CN113779931A (zh) 2021-12-10

Family

ID=78840440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012755.XA Pending CN113779931A (zh) 2021-08-31 2021-08-31 基于Word的知识库构建方法及其控制方法

Country Status (1)

Country Link
CN (1) CN113779931A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801149A (zh) * 2004-12-16 2006-07-12 微软公司 用于将格式化文档转化为网页的系统和方法
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统
CN110569492A (zh) * 2019-09-09 2019-12-13 中国工商银行股份有限公司 一种带附件的在线文档生成方法及服务器
CN112527291A (zh) * 2020-12-01 2021-03-19 瀚云科技有限公司 网页生成方法、装置、电子设备及存储介质
CN113033162A (zh) * 2021-04-08 2021-06-25 成都微视联软件技术有限公司 一种可控制编辑规则的电子文档转换方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801149A (zh) * 2004-12-16 2006-07-12 微软公司 用于将格式化文档转化为网页的系统和方法
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统
CN110569492A (zh) * 2019-09-09 2019-12-13 中国工商银行股份有限公司 一种带附件的在线文档生成方法及服务器
CN112527291A (zh) * 2020-12-01 2021-03-19 瀚云科技有限公司 网页生成方法、装置、电子设备及存储介质
CN113033162A (zh) * 2021-04-08 2021-06-25 成都微视联软件技术有限公司 一种可控制编辑规则的电子文档转换方法

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US9390097B2 (en) Dynamic generation of target files from template files and tracking of the processing of target files
JP5435568B2 (ja) データアクセス及びプレゼンテーション要素を再利用する方法及び装置
US20050198567A1 (en) Web navigation method and system
CN108255972A (zh) 一种全文检索方法及系统
WO2006102512A2 (en) Change control management of xml documents
Bouche et al. The new numdam platform
CN116090416B (zh) 基于标准知识图谱的标准编写方法、系统、设备及介质
Stinson et al. Encoding medieval music notation for research
Chortaras et al. WITH: human-computer collaboration for data annotation and enrichment
CN113779931A (zh) 基于Word的知识库构建方法及其控制方法
Cherkashin et al. Digital archives supporting document content inference
CN113657080A (zh) 一种基于xml的结构化系统及数据包创建方法
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
Claivaz et al. From fulltext documents to structured citations: Cern's automated solution
Wisneski et al. Implementing TEI projects and accompanying metadata for small libraries: rationale and best practices
Lang Review of Perseus digital library
CN111061863B (zh) 期刊目录展示方法、装置及设备
Abi Assaf et al. Automated Submission of Digital Content to Digital Repositories Through Web API
Faulhaber PhiloBiblon and the Semantic Web. Notes for a Future History
Webb EAD in the department of special collections and western manuscripts at the bodleian library, United Kingdom
US11921797B2 (en) Computer service for indexing threaded comments with pagination support
Gavrilă et al. A New Challenge in the Data Processing of Non-Standard Texts Containing Accents/Diacritics: A Case Study
Martoglia et al. A tool for semiautomatic cataloguing of an islamic digital library: a use case from the Digital Maktaba project (short paper)
Jain et al. CS5604: Team 1 ETD Collection Management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211210