CN116227444A - 一种基于图文混排Word文档的在线编辑方法与装置 - Google Patents
一种基于图文混排Word文档的在线编辑方法与装置 Download PDFInfo
- Publication number
- CN116227444A CN116227444A CN202310180768.0A CN202310180768A CN116227444A CN 116227444 A CN116227444 A CN 116227444A CN 202310180768 A CN202310180768 A CN 202310180768A CN 116227444 A CN116227444 A CN 116227444A
- Authority
- CN
- China
- Prior art keywords
- file
- document
- picture
- word
- html
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供一种基于图文混排Word文档的在线编辑方法,包括,Word文档上传,响应Word文档上传请求,并完成所述Word文档的转换,其中所述转换包括根据所述Word文档获取HTML文件和图片文件;在线文档预览,响应上传Word文档预览,包括所述HTML文件排版预览和所述图片文件放大缩小预览;响应所述HTML文件和图片文件的在线编辑请求,完成所述HTML文件文字及所述图片文件内容替换;在线文档转换,包括HTML文件和图片文件转换为输出文件;在线文档下载,响应客户端下载所述输出文件请求。本发明解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。
Description
技术领域
本发明属于在线文档编辑和计算机应用领域,尤其是涉及一种基于图文混排Word文档的在线编辑方法与装置。
背景技术
在线文档编辑基于浏览器提供了一个在线的平台,基于HTML、JavaScript和CSS等Web技术实现了文档编辑功能,并将编辑后的文档保存在云端,用户无需安装任何特殊的软件,就可以实现在不同设备上实现对文档的修改和更新。
在浏览器中进行Word文档的统一管理、传输、共享,能够实现对既有Word材料的有效利用,极大的提高了办公效率。在浏览器中对Word文档进行在线浏览和编辑,本质上是对Word文档转换后的HTML进行浏览和编辑。在线对文档进行编辑后,需要装置支持另存为Word格式的文档。然而利用现有工具将含有图片的HTML反向转成Word文档后,Word文档中的图片为引用链接,在无网络的环境打开时无法显示图片。针对该问题,业界的解决方法一般是在Word文档中存储图片的base64编码。然而将图片转成base64编码的效率极其低下,对存储空间也造成极大浪费,针对这些问题,目前尚未提出有效地解决方案。
发明内容
本实施例的目的在于提供一种基于图文混排Word文档的在线编辑方法与装置,解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。
本发明提供的一种基于图文混排Word文档的在线编辑方法,包括:
Word文档上传,响应图文混排Word文档上传请求,并完成所述Word文档的转换,其中所述转换包括根据所述Word文档获取HTML文件和图片文件;
在线文档预览,响应上传Word文档预览,包括所述HTML文件排版预览和所述图片文件放大缩小预览;
响应所述HTML文件和图片文件的在线编辑请求,包括,选择修改所述HTML文件文字及所述图片文件内容替换,其中,所述替换图片内容为修改HTML文件内的引用图片的URL地址的替换,文字修改为编辑HTML文件中超文本标记的内容;
在线文档转换,包括HTML文件和图片文件转换为输出文件;
在线文档下载,响应客户端下载所述输出文件请求。
进一步的,HTML文件和图片文件,其中所述图片文件的显示由HTML文件通过超链接方式显示。
进一步的,HTML文件和图片文件转换为输出文件,其中所述转换步骤包括,
获取HTML文件内所有img标记的所述图片文件链接地址;
根据所述图片文件链接地址获取图片文件名;
根据所述图片文件名和字串word/media组合获取新URL地址,组合格式为word/media/所述图片文件名;
替换HTML文件内所有img标记为所述新URL地址;
由docx转换工具转换所述HTML文件和图片文件为docx格式文件;
docx格式文件由解压工具解压获得ZIP目录,其中所述ZIP目录为指定的磁盘存放目录;
根据所述图片文件链接地址拷贝图片文件到ZIP目录下子目录word/media;
由压缩工具压缩ZIP目录获取输出文件。
进一步的,docx转换工具包括libreoffice。
进一步的,Word文档的转换还包括所述Word文档后缀识别,如果Word文件后缀为doc,由HTML转换工具转换为docx格式文件。
进一步的,HTML转换工具包括libreoffice。
进一步的,解压工具或压缩工具包括Jsoup。
进一步的,输出文件为docx格式文件。
本实施还提供了基于图文混排Word文档的在线编辑装置,包括:
Word文档上传模块,用于响应Word文档上传请求,并根据上传的Word文档完成docx内容的HTML文件和图片文件提取操作,并将提取完成后的HTML文件和图片文件存放于web服务器指定目录;
在线文档预览模块,用于响应在线预览所述HTML文件和图片文件请求,并将所述HTML文件和图片文件通过客户端浏览器显示到客户端机器上的显示器中;
在线文档编辑模块,用于响应编辑所述HTML文件和图片文件,编辑内容包括对HTML文件内的文字编辑,修改,删除;
在线文档转换模块,用于响应在线HTML文件和图片文件转换为下载输出文件,并将输出文件格式转换为docx格式;
在线文档下载模块,用于响应客户端下载输出文件请求。
进一步的,响应客户端下载输出文件请求还包括,
判断输出文件是否存在,如果存在输出文件,响应下载输出文件请求,如果输出文件不存在响应文档转换请求,并将文档转换结束获得的输出文件发送到客户端。
本发明提供的一种基于图文混排Word文档的在线编辑方法与装置,使用工具转换Word文档为HTML文件和图片文件,在线编辑HTML文件和图片文件,在HTML文件和图片文件转换为DOCX格式文件过程中,通过替换document.xml.rels文件的引用图片标记的目录引用方式,解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的基于图文混排Word文档的在线编辑方法的方法步骤图;
图2为本发明实施例提供的基于图文混排Word文档的在线编辑装置的装置结构图;
图3为本发明实施例提供的基于图文混排Word文档的在线编辑方法的Word文档转换磁盘结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,本实施例采用JAVA语言和JAVA库实现操作步骤,同样采用其它语言也能实现本实施例步骤流程,例如PHP,node.js,python等语言。本发明不限定构成本实施例的语言限定。
本发明实施例公开了一种基于图文混排Word文档的在线编辑方法,包括:
S1100:Word文档上传,响应具备图文混排的Word文档上传请求,并完成文档的转换,获取HTML文件和图片文件,根据上传Word文件的文件磁盘路径提取上传Word文档后缀,提取方法本实施例采用String::substring函数,如果为docx,使用java的poi工具将上传的.docx文档转换成HTML文件和图片文件;如果Word文档后缀为.doc格式,先采用libreoffice工具将.doc格式的文件转换成.docx格式的DX文件,进一步使用JAVA语言的poi工具将DX文件转换成HTML文件和图片文件,生成的HTML文件和图片文件分别存放于网站服务器的指定目录,并且HTML文件和图片文件具备引用关系,即HTML文件中的图片是采用URL链接方式引用所述图片文件显示在浏览器中,图2为本发明实施例的在线编辑方法的文档上传流程示意图,所述的文档上传流程包括文档解析、图片存储、图片路径替换,进行S1200步骤。
S1200:在线文档预览,响应上传Word文档预览,根据S1100步骤获取HTML文件和图片文件,由客户端浏览器预览HTML文件和图片文件,预览包括,图片文件放大缩小,HTML文字排版调整。其中图片文件的显示由HTML文件的标记引用图片文件的链接地址显示输出于客户端浏览器中。
S1300:HTML文件和图片文件在线编辑,包括,选择需要修改的文字及替换图片内容,其中,所述替换图片内容为修改HTML文件内的引用图片的URL地址的替换,文字修改直接修改HTML文件中超文本标记内容,本步骤完成对HTML文件和图片文件的在线编辑请求。
S1400:在线文档转换,由jsoup工具完成HTML文件和图片文件转换为输出文件,输出文件为docx格式文件,用于响应在线文档转换请求,此步骤中,根据jsoup获取HTML文件内的img标签,通过img标签获取HTML文件内所有所述图片文件的URL相对路径,获取所有img标签采用正则表达式获取,正则表达式为”<img[.*]+”。
进一步,根据图片文件的URL相对路径提取图片文件名。
进一步,所述图片文件名和word/media组合获取新URL地址。组合格式为word/media/+图片文件名。
进一步,替换HTML文件内的img标签URL地址为新URL地址,替换标签本实施例使用String.replace函数。
进一步,由第三方工具libreoffice转换HTML文件为docx格式文件,获取预下载文件。
进一步,预下载文件由jsoup工具转换到网站指定文件夹,jsoup工具是zip格式解压工具,docx文件格式实质是zip格式文件,见图3,jsoup工具解析docx文件实质是将zip文件解压输出到指定文件夹,获取zip文件夹。
进一步,通过磁盘操作指令将所述HTML文件引用的所有图片拷备到zip文件夹下的word/media目录内。
进一步,zip文件夹下的word/rels文件夹中的document.xml.rels文件,使用正则表达式将document.xml.rels文件内容引用的图片文件标识替换为所述word/media目录下的路径,正则表达式的查找字串如下:
ReUtil.findAll("Target=\"(http.*?)\"TargetMode=\"External\"",proStr,1);
其中ReUtil为java的正则表达式字串查找工具类。
字串替换指令由String类的replace函数完成。
进一步,由jsoup工具执行压缩指令完成所述zip文件夹压缩成为docx格式的文件,并修改后缀为.docx,获取得到预下载文件,并执行更名指令将预下载文件更名为输出文件,其中更名操作由FileUtil工具类完成,存档于web服务器下载目录。经由以上步骤,解决了现有技术的Word文档在线编辑文件下载到本地编辑情形下,需要先将图片文件完成Base64编码操作,增加了服务器转换图片文件效率低下问题。
S1500:在线文档下载,响应客户端下载输出文件请求,所述输出文件由S1400步骤生成,客户端通过浏览器获取输出文件下载到客户端本地机器,输出文件为docx格式文件,后续的本地化操作由客户端的word工具打开编辑。
本实施例还提供了一种基于图文混排Word文档的在线编辑装置,包括,
P1100:Word文档上传模块,用于响应Word文档上传请求,并根据上传的Word文档完成docx内容的HTML文件和图片文件提取操作,并将提取完成后的HTML文件和图片文件存放于web服务器指定目录。
P1200:在线文档预览模块,用于响应在线预览HTML文件和图片文件请求,并将HTML文件和图片文件通过客户端浏览器显示到客户端机器上的显示器中。
P1300:在线文档编辑模块,用于编辑所述HTML文件和图片文件,编辑内容包括对HTML文件内的文字编辑,修改,删除和HTML文件对应的图片文件的替换操作,对于HTML文件对应的图片操作包括,使用客户端上传图片替换HTML文件对应的图片文件。
P1400:在线文档转换模块,用于将在线HTML文件和图片文件转换为下载输出文件,并将输出文件格式转换为DOCX格式,用于客户端下载到本地机器由word编辑工具打开编辑。
P1500:在线文档下载模块,用于响应客户端下载输出文件,判断输出文件是否存在,如果存在输出文件,响应下载输出文件请求,如果输出文件不存在响应文档转换请求,并将文档转换结束获得的输出文件发送到客户端。
本发明提供的一种基于图文混排Word文档的在线编辑方法与装置,使用工具转换Word文档为HTML文件和图片文件,在线编辑HTML文件和图片文件,在HTML文件和图片文件转换为DOCX格式文件过程中,通过替换document.xml.rels文件的引用图片标记的目录引用方式,解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。
以上所述仅为本发明的实施例,并不用于限制本发明的保护范围,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图文混排Word文档的在线编辑方法,其特征在于,包括,
Word文档上传,响应图文混排Word文档上传请求,并完成所述Word文档的转换,其中所述转换包括根据所述Word文档获取HTML文件和图片文件;
在线文档预览,响应上传Word文档预览,包括所述HTML文件排版预览和所述图片文件放大缩小预览;
响应所述HTML文件和图片文件的在线编辑请求,包括,选择修改所述HTML文件文字及所述图片文件内容替换,其中,所述替换图片内容为修改HTML文件内的引用图片的URL地址的替换,文字修改为编辑HTML文件中超文本标记的内容;
在线文档转换,包括HTML文件和图片文件转换为输出文件;
在线文档下载,响应客户端下载所述输出文件请求。
2.根据权利要求1所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述HTML文件和图片文件,其中所述图片文件的显示由HTML文件通过超链接方式显示。
3.根据权利要求1所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述HTML文件和图片文件转换为输出文件,其中所述转换步骤包括,
获取HTML文件内所有img标记的所述图片文件链接地址;
根据所述图片文件链接地址获取图片文件名;
根据所述图片文件名和字串word/media组合获取新URL地址,组合格式为word/media/所述图片文件名;
替换HTML文件内所有img标记为所述新URL地址;
由docx转换工具转换所述HTML文件和图片文件为docx格式文件;
docx格式文件由解压工具解压获得ZIP目录,其中所述ZIP目录为指定的磁盘存放目录;
根据所述图片文件链接地址拷贝图片文件到ZIP目录下子目录word/media;
由压缩工具压缩ZIP目录获取输出文件。
4.根据权利要求3所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述docx转换工具包括libreoffice。
5.根据权利要求1所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述Word文档的转换还包括所述Word文档后缀识别,如果Word文件后缀为doc,由HTML转换工具转换为docx格式文件。
6.根据权利要求5所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述HTML转换工具包括libreoffice。
7.根据权利要求3所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述解压工具或压缩工具包括Jsoup。
8.根据权利要求3所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述输出文件为docx格式文件。
9.一种基于图文混排Word文档的在线编辑装置,包括:
Word文档上传模块,用于响应Word文档上传请求,并根据上传的Word文档完成docx内容的HTML文件和图片文件提取操作,并将提取完成后的HTML文件和图片文件存放于web服务器指定目录;
在线文档预览模块,用于响应在线预览所述HTML文件和图片文件请求,并将所述HTML文件和图片文件通过客户端浏览器显示到客户端机器上的显示器中;
在线文档编辑模块,用于响应编辑所述HTML文件和图片文件,编辑内容包括对HTML文件内的文字编辑,修改,删除;
在线文档转换模块,用于响应在线HTML文件和图片文件转换为下载输出文件,并将输出文件格式转换为docx格式;
在线文档下载模块,用于响应客户端下载输出文件请求。
10.根据权利要求9所述的基于图文混排Word文档的在线编辑装置,其特征在于,所述响应客户端下载输出文件请求还包括,
判断输出文件是否存在,如果存在输出文件,响应下载输出文件请求,如果输出文件不存在响应文档转换请求,并将文档转换结束获得的输出文件发送到客户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310180768.0A CN116227444A (zh) | 2023-02-28 | 2023-02-28 | 一种基于图文混排Word文档的在线编辑方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310180768.0A CN116227444A (zh) | 2023-02-28 | 2023-02-28 | 一种基于图文混排Word文档的在线编辑方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116227444A true CN116227444A (zh) | 2023-06-06 |
Family
ID=86578248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310180768.0A Pending CN116227444A (zh) | 2023-02-28 | 2023-02-28 | 一种基于图文混排Word文档的在线编辑方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116227444A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612491A (zh) * | 2023-07-17 | 2023-08-18 | 中国电子科技集团公司第十研究所 | 一种arm麒麟word文件内容提取方法 |
-
2023
- 2023-02-28 CN CN202310180768.0A patent/CN116227444A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612491A (zh) * | 2023-07-17 | 2023-08-18 | 中国电子科技集团公司第十研究所 | 一种arm麒麟word文件内容提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8316358B2 (en) | Method and apparatus for processing XML for display on a mobile device | |
US20140089786A1 (en) | Automated Processor For Web Content To Mobile-Optimized Content Transformation | |
US9323720B2 (en) | Automated and user customizable content retrieval from a collection of linked documents to a single target document | |
US20060218492A1 (en) | Copy and paste with citation attributes | |
US20020129058A1 (en) | Hypermedia document publishing including hypermedia document parsing | |
US20030163519A1 (en) | Changing hypermedia content of a web site | |
CN107943915B (zh) | 基于html5的ofd文件在线显示的方法以及装置 | |
KR20060069248A (ko) | 포맷된 문서를 웹 페이지로 변환하는 시스템 및 방법 | |
CA2817554A1 (en) | Mobile content management system | |
CN102662928A (zh) | 带文档导入的富文本编辑方法及装置 | |
CN116227444A (zh) | 一种基于图文混排Word文档的在线编辑方法与装置 | |
CN112765516A (zh) | 页面内容的展示方法和装置、存储介质、电子装置 | |
Gottfried et al. | Drawsocket: A browser based system for networked score display | |
AU2561300A (en) | Creating hypermedia content for a web site | |
EP1987446A2 (en) | Method and system for integrating calculation and presentation technologies | |
US20180196789A1 (en) | Transforming a website for dynamic web content management | |
EP2874071A1 (en) | Method of implementing structured and non-structured data in xml document | |
CN102624910A (zh) | 处理用户选取的网页内容的方法、装置及系统 | |
US20110055679A1 (en) | Document link converting server, document link converting system and document link converting method | |
US20070124667A1 (en) | Verifying content of resources in markup language documents | |
US20050278627A1 (en) | Editing an image representation of a text | |
CN109284428A (zh) | 数据处理方法、装置及存储介质 | |
US20080098298A1 (en) | Compound Web Document Generation Method and Web-based Editing System for Generating a Compound Web Document | |
JP2010282587A (ja) | マッシュアッププログラム、マッシュアップ装置及びマッシュアップ方法 | |
KR101975111B1 (ko) | 대용량 웹페이지 문서 변환 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |