CN116227444A - 一种基于图文混排Word文档的在线编辑方法与装置 - Google Patents

一种基于图文混排Word文档的在线编辑方法与装置 Download PDF

Info

Publication number
CN116227444A
CN116227444A CN202310180768.0A CN202310180768A CN116227444A CN 116227444 A CN116227444 A CN 116227444A CN 202310180768 A CN202310180768 A CN 202310180768A CN 116227444 A CN116227444 A CN 116227444A
Authority
CN
China
Prior art keywords
file
document
picture
word
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310180768.0A
Other languages
English (en)
Inventor
王恋
张明艳
钱俊丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Days Austrian Group Co ltd
Original Assignee
Chengdu Days Austrian Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Days Austrian Group Co ltd filed Critical Chengdu Days Austrian Group Co ltd
Priority to CN202310180768.0A priority Critical patent/CN116227444A/zh
Publication of CN116227444A publication Critical patent/CN116227444A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种基于图文混排Word文档的在线编辑方法,包括,Word文档上传,响应Word文档上传请求,并完成所述Word文档的转换,其中所述转换包括根据所述Word文档获取HTML文件和图片文件;在线文档预览,响应上传Word文档预览,包括所述HTML文件排版预览和所述图片文件放大缩小预览;响应所述HTML文件和图片文件的在线编辑请求,完成所述HTML文件文字及所述图片文件内容替换;在线文档转换,包括HTML文件和图片文件转换为输出文件;在线文档下载,响应客户端下载所述输出文件请求。本发明解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。

Description

一种基于图文混排Word文档的在线编辑方法与装置
技术领域
本发明属于在线文档编辑和计算机应用领域,尤其是涉及一种基于图文混排Word文档的在线编辑方法与装置。
背景技术
在线文档编辑基于浏览器提供了一个在线的平台,基于HTML、JavaScript和CSS等Web技术实现了文档编辑功能,并将编辑后的文档保存在云端,用户无需安装任何特殊的软件,就可以实现在不同设备上实现对文档的修改和更新。
在浏览器中进行Word文档的统一管理、传输、共享,能够实现对既有Word材料的有效利用,极大的提高了办公效率。在浏览器中对Word文档进行在线浏览和编辑,本质上是对Word文档转换后的HTML进行浏览和编辑。在线对文档进行编辑后,需要装置支持另存为Word格式的文档。然而利用现有工具将含有图片的HTML反向转成Word文档后,Word文档中的图片为引用链接,在无网络的环境打开时无法显示图片。针对该问题,业界的解决方法一般是在Word文档中存储图片的base64编码。然而将图片转成base64编码的效率极其低下,对存储空间也造成极大浪费,针对这些问题,目前尚未提出有效地解决方案。
发明内容
本实施例的目的在于提供一种基于图文混排Word文档的在线编辑方法与装置,解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。
本发明提供的一种基于图文混排Word文档的在线编辑方法,包括:
Word文档上传,响应图文混排Word文档上传请求,并完成所述Word文档的转换,其中所述转换包括根据所述Word文档获取HTML文件和图片文件;
在线文档预览,响应上传Word文档预览,包括所述HTML文件排版预览和所述图片文件放大缩小预览;
响应所述HTML文件和图片文件的在线编辑请求,包括,选择修改所述HTML文件文字及所述图片文件内容替换,其中,所述替换图片内容为修改HTML文件内的引用图片的URL地址的替换,文字修改为编辑HTML文件中超文本标记的内容;
在线文档转换,包括HTML文件和图片文件转换为输出文件;
在线文档下载,响应客户端下载所述输出文件请求。
进一步的,HTML文件和图片文件,其中所述图片文件的显示由HTML文件通过超链接方式显示。
进一步的,HTML文件和图片文件转换为输出文件,其中所述转换步骤包括,
获取HTML文件内所有img标记的所述图片文件链接地址;
根据所述图片文件链接地址获取图片文件名;
根据所述图片文件名和字串word/media组合获取新URL地址,组合格式为word/media/所述图片文件名;
替换HTML文件内所有img标记为所述新URL地址;
由docx转换工具转换所述HTML文件和图片文件为docx格式文件;
docx格式文件由解压工具解压获得ZIP目录,其中所述ZIP目录为指定的磁盘存放目录;
根据所述图片文件链接地址拷贝图片文件到ZIP目录下子目录word/media;
由压缩工具压缩ZIP目录获取输出文件。
进一步的,docx转换工具包括libreoffice。
进一步的,Word文档的转换还包括所述Word文档后缀识别,如果Word文件后缀为doc,由HTML转换工具转换为docx格式文件。
进一步的,HTML转换工具包括libreoffice。
进一步的,解压工具或压缩工具包括Jsoup。
进一步的,输出文件为docx格式文件。
本实施还提供了基于图文混排Word文档的在线编辑装置,包括:
Word文档上传模块,用于响应Word文档上传请求,并根据上传的Word文档完成docx内容的HTML文件和图片文件提取操作,并将提取完成后的HTML文件和图片文件存放于web服务器指定目录;
在线文档预览模块,用于响应在线预览所述HTML文件和图片文件请求,并将所述HTML文件和图片文件通过客户端浏览器显示到客户端机器上的显示器中;
在线文档编辑模块,用于响应编辑所述HTML文件和图片文件,编辑内容包括对HTML文件内的文字编辑,修改,删除;
在线文档转换模块,用于响应在线HTML文件和图片文件转换为下载输出文件,并将输出文件格式转换为docx格式;
在线文档下载模块,用于响应客户端下载输出文件请求。
进一步的,响应客户端下载输出文件请求还包括,
判断输出文件是否存在,如果存在输出文件,响应下载输出文件请求,如果输出文件不存在响应文档转换请求,并将文档转换结束获得的输出文件发送到客户端。
本发明提供的一种基于图文混排Word文档的在线编辑方法与装置,使用工具转换Word文档为HTML文件和图片文件,在线编辑HTML文件和图片文件,在HTML文件和图片文件转换为DOCX格式文件过程中,通过替换document.xml.rels文件的引用图片标记的目录引用方式,解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的基于图文混排Word文档的在线编辑方法的方法步骤图;
图2为本发明实施例提供的基于图文混排Word文档的在线编辑装置的装置结构图;
图3为本发明实施例提供的基于图文混排Word文档的在线编辑方法的Word文档转换磁盘结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,本实施例采用JAVA语言和JAVA库实现操作步骤,同样采用其它语言也能实现本实施例步骤流程,例如PHP,node.js,python等语言。本发明不限定构成本实施例的语言限定。
本发明实施例公开了一种基于图文混排Word文档的在线编辑方法,包括:
S1100:Word文档上传,响应具备图文混排的Word文档上传请求,并完成文档的转换,获取HTML文件和图片文件,根据上传Word文件的文件磁盘路径提取上传Word文档后缀,提取方法本实施例采用String::substring函数,如果为docx,使用java的poi工具将上传的.docx文档转换成HTML文件和图片文件;如果Word文档后缀为.doc格式,先采用libreoffice工具将.doc格式的文件转换成.docx格式的DX文件,进一步使用JAVA语言的poi工具将DX文件转换成HTML文件和图片文件,生成的HTML文件和图片文件分别存放于网站服务器的指定目录,并且HTML文件和图片文件具备引用关系,即HTML文件中的图片是采用URL链接方式引用所述图片文件显示在浏览器中,图2为本发明实施例的在线编辑方法的文档上传流程示意图,所述的文档上传流程包括文档解析、图片存储、图片路径替换,进行S1200步骤。
S1200:在线文档预览,响应上传Word文档预览,根据S1100步骤获取HTML文件和图片文件,由客户端浏览器预览HTML文件和图片文件,预览包括,图片文件放大缩小,HTML文字排版调整。其中图片文件的显示由HTML文件的标记引用图片文件的链接地址显示输出于客户端浏览器中。
S1300:HTML文件和图片文件在线编辑,包括,选择需要修改的文字及替换图片内容,其中,所述替换图片内容为修改HTML文件内的引用图片的URL地址的替换,文字修改直接修改HTML文件中超文本标记内容,本步骤完成对HTML文件和图片文件的在线编辑请求。
S1400:在线文档转换,由jsoup工具完成HTML文件和图片文件转换为输出文件,输出文件为docx格式文件,用于响应在线文档转换请求,此步骤中,根据jsoup获取HTML文件内的img标签,通过img标签获取HTML文件内所有所述图片文件的URL相对路径,获取所有img标签采用正则表达式获取,正则表达式为”<img[.*]+”。
进一步,根据图片文件的URL相对路径提取图片文件名。
进一步,所述图片文件名和word/media组合获取新URL地址。组合格式为word/media/+图片文件名。
进一步,替换HTML文件内的img标签URL地址为新URL地址,替换标签本实施例使用String.replace函数。
进一步,由第三方工具libreoffice转换HTML文件为docx格式文件,获取预下载文件。
进一步,预下载文件由jsoup工具转换到网站指定文件夹,jsoup工具是zip格式解压工具,docx文件格式实质是zip格式文件,见图3,jsoup工具解析docx文件实质是将zip文件解压输出到指定文件夹,获取zip文件夹。
进一步,通过磁盘操作指令将所述HTML文件引用的所有图片拷备到zip文件夹下的word/media目录内。
进一步,zip文件夹下的word/rels文件夹中的document.xml.rels文件,使用正则表达式将document.xml.rels文件内容引用的图片文件标识替换为所述word/media目录下的路径,正则表达式的查找字串如下:
ReUtil.findAll("Target=\"(http.*?)\"TargetMode=\"External\"",proStr,1);
其中ReUtil为java的正则表达式字串查找工具类。
字串替换指令由String类的replace函数完成。
进一步,由jsoup工具执行压缩指令完成所述zip文件夹压缩成为docx格式的文件,并修改后缀为.docx,获取得到预下载文件,并执行更名指令将预下载文件更名为输出文件,其中更名操作由FileUtil工具类完成,存档于web服务器下载目录。经由以上步骤,解决了现有技术的Word文档在线编辑文件下载到本地编辑情形下,需要先将图片文件完成Base64编码操作,增加了服务器转换图片文件效率低下问题。
S1500:在线文档下载,响应客户端下载输出文件请求,所述输出文件由S1400步骤生成,客户端通过浏览器获取输出文件下载到客户端本地机器,输出文件为docx格式文件,后续的本地化操作由客户端的word工具打开编辑。
本实施例还提供了一种基于图文混排Word文档的在线编辑装置,包括,
P1100:Word文档上传模块,用于响应Word文档上传请求,并根据上传的Word文档完成docx内容的HTML文件和图片文件提取操作,并将提取完成后的HTML文件和图片文件存放于web服务器指定目录。
P1200:在线文档预览模块,用于响应在线预览HTML文件和图片文件请求,并将HTML文件和图片文件通过客户端浏览器显示到客户端机器上的显示器中。
P1300:在线文档编辑模块,用于编辑所述HTML文件和图片文件,编辑内容包括对HTML文件内的文字编辑,修改,删除和HTML文件对应的图片文件的替换操作,对于HTML文件对应的图片操作包括,使用客户端上传图片替换HTML文件对应的图片文件。
P1400:在线文档转换模块,用于将在线HTML文件和图片文件转换为下载输出文件,并将输出文件格式转换为DOCX格式,用于客户端下载到本地机器由word编辑工具打开编辑。
P1500:在线文档下载模块,用于响应客户端下载输出文件,判断输出文件是否存在,如果存在输出文件,响应下载输出文件请求,如果输出文件不存在响应文档转换请求,并将文档转换结束获得的输出文件发送到客户端。
本发明提供的一种基于图文混排Word文档的在线编辑方法与装置,使用工具转换Word文档为HTML文件和图片文件,在线编辑HTML文件和图片文件,在HTML文件和图片文件转换为DOCX格式文件过程中,通过替换document.xml.rels文件的引用图片标记的目录引用方式,解决了现有技术将图片文件转换为base64格式直接放置到docx文件中,致使网站服务器转换效率低下问题。
以上所述仅为本发明的实施例,并不用于限制本发明的保护范围,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于图文混排Word文档的在线编辑方法,其特征在于,包括,
Word文档上传,响应图文混排Word文档上传请求,并完成所述Word文档的转换,其中所述转换包括根据所述Word文档获取HTML文件和图片文件;
在线文档预览,响应上传Word文档预览,包括所述HTML文件排版预览和所述图片文件放大缩小预览;
响应所述HTML文件和图片文件的在线编辑请求,包括,选择修改所述HTML文件文字及所述图片文件内容替换,其中,所述替换图片内容为修改HTML文件内的引用图片的URL地址的替换,文字修改为编辑HTML文件中超文本标记的内容;
在线文档转换,包括HTML文件和图片文件转换为输出文件;
在线文档下载,响应客户端下载所述输出文件请求。
2.根据权利要求1所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述HTML文件和图片文件,其中所述图片文件的显示由HTML文件通过超链接方式显示。
3.根据权利要求1所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述HTML文件和图片文件转换为输出文件,其中所述转换步骤包括,
获取HTML文件内所有img标记的所述图片文件链接地址;
根据所述图片文件链接地址获取图片文件名;
根据所述图片文件名和字串word/media组合获取新URL地址,组合格式为word/media/所述图片文件名;
替换HTML文件内所有img标记为所述新URL地址;
由docx转换工具转换所述HTML文件和图片文件为docx格式文件;
docx格式文件由解压工具解压获得ZIP目录,其中所述ZIP目录为指定的磁盘存放目录;
根据所述图片文件链接地址拷贝图片文件到ZIP目录下子目录word/media;
由压缩工具压缩ZIP目录获取输出文件。
4.根据权利要求3所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述docx转换工具包括libreoffice。
5.根据权利要求1所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述Word文档的转换还包括所述Word文档后缀识别,如果Word文件后缀为doc,由HTML转换工具转换为docx格式文件。
6.根据权利要求5所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述HTML转换工具包括libreoffice。
7.根据权利要求3所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述解压工具或压缩工具包括Jsoup。
8.根据权利要求3所述的基于图文混排Word文档的在线编辑方法,其特征在于,所述输出文件为docx格式文件。
9.一种基于图文混排Word文档的在线编辑装置,包括:
Word文档上传模块,用于响应Word文档上传请求,并根据上传的Word文档完成docx内容的HTML文件和图片文件提取操作,并将提取完成后的HTML文件和图片文件存放于web服务器指定目录;
在线文档预览模块,用于响应在线预览所述HTML文件和图片文件请求,并将所述HTML文件和图片文件通过客户端浏览器显示到客户端机器上的显示器中;
在线文档编辑模块,用于响应编辑所述HTML文件和图片文件,编辑内容包括对HTML文件内的文字编辑,修改,删除;
在线文档转换模块,用于响应在线HTML文件和图片文件转换为下载输出文件,并将输出文件格式转换为docx格式;
在线文档下载模块,用于响应客户端下载输出文件请求。
10.根据权利要求9所述的基于图文混排Word文档的在线编辑装置,其特征在于,所述响应客户端下载输出文件请求还包括,
判断输出文件是否存在,如果存在输出文件,响应下载输出文件请求,如果输出文件不存在响应文档转换请求,并将文档转换结束获得的输出文件发送到客户端。
CN202310180768.0A 2023-02-28 2023-02-28 一种基于图文混排Word文档的在线编辑方法与装置 Pending CN116227444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310180768.0A CN116227444A (zh) 2023-02-28 2023-02-28 一种基于图文混排Word文档的在线编辑方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310180768.0A CN116227444A (zh) 2023-02-28 2023-02-28 一种基于图文混排Word文档的在线编辑方法与装置

Publications (1)

Publication Number Publication Date
CN116227444A true CN116227444A (zh) 2023-06-06

Family

ID=86578248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310180768.0A Pending CN116227444A (zh) 2023-02-28 2023-02-28 一种基于图文混排Word文档的在线编辑方法与装置

Country Status (1)

Country Link
CN (1) CN116227444A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612491A (zh) * 2023-07-17 2023-08-18 中国电子科技集团公司第十研究所 一种arm麒麟word文件内容提取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612491A (zh) * 2023-07-17 2023-08-18 中国电子科技集团公司第十研究所 一种arm麒麟word文件内容提取方法

Similar Documents

Publication Publication Date Title
US8316358B2 (en) Method and apparatus for processing XML for display on a mobile device
US20140089786A1 (en) Automated Processor For Web Content To Mobile-Optimized Content Transformation
US9323720B2 (en) Automated and user customizable content retrieval from a collection of linked documents to a single target document
US20060218492A1 (en) Copy and paste with citation attributes
US20020129058A1 (en) Hypermedia document publishing including hypermedia document parsing
US20030163519A1 (en) Changing hypermedia content of a web site
CN107943915B (zh) 基于html5的ofd文件在线显示的方法以及装置
KR20060069248A (ko) 포맷된 문서를 웹 페이지로 변환하는 시스템 및 방법
CA2817554A1 (en) Mobile content management system
CN102662928A (zh) 带文档导入的富文本编辑方法及装置
CN116227444A (zh) 一种基于图文混排Word文档的在线编辑方法与装置
CN112765516A (zh) 页面内容的展示方法和装置、存储介质、电子装置
Gottfried et al. Drawsocket: A browser based system for networked score display
AU2561300A (en) Creating hypermedia content for a web site
EP1987446A2 (en) Method and system for integrating calculation and presentation technologies
US20180196789A1 (en) Transforming a website for dynamic web content management
EP2874071A1 (en) Method of implementing structured and non-structured data in xml document
CN102624910A (zh) 处理用户选取的网页内容的方法、装置及系统
US20110055679A1 (en) Document link converting server, document link converting system and document link converting method
US20070124667A1 (en) Verifying content of resources in markup language documents
US20050278627A1 (en) Editing an image representation of a text
CN109284428A (zh) 数据处理方法、装置及存储介质
US20080098298A1 (en) Compound Web Document Generation Method and Web-based Editing System for Generating a Compound Web Document
JP2010282587A (ja) マッシュアッププログラム、マッシュアップ装置及びマッシュアップ方法
KR101975111B1 (ko) 대용량 웹페이지 문서 변환 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination