CN107679023A - 一种联合采用多种转换技术的高兼容性电子文档转换方法 - Google Patents

一种联合采用多种转换技术的高兼容性电子文档转换方法 Download PDF

Info

Publication number
CN107679023A
CN107679023A CN201710890785.8A CN201710890785A CN107679023A CN 107679023 A CN107679023 A CN 107679023A CN 201710890785 A CN201710890785 A CN 201710890785A CN 107679023 A CN107679023 A CN 107679023A
Authority
CN
China
Prior art keywords
document
transformation
formula
conversion
variety
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710890785.8A
Other languages
English (en)
Inventor
徐春林
朱剑波
熊开君
夏永涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Song Broad Education Science And Technology Co Ltd
Original Assignee
Wuhan Song Broad Education Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Song Broad Education Science And Technology Co Ltd filed Critical Wuhan Song Broad Education Science And Technology Co Ltd
Priority to CN201710890785.8A priority Critical patent/CN107679023A/zh
Publication of CN107679023A publication Critical patent/CN107679023A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种联合采用多种转换技术的高兼容性电子文档转换方法,包括如下步骤:上传文档文件到文件服务器并通知转换服务有需要转换的文档文件;文档转换服务获取文件内容,判断文档是否包含有微软公式编辑器生成的特殊公式;如果不包含特殊公式,则调用Linux服务器上的Open Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程;如果包含特殊公式,则调用Windows服务器上的MS Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程。本发明联合采用多种转换技术,不需要下载安装ActiveX控件或安装各种Office软件,可将丰富多彩、形式多样的教案、教材、素材及课件等教育资源直接在网页上流畅地打开显示播放,高效、稳定、兼容性强。

Description

一种联合采用多种转换技术的高兼容性电子文档转换方法
技术领域
本发明涉及教育领域中常用电子文档文件格式转换处理技术,尤其涉及一种联合采用多种转换技术的高兼容性电子文档转换方法。
背景技术
文件转换主要用于将常用办公类电子文档文件,例如Word、PPT等Office文档以及PDF文档等格式文件自动转换,可以不用安装控件直接在WEB网页显示播放的HTML格式。传统的教育资源以文本类与图形(图像)类素材为主,可以很方便地直接在浏览器网页等客户端上显示。随着现代化信息技术的迅猛发展,教师在日常办公工作中越来越多地应用电子文档来准备教案、教材、素材及课件等教育资源,信息技术手段进入课堂教学已成为一种趋势。运用形式多样、内容丰富的电子文档文件辅助教学,符合学生的认知特点,能使学生积极主动地获取知识,使每一个学生都得到充分地发展,对于教学方法的改革具有积极的推动作用。
但是,目前的教育资源有着不同文档格式,大部分的客户端浏览器只能针对某些文档格式(PDF或者MS OFFICE等办公文档格式)下载安装ActiveX控件或者在本地个人电脑上安装各种Office软件来打开显示播放,一方面在浏览器中显示播放比较繁琐,需要不断下载更新控件,对客户计算机操作水平要求较高;另一方面由于客户端安全性的不断增强,很多控件被安全软件屏蔽,不能正常安装使用。
发明内容
有鉴于此,本发明的主要目的在于提供一种高效、稳定、兼容性强的电子文档转换方法,可将丰富多彩、形式多样的教案、教材、素材及课件等教育资源直接在网页上流畅地打开显示播放。
为达到上述目的,本发明提供了一种联合采用多种转换技术的高兼容性电子文档转换方法,包括如下步骤:
步骤1:上传文档文件到文件服务器并通知转换服务有需要转换的文档文件;
步骤2:文档转换服务获取文件内容,判断文档是否包含有微软公式编辑器生成的特殊公式;
步骤3:如果不包含特殊公式,则调用Linux服务器上的Open Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程;
步骤4:如果包含特殊公式,则调用Windows服务器上的MS Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程。
由上,联合采用多种转换技术,客户端浏览器不需要针对某些格式的文档文件(PDF或者MS OFFICE等办公文档格式)下载安装ActiveX控件或者在本地个人电脑上安装各种Office软件,可将丰富多彩、形式多样的教案、教材、素材及课件等教育资源直接在网页上流畅地打开显示播放,高效、稳定、兼容性强。
可选的,所述步骤2中获取所述文档文件后,对所述文档文件进行格式合法性检验处理。
进一步,对所述文档文件格式合法性检验的具体实现过程为:使用文档识别技术打开整个文档,将所有内容遍历读出,判断其合法性;如果识别出有可能中断转换过程的特殊特征字符串,则不向任何一个转换服务提交转换申请,而是向上传文档文件的用户发送警告信息,提请用户确认文档内容合法性,要求用户更新后重新上传。
由上,通过对文档文件格式合法性检验,可以防止后续转换服务处理在打开、读取、转换文档时报错,造成转换过程中断,严重影响转换服务的运行效率及可用性。
可选的,所述步骤3、步骤4中的文件转换服务,采用分布式集群方式部署转换服务。
进一步,采用分布式集群方式部署转换的具体实现过程为:将Open Office及MSOffice转换服务部署在多台服务器上;部署软路由服务集中管理各个转换服务器,实时监控服务器的运行及负载状况,当转换超时甚至完全中断时及时报告管理员并处理;所有转换申请必须先提交到软路由服务,根据转换类型以及服务器负载,将申请动态分配到合适的转换服务器。
由上,采用分布式集群方式部署转换服务,通过软路由的负载均衡以及实时监控管理功能,一方面,可以提高转换服务的并发处理能力,转换更加高效;另一方面,在某一个转换服务器因故中断后,其他转换服务器可以接替继续运行,不会造成转换服务完全停止,可用性更高。
可选的,所述步骤2中获取所述需转换的文档文件后,还对文档内容进行预处理,判断是否包含有微软公式编辑器生成的特殊公式,并根据判断结果调用不同文档转换服务处理。
进一步,所述步骤2中判断文档是否包含有微软公式编辑器生成的特殊公式处理包括如下步骤:
步骤2.1:首先通过文档识别技术打开要转换的文档文件;
步骤2.2:遍历整个文档并逐个扫描文档中的Paragraph段落标签;
步骤2.3:检测Paragraph段落标签是否包含微软公式编辑器生成的特殊公式特征字符串;
步骤2.4:如果包括有特征字符串,则可以判断此文档包含有微软公式编辑器生成的特殊公式,并将此文件转发给MS Office转换服务;
步骤2.5:如果没有包括有特征字符串,则可以判断此文档不包含有微软公式编辑器生成的特殊公式,并将此文件转发给Open Office转换服务。
由上,采用文档识别技术,使用Java程序创建、读取、修改和显示MS Office文件;使用文档识别技术的WordExtractor API读取文档文件,通过getParagraphText()方法得到文档中所有Paragraph段落所包含的字符数组;遍历Paragraph段落所包含的字符串数组,通过Java的字符串函数判断是否包含微软公式编辑器生成的特殊公式特征字符串。
附图说明
图1为联合采用多种转换技术的高兼容性电子文档转换方法的流程示意图;
图2为图1中步骤2的流程示意图。
具体实施方式
下面参照附图1-2对本发明所述的联合采用多种转换技术的高兼容性电子文档转换方法的具体实施方式进行详细的说明。
一种联合采用多种转换技术的高兼容性电子文档转换方法,如图1所示,包括如下步骤:
步骤1:上传文档文件到文件服务器并通知转换服务有需要转换的文档文件;
步骤2:文档转换服务获取文件内容,判断文档是否包含有微软公式编辑器生成的特殊公式;
步骤3:如果不包含特殊公式,则调用Linux服务器上的Open Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程;
步骤4:如果包含特殊公式,则调用Windows服务器上的MS Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程。
在本实施例中,所述步骤2中获取所述文档文件后,还需对所述文档文件进行格式合法性检验处理。对所述文档文件格式合法性检验的具体实现过程为:使用文档识别技术打开整个文档,不止遍历Paragraph段落标签所包含的内容,而将所有标签遍历读出,包括Section小节、CharacterRun文本、Table表格等,判断每个标签所包含内容的合法性;如果识别出有可能中断转换过程的特殊特征字符串,则不向任何一个转换服务提交转换申请,而是向上传文档文件的用户发送警告信息,提请用户确认文档内容合法性,要求用户更新后重新上传。
在本实例中,所述步骤3、步骤4中的文件转换服务,采用分布式集群方式部署转换服务。采用分布式集群方式部署转换的具体实现过程为:将Open Office及MS Office转换服务部署在多台服务器上;部署软路由服务集中管理各个转换服务器,实时监控服务器的运行及负载状况,当转换超时甚至完全中断时及时报告管理员并处理;所有转换申请必须先提交到软路由服务,根据转换类型以及服务器负载,将申请动态分配到合适的转换服务器。
其中,所述步骤2中获取所述需转换的文档文件后,还对文档内容进行预处理,判断是否包含有微软公式编辑器生成的特殊公式,并根据判断结果调用不同文档转换服务处理。
如图2所示,所述步骤2中判断文档是否包含有微软公式编辑器生成的特殊公式处理包括如下步骤:
步骤2.1:首先通过文档识别技术打开要转换的文档文件;
步骤2.2:遍历整个文档并逐个扫描文档中的Paragraph段落标签;
步骤2.3:检测Paragraph段落标签是否包含微软公式编辑器生成的特殊公式特征字符串;
步骤2.4:如果包括有特征字符串,则可以判断此文档包含有微软公式编辑器生成的特殊公式,并将此文件转发给MS Office转换服务;
步骤2.5:如果没有包括有特征字符串,则可以判断此文档不包含有微软公式编辑器生成的特殊公式,并将此文件转发给Open Office转换服务。
具体地,所述步骤2.1中,采用文档识别技术,使用Java程序创建、读取、修改和显示MS Office文件;所述步骤2.2中,使用文档识别技术的WordExtractor API读取文档文件,通过getParagraphText()方法得到文档中所有Paragraph段落所包含的字符数组;所述步骤2.3中,遍历Paragraph段落所包含的字符串数组,通过Java的字符串函数判断是否包含微软公式编辑器生成的特殊公式特征字符串;所述步骤2.4中,如果包含特殊公式特征字符串,则将当前文档发送到Windows服务器上的MS Office转换服务队列;所述步骤2.5中,如果不包含特殊公式特征字符串,则将当前文档发送到Linux服务器上的Open Offie转换服务队列。
本发明的电子文档转换方法,充分利用Linux上的Open Office转换服务的快速稳定高效,以及Windows上的MS Office转换服务对特殊公式的转换处理能力,从而能够高效、稳定地将常用格式的电子文档转换为可以在浏览器上流畅显示播放、外观格式保持一致的HTML文档。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

Claims (7)

1.一种联合采用多种转换技术的高兼容性电子文档转换方法,其特征在于,包括如下步骤:
步骤1:上传文档文件到文件服务器并通知转换服务有需要转换的文档文件;
步骤2:文档转换服务获取文件内容,判断文档是否包含有微软公式编辑器生成的特殊公式;
步骤3:如果不包含特殊公式,则调用Linux服务器上的Open Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程;
步骤4:如果包含特殊公式,则调用Windows服务器上的MS Office转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程。
2.根据权利要求1所述的联合采用多种转换技术的高兼容性电子文档转换方法,其特征在于,所述步骤2中获取所述文档文件后,对所述文档文件进行格式合法性检验处理。
3.根据权利要求2所述的联合采用多种转换技术的高兼容性电子文档转换方法,其特征在于,对所述文档文件格式合法性检验的具体实现过程为:使用文档识别技术打开整个文档,将所有内容遍历读出,判断其合法性;如果识别出有可能中断转换过程的特殊特征字符串,则不向任何一个转换服务提交转换申请,而是向上传文档文件的用户发送警告信息,提请用户确认文档内容合法性,要求用户更新后重新上传。
4.根据权利要求1所述的联合采用多种转换技术的高兼容性电子文档转换方法,其特征在于,所述步骤3、步骤4中的文件转换服务,采用分布式集群方式部署转换服务。
5.根据权利要求4所述的联合采用多种转换技术的高兼容性电子文档转换方法,其特征在于,采用分布式集群方式部署转换的具体实现过程为:将Open Office及MS Office转换服务部署在多台服务器上;部署软路由服务集中管理各个转换服务器,实时监控服务器的运行及负载状况,当转换超时甚至完全中断时及时报告管理员并处理;所有转换申请必须先提交到软路由服务,根据转换类型以及服务器负载,将申请动态分配到合适的转换服务器。
6.根据权利要求1-5中任一项所述的联合采用多种转换技术的高兼容性电子文档转换方法,其特征在于,所述步骤2中获取所述需转换的文档文件后,还对文档内容进行预处理,判断是否包含有微软公式编辑器生成的特殊公式,并根据判断结果调用不同文档转换服务处理。
7.根据权利要求6所述的联合采用多种转换技术的高兼容性电子文档转换方法,其特征在于,所述步骤2中判断文档是否包含有微软公式编辑器生成的特殊公式处理包括如下步骤:
步骤2.1:首先通过文档识别技术打开要转换的文档文件;
步骤2.2:遍历整个文档并逐个扫描文档中的Paragraph段落标签;
步骤2.3:检测Paragraph段落标签是否包含微软公式编辑器生成的特殊公式特征字符串;
步骤2.4:如果包括有特征字符串,则可以判断此文档包含有微软公式编辑器生成的特殊公式,并将此文件转发给MS Office转换服务;
步骤2.5:如果没有包括有特征字符串,则可以判断此文档不包含有微软公式编辑器生成的特殊公式,并将此文件转发给Open Office转换服务。
CN201710890785.8A 2017-09-27 2017-09-27 一种联合采用多种转换技术的高兼容性电子文档转换方法 Pending CN107679023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710890785.8A CN107679023A (zh) 2017-09-27 2017-09-27 一种联合采用多种转换技术的高兼容性电子文档转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710890785.8A CN107679023A (zh) 2017-09-27 2017-09-27 一种联合采用多种转换技术的高兼容性电子文档转换方法

Publications (1)

Publication Number Publication Date
CN107679023A true CN107679023A (zh) 2018-02-09

Family

ID=61138442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710890785.8A Pending CN107679023A (zh) 2017-09-27 2017-09-27 一种联合采用多种转换技术的高兼容性电子文档转换方法

Country Status (1)

Country Link
CN (1) CN107679023A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613279A (zh) * 2020-12-24 2021-04-06 北京乐学帮网络技术有限公司 一种文件的转换方法、装置、计算机装置及可读存储介质
CN113127410A (zh) * 2021-03-10 2021-07-16 浙江学海教育科技有限公司 一种ppt文件格式转换的方法和系统
CN113590299A (zh) * 2021-09-28 2021-11-02 南京国睿信维软件有限公司 高并发高可用异构系统的转换调度框架算法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060284745A1 (en) * 2005-06-21 2006-12-21 International Characters, Inc. Method and apparatus for processing character streams
CN101201815A (zh) * 2006-12-13 2008-06-18 鸿富锦精密工业(深圳)有限公司 专利申请文件生成系统及方法
CN101459669A (zh) * 2008-12-29 2009-06-17 成都市华为赛门铁克科技有限公司 一种网络文件系统的访问方法和装置
CN101567065A (zh) * 2009-05-26 2009-10-28 杭州世导科技有限公司 跨平台的文档在线编辑系统及其方法
CN101833567A (zh) * 2010-03-31 2010-09-15 北京志腾新诺科技有限公司 文档转换方法、装置及系统
CN102799691A (zh) * 2012-08-15 2012-11-28 深圳市宏电技术股份有限公司 文件系统转换访问方法及文件系统转换访问设备
CN104239426A (zh) * 2014-08-25 2014-12-24 武汉天喻信息产业股份有限公司 一种实现跨平台文档阅读的系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060284745A1 (en) * 2005-06-21 2006-12-21 International Characters, Inc. Method and apparatus for processing character streams
CN101201815A (zh) * 2006-12-13 2008-06-18 鸿富锦精密工业(深圳)有限公司 专利申请文件生成系统及方法
CN101459669A (zh) * 2008-12-29 2009-06-17 成都市华为赛门铁克科技有限公司 一种网络文件系统的访问方法和装置
CN101567065A (zh) * 2009-05-26 2009-10-28 杭州世导科技有限公司 跨平台的文档在线编辑系统及其方法
CN101833567A (zh) * 2010-03-31 2010-09-15 北京志腾新诺科技有限公司 文档转换方法、装置及系统
CN102799691A (zh) * 2012-08-15 2012-11-28 深圳市宏电技术股份有限公司 文件系统转换访问方法及文件系统转换访问设备
CN104239426A (zh) * 2014-08-25 2014-12-24 武汉天喻信息产业股份有限公司 一种实现跨平台文档阅读的系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613279A (zh) * 2020-12-24 2021-04-06 北京乐学帮网络技术有限公司 一种文件的转换方法、装置、计算机装置及可读存储介质
CN113127410A (zh) * 2021-03-10 2021-07-16 浙江学海教育科技有限公司 一种ppt文件格式转换的方法和系统
CN113590299A (zh) * 2021-09-28 2021-11-02 南京国睿信维软件有限公司 高并发高可用异构系统的转换调度框架算法

Similar Documents

Publication Publication Date Title
US9971841B2 (en) Integration of web information architecture taxonomy and web metrics taxonomy
US20080189328A1 (en) Mobile e-learning method and apparatus based on media adapted learning objects
CN101548280A (zh) 在带有翻译后的文本的用户界面中显示原始文本
CN107679023A (zh) 一种联合采用多种转换技术的高兼容性电子文档转换方法
WO2007149304A2 (en) Method and apparatus for building asset based natural language call routing application with limited resources
CN102402432A (zh) 用于产生多国语言网页的方法
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
CA2516125C (en) Systems and methods for contextual mark-up of formatted documents
CN106021459A (zh) 富媒体信息推送的方法及装置
TWI413001B (zh) 用於遠端存取的資料整合方法與系統
CN108696566B (zh) web服务器
CN100430946C (zh) 工作嵌入的电子学习的方法和系统
KR101123361B1 (ko) 네트워크를 통한 학습 분산 환경 관리 서버, 방법 및 그방법을 실행하는 프로그램이 기록된 기록매체
CN106815181A (zh) 一种InDesign排版的indd文件到Office文件的转换方法及装置
US20040205130A1 (en) Pre-availability of a lecture to promote interactivity
JP6897303B2 (ja) 文書変換プログラム、文書変換方法および文書変換装置
US8170270B2 (en) Universal reader
KR101632951B1 (ko) 온라인 학습 콘텐츠로의 변환을 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 및 온라인 학습 콘텐츠로의 변환 방법
US8898655B2 (en) Modifying an information technology architecture framework
Yukun Analysis and system construction of ideological and political education teaching mode based on wechat platform
US20020150867A1 (en) System and method for generating a directory structure in an on-line web environment
Huss A High School Website Is a School Community's Communication Center… But Is It ADA Compliant?.
Hadzhikolcv et al. Architecture of Mobile Online: an application for creating mobile versions of web pages
Komai et al. Traffic Prediction by Extracting Users' Access Patterns
Mckenzie et al. Creating accessible interfaces for i-Maestro learning objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209