CN1627288A - 文件转换系统与方法 - Google Patents

文件转换系统与方法 Download PDF

Info

Publication number
CN1627288A
CN1627288A CN 200310112584 CN200310112584A CN1627288A CN 1627288 A CN1627288 A CN 1627288A CN 200310112584 CN200310112584 CN 200310112584 CN 200310112584 A CN200310112584 A CN 200310112584A CN 1627288 A CN1627288 A CN 1627288A
Authority
CN
China
Prior art keywords
file
document
extendability
mark
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200310112584
Other languages
English (en)
Other versions
CN100365621C (zh
Inventor
李忠一
林海洪
罗宝胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CNB2003101125843A priority Critical patent/CN100365621C/zh
Publication of CN1627288A publication Critical patent/CN1627288A/zh
Application granted granted Critical
Publication of CN100365621C publication Critical patent/CN100365621C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种文件转换系统与方法。该文件转换系统包括多个客户端计算机、一应用程序服务器、一文件接收服务器及一数据库。该文件转换方法包括以下步骤:发出文件传输请求;获取对应文件;检查和判断文件格式;将输入文件转换为可延伸性标示语言格式文件;合并该可延伸性标示语言格式文件与图档;返回完整的可延伸性标示语言格式文件。通过本发明提供的文件转换系统及方法,可将Word格式文件转换为可延伸性标示语言格式文件,提高用户工作效率。

Description

文件转换系统与方法
【技术领域】
本发明是关于一种文件格式转换技术,特别是一种可自动将Word格式文件转换为可延伸性标示语言格式文件的技术。
【背景技术】
随着信息时代的到来,不同的企业、用户之间所需要进行信息的交流频率越来越多,但是不同的企业、不同的用户之间由于使用习惯和软件的不同,造成文件的格式不一,从而在进行文件交换时造成不便。
现有技术中已有一些关于文件格式的转换方法,如中国国家知识产权局于2000年12月6日公开的公开号为CN 1275752A的名称为“网际网络上数据库的自动转换存储的方法与系统”的专利申请案,该申请案揭露了一种可以将网际网络用户上传的文件转换为数据库规定格式的文件进行存储的方法。该方法将用户上传的文件进行检查与解析,然后重新排序组成固定格式的文件。该方法虽然可以进行文件格式的转换,但是只能转换为该数据库所规定的格式,局限性较大,而且还将用户的文件重新拆分,不能保持文件的一致性与完整性。
再如中国国家知识产权局于2001年9月26日公开的公开号为CN1314634A的名称为“文件转换方法、文件转换器、以及文件显示系统”的专利申请案,该申请案涉及一种文件转换方法,该文件转换方法首先从由多个数据段组成的一个文件中提取部分数据,然后将该部分数据显示在一个有限显示能力的装置上进行显示。该申请案的不足在于其只能在一个能力有限的显示装置上显示部分数据,不能显示完整的数据,且只能应用在网际网络浏览器上的超文本链接标示语言(Hypertext Markup Language,HTML)上,而不能将文本格式文件转换为XML格式的文件,局限性较大,。
再一例子如中国国家知识产权局于2003年3月19日公开的公开号为CN 1403950A的名称为“电子文件自动转换发送的系统与方法”的专利申请案,该申请案揭露一种电子文件的转换方法,其可以将文件的编码信息进行转换,例如将简体中文转换为繁体中文,或者将繁体中文转换为简体中文。该专利申请案的不足在于其只是进行文字编码的转换,而不能将文本格式文件转换为XML格式的文件。
最后一个例子如中国国家知识产权局于1998年4月15日公开的公开号为CN 1178948A的名称为“文件格式转换方法”的专利申请案,该申请案所揭露的技术可将个人计算机(Personal Computer,PC)或笔记型计算机(Notebook Personal Computer)上的文件资源转换为一种可被袖珍型个人计算机如CD机可读取的格式。该专利申请案所揭露技术的不足同样在于不能将文本格式文件转换为XML格式的文件。
但是,在某些场合需要提交一种固定格式的文件,在这种情况下,用户往往需要重新进行文件的重新录入与编辑,从而浪费用户时间,造成不必要的工作量。
【发明内容】
本发明的要目的在于提供一种文件转换方法,其能将用户编辑过的Word格式的文件转换为XML格式的文件,满足用户的不同需要。
本发明提供一种文件转换系统,该文件转换系统包括多个客户端计算机,一网络、一应用程序服务器、一文件接收服务器及一数据库。每一客户端计算机均提供一图形用户接口,用于进行文件编辑,当需要进行文件编辑时,客户端计算机发出一文件传输请求。数据库中存储有各种格式的文件,包括Word格式的文件,同时,在该数据库中亦存储有文件的摘要信息。应用程序服务器用于接收客户端计算机发送的文件传输请求,传输对应文件,执行文件格式检查,分析文件内容,并进行格式转换,执行文件合并作业。应用程序服务器包括一传输请求接收模块,用于接收客户端计算机发出的文件传输请求;一文件获取模块,用于依据文件传输请求从数据库中获取对应的文件;一文件检查模块,用于对获取的文件格式进行检查,包括文件格式的识别和检查,判断该文件的格式是否为Word格式;一文件分析模块,用于对获取的文件内容进行分析,从而得到该文件不同的段落,例如摘要段落、正文段落、详细描述段落等;一格式转换模块,用于将Word格式的文件转换为XML格式的文件,该格式转换模块通过一后台运行的程序执行文件格式转换,该后台运行程序由Visual Basic程序编写语言编写;一文件合并模块,用于将转换后的XML格式文件与Word文件的附加图档合并,构成一个完整的XML文件。文件接收服务器用于接收从应用程序服务器传输的文件,该文件为经过格式转换后的XML格式文件。
本发明还提供一种文件转换方法,其能将用户编辑过的Word格式的文件转换为XML格式的文件,该文件转换方法包括如下步骤:发出文件传输请求;获得对应文件;检查文件格式,判断该文件的格式是否为Word格式;若经过判断得出该文件为Word格式文件,则将输入文件转换为XML格式文件;合并该可延伸性标示语言文件与图档;返回完整的XML格式文件。若判断得出该文件格式为其它非Word格式的文件,则直接结束操作流程。
通过本发明提供的文件转换系统与方法,可实现将用户的Word格式文件转换为XML格式的文件。
【附图说明】
图1是本发明文件转换系统的实施环境图。
图2是本发明文件转换系统应用程序服务器的功能模块图。
图3是本发明文件转换系统的数据库中摘要信息表示意图。
图4是本发明文件转换系统与方法的文件转换与合并流程图。
【具体实施方式】
参阅图1所示,是本发明文件转换系统的实施环境图。该文件转换系统包括多个客户端计算机10,一网络11、一应用程序服务器12、一数据库13及一文件接收服务器14。每一客户端计算机10均提供一图形用户接口(图中未示出),用于进行文件编辑,当需要进行文件编辑时,客户端计算机发出一文件传输请求(图中未示出),该文件传输请求被传输到应用程序服务器12。数据库13中存储有各种格式的文件,包括Word格式的文件,同时,在该数据库13中亦存储有该文件的摘要信息。应用程序服务器12用于接收客户端计算机发送的文件传输请求,执行文件格式转换,该应用程序服务器12位于文件发送方。文件接收服务器14用于接收从应用程序服务器12传输的文件,该文件为经过格式转换后的XML格式文件,该文件接收服务器14位于文件接收方。
参阅图2所示,是本发明文件转换系统应用程序服务器的功能模块图。该应用程序服务器12为文件格式转换的控制中心,其接收从客户端计算机10传输的文件传输请求,该应用程序服务器12包括一传输请求接收模块121、一文件获取模块122、一文件检查模块123、一文件分析模块124、一格式转换模块125及一文件合并模块126。传输请求接收模块121用于接收客户端计算机10传输的文件传输请求。文件获取模块122用于依据文件传输请求从数据库13中获得对应的文件。
文件检查模块123用于对数据库13中储存的文件格式进行检查,包括文件格式的识别和检查,判断该文件是否为Word格式的文件。文件分析模块124用于对获得的文件内容进行分析,从而得到该文件不同的段落,例如摘要段落、正文段落、详细描述段落等。格式转换模块125用于执行文件格式转换,将Word格式的文件转换为XML格式的文件,该格式转换模块通过一后台运行的程序执行文件格式转换,该后台运行程序由Visual Basic程序编写语言编写。
文件合并模块126用于将转换后的XML格式文件与Word文件的附加图档合并,构成一个完整的XML文件,该附加图档为Word文件内附加的图档,该图档的格式可为标签图像文件格式(Tagged Image File,TIF)、标记图像文件格式(Tagged Image File Format,TIFF)位图文件(BitMap,BMP)、图像交换格式(Graphics lnterchange Format,GIF)、联合图形图像专家组(Joint Photo Graphic Experts Group,JPEG)等格式。
参阅图3所示,是本发明文件转换系统的数据库中摘要信息表示意图。该摘要信息为数据库13中非结构化资料的摘要信息300,该摘要信息300包括资料编号301、资料标题302、资料位置303、资料目录304及转换日期305。资料编号301为一资料标示编号,用于应用程序服务器12识别文件之用,该资料编号为顺序编号,且在数据库13中有序排列。资料标题302为各种非结构化资料的标题,包括文件标题、图像标题、声音标题及影像标题。资料位置303用于记录数据库13中不同的非结构化资料的存储位置,该存储位置表明了某项数据的详细储存位置,例如文件123.doc的数据位置为C:\Winnt\System32\123.doc。资料目录304记录某项资料的储存目录,转换日期305记录Word格式文件转换为XML格式文件的转换日期。
参阅图4所示,是本发明文件转换系统与方法的文件转换与合并流程图。首先,传输请求接收模块121接收客户端计算机10发出的文件传输请求(步骤S40);接着由文件获取模块122透过网络11从数据库13获取对应的文件(步骤S41),文件检查模块123对上述所获得的文件执行格式识别与检查(步骤S42);判断该文件格式是否为Word格式(步骤S43);若经过检查,判断该文件格式为非Word格式文件,则直接结束转换流程。若经过检查,判断该文件确为Word文件,则由文件分析模块124执行文件内容识别,从而得到该文件的不同段落,例如:摘要段落、正文段落、详细描述段落等,接着由格式转换模块125将该文件从Word格式转换为XML格式(步骤S44)。上述的格式转换模块125执行包括如下步骤:首先,由格式转换模块125根据上述的分析结果设定XML文件中对应段落,将该Word文件中每一资料标题下对应段落文字复制并粘贴到XML格式文件中对应的资料标题段落下,完成文件格式转换,上述步骤S44中文件格式转换在一后台运行程序的控制下完成,该后台运行程序用Visual Basic语言编写。接着由文件合并模块126将转换后的XML格式文件与Word文件中的图像进行合并,以构成一个完整的XML文件(步骤S45),最后返回该XML文件到客户端计算机10(步骤S46),流程结束。

Claims (6)

1.一种文件转换系统,该文件转换系统可将Word格式文件转换为可延伸性标示语言格式文件,其特征在于,包括:
多个客户端计算机,用于发出文件传输请求;
一数据库,其中存储不同格式的文件;
一应用程序服务器,包括:
一传输请求接收模块,用于接收客户端计算机发送的文件传输请求;
一文件获取模块,用于根据文件传输请求获得所需传输的文件;
一文件检查模块,用于对上述所获得的文件进行文件格式的识别和检查;
一文件分析模块,用于对经过文件格式检查后的文件内容进行分析,获得该文件不同的段落;
一格式转换模块,用于将经过文件内容分析后的Word格式文件转换为可延伸性标示语言格式的文件;
一文件合并模块,用于将转换后的可延伸性标示语言格式文件与Word格式文件中的图档合并,构成一个完整的可延伸性标示语言格式文件;
一文件接收服务器,用于接收从应用程序服务器传输的可延伸性标示语言格式文件。
2.如权利要求1所述的文件转换系统,其特征在于,其中的数据库中存储的不同格式文件包括Word格式的文件。
3.如权利要求1所述的文件转换系统,其特征在于,其中的格式转换模块在一后台运行程序的控制下完成格式转换,该后台运行程序用Visual Basic语言编写。
4.一种文件转换方法,该文件转换方法可将Word格式文件转换为可延伸性标示语言格式文件,其特征在于,包括以下步骤:
发出文件传输请求;
获取对应文件;
检查文件格式,判断该文件的格式是否为Word格式;
若判断得出该文件确实为Word格式文件,则将输入文件转换为可延伸性标示语言格式文件,合并该可延伸性标示语言格式文件与图档,返回完整的可延伸性标示语言格式文件;
若判断得出该文件格式为其它非Word格式的文件,则直接结束操作流程。
5.如权利要求4所述的文件转换方法,其特征在于,其中的图档为转换的Word文件中所包含的图档。
6.如权利要求4所述的文件转换方法,其特征在于,其中的文件转换操作包括以下步骤:
根据文件分析模块对所获取文件的分析结果设定可延伸性标示语言格式文件中对应的段落;
将该文件中不同资料标题下对应段落文字复制并粘贴到可延伸性标示语言格式文件中对应的资料标题段落下,完成文件格式转换。
CNB2003101125843A 2003-12-10 2003-12-10 文件转换系统与方法 Expired - Fee Related CN100365621C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2003101125843A CN100365621C (zh) 2003-12-10 2003-12-10 文件转换系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2003101125843A CN100365621C (zh) 2003-12-10 2003-12-10 文件转换系统与方法

Publications (2)

Publication Number Publication Date
CN1627288A true CN1627288A (zh) 2005-06-15
CN100365621C CN100365621C (zh) 2008-01-30

Family

ID=34759828

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101125843A Expired - Fee Related CN100365621C (zh) 2003-12-10 2003-12-10 文件转换系统与方法

Country Status (1)

Country Link
CN (1) CN100365621C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833567A (zh) * 2010-03-31 2010-09-15 北京志腾新诺科技有限公司 文档转换方法、装置及系统
CN101867397A (zh) * 2010-03-31 2010-10-20 宇龙计算机通信科技(深圳)有限公司 一种基于蓝牙的数据传输方法及系统、接收及发送终端
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN102111569A (zh) * 2009-12-28 2011-06-29 新奥特(北京)视频技术有限公司 采集并播出股票资讯信息的方法及系统
CN102402541A (zh) * 2010-09-14 2012-04-04 捷达世软件(深圳)有限公司 文件解析系统及方法
CN101610277B (zh) * 2008-06-18 2012-07-04 中兴通讯股份有限公司 一种信息传输处理的方法
CN102799571A (zh) * 2011-05-23 2012-11-28 成都科创知识产权研究所 Word文件生成图片的方法及系统
CN102831151A (zh) * 2012-06-28 2012-12-19 华为技术有限公司 电子文档的生成方法和装置
WO2015000322A1 (zh) * 2013-07-03 2015-01-08 惠州Tcl移动通信有限公司 一种无线通讯设备中文档处理的方法及系统
CN106534267A (zh) * 2016-10-19 2017-03-22 中国银行股份有限公司 文件上传解析方法及装置
CN106557657A (zh) * 2016-11-21 2017-04-05 北京市农林科学院 一种基于gemma的gwas分析方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003196267A (ja) * 2001-12-13 2003-07-11 Bebright Corp 教材等の印刷物のオンライン配信方法とそのシステム。
JP2003216626A (ja) * 2002-01-21 2003-07-31 Mitsubishi Electric Corp 構造化文書処理装置、構造化文書処理方法及び構造化文書処理プログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610277B (zh) * 2008-06-18 2012-07-04 中兴通讯股份有限公司 一种信息传输处理的方法
CN102111569B (zh) * 2009-12-28 2015-06-17 新奥特(北京)视频技术有限公司 采集并播出股票资讯信息的方法及系统
CN102111569A (zh) * 2009-12-28 2011-06-29 新奥特(北京)视频技术有限公司 采集并播出股票资讯信息的方法及系统
CN101867397A (zh) * 2010-03-31 2010-10-20 宇龙计算机通信科技(深圳)有限公司 一种基于蓝牙的数据传输方法及系统、接收及发送终端
CN101833567A (zh) * 2010-03-31 2010-09-15 北京志腾新诺科技有限公司 文档转换方法、装置及系统
CN102402541A (zh) * 2010-09-14 2012-04-04 捷达世软件(深圳)有限公司 文件解析系统及方法
CN102402541B (zh) * 2010-09-14 2015-02-11 赛恩倍吉科技顾问(深圳)有限公司 文件解析系统及方法
CN101980183B (zh) * 2010-09-17 2013-12-18 深圳万兴信息科技股份有限公司 一种解析Word文件信息的方法及其系统
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN102799571A (zh) * 2011-05-23 2012-11-28 成都科创知识产权研究所 Word文件生成图片的方法及系统
CN102799571B (zh) * 2011-05-23 2015-06-10 成都科创知识产权研究所 Word文件生成图片的方法及系统
CN102831151A (zh) * 2012-06-28 2012-12-19 华为技术有限公司 电子文档的生成方法和装置
CN102831151B (zh) * 2012-06-28 2015-07-08 华为技术有限公司 电子文档的生成方法和装置
WO2015000322A1 (zh) * 2013-07-03 2015-01-08 惠州Tcl移动通信有限公司 一种无线通讯设备中文档处理的方法及系统
CN106534267A (zh) * 2016-10-19 2017-03-22 中国银行股份有限公司 文件上传解析方法及装置
CN106557657A (zh) * 2016-11-21 2017-04-05 北京市农林科学院 一种基于gemma的gwas分析方法及装置

Also Published As

Publication number Publication date
CN100365621C (zh) 2008-01-30

Similar Documents

Publication Publication Date Title
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
US7809734B2 (en) System and method for transcoding digital content
US20060101007A1 (en) Information processing apparatus and method, and recording medium
JP4687803B2 (ja) 通信端末装置
US20140052778A1 (en) Method and apparatus for mapping a site on a wide area network
US20120011431A1 (en) Method and System of Retrieving Ajax Web Page Content
CN100461173C (zh) 电子归档系统和电子归档方法
CN100365621C (zh) 文件转换系统与方法
US20140337326A1 (en) Topical Mapping
CN1489034A (zh) 打印网页的方法及其装置
US20020184269A1 (en) Document management systems for and methods of sharing documents
JP3922372B2 (ja) 構造化文書処理装置、およびプログラム
CA2516125C (en) Systems and methods for contextual mark-up of formatted documents
US20010002471A1 (en) System and program for processing special characters used in dynamic documents
CN100388269C (zh) 用于优化基于标签的协议流分析的系统和方法
JP2008158589A (ja) 更新情報通知装置及び更新情報通知プログラム
CN101534294B (zh) 在多媒体播放器实现下载网络数据的方法与系统
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
CN101145936B (zh) 一种在Web页面中添加标签的方法及其系统
JP2009259248A (ja) ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
CN114004209A (zh) Pdf格式数据导出方法、装置、电子设备及可读存储介质
JP4752020B2 (ja) 文字列取得方法及び文字列取得システム
KR100223184B1 (ko) 웹브라우저용 멀티미디어 파일저장/독출방법
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法
KR101864291B1 (ko) 페이지스피드인사이츠 연동 페이지최적화 관리방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080130

Termination date: 20141210

EXPY Termination of patent right or utility model