CN108595389A - 一种将Word文档转换为txt纯文本文档的方法 - Google Patents

一种将Word文档转换为txt纯文本文档的方法 Download PDF

Info

Publication number
CN108595389A
CN108595389A CN201810378038.0A CN201810378038A CN108595389A CN 108595389 A CN108595389 A CN 108595389A CN 201810378038 A CN201810378038 A CN 201810378038A CN 108595389 A CN108595389 A CN 108595389A
Authority
CN
China
Prior art keywords
word document
documents
converted
word
txt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810378038.0A
Other languages
English (en)
Other versions
CN108595389B (zh
Inventor
袁凌
魏世康
周铨
冯晋田
王铭丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810378038.0A priority Critical patent/CN108595389B/zh
Publication of CN108595389A publication Critical patent/CN108595389A/zh
Application granted granted Critical
Publication of CN108595389B publication Critical patent/CN108595389B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种将Word文档转换为txt纯文本文档的方法,包括以下步骤:提取Word文档中的图片信息和公式信息并保存;将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中格式标签对应的信息;对所述Html进行解析,提取相应的文本信息并存储为txt文档。本发明批量对Word文档进行自动转换,同时优化Word文档转换的结果。

Description

一种将Word文档转换为txt纯文本文档的方法
技术领域
本发明涉及文档格式转换技术领域,更具体地,涉及一种将Word文档转换为txt纯文本文档的方法。
背景技术
Word文档是适用于微软办公软件Word专属的富文本文档。得益于Word软件强大的功能,Word文档的编辑非常方便,同时能够表现出很丰富的文档内容,可以在其中插入图片,表格甚至超链接。但由于Word是微软的闭源软件,而Word文档格式是一种富文本格式,只能在Word软件下完整地解析,在其他文本编辑工具下打开,会由于格式兼容性的问题导致乱码,或者排版的混乱,因此一旦没有安装Word程序,Word文档便不能够使用。
纯文本文档格式则非常简单并且具有平台无关性,是一种任何文档编辑器都可以支持的格式,从而不限制于微软的Word程序,能够轻松地跨平台使用。用户经常需要从Word文档中,把文本图片等有用信息提取出来用于其他环境,而使用纯本文能够很方便地在不同平台之间交流。因此,需将提取出的文本信息,保存在txt纯文本文档中,其他非文本类型的数据,比如图片也要识别并保存。常见的一个例子,比如本发明的一个应用,在网上制卷系统中,需要根据批量导入的Word格式的试卷文档,制作电子试卷,我们需要从中提取出试题文本信息,试题图片信息,然后存入后台的数据库,方便在线制卷时候的试题选择。
现有的Word文档转换为纯本文的方法,一般是直接在Word软件中打开文档,然后选择另存为,然后保存为txt格式,从而保存为纯文本。这种方法存在几点不足,叙述如下:
1、选择保存文件时,要自行选择保存后的文档的特定的编码格式,因为有的编码格式属于windows专有,在其他平台下则会乱码。保存后的纯本文文件格式比较杂乱,同时包含很多无用且杂乱的word格式信息,还需要进一步处理才能达到比较理想的效果。
2、利用Word自带的功能直接转换文档,原文档中的图片并不会被保存下来,造成重要信息的丢失。另外,Word文档中的数学公式也不能正确的解析。同时,这种文档转换方法需要人工手动操作,比较繁琐,如果需要批量处理,则更是效率低下,对于转换为txt文档后的大量无用信息还需进一步处理。除此之外,如果需要将文档转换作为一个软件功能流程中的一个环节,这种手动转换的方法显然没有太大作用。
综上,利用自带的文档转换功能直接将Word文档转换为纯本文并不是一个适用的选择。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有Word文档转换为纯本文的方法,转换得到的纯本文文件格式比较杂乱,同时包含很多无用且杂乱的word格式信息,并且图片并不会被保存下来,造成重要信息的丢失。除此之外,Word文档中的数学公式也不能正确的解析。同时,这种文档转换方法需要人工手动操作,比较繁琐等技术问题。
为实现上述目的,本发明提供一种将Word文档转换为txt纯文本文档的方法,包括以下步骤:
提取Word文档中的图片信息和公式信息并保存;将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中的格式标签和属性标签对应的信息;对所述Html进行解析,提取相应的文本信息并存储为txt文档。
可选地,所述Word文档中的格式标签包括:Word中着色标签、字体属性标签、META标签、INS标签、DEL标签。所述Word文档中的属性标签包括:LANG标签、CLASS标签、STYLE标签、SIZE标签、FACE标签。
可选地,该将Word文档转换为txt纯文本文档的方法还包括:对所述Html进行解析,提取相应的文本信息并存储为txt文档的过程中,将Html文档中多个空白字符转换为一个写入到所述txt文档中。
可选地,提取Word文档中的图片信息和公式信息并保存,包括:将Word文档中的图片信息和公式信息分别保存在预设的文件夹中。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供的将Word文档转换为txt纯文本文档的方法,在对Word转换时,将图片和公式信息提前提取保存,并删除多余的格式标签信息,使得转换得到的txt文本简洁,且未丢失图片公式等信息,将操作方法一体化打包,使得本发明可以批量对Word文档进行自动转换,同时优化Word文档转换的结果。
附图说明
图1为word文档转txt纯文本文档的实施例过程流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
基于以上的问题,有必要针对现存的Word转换纯文本方法的不足,提供一种自动将Word富文本转换为纯文本的方法和装置。使得用户能通过运行程序自动将Word文档转换为纯文本文档,转换的同时,剔除无用的冗余信息,并且不会丢失原word文档中的图片,数学公式,尽量做到转换后信息的完整性。而且可以作为一个具备复用性的软件组件,用于其他需要此文档转换功能的软件中。
本发明不打算把Word富文本文档直接一步转换为txt文档,因为这样会导致图片等其他非ASCII文本信息的丢失,而是利用html标记文档作为一种中间格式。
a)把Word文档转换为html文档。
b)把html文档转换为txt文档。
Html是一种标记文本文档,能够直接在浏览器中显示,同时能够方便的从中完整的解析出需要的文本信息。在一个实施例装置中,以Java转换程序对文档进行转换。
Word是微软下的office软件,其文档的格式并不是公开的,这也决定了其他软件或者工具并不能直接对Word文档进行解析,然后提取信息。因此,对于一个Word文档的操作只能使用Word自带的一些功能进行相应的转换和信息提取操作,但是直接使用自带的转换功能,一是不能达到很好的最后结果(最终的txt文档带有大量的无用的控制标签,同时图片公式等信息的丢失),二是效率低下,如果是处理一批要转换的文档,速度也达不到要求。更多的不足在之前已经有叙述。因此,本发明重点在于利用程序可以批量对文档进行自动转换,同时优化文档转换的结果。转换步骤分为两步骤:
从Word转换为Html:
我们需要在程序中隐式地操作Word软件,则需要调用windows下COM组件(COM是微软开发的软件组件,目的是给其他语言调用windows下的软件提供一种接口,通过调用COM组建,我们能够操作很多Windows环境下的软件),考虑到Java的丰富的软件生态环境,已经有相应的Java软件包,它封装好了COM的调用接口,使得我们可以使用Java程序操作Word软件,从而在代码中跨平台的使用Word软件中的某些功能来达到相应的目的,为此,我们选择了jacob.jar这个软件包(java com bridge),通过这个jar包,我们在程序中操作word,先识别出图片,然后选择另存为功能,得到输出文档和原word中的图片等信息。同时,正如前面所述,利用word直接转换得到的html仍然是带有很多杂乱冗余信息的,我们需要进一步简化处理,这里使用了我们自己开发的Html格式清除组件来完成。
从Html转换为txt:
从上一步得到的html,再转换为txt则可以非常便捷的完成,html作为一种标记文档,其文本信息前后都有标签标识,只要通过解析标签,我们就可以提取出其中的文本信息。同时,可以定制化,通过过滤某些标签,只选择我们要的文本,或者全部信息提取。最终得到txt纯文本文档。这里我们选择了java自带的解析工具jsoup.jar,能够完成相应解析功能。
综合上述,我们把这两个步骤结合起来,利用这种两步转换的方法,设计完成了一个较为理想的文档转换装置,利用java的打包功能,把上述用到的工具和程序打包成一个名称为Word2Txt.jar的jar包,也可以复用于其他需要进行此类文档转换的大型软件工具中。
具体实施方式以图1的实例过程流程图做详细的说明:
(1)本文档转换程序使用Java语言进行编写,因此操作系统必须有安装的Java运行环境,首先判断是否安装Java运行环境,如果没有安装,则进入步骤2提示用户安装,否则进入步骤3;
(2)根据操作系统的特定平台,安装相应的Java运行环境,可选的,如果是64位操作系统,安装64位的java运行环境,以便更好的发挥性能,进入步骤3;
(3)转换程序的运行依赖于Word2Txt.jar程序包,因此必须导入到依赖中,可以通过配置CLASSPATH环境变量导入到路径,进入步骤4;
(4)运行Java编写的文档转换程序,输入文档的名称或者存放批量文档的文件夹,进入步骤5;
(5)程序从输入路径中,读取Word文档到内存,为开始转换做好准备,接下来的转换的主要流程,进入步骤6;
(6)程序调用Word组件,获得图片属性,提取出图片信息,保存在同路径下的新建文件夹image中,针对原Word文档中的公式,利用jacob调用Word的MathType把公式转换为Latex代码,保存在同路径下的latex文件夹下,进入步骤7;
(7)调用Word自带的文档转换功能,把Word文档转换为Html文档,进入步骤8;
(8)利用Word自带的文档转换得到的文档,还有很多无用的标签信息,我们进行简化处理,除去Word中遗留的着色标签、字体属性标签、META标签、INS标签、DEL标签、LANG标签、CLASS标签、STYLE标签、SIZE标签以及FACE标签的信息。得到处理后的Html文档,进入步骤9;
(9)解析Html文档的过程,从Html文档中,提取文本标签中的内容,同时把原来的多个空白字符转换为一个,写入新的txt文本中,得到目的文档,进入步骤10;
(10)结束。
上述实施例仅表达了本发明方案的一种实施方式,具体过程的详细描述是为了更好的说明本方案的实用性和可行性,但并不因此而理解为对本发明专利限制。还可以对具体过程做出改进,比如针对转换中使用到的开源库,可以按照方法流程图自己编写相应的组件代替本装置中使用到的开源工具,但是仍旧以本发明对于文档转换的方法为基础。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种将Word文档转换为txt纯文本文档的方法,其特征在于,包括以下步骤:
提取Word文档中的图片信息和公式信息并保存;
将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中格式标签和属性标签对应的信息;
对所述Html进行解析,提取相应的文本信息并存储为txt文档。
2.根据权利要求1所述的将Word文档转换为txt纯文本文档的方法,其特征在于,所述Word文档中的格式标签包括:Word中着色标签、字体属性标签、META标签、INS标签、DEL标签,所述Word文档中的属性标签包括:LANG标签、CLASS标签、STYLE标签、SIZE标签、FACE标签。
3.根据权利要求1所述的将Word文档转换为txt纯文本文档的方法,其特征在于,还包括:对所述Html进行解析,提取相应的文本信息并存储为txt文档的过程中,将Html文档中多个空白字符转换为一个写入到所述txt文档中。
4.根据权利要求1所述的将Word文档转换为txt纯文本文档的方法,其特征在于,提取Word文档中的图片信息和公式信息并保存,包括:
将Word文档中的图片信息和公式信息分别保存在预设的文件夹中。
CN201810378038.0A 2018-04-25 2018-04-25 一种将Word文档转换为txt纯文本文档的方法 Expired - Fee Related CN108595389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810378038.0A CN108595389B (zh) 2018-04-25 2018-04-25 一种将Word文档转换为txt纯文本文档的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810378038.0A CN108595389B (zh) 2018-04-25 2018-04-25 一种将Word文档转换为txt纯文本文档的方法

Publications (2)

Publication Number Publication Date
CN108595389A true CN108595389A (zh) 2018-09-28
CN108595389B CN108595389B (zh) 2021-02-26

Family

ID=63609185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810378038.0A Expired - Fee Related CN108595389B (zh) 2018-04-25 2018-04-25 一种将Word文档转换为txt纯文本文档的方法

Country Status (1)

Country Link
CN (1) CN108595389B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614594A (zh) * 2018-11-27 2019-04-12 浙江万朋教育科技股份有限公司 一种将题目文档解析为题库数据的方法
CN109614598A (zh) * 2018-12-27 2019-04-12 北京字节跳动网络技术有限公司 文本录入方法及装置
CN110083580A (zh) * 2019-03-29 2019-08-02 中国地质大学(武汉) 一种Word文档向PowerPoint文档转换的方法及系统
CN110147534A (zh) * 2019-02-27 2019-08-20 中国地质大学(武汉) 一种LaTeX文档向Word文档转换的方法及系统
CN110147530A (zh) * 2019-02-27 2019-08-20 中国地质大学(武汉) 一种Word文档向LaTeX文档转换的方法及系统
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN111913703A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 对象编辑方法、装置、电子设备及可读存储介质
CN112001153A (zh) * 2020-08-12 2020-11-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN112083909A (zh) * 2020-08-07 2020-12-15 清华大学 工程结构设计标准公式识别及计算程序自动生成方法
CN112783957A (zh) * 2019-11-11 2021-05-11 上海遴睿教育科技有限公司 一种英语阅读word文档格式化导入方法及系统
CN113435178A (zh) * 2021-06-17 2021-09-24 竹间智能科技(上海)有限公司 一种文档解析方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095160A (zh) * 2015-07-31 2015-11-25 河南大学 一种文档转换阅读方法与系统
US9298675B2 (en) * 2004-09-30 2016-03-29 Adobe Systems Incorporated Smart document import
CN106484663A (zh) * 2016-10-12 2017-03-08 天闻数媒科技(湖南)有限公司 一种文档内容的提取方法和装置
CN106570047A (zh) * 2016-06-20 2017-04-19 杨玉海 智能管理系统生成系统Hxcel技术方法
CN106991083A (zh) * 2017-03-20 2017-07-28 珠海格力电器股份有限公司 一种电子文档处理的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298675B2 (en) * 2004-09-30 2016-03-29 Adobe Systems Incorporated Smart document import
CN105095160A (zh) * 2015-07-31 2015-11-25 河南大学 一种文档转换阅读方法与系统
CN106570047A (zh) * 2016-06-20 2017-04-19 杨玉海 智能管理系统生成系统Hxcel技术方法
CN106484663A (zh) * 2016-10-12 2017-03-08 天闻数媒科技(湖南)有限公司 一种文档内容的提取方法和装置
CN106991083A (zh) * 2017-03-20 2017-07-28 珠海格力电器股份有限公司 一种电子文档处理的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOHENNES: "JAVA 过滤标签将html内容转换为文本", 《HTTPS://BLOG.CSDN.NET/JOHENNES/ARTICLE/DETAILS/52040759》 *
WEI XIN XU: "Detecting and Normalizing Formulas in Electronic Literature Resources", 《APPLIED MECHANICS AND MATERIALS》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614594A (zh) * 2018-11-27 2019-04-12 浙江万朋教育科技股份有限公司 一种将题目文档解析为题库数据的方法
CN109614594B (zh) * 2018-11-27 2023-05-30 浙江万朋数智科技股份有限公司 一种将题目文档解析为题库数据的方法
CN109614598A (zh) * 2018-12-27 2019-04-12 北京字节跳动网络技术有限公司 文本录入方法及装置
CN110147534A (zh) * 2019-02-27 2019-08-20 中国地质大学(武汉) 一种LaTeX文档向Word文档转换的方法及系统
CN110147530A (zh) * 2019-02-27 2019-08-20 中国地质大学(武汉) 一种Word文档向LaTeX文档转换的方法及系统
CN110083580B (zh) * 2019-03-29 2022-12-30 中国地质大学(武汉) 一种Word文档向PowerPoint文档转换的方法及系统
CN110083580A (zh) * 2019-03-29 2019-08-02 中国地质大学(武汉) 一种Word文档向PowerPoint文档转换的方法及系统
CN111913703A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 对象编辑方法、装置、电子设备及可读存储介质
CN111913703B (zh) * 2019-05-07 2024-04-12 阿里巴巴集团控股有限公司 对象编辑方法、装置、电子设备及可读存储介质
CN112783957A (zh) * 2019-11-11 2021-05-11 上海遴睿教育科技有限公司 一种英语阅读word文档格式化导入方法及系统
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN111737949B (zh) * 2020-07-22 2021-07-06 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN112083909A (zh) * 2020-08-07 2020-12-15 清华大学 工程结构设计标准公式识别及计算程序自动生成方法
CN112083909B (zh) * 2020-08-07 2022-01-28 清华大学 工程结构设计标准公式识别及计算程序自动生成方法
CN112001153A (zh) * 2020-08-12 2020-11-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN112001153B (zh) * 2020-08-12 2024-05-17 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN113435178A (zh) * 2021-06-17 2021-09-24 竹间智能科技(上海)有限公司 一种文档解析方法及装置

Also Published As

Publication number Publication date
CN108595389B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN108595389A (zh) 一种将Word文档转换为txt纯文本文档的方法
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
EP1153351B1 (en) Script embedded in electronic documents
CN108334493B (zh) 一种基于神经网络的题目知识点自动提取方法
CN108121715B (zh) 一种文字标签方法及文字标签装置
CN108776651A (zh) Pdf文件的批注处理方法及系统
CN102402432A (zh) 用于产生多国语言网页的方法
CN111553150A (zh) 自动化api接口文档解析配置方法、系统、装置及存储介质
JP5390522B2 (ja) 表示文書を解析に向けて準備する装置
CN107784048A (zh) 问答语料库的问题分类方法及装置
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN109343993A (zh) 一种云平台的错误信息处理方法及装置
US20160026619A1 (en) Method, system, and computer program product for dividing a term with appropriate granularity
CN112101003B (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
CN112668282B (zh) 一种设备规程文档格式转换的方法及系统
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN114863446A (zh) 手写答案识别对比方法、装置、设备及存储介质
CN115115432A (zh) 基于人工智能的产品信息推荐方法及装置
CN116992824A (zh) 一种将LaTex公式转为自然语言的方法及系统
CN108132919A (zh) 一种网页内容抽取的方法
CN111460766B (zh) 一种矛盾语块边界识别的方法及装置
CN110807298B (zh) 一种对标记信息进行处理的方法及系统
CN112965772A (zh) web页面显示方法、装置和电子设备
CN112347765A (zh) 基于词典匹配的实体标注方法、模块及装置
CN114218896B (zh) 对uof文档进行分块转换的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210226