CN116612491A - 一种arm麒麟word文件内容提取方法 - Google Patents

一种arm麒麟word文件内容提取方法 Download PDF

Info

Publication number
CN116612491A
CN116612491A CN202310872770.4A CN202310872770A CN116612491A CN 116612491 A CN116612491 A CN 116612491A CN 202310872770 A CN202310872770 A CN 202310872770A CN 116612491 A CN116612491 A CN 116612491A
Authority
CN
China
Prior art keywords
word
arm
kylin
format
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310872770.4A
Other languages
English (en)
Inventor
张郭勇
阎德劲
赵晓虎
雷文强
刘法
熊可欣
黎乾隆
郑大安
袁焦
顾海燕
邓欣
丁栋威
奂锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202310872770.4A priority Critical patent/CN116612491A/zh
Publication of CN116612491A publication Critical patent/CN116612491A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种ARM麒麟WORD文件内容提取方法,涉及自然语言处理技术领域,包括:步骤S1:将待处理WORD文档转换为HTML格式;步骤S2:将待处理WORD文档中的图片进行分离,转换为PNG格式;步骤S3:根据关键词进行检索,得到待处理WORD文档的多模态检索信息;步骤S4:重新关联检索结果中的多模态信息;本发明,通过对不同模态数据分开提取再进行关联合并,实现了内容完整、结构准确的WORD内容有效提取,且可用于ARM架构国产麒麟操作系统,解决了目前国产麒麟操作系统环境中WORD文档内容提取结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。

Description

一种ARM麒麟WORD文件内容提取方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种ARM麒麟WORD文件内容提取方法。
背景技术
本节中的陈述仅提供与本公开相关的背景信息,并且可能不构成现有技术。
为了进一步智能化工业设计与制造领域,高效率的利用领域内多年积攒的技术、规范等文档,需要对文档内容进行提取,WORD文档的内容提取是重要的一环。同时,为了应对国际环境的变化,发展面向国产ARM麒麟操作系统的WORD文档内容提取方法也非常必要。然而,国内外关于WORD文档内容提取的研究主要集中在Windows操作系统上,面向国产操作系统的研究相对较少。且WORD文档内容存在文字、表格、图片等多模态数据,也存在段落、标题、字体等多种文本结构格式,如何将文档内容尽可能完全的提取出来并按照原文档的格式显示到前端是一个挑战。
WORD文档内容提取是一项比较新的技术,它经历了不断的发展和完善。早期,在Word 97 和 2000 版本中,Microsoft Word 就自带了一些基本的内容提取功能,如“自动摘要”、“搜索和替换”等。这些功能只能提取文本信息,并且提取的准确性有限。这些功能的优点是操作简单,不需要额外的工具或软件,而且可以适用于大多数类型的 Word 文档。缺点是提取的准确性可能不够高,而且有些功能只能提取文本信息,无法提取其他类型的信息,例如表格和图表。随着 Word 的版本不断升级,这些功能也得到了一定的改进和扩展,例如 Word 2003 版本新增了“转换为纯文本”功能,可以去除文本中的格式和样式。但即使有了改进,也无法每次都保证其处理结果的准确性和效率。
2000 年代初期,随着 OCR(Optical Character Recognition,光学字符识别)技术的不断发展和普及,一些第三方 OCR 工具开始涉足 Word 文档内容提取领域。这些工具可以将 Word 文档中的图像和扫描文件转换为文本格式,提高了提取的准确性和全面性。目前市面上有很多第三方工具可以用来提取 Word 文档的内容,例如 Adobe Acrobat、ABBYY FineReader、Foxit Reader 等。这些工具通常具有更加先进和准确的内容提取功能,可以提取文本、表格、图表等多种类型的信息。优点是提取准确性高,而且有些工具还可以进行语音识别等高级功能。缺点是仍然需要额外的付费,而且有些工具可能不适用于某些特定类型的环境或者特定类型的 Word 文档。
2007年左右,Microsoft 推出了基于 OpenXML(Office Open XML)标准的Microsoft Office 2007 版本,为编写程序提取 Word 文档内容提供了更为便捷和高效的方式。开发者可以通过编写 C#、VB.NET 等编程语言来操作 Word 文档内容,提取和处理文本、表格、图片、超链接等信息。目前,许多第三方库和框架也可以用来编写程序提取 Word文档内容,例如 Aspose.Words、win32com、VBScript等。这些库和框架提供了丰富的 API和组件,可以实现高度自定义的操作,并且具有较高的可扩展性和兼容性。总体来说,自己编写程序提取 Word 文档内容可以实现高度自定义和灵活的操作,可以满足特定需求和场景下的数据处理要求。但是,这种技术需要掌握编程语言和相关的 API 和框架,需要较高的技术门槛和开发成本;而且很多库和第三方框架都只兼容部分环境(Windows环境),可迁移性差,无法满足目标环境(国产ARM麒麟操作系统环境)的运行要求。
然而针对现有研究情况,当前的WORD文档内容提取方法有如下问题:
1、现有的处理技术很难直接与ARM架构Linux环境兼容,在国产麒麟操作系统上运行的处理结果会有不同程度的信息丢失。
2、WORD文档内容提取过程中,原文档的格式容易失真;
3、缺乏对WORD文档中WMF格式和VISIO格式的图片的处理能力;
4、缺乏对WORD文档中表格、图片、文字多模态信息的关联能力。
发明内容
本发明的目的在于:针对现有技术中存在的问题,基于格式转换和图片分离,提供了一种ARM麒麟WORD文件内容提取方法,其先将WORD文件转换为HTML格式再进行内容提取,并且单独分离出WMF/VISIO格式的图片,将图片的格式都转成PNG,再放回HTML中的原位置,最后对不同模态(文本、图片、表格)的提取内容进行关联合并,解决了目前国产麒麟操作系统环境中WORD文档内容提取结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。
本发明的技术方案如下:
一种ARM麒麟WORD文件内容提取方法,包括:
步骤S1:将待处理WORD文档转换为HTML格式;
步骤S2:将待处理WORD文档中的图片进行分离,转换为PNG格式;
步骤S3:根据关键词进行检索,得到待处理WORD文档的多模态检索信息;
步骤S4:重新关联检索结果中的多模态信息。
进一步地,所述图片,包括:WMF格式的图片和VISIO格式的图片。
进一步地,所述步骤S1,包括:
步骤S11:结合工具,构建适配ARM麒麟操作系统的WORD文档格式转换工具;
步骤S12:基于所述WORD文档格式转换工具将待处理WORD文档转换为包含文字、格式、层次内容的HTML格式文档。
进一步地,所述工具,包括:Aspose for Java。
进一步地,所述步骤S2,包括:
步骤S21:将待处理WORD文档中所有图片提取出来,同时记录其在原文中的图片原始位置;
步骤S22:使用适配ARM麒麟操作系统的转换工具,将其中的WMF以及VISIO格式的图片均转化为PNG格式。
进一步地,所述适配ARM麒麟操作系统的转换工具,包括:LibreOffice。
进一步地,所述步骤S3,包括:
对待处理WORD文档中的文本、表格和图片标题使用基于关键词的模糊匹配算法,得到待处理WORD文档的多模态检索信息。
进一步地,所述步骤S4,包括:
步骤S41:基于在HTML格式文档中对图片原始位置的标记,将图片对应回相应的章节和标题;
步骤S42:将所有表格与文字内容匹配。
与现有的技术相比本发明的有益效果是:
1、一种ARM麒麟WORD文件内容提取方法,包括:步骤S1:将待处理WORD文档转换为HTML格式;步骤S2:将待处理WORD文档中的图片进行分离,转换为PNG格式;步骤S3:根据关键词进行检索,得到待处理WORD文档的多模态检索信息;步骤S4:重新关联检索结果中的多模态信息;本发明,通过对不同模态数据分开提取再进行关联合并,实现了内容完整、结构准确的WORD内容有效提取,且可用于ARM架构国产麒麟操作系统,解决了目前国产麒麟操作系统环境中WORD文档内容提取结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。
2、一种ARM麒麟WORD文件内容提取方法,先将WORD文档转换为HTML格式文档再提取内容,这样能够最大化保留原本WORD文件的结构信息。
3、一种ARM麒麟WORD文件内容提取方法,将WMF以及VISIO格式的图片均转化为PNG格式,这样避免了流程框图中的文字信息丢失,保证了文件提取内容的完整性和准确性。
附图说明
图1为一种ARM麒麟WORD文件内容提取方法的流程图。
具体实施方式
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
目前现有的WORD内容提取技术很难直接与ARM架构Linux环境兼容,在国产麒麟操作系统上运行的处理结果会有不同程度的信息丢失。为了解决这些问题,本实施例提出一种基于格式转换和图片分离的ARM麒麟WORD文件内容提取方法,先将WORD文件转换为HTML格式再进行内容提取,并且单独分离出WMF/VISIO格式的图片,将图片的格式转成PNG,再放回HTML中的原位置,最后对不同模态(文本、图片、表格)的提取内容进行关联合并,解决了目前国产麒麟操作系统环境中,WORD文档内容提取有结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。
下面结合附图对本发明的具体实施方式做进一步的详细说明。如图1所示,本发明提供了一种基于格式转换和图片分离的ARM麒麟WORD文件内容提取方法,包括以下步骤:
步骤S1:将待处理WORD文档转换为HTML格式;需要说明的是,可以使用任何格式转换工具,只要准确地达到格式转换的目的即可;
步骤S2:将待处理WORD文档中WMF/VISIO格式的图片进行分离,转换为PNG格式;
步骤S3:根据关键词进行检索,得到待处理WORD文档的多模态检索信息;
步骤S4:重新关联检索结果中的多模态信息。
在本实施例中,具体的,所述步骤S1的将待处理文档转换为HTML格式,具体包括:
S11:结合多种工具(如Aspose for Java等),构建适配ARM麒麟操作系统的WORD文档格式转换工具;
步骤S12:基于所述WORD文档格式转换工具将待处理WORD文档转换为包含文字、格式、层次内容的HTML格式文档;需要说明的是,后续的步骤S2、步骤S3、步骤S4均是基于该HTML格式文档,将在后续步骤中将该HTML格式文档定义为待处理WORD文档。
在本实施例中,具体的,所述步骤S2,包括:
步骤S21:将待处理WORD文档中所有图片提取出来,同时记录其在原文中的图片原始位置;
步骤S22:使用适配ARM麒麟操作系统的转换工具(如LibreOffice等),将其中的WMF以及VISIO格式的图片均转化为PNG格式。
在本实施例中,具体的,所述步骤S3,包括:
对待处理WORD文档中的文本、表格和图片标题使用基于关键词的模糊匹配算法,得到待处理WORD文档的多模态检索信息;需要说明的是,基于关键词的模糊匹配算法属于本领域的常规算法,在本发明中,仅是进行了应用并未进行创造性改进,本领域的技术人员应当知晓,在此不再进行赘述。
在本实施例中,具体的,所述步骤S4,包括:
步骤S41:基于在HTML格式文档中对图片原始位置的标记,将图片对应回相应的章节和标题;
步骤S42:将所有表格与文字内容匹配。
进一步地,所述步骤S4的重新关联检索结果中的多模态信息,具体包括:
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
提供本背景技术部分是为了大体上呈现本发明的上下文,当前所署名的发明人的工作、在本背景技术部分中所描述的程度上的工作以及本部分描述在申请时尚不构成现有技术的方面,既非明示地也非暗示地被承认是本发明的现有技术。

Claims (8)

1.一种ARM麒麟WORD文件内容提取方法,其特征在于,包括:
步骤S1:将待处理WORD文档转换为HTML格式;
步骤S2:将待处理WORD文档中的图片进行分离,转换为PNG格式;
步骤S3:根据关键词进行检索,得到待处理WORD文档的多模态检索信息;
步骤S4:重新关联检索结果中的多模态信息。
2.根据权利要求1所述的一种ARM麒麟WORD文件内容提取方法,其特征在于,所述图片,包括:WMF格式的图片和VISIO格式的图片。
3.根据权利要求2所述的一种ARM麒麟WORD文件内容提取方法,其特征在于,所述步骤S1,包括:
步骤S11:结合工具,构建适配ARM麒麟操作系统的WORD文档格式转换工具;
步骤S12:基于所述WORD文档格式转换工具将待处理WORD文档转换为包含文字、格式、层次内容的HTML格式文档。
4.根据权利要求3所述的一种ARM麒麟WORD文件内容提取方法,其特征在于,所述工具,包括:Aspose for Java。
5.根据权利要求3所述的一种ARM麒麟WORD文件内容提取方法,其特征在于,所述步骤S2,包括:
步骤S21:将待处理WORD文档中所有图片提取出来,同时记录其在原文中的图片原始位置;
步骤S22:使用适配ARM麒麟操作系统的转换工具,将其中的WMF以及VISIO格式的图片均转化为PNG格式。
6.根据权利要求5所述的一种ARM麒麟WORD文件内容提取方法,其特征在于,所述适配ARM麒麟操作系统的转换工具,包括:LibreOffice。
7.根据权利要求5所述的一种ARM麒麟WORD文件内容提取方法,其特征在于,所述步骤S3,包括:
对待处理WORD文档中的文本、表格和图片标题使用基于关键词的模糊匹配算法,得到待处理WORD文档的多模态检索信息。
8.根据权利要求7所述的一种ARM麒麟WORD文件内容提取方法,其特征在于,所述步骤S4,包括:
步骤S41:基于在HTML格式文档中对图片原始位置的标记,将图片对应回相应的章节和标题;
步骤S42:将所有表格与文字内容匹配。
CN202310872770.4A 2023-07-17 2023-07-17 一种arm麒麟word文件内容提取方法 Pending CN116612491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310872770.4A CN116612491A (zh) 2023-07-17 2023-07-17 一种arm麒麟word文件内容提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310872770.4A CN116612491A (zh) 2023-07-17 2023-07-17 一种arm麒麟word文件内容提取方法

Publications (1)

Publication Number Publication Date
CN116612491A true CN116612491A (zh) 2023-08-18

Family

ID=87680401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310872770.4A Pending CN116612491A (zh) 2023-07-17 2023-07-17 一种arm麒麟word文件内容提取方法

Country Status (1)

Country Link
CN (1) CN116612491A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181746A1 (en) * 2003-03-14 2004-09-16 Mclure Petra Method and expert system for document conversion
CN108614839A (zh) * 2016-12-13 2018-10-02 上海宝信软件股份有限公司 基于浏览器的word文档转html页面可视化编辑方法及系统
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
KR20210066470A (ko) * 2019-11-28 2021-06-07 한국과학기술정보연구원 문서변환장치 및 그 동작 방법
CN113792530A (zh) * 2021-08-10 2021-12-14 浪潮软件集团有限公司 基于国产cpu和操作系统的导出wps的方法及系统
CN115310423A (zh) * 2022-07-28 2022-11-08 中国电子科技集团公司第十研究所 一种文档多模态信息提取与关联方法
CN116227444A (zh) * 2023-02-28 2023-06-06 成都天奥集团有限公司 一种基于图文混排Word文档的在线编辑方法与装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181746A1 (en) * 2003-03-14 2004-09-16 Mclure Petra Method and expert system for document conversion
CN108614839A (zh) * 2016-12-13 2018-10-02 上海宝信软件股份有限公司 基于浏览器的word文档转html页面可视化编辑方法及系统
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统
KR20210066470A (ko) * 2019-11-28 2021-06-07 한국과학기술정보연구원 문서변환장치 및 그 동작 방법
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN113792530A (zh) * 2021-08-10 2021-12-14 浪潮软件集团有限公司 基于国产cpu和操作系统的导出wps的方法及系统
CN115310423A (zh) * 2022-07-28 2022-11-08 中国电子科技集团公司第十研究所 一种文档多模态信息提取与关联方法
CN116227444A (zh) * 2023-02-28 2023-06-06 成都天奥集团有限公司 一种基于图文混排Word文档的在线编辑方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时华;陆新民;: "基于MS Word字处理软件的内容结构化标引和拆分技术研究", 《现代计算机(专业版)》, no. 11, pages 40 - 44 *

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US6539116B2 (en) Information processing apparatus and method, and computer readable memory therefor
US7954044B2 (en) Method and apparatus for linking representation and realization data
US5608622A (en) System for analyzing translations
US6418403B2 (en) Translating apparatus, dictionary search apparatus, and translating method
EP0525427A2 (en) Non-text object storage and retrieval
US6839665B1 (en) Automated generation of text analysis systems
CN1894685A (zh) 翻译工具
CN109492199A (zh) 一种基于ocr预判断的pdf文件转换方法
CN1971554A (zh) 使用样例来翻译语音输入的设备和方法
US20060062492A1 (en) Document processing device, document processing method, and storage medium recording program therefor
DE60118399D1 (de) System und verfahren zur automatischen aufbereitung und suche von abgetasteten dokumenten
CN110147534B (zh) 一种LaTeX文档向Word文档转换的方法及系统
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
US5842217A (en) Method for recognizing compound terms in a document
US6516296B1 (en) Translating apparatus, dictionary search apparatus, and translating method
US20060210171A1 (en) Image processing apparatus
Sari et al. A search engine for Arabic documents
CN116612491A (zh) 一种arm麒麟word文件内容提取方法
CN112464907A (zh) 一种文档处理系统及方法
CN116644228A (zh) 多模态全文信息检索方法、系统及存储介质
CN115988149A (zh) 一种ai智能图文生成视频的方法
KR20020033414A (ko) 통역 장치 및 그 방법
EP1530135A2 (en) Data processing method, data processing apparatus, storage medium and program
CN115203474A (zh) 一种数据库自动分类提取技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination