CN111062187A - 一种对docx格式文档进行结构化解析方法及系统 - Google Patents

一种对docx格式文档进行结构化解析方法及系统 Download PDF

Info

Publication number
CN111062187A
CN111062187A CN201911184347.5A CN201911184347A CN111062187A CN 111062187 A CN111062187 A CN 111062187A CN 201911184347 A CN201911184347 A CN 201911184347A CN 111062187 A CN111062187 A CN 111062187A
Authority
CN
China
Prior art keywords
document
contents
file
extracting
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911184347.5A
Other languages
English (en)
Inventor
刘磊
张琍
蔡娜
王旭初
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201911184347.5A priority Critical patent/CN111062187A/zh
Publication of CN111062187A publication Critical patent/CN111062187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing

Abstract

本发明公开了一种对docx格式文档进行结构化解析方法及系统,该方法包括将被改成ZIP后缀的文件进行解压;提取解压文件中的document.xml文件;对document.xml文件进行段落内容解析,得到段落文本内容;对document.xml文件进行表格解析;对document.xml文件进行图片解析;将段落文本内容、表格内容和图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。本发明能够根据XML格式文件即可解析成完整准确的docx格式文档。

Description

一种对docx格式文档进行结构化解析方法及系统
技术领域
本发明涉及文档解析技术领域,特别是涉及一种对docx格式文档进行结构化解析方法及系统。
背景技术
docx格式的文档是Microsoft Office2007版本之后使用的文档格式,用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,在传统的文件名扩展名后面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。
docx格式文件的主要内容是保存为XML格式的,但文件并非直接保存于磁盘。它是保存在一个ZIP文件中,然后取扩展名为docx。而在现有技术中并没有能够解析还原该docx格式文件相关技术方案,也就不能准确的得到完整的docx格式文件,因此,对docx格式文档进行完整解析成为本领域亟待解决的问题。
发明内容
本发明的目的是提供一种对docx格式文档进行结构化解析方法及系统,以能够根据XML格式文件即可解析成完整准确的docx格式文档。
为实现上述目的,本发明提供了一种对docx格式文档进行结构化解析方法,所述方法包括:
将被改成ZIP后缀的文件进行解压,得到解压文件;
提取所述解压文件中的document.xml文件;
对所述document.xml文件进行段落内容解析,得到段落文本内容;
和/或对所述document.xml文件进行表格解析,得到表格内容;
和/或对所述document.xml文件进行图片解析,得到图片;
将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。
可选的,所述将被改成ZIP后缀的文件进行解压,得到解压文件,具体包括:
将扩展名为docx的文件改成ZIP后缀,得到被改成ZIP后缀的文件;
利用解压软件对被改成ZIP后缀的文件进行解压,得到解压文件。
可选的,所述提取所述解压文件中的document.xml文件具体包括:
获取所述解压文件中word文件夹;
打开所述word文件夹找到document.xml文件;
提取所述word文件夹中的Media文件存储的图片。
可选的,所述对document.xml文件进行段落内容解析,得到段落文本内容,具体包括:
利用正则表达式提取所述document.xml文件所有<w:p>的内容;
利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容;
将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
可选的,所述对所述document.xml文件进行表格解析,得到表格内容,具体包括:
利用正则表达式提取所述document.xml文件所有<w:tbl>的内容;
利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容;
利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容,得到所有单元格;
利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容;
利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容,得到单元格内文本;
将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接,得到表格。
可选的,所述对所述document.xml文件进行图片解析,得到图片,具体包括:
提取所述document.xml文件中所有<a:blip r:embed="rId11">的内容;
并获取"rId11"在document.xml.rels文件中的定义;
根据所述定义确定所述解压文件中media文件夹内的对应图片;
按照所述<a:blip r:embed="rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。
本发明还提供了一种对docx格式文档进行结构化解析系统,所述系统包括:
解压单元,用于将被改成ZIP后缀的文件进行解压,得到解压文件;
xml文件提取单元,用于提取所述解压文件中的document.xml文件;
文本解析单元,用于对所述document.xml文件进行段落内容解析,得到段落文本内容;
和/或表格解析单元,用于对所述document.xml文件进行表格解析,得到表格内容;
和/或图片解析单元,用于对所述document.xml文件进行图片解析,得到图片;
排版拼接单元,用于将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。
可选的,所述文本解析单元具体包括:
<w:p>内容提取模块,用于利用正则表达式提取所述document.xml文件所有<w:p>的内容;
<w:t>内容提取模块,用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容;
文本拼接模块,用于将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
可选的,所述表格解析单元具体包括:
<w:tbl>的内容提取模块,用于利用正则表达式提取所述document.xml文件所有<w:tbl>的内容;
<w:tr>内容提取模块,用于利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容;
单元格提取模块,用于利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容,得到所有单元格;
单元格内<w:p>内容提取模块,用于利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容;
单元格内文本提取模块,用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容,得到单元格内文本;
表格拼接模块,用于将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接,得到表格。
可选的,所述图片解析单元具体包括:
图片标记提取模块,用于提取所述document.xml文件中所有<a:blip r:embed="rId11">的内容;
标记定义提取模块,用于并获取"rId11"在document.xml.rels文件中的定义;
图片确定模块,用于根据所述定义确定所述解压文件中media文件夹内的对应图片;
图片排布模块,用于按照所述<a:blip r:embed="rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的对docx格式文档进行结构化解析方法及系统能够准确完整的得到docx文档的文本、表格、图片等内容,并按照原始顺序拼接,即可还原出一个完整的docx文档。也可以将所有文本内容入库、索引,做到文档内容的全文检索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的对docx格式文档进行结构化解析方法的流程图;
图2为本发明实施例提供的对docx格式文档进行结构化解析系统框图;
图3为document.xml文件的代码内容;
图4为document.xml文件的每个<w:p>内容的代码。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种对docx格式文档进行结构化解析方法及系统,以能够根据XML格式文件即可解析成完整准确的docx格式文档。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本实施例提供的对docx格式文档进行结构化解析方法包括:
步骤101:将被改成ZIP后缀的文件进行解压,得到解压文件。
该步骤101具体包括:
将扩展名为docx的文件改成ZIP后缀,得到被改成ZIP后缀的文件;
利用解压软件对被改成ZIP后缀的文件进行解压,得到解压文件。
在实际应用中,该解压文件中包含有_rels文件夹、docProps文件夹、word文件夹和[Content_Types].Xml文件。
步骤102:提取所述解压文件中的document.xml文件。
该步骤102具体包括:
获取所述解压文件中word文件夹;
打开所述word文件夹找到document.xml文件;
提取所述word文件夹中的Media文件存储的图片。
在实际应用中,word文件夹中含有_rels文件夹、embeddings文件夹、Media文件夹、theme文件夹、document.xml文件、endnotes.xml文件、fondTable.xml文件、footnotes.xml文件、settings.xml文件、styles.xml文件、webSettings.xml文件。
步骤103:对所述document.xml文件进行段落内容解析,得到段落文本内容。
该步骤103具体包括:
利用正则表达式提取所述document.xml文件所有<w:p>的内容;
利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容;
将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
如图3所示代码内容,经过内容对比分析可以知道:<w:p></w:p>表示的一个段落。如果提取出每个段落的文本并返回一个数组,每一项就是一个段落的内容,这样就能够完整的解析出整个word的内容,关键在于如何提取每个<w:p>的内容,继续展开一个<w:p>进行观察,如图4,发现内容虽多,其实文本都保存在<w:t>标签中间。<w:t>的匹配,有可能是<w:t xml:space="preserve">这种格式,需要特殊处理。
步骤104:和/或对所述document.xml文件进行表格解析,得到表格内容。
并不是每一个文档都含有表格,当有表格信息时,本实施例可以通过以下步骤实现:
利用正则表达式提取所述document.xml文件所有<w:tbl>的内容;
利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容;
利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容,得到所有单元格;
利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容;
利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容,得到单元格内文本;
将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接,得到表格。
步骤105:和/或对所述document.xml文件进行图片解析,得到图片;
实际上,并不是每一个文档都含有图片,当有图片时,本实施例可以通过以下步骤实现:
提取所述document.xml文件中所有<a:blip r:embed="rId11">的内容;
并获取"rId11"在document.xml.rels文件中的定义;
根据所述定义确定所述解压文件中media文件夹内的对应图片;
按照所述<a:blip r:embed="rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。
步骤106:将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。
如图2所示,本实施例还提供了一种与上述对docx格式文档进行结构化解析方法相对应的系统,所述系统包括:
解压单元201,用于将被改成ZIP后缀的文件进行解压,得到解压文件;
xml文件提取单元202,用于提取所述解压文件中的document.xml文件;
文本解析单元203,用于对所述document.xml文件进行段落内容解析,得到段落文本内容;
和/或表格解析单元204,用于对所述document.xml文件进行表格解析,得到表格内容;
和/或图片解析单元205,用于对所述document.xml文件进行图片解析,得到图片;
排版拼接单元206,用于将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。
所述文本解析单元203具体包括:
<w:p>内容提取模块,用于利用正则表达式提取所述document.xml文件所有<w:p>的内容;
<w:t>内容提取模块,用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容;
文本拼接模块,用于将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
所述表格解析单元204具体包括:
<w:tbl>的内容提取模块,用于利用正则表达式提取所述document.xml文件所有<w:tbl>的内容;
<w:tr>内容提取模块,用于利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容;
单元格提取模块,用于利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容,得到所有单元格;
单元格内<w:p>内容提取模块,用于利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容;
单元格内文本提取模块,用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容,得到单元格内文本;
表格拼接模块,用于将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接,得到表格。
所述图片解析单元205具体包括:
图片标记提取模块,用于提取所述document.xml文件中所有<a:blip r:embed="rId11">的内容;
标记定义提取模块,用于并获取"rId11"在document.xml.rels文件中的定义;
图片确定模块,用于根据所述定义确定所述解压文件中media文件夹内的对应图片;
图片排布模块,用于按照所述<a:blip r:embed="rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。
经过内容对比分析可以知道:<a:blip r:embed="rId11"/>表示的一个图片,其中,rId11表示的是该图片的ID。而rId11是在文件document.xml.rels中定义的,内容如下:<Relationship Id="rId11"Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/image"Target="media/image1.png"/>,由该定义可以分析出,图片对应的文件为media文件夹下的image1.png文件。
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种对docx格式文档进行结构化解析方法,其特征在于,所述方法包括:
将被改成ZIP后缀的文件进行解压,得到解压文件;
提取所述解压文件中的document.xml文件;
对所述document.xml文件进行段落内容解析,得到段落文本内容;
和/或对所述document.xml文件进行表格解析,得到表格内容;
和/或对所述document.xml文件进行图片解析,得到图片;
将所述段落文本内容、所述表格内容和所述图片按照所述document.xml文件出现的顺序排版,得到完整docx格式文档。
2.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述将被改成ZIP后缀的文件进行解压,得到解压文件,具体包括:
将扩展名为docx的文件改成ZIP后缀,得到被改成ZIP后缀的文件;
利用解压软件对被改成ZIP后缀的文件进行解压,得到解压文件。
3.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述提取所述解压文件中的document.xml文件具体包括:
获取所述解压文件中word文件夹;
打开所述word文件夹找到document.xml文件;
提取所述word文件夹中的Media文件存储的图片。
4.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述对document.xml文件进行段落内容解析,得到段落文本内容,具体包括:
利用正则表达式提取所述document.xml文件所有<w:p>的内容;
利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容;
将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
5.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述对所述document.xml文件进行表格解析,得到表格内容,具体包括:
利用正则表达式提取所述document.xml文件所有<w:tbl>的内容;
利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容;
利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容,得到所有单元格;
利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容;
利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容,得到单元格内文本;
将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接,得到表格。
6.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述对所述document.xml文件进行图片解析,得到图片,具体包括:
提取所述document.xml文件中所有<a:blip r:embed="rId11">的内容;
并获取"rId11"在document.xml.rels文件中的定义;
根据所述定义确定所述解压文件中media文件夹内的对应图片;
按照所述<a:blip r:embed="rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。
7.一种对docx格式文档进行结构化解析系统,其特征在于,所述系统包括:
解压单元,用于将被改成ZIP后缀的文件进行解压,得到解压文件;
xml文件提取单元,用于提取所述解压文件中的document.xml文件;
文本解析单元,用于对所述document.xml文件进行段落内容解析,得到段落文本内容;
和/或表格解析单元,用于对所述document.xml文件进行表格解析,得到表格内容;
和/或图片解析单元,用于对所述document.xml文件进行图片解析,得到图片;
排版拼接单元,用于将所述段落文本内容、所述表格内容和所述图片按照所述document.xml文件出现的顺序排版,得到完整docx格式文档。
8.根据权利要求7所述的对docx格式文档进行结构化解析系统,其特征在于,所述文本解析单元具体包括:
<w:p>内容提取模块,用于利用正则表达式提取所述document.xml文件所有<w:p>的内容;
<w:t>内容提取模块,用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容;
文本拼接模块,用于将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
9.根据权利要求7所述的对docx格式文档进行结构化解析系统,其特征在于,所述表格解析单元具体包括:
<w:tbl>的内容提取模块,用于利用正则表达式提取所述document.xml文件所有<w:tbl>的内容;
<w:tr>内容提取模块,用于利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容;
单元格提取模块,用于利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容,得到所有单元格;
单元格内<w:p>内容提取模块,用于利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容;
单元格内文本提取模块,用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容,得到单元格内文本;
表格拼接模块,用于将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接,得到表格。
10.根据权利要求7所述的对docx格式文档进行结构化解析系统,其特征在于,所述图片解析单元具体包括:
图片标记提取模块,用于提取所述document.xml文件中所有<a:blip r:embed="rId11">的内容;
标记定义提取模块,用于并获取"rId11"在document.xml.rels文件中的定义;
图片确定模块,用于根据所述定义确定所述解压文件中media文件夹内的对应图片;
图片排布模块,用于按照所述<a:blip r:embed="rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。
CN201911184347.5A 2019-11-27 2019-11-27 一种对docx格式文档进行结构化解析方法及系统 Pending CN111062187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911184347.5A CN111062187A (zh) 2019-11-27 2019-11-27 一种对docx格式文档进行结构化解析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911184347.5A CN111062187A (zh) 2019-11-27 2019-11-27 一种对docx格式文档进行结构化解析方法及系统

Publications (1)

Publication Number Publication Date
CN111062187A true CN111062187A (zh) 2020-04-24

Family

ID=70298693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911184347.5A Pending CN111062187A (zh) 2019-11-27 2019-11-27 一种对docx格式文档进行结构化解析方法及系统

Country Status (1)

Country Link
CN (1) CN111062187A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN112001164A (zh) * 2020-10-27 2020-11-27 南京中孚信息技术有限公司 一种文档内容流式解析方法及系统
CN112232032A (zh) * 2020-09-04 2021-01-15 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN112329062A (zh) * 2020-11-06 2021-02-05 卓尔智联(武汉)研究院有限公司 一种检测隐藏数据的方法、装置及电子设备
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112989254A (zh) * 2021-04-13 2021-06-18 郑州悉知信息科技股份有限公司 一种图片处理方法及装置
CN113378535A (zh) * 2021-06-23 2021-09-10 浪潮软件科技有限公司 一种基于freemarker生成docx格式文档的方法及系统
CN113782135A (zh) * 2021-08-13 2021-12-10 中国中医科学院中医药信息研究所 一种解析构建病例报告表的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN104156207A (zh) * 2014-07-31 2014-11-19 广州金山网络科技有限公司 一种文档显示方法以及装置
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN104156207A (zh) * 2014-07-31 2014-11-19 广州金山网络科技有限公司 一种文档显示方法以及装置
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709349B (zh) * 2020-06-11 2023-12-01 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112528602B (zh) * 2020-07-28 2021-05-04 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112232032A (zh) * 2020-09-04 2021-01-15 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN112232032B (zh) * 2020-09-04 2023-08-18 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN112001164B (zh) * 2020-10-27 2021-01-08 南京中孚信息技术有限公司 一种文档内容流式解析方法及系统
CN112001164A (zh) * 2020-10-27 2020-11-27 南京中孚信息技术有限公司 一种文档内容流式解析方法及系统
CN112329062A (zh) * 2020-11-06 2021-02-05 卓尔智联(武汉)研究院有限公司 一种检测隐藏数据的方法、装置及电子设备
CN112989254A (zh) * 2021-04-13 2021-06-18 郑州悉知信息科技股份有限公司 一种图片处理方法及装置
CN112989254B (zh) * 2021-04-13 2023-03-07 郑州悉知信息科技股份有限公司 一种图片处理方法及装置
CN113378535A (zh) * 2021-06-23 2021-09-10 浪潮软件科技有限公司 一种基于freemarker生成docx格式文档的方法及系统
CN113782135A (zh) * 2021-08-13 2021-12-10 中国中医科学院中医药信息研究所 一种解析构建病例报告表的方法和系统

Similar Documents

Publication Publication Date Title
CN111062187A (zh) 一种对docx格式文档进行结构化解析方法及系统
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US7721195B2 (en) RTF template and XSL/FO conversion: a new way to create computer reports
US20060236228A1 (en) Extensible markup language schemas for bibliographies and citations
EP2291010A1 (en) Structure processing method and apparatus for layout file
US8411956B2 (en) Associating optical character recognition text data with source images
US20040267803A1 (en) File translation
CN104765849A (zh) 一种获取拷贝数据来源信息的方法和系统
CN112527291A (zh) 网页生成方法、装置、电子设备及存储介质
CN112733056B (zh) 一种文档处理方法、装置、设备及存储介质
CN112433995B (zh) 文件格式转换方法、系统、计算机设备及存储介质
US8930808B2 (en) Processing rich text data for storing as legacy data records in a data storage system
US20120109638A1 (en) Electronic device and method for extracting component names using the same
CN116521621A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN110554996A (zh) 一种epub文件快速打开方法和系统
CN110807298B (zh) 一种对标记信息进行处理的方法及系统
CN102262617B (zh) 一种书版小样处理方法及装置
KR101251686B1 (ko) 표시 가능 파일의 필드 및 참조 문헌 및 인용문에 대한확장형 마크업 언어 스키마의 결정
CN111401005B (zh) 文本转换方法、装置及可读存储介质
CN112632959B (zh) 一种epub文件解析方法
CN112613279A (zh) 一种文件的转换方法、装置、计算机装置及可读存储介质
CN111783482A (zh) 一种文本翻译方法、装置、计算机设备及存储介质
CN112836073A (zh) 一种历史文献数字化方法、系统、装置及存储介质
CN105320716A (zh) 数字出版物的自动标注方法
CN112836477B (zh) 代码注释文档的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination