CN102214244A - docx文件信息解析方法及系统 - Google Patents

docx文件信息解析方法及系统 Download PDF

Info

Publication number
CN102214244A
CN102214244A CN 201110190027 CN201110190027A CN102214244A CN 102214244 A CN102214244 A CN 102214244A CN 201110190027 CN201110190027 CN 201110190027 CN 201110190027 A CN201110190027 A CN 201110190027A CN 102214244 A CN102214244 A CN 102214244A
Authority
CN
China
Prior art keywords
docx
content information
file
information
fileinfo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110190027
Other languages
English (en)
Inventor
董涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wondershare Software Co Ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN 201110190027 priority Critical patent/CN102214244A/zh
Publication of CN102214244A publication Critical patent/CN102214244A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种docx文件信息解析方法,其中包括步骤:S10、获取所述docx文件内的内容信息文件的存放路径;S20、根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;S30、根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。本发明还构造一种docx文件信息解析系统,本发明的docx文件信息解析方法及系统可以快速、准确、高效的解析docx文件,避免了原有的docx文件信息解析方法解析不稳定,容易失去原有的信息和特效的缺陷。

Description

docx文件信息解析方法及系统
技术领域
本发明涉及文件解析领域,更具体地说,涉及一种docx文件解析方法及系统。
背景技术
docx文件格式是Microsoft Office Word的新一代文档标准,是Microsoft Office Word2007、2010文档的标准格式,是一种基于XML压缩文件的开放文件格式。伴随着办公自动化的普及,人们越来越需要快速的提取出docx文件的信息。
而现在业界经常使用的解析docx文件信息的方法如下所示:
1)、通过调用MS-Word的自动化Com接口解析docx文件信息;
2)、通过调用MS-Word的自动化Com接口将docx文件转换为word XML2003格式后进行解析。
但是采用上述第一种方法时,由于MS-Word的自动化Com接口不稳定,在运行时容易出问题;同时调用Com接口解析时,会将有些元素(如表格、多边形等)解析成图片,失去了原有的真实信息,导致在转换为其他格式的文件时无法编辑。采用上述第二种方法时,将docx文件直接转换为word XML2003格式可能会导致丢失docx文件中的某些特效。
故,有必要提供一种docx文件信息解析方法及系统,以解决现有技术所存在的问题。
发明内容
本发明要解决的技术问题在于,针对现有技术中的docx文件信息解析不稳定,容易失去原有的信息和特效的缺陷,提供一种可以快速、准确、高效的解析docx文件的文件信息解析方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种docx文件信息解析方法,其中包括步骤:S10、获取所述docx文件内的内容信息文件的存放路径;S20、根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;S30、根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
在本发明所述的docx文件信息解析方法中,所述步骤S30具体为:如所述内容信息文件的文档对象模型的节点的类型为文本,则采用文本解析器解析出文本的内容和属性信息;如所述内容信息文件的文档对象模型的节点的类型为图片,则采用图片解析器解析出图片的存储路径和尺寸;如所述内容信息文件的文档对象模型的节点的类型为表格,则采用表格解析器解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;如所述内容信息文件的文档对象模型的节点的类型为多边形,则采用多边形解析器解析出多边形的边框信息以及内容信息。
在本发明所述的docx文件信息解析方法中,当解析所述单元格的内容信息以及所述多边形的内容信息时,根据所述单元格的内容信息以及所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。
在本发明所述的docx文件信息解析方法中,所述docx文件信息解析方法还包括步骤:S40、根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中。
在本发明所述的docx文件信息解析方法中,所述docx文件信息解析方法还包括步骤:S50、将存储有所述元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息。
本发明还构造一种docx文件信息解析系统,其中包括:获取模块:用于获取所述docx文件内的内容信息文件的存放路径;创建模块:用于根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;以及解析模块:用于根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
在本发明所述的docx文件信息解析系统中,所述解析模块包括:文本解析器:用于如所述内容信息文件的文档对象模型的节点的类型为文本,则解析出文本的内容和属性信息;图片解析器:用于如所述内容信息文件的文档对象模型的节点的类型为图片,则解析出图片的存储路径和尺寸;表格解析器:用于如所述内容信息文件的文档对象模型的节点的类型为表格,则解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;以及多边形解析器:用于如所述内容信息文件的文档对象模型的节点的类型为多边形,则解析出多边形的边框信息以及内容信息。
在本发明所述的docx文件信息解析系统中,所述表格解析器还用于根据所述单元格的内容信息中元素的类型采用相应的元素解析器解析所述元素;所述多边形解析器还用于根据所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。
在本发明所述的docx文件信息解析系统中,所述docx文件信息解析系统还包括:存储模块:用于根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中。
在本发明所述的docx文件信息解析系统中,所述docx文件信息解析系统还包括:转换模块:用于将存储有所述元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息。
实施本发明的docx文件信息解析方法及系统,具有以下有益效果:可以快速、准确、高效的解析docx文件,避免了原有的docx文件信息解析方法解析不稳定,容易失去原有的信息和特效的缺陷。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的docx文件信息解析方法的第一优选实施例的流程图;
图2是本发明的docx文件信息解析方法的第二优选实施例的流程图;
图3是本发明的docx文件信息解析方法的第三优选实施例的流程图;
图4是本发明的docx文件信息解析方法的第四优选实施例的流程图;
图5是本发明的docx文件信息解析系统的第一优选实施例的结构示意图;
图6是本发明的docx文件信息解析系统的第二优选实施例的结构示意图;
图7是本发明的docx文件信息解析系统的第三优选实施例的结构示意图;
图8是本发明的docx文件信息解析系统的第四优选实施例的结构示意图;
图9是本发明的docx文件信息解析方法的优选实施例的具体流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在图1所示的本发明的docx文件信息解析方法的第一优选实施例的流程图中,所述docx文件信息解析方法开始于步骤100,随后执行:
步骤101,获取所述docx文件内的内容信息文件的存放路径;
步骤102,根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;
步骤103,根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
最后该方法结束于步骤104。
采用本发明的docx文件信息解析方法时,获取docx文件中的内容信息文件(一个名为document.xml的主文件,该主文件包括docx文件中的主要的内容信息,文件名document.xml并不构成对该内容信息文件的限制),然后创建该内容信息文件的文档对象模型,遍历该文件对象模型的所有节点,根据节点的类型采用相应的元素解析器解析节点中的元素。由于不同元素的解析使用的是不同的元素解析器,这样在后期如要对某一种元素的解析效果进行升级或者说如docx文件某一种元素对应的xml文件存储格式发生变化,只需要改变相应的元素解析器就可以了,不需要对所有解析器进行改变,这样就方便了后期的升级和维护,使得解析结果更加稳定,避免了原有的docx文件信息解析方法解析不稳定,容易失去原有的信息和特效的缺陷。
在图2所示的本发明的docx文件信息解析方法的第二优选实施例的流程图中,所述docx文件信息解析方法开始于步骤200,随后执行:
步骤201,获取所述docx文件内的内容信息文件的存放路径;
步骤202,根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;
步骤203,如所述内容信息文件的文档对象模型的节点的类型为文本,则采用文本解析器解析出文本的内容和属性信息;
如所述内容信息文件的文档对象模型的节点的类型为图片,则采用图片解析器解析出图片的存储路径和尺寸;
如所述内容信息文件的文档对象模型的节点的类型为表格,则采用表格解析器解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;
如所述内容信息文件的文档对象模型的节点的类型为多边形,则采用多边形解析器解析出多边形的边框信息以及内容信息。
最后该方法结束于步骤204。
本发明的docx文件信息解析方法通过对当前节点的属性(attribute)名称进行判断从而得到该节点的元素类型(例如:文本、图片、表格以及多边形等),
如果当前节点为文本,创建文本解析器:textParser,解析出文本内容和属性信息(文字的大小、颜色、字体、是否带下划线、删除线等);
如果当前节点为图片,创建图片解析器:imageParser,解析出该图片对应的ID号和尺寸(图片的宽和高)。然后创建“document.xml.rels”文件的DOM(Document Object Model:文档对象模型)对象,在这个DOM对象中根据图片的ID号解析出图片的存储路径,并根据得到的图片的路径信息将图片内容读取到内存中;
如果当前节点为表格,创建表格解析器:tableParser,解析出该表格的行列信息(行列数量)、单元格合并信息、单元格的内容信息以及单元格的属性信息;
如果当前节点为多边形,创建多边形解析器:shapeParser,解析出该多边形的边框属性以及内容信息。
本发明的docx文件信息解析方法采用的元素解析器基本上涵盖了docx的所有元素,便于进行定制管理,如需要解析出docx文件里的文本,则只使用文本解析器进行解析;如需要解析出docx文件里的图片,则只使用图片解析器进行解析,解析过程快速、高效。
作为本发明的docx文件信息解析方法的优选实施例,当解析所述单元格的内容信息以及所述多边形的内容信息时,根据所述单元格的内容信息以及所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。由于表格的单元格可以包含docx中的任意元素,因此在解析单元格的内容信息时,要创建docxParser(元素解析器)来进行解析,具体解析方法和上述的不同节点类型的元素解析方法相同。由于多边形也可以像表格的单元格一样包含docx中的任意元素,因此在解析多边形内容信息时,也要创建docxParser(元素解析器)来进行解析,具体解析方法和上述的不同节点类型的元素解析方法相同。通过对单元格的内容信息以及多边形的内容信息的单独设置,使得本发明的docx文件信息解析方法解析效果更佳、更稳定,避免了表格和多边形内部的元素类型不同造成的解析出错。
在图3所示的本发明的docx文件信息解析方法的第三优选实施例的流程图中,所述docx文件信息解析方法开始于步骤300,随后执行:
步骤301,获取所述docx文件内的内容信息文件的存放路径;
步骤302,根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;
步骤303,根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素;
步骤304,根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中;
最后该方法结束于步骤305。
本发明的docx文件信息解析方法将解析出的元素信息存储到预设的结构体中。这样可以将结构体中的元素信息供其他程序使用,也可以将结构体中的元素信息转换为其它格式的文件,这样在没装office的情况下,也可以阅读docx文件里的信息。
在图4所示的本发明的docx文件信息解析方法的第四优选实施例的流程图中,所述docx文件信息解析方法开始于步骤400,随后执行:
步骤401,获取所述docx文件内的内容信息文件的存放路径;
步骤402,根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;
步骤403,根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素;
步骤404,根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中;
步骤405,将存储有所述元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息;
最后该方法结束于步骤406。
将解析后的元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息;使得用户可以更好、更方便的使用多叉树存储结构体中的排版信息而不需要做任何其他处理。
本发明还涉及一种docx文件信息解析系统,在图5所示的本发明的docx文件信息解析系统的第一优选实施例的结构示意图;所述docx文件信息解析系统包括获取模块1、创建模块2以及解析模块3,获取模块1用于获取所述docx文件内的内容信息文件的存放路径;创建模块2用于根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;解析模块3用于根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
采用本发明的docx文件信息解析系统时,获取模块1获取docx文件中的内容信息文件(一个名为document.xml的主文件),然后创建模块2创建该内容信息文件的文档对象模型,遍历该文件对象模型的所有节点,解析模块3根据节点的类型采用相应的元素解析器解析节点中的元素。由于不同元素的解析使用的是不同的元素解析器,这样在后期如要对某一种元素的解析效果进行升级或者说如docx文件某一种元素对应的xml文件存储格式发生变化,只需要改变相应的元素解析器就可以了,不需要对所有解析器进行改变,这样就方便了后期的升级和维护,使得解析结果更加稳定,避免了原有的docx文件信息解析系统解析不稳定,容易失去原有的信息和特效的缺陷。
在图6所示的本发明的docx文件信息解析系统的第二优选实施例的结构示意图;所述解析模块3包括文本解析器31、图片解析器32、表格解析器33以及多边形解析器34,文本解析器31用于如所述内容信息文件的文档对象模型的节点的类型为文本,则解析出文本的内容和属性信息;图片解析器32用于如所述内容信息文件的文档对象模型的节点的类型为图片,则解析出图片的存储路径和尺寸;表格解析器33用于如所述内容信息文件的文档对象模型的节点的类型为表格,则解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;多边形解析器34用于如所述内容信息文件的文档对象模型的节点的类型为多边形,则解析出多边形的边框信息以及内容信息。
本发明的docx文件信息解析系统通过对当前节点的属性(attribute)名称进行判断从而得到该节点的元素类型(例如:文本、图片、表格以及多边形等),
如果当前节点为文本,创建文本解析器31:textParser,解析出文本内容和属性信息(文字的大小、颜色、字体、是否带下划线、删除线等);
如果当前节点为图片,创建图片解析器32:imageParser,解析出该图片对应的ID号和尺寸(图片的宽和高)。然后创建“document.xml.rels”文件的DOM对象,在这个DOM对象中根据图片的ID号解析出图片的存储路径,并根据得到的图片路径信息将图片内容读取到内存中;
如果当前节点为表格,创建表格解析器33:tableParser,解析出该表格的行列信息(行列数量)、单元格合并信息、单元格的内容信息以及单元格的属性信息;
如果当前节点为多边形,创建多边形解析器34:shapeParser,解析出该多边形的边框属性以及内容信息。
本发明的docx文件信息解析系统采用的元素解析器基本上涵盖了docx的所有元素,便于进行定制管理,如需要解析出docx文件里的文本,则只使用文本解析模块进行解析;如需要解析出docx文件里的图片,则只使用图片解析模块进行解析,解析过程快速、高效。
作为本发明的docx文件信息解析系统的优选实施例,当解析所述单元格的内容信息以及所述多边形的内容信息时,根据所述单元格的内容信息以及所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。由于表格的单元格可以包含docx中的任意元素,因此在解析单元格的内容信息时,要创建docxParser(元素解析器)来进行解析,具体解析方法和上述的不同节点类型的元素解析方法相同。由于多边形也可以像表格的单元格一样包含docx中的任意元素,因此在解析多边形内容信息时,也要创建docxParser(元素解析器)来进行解析,具体解析方法和上述的不同节点类型的元素解析方法相同。通过对单元格的内容信息以及多边形的内容信息的单独设置,使得本发明的docx文件信息解析系统解析效果更佳、更稳定,避免了表格和多边形内部的元素类型不同造成的解析出错。
在图7所示的本发明的docx文件信息解析系统的第三优选实施例的结构示意图;所述docx文件信息解析系统还包括存储模块4,存储模块4用于根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中。
本发明的存储模块4将解析出的元素信息存储到预设的结构体中。这样可以将结构体中的元素信息供其他程序使用,也可以将结构体中的元素信息转换为其它格式的文件,这样在没装office的情况下,也可以阅读docx文件里的信息。
在图8所示的本发明的docx文件信息解析系统的第四优选实施例的结构示意图;所述docx文件信息解析系统还包括转换模块5,转换模块5用于将存储有所述元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息。
转换模块5将解析后的元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息;使得用户可以更好、更方便的使用多叉树存储结构体中的排版信息而不需要做任何其他处理。
下面通过图9的本发明的docx文件信息解析方法的优选实施例的具体流程图说明docx文件信息解析方法的具体实施原理。
1)导入docx文件并将docx文件进行解压;
2)根据解压后的docx文件的目录文件“[Content_Types].XML”获取内容信息文件(在解析时会用到的所有xml文件)的存放路径;
3)创建“core.xml”文件的DOM文档对象,解析出docx文件的title(标题)、subject(主题)、creator(创建者)、keywords(关键字)等文件属性信息;步骤3非必要步骤,用户可以根据需要选择实施;
4)创建内容信息文件“document.xml”文件的DOM文档对象模型;
5)开始解析“document.xml”文件的DOM对象,具体步骤如下:
A、创建docx元素解析器:docxParser;
B、遍历多叉树节点,并通过对当前节点的“attribute”(属性)名称
进行判断从而得到节点所存储的元素类型(具体的元素类型有:文本、图片、表格以及多边形等);
a、如果当前节点为文本,创建文本解析器31:textParser,解析出文本内容和属性信息(文字的大小、颜色、字体、是否带下划线、删除线等);
b、如果当前节点为图片,创建图片解析器32:imageParser,解析出该图片对应的ID号和尺寸(图片的宽和高)。然后创建“document.xml.rels”文件的DOM对象,在这个DOM对象中根据图片的ID号解析出图片的存储路径,并根据得到的图片的路径信息将图片内容读取到内存中;
c、如果当前节点为表格,创建表格解析器33:tableParser,解析出该表格的行列信息(行列数量)、单元格合并信息、单元格的内容信息(表格的单元格可以包含docx中的任意元素,因此在解析单元格的内容信息时,要创建docxParser对象来进行解析)和属性信息;
d、如果当前节点为多边形,创建多边形解析器34:shapeParser,解析出多边形的边框属性以及内容信息(多边形可以像表格的单元格一样包含docx中的任意元素,因此在解析多边形内容信息时,也要创建docxParser对象来进行解析)。
C、将解析出的元素信息存储到相应的元素存储结构体中;
D、将当前节点的元素存储结构体插入到docx文件的多叉树存储结构体中,从而形成了排版信息。
综上所述,本发明的docx文件信息解析方法及系统可以快速、准确、高效的解析docx文件,避免了原有的docx文件信息解析方法解析不稳定,容易失去原有的信息和特效的缺陷。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种docx文件信息解析方法,其特征在于,包括步骤:
S10、获取所述docx文件内的内容信息文件的存放路径;
S20、根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;
S30、根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
2.根据权利要求1所述的docx文件信息解析方法,其特征在于,所述步骤S30具体为:
如所述内容信息文件的文档对象模型的节点的类型为文本,则采用文本解析器解析出文本的内容和属性信息;
如所述内容信息文件的文档对象模型的节点的类型为图片,则采用图片解析器解析出图片的存储路径和尺寸;
如所述内容信息文件的文档对象模型的节点的类型为表格,则采用表格解析器解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;
如所述内容信息文件的文档对象模型的节点的类型为多边形,则采用多边形解析器解析出多边形的边框信息以及内容信息。
3.根据权利要求2所述的docx文件信息解析方法,其特征在于,当解析所述单元格的内容信息以及所述多边形的内容信息时,根据所述单元格的内容信息以及所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。
4.根据权利要求1-3中任一所述的docx文件信息解析方法,其特征在于,所述docx文件信息解析方法还包括步骤:
S40、根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中。
5.根据权利要求4所述的docx文件信息解析方法,其特征在于,所述docx文件信息解析方法还包括步骤:
S50、将存储有所述元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息。
6.一种docx文件信息解析系统,其特征在于,包括:
获取模块(1):用于获取所述docx文件内的内容信息文件的存放路径;
创建模块(2):用于根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;以及
解析模块(3):用于根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
7.根据权利要求6所述的docx文件信息解析系统,其特征在于,所述解析模块(3)包括:
文本解析器(31):用于如所述内容信息文件的文档对象模型的节点的类型为文本,则解析出文本的内容和属性信息;
图片解析器(32):用于如所述内容信息文件的文档对象模型的节点的类型为图片,则解析出图片的存储路径和尺寸;
表格解析器(33):用于如所述内容信息文件的文档对象模型的节点的类型为表格,则解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;以及
多边形解析器(34):用于如所述内容信息文件的文档对象模型的节点的类型为多边形,则解析出多边形的边框信息以及内容信息。
8.根据权利要求7所述的docx文件信息解析系统,其特征在于,所述表格解析器(33)还用于根据所述单元格的内容信息中元素的类型采用相应的元素解析器解析所述元素;所述多边形解析器(34)还用于根据所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。
9.根据权利要求6-8中任一所述的docx文件信息解析系统,其特征在于,所述docx文件信息解析系统还包括:
存储模块(4):用于根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中。
10.根据权利要求9所述的docx文件信息解析系统,其特征在于,所述docx文件信息解析系统还包括:
转换模块(5):用于将存储有所述元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息。
CN 201110190027 2011-07-07 2011-07-07 docx文件信息解析方法及系统 Pending CN102214244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110190027 CN102214244A (zh) 2011-07-07 2011-07-07 docx文件信息解析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110190027 CN102214244A (zh) 2011-07-07 2011-07-07 docx文件信息解析方法及系统

Publications (1)

Publication Number Publication Date
CN102214244A true CN102214244A (zh) 2011-10-12

Family

ID=44745552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110190027 Pending CN102214244A (zh) 2011-07-07 2011-07-07 docx文件信息解析方法及系统

Country Status (1)

Country Link
CN (1) CN102214244A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981845A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 浏览器进行页面元素处理的方法及装置
CN102981847A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 对页面文本框进行处理的浏览器及方法
CN102981846A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 对密码输入框元素进行处理的方法及浏览器
CN102981844A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 对网页主体元素进行处理的浏览器及方法
CN102999578A (zh) * 2012-11-13 2013-03-27 北京奇虎科技有限公司 页面元素处理方法和装置
CN103186874A (zh) * 2011-12-28 2013-07-03 美国博通公司 具有静态和/或动态规则管理的多方交易
CN103514291A (zh) * 2013-09-29 2014-01-15 西安交通大学 一种文本中树形结构数据的显示方法
CN105183877A (zh) * 2015-09-18 2015-12-23 四川效率源信息安全技术股份有限公司 一种重组docx文件碎片数据的方法
WO2016015564A1 (zh) * 2014-07-31 2016-02-04 广州金山网络科技有限公司 一种文档显示方法以及装置
CN105404672A (zh) * 2015-11-19 2016-03-16 上海携程商务有限公司 网页数据存储和操作的系统及方法
CN106126485A (zh) * 2016-06-14 2016-11-16 北京金山安全软件有限公司 一种文本格式生成方法、服务器及终端
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器
CN113204526A (zh) * 2021-05-08 2021-08-03 北京亿赛通网络安全技术有限公司 一种通用流文件处理框架

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1558644A (zh) * 2003-12-24 2004-12-29 威艾德通讯技术(深圳)有限公司 在电话机中解析邮件中Word文档的系统和方法
EP1571560A2 (en) * 2004-03-03 2005-09-07 Microsoft Corporation Assisted form filling
CN1904896A (zh) * 2005-07-28 2007-01-31 株式会社东芝 结构化文档处理装置、搜索装置及结构化文档系统和方法
CN101751461A (zh) * 2009-12-30 2010-06-23 中兴通讯股份有限公司 一种文档转换方法和装置
CN101794280A (zh) * 2010-03-11 2010-08-04 北京中科辅龙计算机技术股份有限公司 一种基于表格模板集的表格自动生成方法及系统
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN102110108A (zh) * 2009-12-28 2011-06-29 北大方正集团有限公司 一种对小样文件的处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1558644A (zh) * 2003-12-24 2004-12-29 威艾德通讯技术(深圳)有限公司 在电话机中解析邮件中Word文档的系统和方法
EP1571560A2 (en) * 2004-03-03 2005-09-07 Microsoft Corporation Assisted form filling
CN1904896A (zh) * 2005-07-28 2007-01-31 株式会社东芝 结构化文档处理装置、搜索装置及结构化文档系统和方法
CN102110108A (zh) * 2009-12-28 2011-06-29 北大方正集团有限公司 一种对小样文件的处理方法及装置
CN101751461A (zh) * 2009-12-30 2010-06-23 中兴通讯股份有限公司 一种文档转换方法和装置
CN101794280A (zh) * 2010-03-11 2010-08-04 北京中科辅龙计算机技术股份有限公司 一种基于表格模板集的表格自动生成方法及系统
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186874A (zh) * 2011-12-28 2013-07-03 美国博通公司 具有静态和/或动态规则管理的多方交易
CN102981845A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 浏览器进行页面元素处理的方法及装置
CN102981847A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 对页面文本框进行处理的浏览器及方法
CN102981846A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 对密码输入框元素进行处理的方法及浏览器
CN102981844A (zh) * 2012-11-13 2013-03-20 北京奇虎科技有限公司 对网页主体元素进行处理的浏览器及方法
CN102999578A (zh) * 2012-11-13 2013-03-27 北京奇虎科技有限公司 页面元素处理方法和装置
CN102981844B (zh) * 2012-11-13 2016-07-13 北京奇虎科技有限公司 对网页主体元素进行处理的浏览器及方法
CN102981847B (zh) * 2012-11-13 2015-11-25 北京奇虎科技有限公司 对页面文本框进行处理的浏览器及方法
CN102981845B (zh) * 2012-11-13 2016-06-29 北京奇虎科技有限公司 浏览器进行页面元素处理的方法及装置
CN103514291A (zh) * 2013-09-29 2014-01-15 西安交通大学 一种文本中树形结构数据的显示方法
CN103514291B (zh) * 2013-09-29 2017-02-08 西安交通大学 一种文本中树形结构数据的显示方法
WO2016015564A1 (zh) * 2014-07-31 2016-02-04 广州金山网络科技有限公司 一种文档显示方法以及装置
CN105183877A (zh) * 2015-09-18 2015-12-23 四川效率源信息安全技术股份有限公司 一种重组docx文件碎片数据的方法
CN105183877B (zh) * 2015-09-18 2019-03-22 四川效率源信息安全技术股份有限公司 一种重组docx文件碎片数据的方法
CN105404672A (zh) * 2015-11-19 2016-03-16 上海携程商务有限公司 网页数据存储和操作的系统及方法
CN105404672B (zh) * 2015-11-19 2019-03-26 上海携程商务有限公司 网页数据存储和操作的系统及方法
CN106126485A (zh) * 2016-06-14 2016-11-16 北京金山安全软件有限公司 一种文本格式生成方法、服务器及终端
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器
CN108170697B (zh) * 2017-07-12 2021-08-20 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器
CN113204526A (zh) * 2021-05-08 2021-08-03 北京亿赛通网络安全技术有限公司 一种通用流文件处理框架
CN113204526B (zh) * 2021-05-08 2024-03-12 北京亿赛通网络安全技术有限公司 一种通用流文件处理框架

Similar Documents

Publication Publication Date Title
CN102214244A (zh) docx文件信息解析方法及系统
CN105447099B (zh) 日志结构化信息提取方法及装置
CN101025738B (zh) 一种免模板动态网站生成方法
CN108415702B (zh) 一种移动终端应用界面动态渲染方法和装置
CN104699714B (zh) 将书版格式文件转换为epub格式文件的方法及装置
CN102799592B (zh) 富文本文档的解析方法和系统
CN101980183B (zh) 一种解析Word文件信息的方法及其系统
CN101968817B (zh) 网页模板配置方法
CN102982010A (zh) 提取文档结构的方法和装置
CN111062187A (zh) 一种对docx格式文档进行结构化解析方法及系统
CN108664546B (zh) Xml数据结构转换方法和装置
CN105354236A (zh) 一种对账信息生成方法及系统
CN109116828A (zh) 一种控制器中模型代码配置方法和装置
US20100169333A1 (en) Document processor
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN109492211A (zh) 一种基于ofd文档的表格提取方法
CN116301813B (zh) 低代码平台开发方法及系统
CN106156191B (zh) 基于ePub文件的试读方法和基于ePub文件的试读系统
CN102065230B (zh) 一种网络化的字幕制播系统
CN109241501A (zh) 文件解析方法和装置
CN101650733B (zh) 一种单点登录系统及其个性化数据引入方法和装置
CN111401005B (zh) 文本转换方法、装置及可读存储介质
JP2008052356A (ja) ソースコード自動生成装置
CN102096710A (zh) 基于xml模板的报文分析方法
KR101165201B1 (ko) 컨텐츠 제공 시스템의 변환서버

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road, room 9 building on the north side of block A901 No. 006 TCL Industry Research Institute building A A Building 8 floor

Applicant after: Shenzhen Wondershare Information Technology Co., Ltd.

Address before: Room 9, block A901 building on the north side of a building 518057 North TCL A of Guangdong Province, Shenzhen city Nanshan District South Road West ten high new technology

Applicant before: Shenzhen Wondershare Software Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SHENZHEN WONDERSHARE SOFTWARE CO., LTD. TO: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY CO., LTD.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111012