CN111125441A - 一种Xml文件信息处理系统 - Google Patents

一种Xml文件信息处理系统 Download PDF

Info

Publication number
CN111125441A
CN111125441A CN201911087396.7A CN201911087396A CN111125441A CN 111125441 A CN111125441 A CN 111125441A CN 201911087396 A CN201911087396 A CN 201911087396A CN 111125441 A CN111125441 A CN 111125441A
Authority
CN
China
Prior art keywords
module
format
unit
text
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911087396.7A
Other languages
English (en)
Inventor
严宇平
梁哲恒
蔡徽
龙震岳
萧展辉
曾纪钧
张金波
林细君
郑杰生
黄杰韬
邓安明
朱功峰
李旭明
姚微微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201911087396.7A priority Critical patent/CN111125441A/zh
Publication of CN111125441A publication Critical patent/CN111125441A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Abstract

本发明属于信息处理技术领域,尤其为一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中;本发明通过公式转换单元用于将office文档中的公式转换成相应的Xml格式,图片转换单元用于将office文档中的图片转换成相应的Xml格式,文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,整合输出模块将对应的Xml格式语言按顺序输出,以实现将office文档中的信息处理成Xml格式信息,通过Xml格式信息进行传输,可以降低系统备份占用的内存,有效的提高设备的运行速度和储存空间。

Description

一种Xml文件信息处理系统
技术领域
本发明属于信息处理技术领域,具体涉及一种Xml文件信息处理系统。
背景技术
在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
目前office文档的传输在日常生活中非常常见,满足人们生活或工作的需求,目前的安全检查产品都使用了备份机制,但是采用了全文备份,势必会造成对磁盘空间的大量占用,尤其是包含有图片的office文档,因此需要一种可以将office文档转换成更小内存的xml文档。
发明内容
本发明提供了一种Xml文件信息处理系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
优选的,所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
优选的,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
优选的,所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
优选的,所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
优选的,所述的储存媒介为磁盘、U盘、SD卡和ROM中的任意一种。
与现有技术相比,本发明的有益效果是:
本发明通过公式转换单元用于将office文档中的公式转换成相应的Xml格式,图片转换单元用于将office文档中的图片转换成相应的Xml格式,文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,整合输出模块将对应的Xml格式语言按顺序输出,以实现将office文档中的信息处理成Xml格式信息,通过Xml格式信息进行传输,可以降低系统备份占用的内存,有效的提高设备的运行速度和储存空间。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明提供以下技术方案:一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
本实施例中,信息处理设备为PC电脑或者笔记本,所述文本载入模块用于将office文档录入暂存的磁盘或U盘中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
具体的,所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
具体的,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
具体的,所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
具体的,所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
具体的,所述的储存媒介为磁盘或U盘。
实施例2
请参阅图1,本发明提供以下技术方案:一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
本实施例中,信息处理设备为智能手机,所述文本载入模块用于将office文档录入暂存的SD卡或ROM中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
具体的,所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
具体的,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
具体的,所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
具体的,所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
具体的,所述的储存媒介为SD卡和ROM中的任意一种。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种Xml文件信息处理系统,其特征在于:包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
2.根据权利要求1所述的一种Xml文件信息处理系统,其特征在于:所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
3.根据权利要求2所述的一种Xml文件信息处理系统,其特征在于:所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
4.根据权利要求2所述的一种Xml文件信息处理系统,其特征在于:所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
5.根据权利要求1所述的一种Xml文件信息处理系统,其特征在于:所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
6.根据权利要求1-5任意一项所述的一种Xml文件信息处理系统,其特征在于:所述的储存媒介为磁盘、U盘、SD卡和ROM中的任意一种。
CN201911087396.7A 2019-11-08 2019-11-08 一种Xml文件信息处理系统 Pending CN111125441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911087396.7A CN111125441A (zh) 2019-11-08 2019-11-08 一种Xml文件信息处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911087396.7A CN111125441A (zh) 2019-11-08 2019-11-08 一种Xml文件信息处理系统

Publications (1)

Publication Number Publication Date
CN111125441A true CN111125441A (zh) 2020-05-08

Family

ID=70495715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911087396.7A Pending CN111125441A (zh) 2019-11-08 2019-11-08 一种Xml文件信息处理系统

Country Status (1)

Country Link
CN (1) CN111125441A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6725426B1 (en) * 2000-03-17 2004-04-20 Broadvision, Inc. Mechanism for translating between word processing documents and XML documents
US20060101058A1 (en) * 2004-11-10 2006-05-11 Xerox Corporation System and method for transforming legacy documents into XML documents
CN101055577A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 可扩展标记语言集中器
CN101196886A (zh) * 2006-12-08 2008-06-11 鸿富锦精密工业(深圳)有限公司 Word文件转换成XML文件的系统及方法
CN101201815A (zh) * 2006-12-13 2008-06-18 鸿富锦精密工业(深圳)有限公司 专利申请文件生成系统及方法
US20090300482A1 (en) * 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
CN102103573A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种快速生成开放格式文档的方法及系统
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN106874493A (zh) * 2017-02-23 2017-06-20 济南浪潮高新科技投资发展有限公司 一种数据转换方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6725426B1 (en) * 2000-03-17 2004-04-20 Broadvision, Inc. Mechanism for translating between word processing documents and XML documents
US20060101058A1 (en) * 2004-11-10 2006-05-11 Xerox Corporation System and method for transforming legacy documents into XML documents
CN101055577A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 可扩展标记语言集中器
US20090300482A1 (en) * 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
CN101196886A (zh) * 2006-12-08 2008-06-11 鸿富锦精密工业(深圳)有限公司 Word文件转换成XML文件的系统及方法
CN101201815A (zh) * 2006-12-13 2008-06-18 鸿富锦精密工业(深圳)有限公司 专利申请文件生成系统及方法
CN102103573A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种快速生成开放格式文档的方法及系统
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN106874493A (zh) * 2017-02-23 2017-06-20 济南浪潮高新科技投资发展有限公司 一种数据转换方法及装置

Similar Documents

Publication Publication Date Title
US9081412B2 (en) System and method for using paper as an interface to computer applications
US9058516B2 (en) Automatic identification of fields and labels in forms
US8732570B2 (en) Non-symbolic data system for the automated completion of forms
US10169320B2 (en) Assistive technology for the visually impaired
US20010014900A1 (en) Method and system for separating content and layout of formatted objects
US20070185837A1 (en) Detection of lists in vector graphics documents
WO2020149501A1 (ko) 전자문서의 점자 변환 시스템 및 그 방법
US20170052985A1 (en) Normalizing values in data tables
US20030028503A1 (en) Method and apparatus for automatically extracting metadata from electronic documents using spatial rules
JP2023516119A (ja) デジタル画像処理
CN202711171U (zh) 单据手写文字自动识别录入装置
US11494588B2 (en) Ground truth generation for image segmentation
Ha et al. Recognition of OCR invoice metadata block types
US10261987B1 (en) Pre-processing E-book in scanned format
CN106777404A (zh) 从LaTeX格式到XML格式的转换系统及转换方法
CN111125441A (zh) 一种Xml文件信息处理系统
JP2002073598A (ja) 文書処理装置および方法
CN102637159B (zh) 文档显示方法及装置
CN113297425B (zh) 文档转换方法、装置、服务器及存储介质
Choudhary Cost analysis of linguistic resources
CN111523307A (zh) 一种基于符号标记的在线翻译生词笔记生成系统
CN114328804A (zh) 一种含文字图片的关键词语检索方法及系统
US20160371233A1 (en) Assistive technology for the impaired
CN113539518A (zh) 基于rpa和ai的药品数据处理方法、装置及电子设备
Biggs What characterizes pictures and text?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination