CN111125441A - 一种Xml文件信息处理系统 - Google Patents
一种Xml文件信息处理系统 Download PDFInfo
- Publication number
- CN111125441A CN111125441A CN201911087396.7A CN201911087396A CN111125441A CN 111125441 A CN111125441 A CN 111125441A CN 201911087396 A CN201911087396 A CN 201911087396A CN 111125441 A CN111125441 A CN 111125441A
- Authority
- CN
- China
- Prior art keywords
- module
- format
- unit
- text
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
Abstract
本发明属于信息处理技术领域,尤其为一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中;本发明通过公式转换单元用于将office文档中的公式转换成相应的Xml格式,图片转换单元用于将office文档中的图片转换成相应的Xml格式,文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,整合输出模块将对应的Xml格式语言按顺序输出,以实现将office文档中的信息处理成Xml格式信息,通过Xml格式信息进行传输,可以降低系统备份占用的内存,有效的提高设备的运行速度和储存空间。
Description
技术领域
本发明属于信息处理技术领域,具体涉及一种Xml文件信息处理系统。
背景技术
在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
目前office文档的传输在日常生活中非常常见,满足人们生活或工作的需求,目前的安全检查产品都使用了备份机制,但是采用了全文备份,势必会造成对磁盘空间的大量占用,尤其是包含有图片的office文档,因此需要一种可以将office文档转换成更小内存的xml文档。
发明内容
本发明提供了一种Xml文件信息处理系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
优选的,所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
优选的,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
优选的,所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
优选的,所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
优选的,所述的储存媒介为磁盘、U盘、SD卡和ROM中的任意一种。
与现有技术相比,本发明的有益效果是:
本发明通过公式转换单元用于将office文档中的公式转换成相应的Xml格式,图片转换单元用于将office文档中的图片转换成相应的Xml格式,文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,整合输出模块将对应的Xml格式语言按顺序输出,以实现将office文档中的信息处理成Xml格式信息,通过Xml格式信息进行传输,可以降低系统备份占用的内存,有效的提高设备的运行速度和储存空间。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明提供以下技术方案:一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
本实施例中,信息处理设备为PC电脑或者笔记本,所述文本载入模块用于将office文档录入暂存的磁盘或U盘中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
具体的,所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
具体的,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
具体的,所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
具体的,所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
具体的,所述的储存媒介为磁盘或U盘。
实施例2
请参阅图1,本发明提供以下技术方案:一种Xml文件信息处理系统,包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
本实施例中,信息处理设备为智能手机,所述文本载入模块用于将office文档录入暂存的SD卡或ROM中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
具体的,所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
具体的,所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
具体的,所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
具体的,所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
具体的,所述的储存媒介为SD卡和ROM中的任意一种。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种Xml文件信息处理系统,其特征在于:包括文本载入模块、识别分类模块、格式转换模块以及整合输出模块,所述文本载入模块用于将office文档录入暂存的储存媒介中,识别分类模块将存储的office文档进行字段和类型的识别并输出至格式转换模块中,所述格式转换模块包括公式转换单元、图片转换单元和文字转换单元,所述公式转换单元用于将office文档中的公式转换成相应的Xml格式,所述图片转换单元用于将office文档中的图片转换成相应的Xml格式,所述文字转换单元用于将office文档中的文字及符号转换成相应的Xml格式,所述整合输出模块将对应的Xml格式语言按顺序输出。
2.根据权利要求1所述的一种Xml文件信息处理系统,其特征在于:所述识别分类模块包括预扫描单元、字段分区单元和分类输出单元,所述预扫描单元对文本两行的字段进行语义分析,并通过字段分区单元进行分类,所述预扫描单元对文本图片和公式进行内容的扫描,并通过分类输出单元输出至格式转换模块。
3.根据权利要求2所述的一种Xml文件信息处理系统,其特征在于:所述预扫描单元对文本的语义分析包括符号、定语以及成语的判断,并将一个或至少两个的文字输出至格式转换模块中,以使所述格式转换模块转换成对应的Xml语言。
4.根据权利要求2所述的一种Xml文件信息处理系统,其特征在于:所述分类输出单元输出的内容进行顺序标记,所述整合输出模块识别所述顺序标记,并安装顺序将Xml语言顺次输出。
5.根据权利要求1所述的一种Xml文件信息处理系统,其特征在于:所述文本载入模块在文本首添加标记,所述整合输出模块在输出时在文本尾添加标记,并对首添加标记和文本尾添加标记之间的字符量进行计算。
6.根据权利要求1-5任意一项所述的一种Xml文件信息处理系统,其特征在于:所述的储存媒介为磁盘、U盘、SD卡和ROM中的任意一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911087396.7A CN111125441A (zh) | 2019-11-08 | 2019-11-08 | 一种Xml文件信息处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911087396.7A CN111125441A (zh) | 2019-11-08 | 2019-11-08 | 一种Xml文件信息处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111125441A true CN111125441A (zh) | 2020-05-08 |
Family
ID=70495715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911087396.7A Pending CN111125441A (zh) | 2019-11-08 | 2019-11-08 | 一种Xml文件信息处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125441A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6725426B1 (en) * | 2000-03-17 | 2004-04-20 | Broadvision, Inc. | Mechanism for translating between word processing documents and XML documents |
US20060101058A1 (en) * | 2004-11-10 | 2006-05-11 | Xerox Corporation | System and method for transforming legacy documents into XML documents |
CN101055577A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 可扩展标记语言集中器 |
CN101196886A (zh) * | 2006-12-08 | 2008-06-11 | 鸿富锦精密工业(深圳)有限公司 | Word文件转换成XML文件的系统及方法 |
CN101201815A (zh) * | 2006-12-13 | 2008-06-18 | 鸿富锦精密工业(深圳)有限公司 | 专利申请文件生成系统及方法 |
US20090300482A1 (en) * | 2006-08-30 | 2009-12-03 | Compsci Resources, Llc | Interactive User Interface for Converting Unstructured Documents |
CN102103573A (zh) * | 2009-12-17 | 2011-06-22 | 北大方正集团有限公司 | 一种快速生成开放格式文档的方法及系统 |
CN102855243A (zh) * | 2011-06-28 | 2013-01-02 | 北大方正集团有限公司 | 用于提取文档结构的方法和装置 |
CN106874493A (zh) * | 2017-02-23 | 2017-06-20 | 济南浪潮高新科技投资发展有限公司 | 一种数据转换方法及装置 |
-
2019
- 2019-11-08 CN CN201911087396.7A patent/CN111125441A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6725426B1 (en) * | 2000-03-17 | 2004-04-20 | Broadvision, Inc. | Mechanism for translating between word processing documents and XML documents |
US20060101058A1 (en) * | 2004-11-10 | 2006-05-11 | Xerox Corporation | System and method for transforming legacy documents into XML documents |
CN101055577A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 可扩展标记语言集中器 |
US20090300482A1 (en) * | 2006-08-30 | 2009-12-03 | Compsci Resources, Llc | Interactive User Interface for Converting Unstructured Documents |
CN101196886A (zh) * | 2006-12-08 | 2008-06-11 | 鸿富锦精密工业(深圳)有限公司 | Word文件转换成XML文件的系统及方法 |
CN101201815A (zh) * | 2006-12-13 | 2008-06-18 | 鸿富锦精密工业(深圳)有限公司 | 专利申请文件生成系统及方法 |
CN102103573A (zh) * | 2009-12-17 | 2011-06-22 | 北大方正集团有限公司 | 一种快速生成开放格式文档的方法及系统 |
CN102855243A (zh) * | 2011-06-28 | 2013-01-02 | 北大方正集团有限公司 | 用于提取文档结构的方法和装置 |
CN106874493A (zh) * | 2017-02-23 | 2017-06-20 | 济南浪潮高新科技投资发展有限公司 | 一种数据转换方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9081412B2 (en) | System and method for using paper as an interface to computer applications | |
US9058516B2 (en) | Automatic identification of fields and labels in forms | |
US8732570B2 (en) | Non-symbolic data system for the automated completion of forms | |
US10169320B2 (en) | Assistive technology for the visually impaired | |
US20010014900A1 (en) | Method and system for separating content and layout of formatted objects | |
US20070185837A1 (en) | Detection of lists in vector graphics documents | |
WO2020149501A1 (ko) | 전자문서의 점자 변환 시스템 및 그 방법 | |
US20170052985A1 (en) | Normalizing values in data tables | |
US20030028503A1 (en) | Method and apparatus for automatically extracting metadata from electronic documents using spatial rules | |
JP2023516119A (ja) | デジタル画像処理 | |
CN202711171U (zh) | 单据手写文字自动识别录入装置 | |
US11494588B2 (en) | Ground truth generation for image segmentation | |
Ha et al. | Recognition of OCR invoice metadata block types | |
US10261987B1 (en) | Pre-processing E-book in scanned format | |
CN106777404A (zh) | 从LaTeX格式到XML格式的转换系统及转换方法 | |
CN111125441A (zh) | 一种Xml文件信息处理系统 | |
JP2002073598A (ja) | 文書処理装置および方法 | |
CN102637159B (zh) | 文档显示方法及装置 | |
CN113297425B (zh) | 文档转换方法、装置、服务器及存储介质 | |
Choudhary | Cost analysis of linguistic resources | |
CN111523307A (zh) | 一种基于符号标记的在线翻译生词笔记生成系统 | |
CN114328804A (zh) | 一种含文字图片的关键词语检索方法及系统 | |
US20160371233A1 (en) | Assistive technology for the impaired | |
CN113539518A (zh) | 基于rpa和ai的药品数据处理方法、装置及电子设备 | |
Biggs | What characterizes pictures and text? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |