CN114218896A - 对uof文档进行分块转换的方法 - Google Patents

对uof文档进行分块转换的方法 Download PDF

Info

Publication number
CN114218896A
CN114218896A CN202111388477.8A CN202111388477A CN114218896A CN 114218896 A CN114218896 A CN 114218896A CN 202111388477 A CN202111388477 A CN 202111388477A CN 114218896 A CN114218896 A CN 114218896A
Authority
CN
China
Prior art keywords
document
uof
odf
attribute data
xml
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111388477.8A
Other languages
English (en)
Other versions
CN114218896B (zh
Inventor
余丹
周韩钰
邢智涣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Standard Intelligent Security Technology Co Ltd
Original Assignee
China Standard Intelligent Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Standard Intelligent Security Technology Co Ltd filed Critical China Standard Intelligent Security Technology Co Ltd
Priority to CN202111388477.8A priority Critical patent/CN114218896B/zh
Publication of CN114218896A publication Critical patent/CN114218896A/zh
Application granted granted Critical
Publication of CN114218896B publication Critical patent/CN114218896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了对UOF文档进行分块转换的方法,其能够对解压后的ODF文档进行分块切分处理,以此全面逐一地获得所有XML文档,并对每个XML文档进行解析处理和样式分析,从而得到相应的文档属性数据;接着基于该文档属性数据转换得到与ODF文档对应的UOF文档;最后标定该UOF文档存在的文档内容错误数据并进行备份,以及对该UOF文档进行打包压缩处理,这样能够全面地针对所有XML文档进行逐一转换,从而避免发生遗漏转换或者重复转换的情况以及提高UOF文档的转换可靠性。

Description

对UOF文档进行分块转换的方法
技术领域
本发明涉及文档转换处理的技术领域,特别涉及对UOF文档进行分块转换的方法。
背景技术
UOF(Uified office document Format)文档是基于XML的开放式文档格式,其又被称作“标文通”文档。在对UOF文档进行转换的过程中存在文档解析出错以及转换内容无法打开的问题。同时现有的UOF文档转换技术并不能针对其中所有XML文档进行逐一的转换,这导致可能存在遗漏转换或者重复转换的情况发生,从而严重地降低UOF文档的转换效率和转换可靠性。
发明内容
针对现有技术存在的缺陷,本发明提供对UOF文档进行分块转换的方法,其包括对ODF文档进行解压处理,从而得到相应的解压ODF文档;对解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;再对XML文档进行解析处理,从而得到相应的文档解析输出结果;接着对文档解析输出结果进行文档内容纠错后,对文档解析输出结果进行样式分析,从而得到关于ODF文档的文档属性数据;再对文档属性数据依次进行区分预处理和转换处理,从而得到与ODF文档对应的UOF文档;最后对UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据;将文档内容错误数据上传至用户端进行备份后,对UOF文档进行打包压缩处理;可见,该对UOF文档进行分块转换的方法能够对解压后的ODF文档进行分块切分处理,以此全面逐一地获得所有XML文档,并对每个XML文档进行解析处理和样式分析,从而得到相应的文档属性数据;接着基于该文档属性数据转换得到与ODF文档对应的UOF文档;最后标定该UOF文档存在的文档内容错误数据并进行备份,以及对该UOF文档进行打包压缩处理,这样能够全面地针对所有XML文档进行逐一转换,从而避免发生遗漏转换或者重复转换的情况以及提高UOF文档的转换可靠性。
本发明提供对UOF文档进行分块转换的方法,其特征在于,其包括如下步骤:
步骤S1,对ODF文档进行解压处理,从而得到相应的解压ODF文档;对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;再对所述XML文档进行解析处理,从而得到相应的文档解析输出结果;
步骤S2,对所述文档解析输出结果进行文档内容纠错后,对所述文档解析输出结果进行样式分析,从而得到关于所述ODF文档的文档属性数据;再对所述文档属性数据依次进行区分预处理和转换处理,从而得到与所述ODF文档对应的UOF文档;
步骤S3,对所述UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据;将所述文档内容错误数据上传至用户端进行备份后,对所述UOF文档进行打包压缩处理;
进一步,在所述步骤S1中,对ODF文档进行解压处理,从而得到相应的解压ODF文档具体包括:
基于开源代码Zip Utils设计形成文档解压缩模块,并将所述文档解压模块上传至计算机终端中运行驱动,从而使所述文档解压缩模块对所述ODF文档进行解压处理,以此得到相应的解压ODF文档;
进一步,在所述步骤S1中,对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档具体包括:
对所述解压ODF文档进行扫描,以此确定所述解压ODF文档包含的所有XML文档各自的文档起止数据部分;
根据所述XML文档各自的文档起止数据部分,对所述解压ODF文档进行分块切分,从而获得所述解压ODF文档包含的所有XML文档;
进一步,在所述步骤S1中,对所述XML文档进行解析处理,从而得到相应的文档解析输出结果具体包括:
基于开源项目Xerces C++设计形成SAX解析模块,并将所述SAX解析模块上传至计算机终端中运行驱动,从而使所述SAX解析模块对所有XML文档分别进行解析处理,从而得到相应的文档解析输出结果;其中
所述SAX解析模块对所有XML文档分别进行解析处理具体为:
所述SAX解析模块分别对每个XML文档进行逐行扫描和解析处理,从而得到相应的XML文档解析结果和文档静态表,以此作为所述文档解析输出结果;
进一步,在所述步骤S2中,对所述文档解析输出结果进行文档内容纠错具体包括:
对所述文档解析输出结果进行文档文字错误和/或语句语法的检查,以此确定所述文档解析输出结果包含的错误文字和/或存在语法错误的语句;再对所述错误文字和/或存在语法错误的语句进行纠错改正;
进一步,在所述步骤S2中,对所述文档解析结果进行样式分析,从而得到关于所述ODF文档的文档属性数据具体包括:
对纠错后的所述文档解析输出结果进行样式分析,从而得到所述ODF文档包含的段落属性数据、文字属性数据、大纲属性数据、表格属性数据和图像属性数据;
进一步,在所述步骤S2中,对所述文档属性数据依次进行区分预处理和转换处理,从而得到与所述ODF文档对应的UOF文档具体包括:
首先,定义getID函数对所述段落属性数据、所述文字属性数据、所述大纲属性数据、所述表格属性数据和所述图像属性数据进行处理,从而生成所述段落属性数据、所述文字属性数据、所述表格属性数据和所述图像属性数据各自对应的属性编号值;
再将所述ODF文档包含的meta.xml文档、styles.xml文档、content.xml文档、uof.xml文档和rules.xml文档中段落属性数据、文字属性数据、大纲属性数据对应的属性编号值进行存储,从而作为所述文档样式属性数据和文档分节属性数据;
最后,对所述文档样式属性数据和所述文档分节属性数据进行主转换处理和后继转换处理,从而得到与所述ODF文档对应的UOF文档;
进一步,所述主转换处理包括定义分别关于MetaTranslator、StylesTranslator、ContentTranslator的三种转换方式;并利用上述三种转换方式对所述文档样式属性数据和所述文档分节属性数据进行转换处理,从而将所述ODF文档包含的meta.xml文档、styles.xml文档和content.xml文档进行转换处理;
所述后继转换处理包括对所述uof.xml文档和所述rules.xml文档进行转换处理;
最后,将对所述meta.xml文档、所述styles.xml文档和所述content.xml文档进行主转换处理的结果,以及对所述uof.xml文档和所述rules.xml文档进行后继转换处理的结果进行压缩,从而得到与所述ODF文档对应的UOF文档;
进一步,在所述步骤S3中,对所述UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据具体包括:
检查所述UOF文档中是否存在文档乱码或者文档缺失,若存在,则对存在文档乱码或者文档缺失对应得到文档区域形成批注,从而标定所述UOF文档中存在的文档乱码部分或者文档缺失部分;
其中,检查所述UOF文档中是否存在文档乱码或者文档缺失具体包括:
判断所述UOF文档中的每一个汉字/数字/英文以及标点符号是否为同一种编码形式,所述UOF文档中的每一个汉字/数字/英文以及标点符号在相同的编码下会存在一个字节数,而在所述ODF文档在解压的过程中还会解压出一个原文档的字节范围,通过判断所述ODF文档中每一个汉字/数字/英文以及标点符号的字节数是否满足所述原文档的字节范围,进而对其进行相应的框选标注,其具体过程为:
步骤S1,利用下面公式(1),判断所述UOF文档中的每一个汉字/数字/英文/标点符号所对应的字节编码是否一致,
Figure BDA0003367948470000051
在上述公式(1)中,μ表示所述UOF文档中字节编码是否一致的判定值;(Di+1)B表示所述UOF文档中的第i+1个汉字/数字/英文/标点符号所对应的字节编码数,所述字节编码数表示将字节编码种类进行排列,得到每个编码种类的排列号,所述排列号即为所述字节编码数;(Di)B表示所述UOF文档中的第i个汉字/数字/英文/标点符号所对应的字节编码数;n表示所述UOF文档中的汉字/数字/英文/标点符号的总个数;||表示求取绝对值运算;
当μ=0,表示所述UOF文档中所有字节的编码是一致的,此时对所述UOF文档中的所有汉字/数字/英文/标点符号继续进行下面步骤S2;
当μ≠0,表示所述UOF文档中所有字节的编码是不一致的,此时确定出所述UOF文档中使用最多的编码类型,然后对所述UOF文档中不属于最多编码类型的汉字/数字/英文/标点符号进行矩形框选;并对最多编码类型的汉字/数字/英文/标点符号继续进行下面步骤S2;
步骤S2,利用下面公式(2),根据所述原文档的字节范围判断所述UOF文档中的每一个汉字/数字/英文/标点符号的字节数是否在所述原文档的字节范围内,
Fa=[H-(Da)J]×[(Da)J-L] (2)
在上述公式(2)中,Fa表示通过步骤A1进行筛选后的所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数是否在所述原文档的字节范围内的判定值;[L,H]表示所述ODF文档在解压的过程中解压出的原文档的字节范围,L表示字节范围中的字节数最小值,H表示字节范围中的字节数最大值;
当Fa≥0,表示所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数在所述原文档的字节范围内;
当Fa<0,表示所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数不在所述原文档的字节范围内,此时对所述UOF文档中第a个汉字/数字/英文/标点符号进行矩形框选;
步骤S3,利用下面公式(3),根据上述步骤S1和S2中对所述UOF文档中汉字/数字/英文/标点符号进行矩形框选的框选个数来对所述框选的区域进行颜色突出显示,
Figure BDA0003367948470000061
在上述公式(3)中,G表示所述UOF文档框选的区域颜色突出显示的亮度值;Gmin表示所述颜色突出显示的最小亮度值,即肉眼可观察到的颜色最小亮度值;Gmax表示所述颜色突出显示的最大亮度值,即显示设备可显示的最大亮度值;Se表示所述UOF文档中的第e个框选区域内汉字/数字/英文/标点符号的个数;U表示所述UOF文档中的被框选的区域个数;
当亮度值G大于或者等于预设亮度阈值,则确定所述UOF文档中存在文档乱码或者文档缺失,否则,确定所述UOF文档中不存在文档乱码或者文档缺失;
进一步,在所述步骤S3中,将所述文档内容错误数据上传至用户端进行备份后,对所述UOF文档进行打包压缩处理具体包括:
将所述UOF文档中存在的文档乱码部分或者文档缺失部分对应的批注数据上传至用户端进行备份;再对所述UOF文档进行打包压缩处理,以及将所述批注数据作为打包压缩后的UOF文档的备注信息。
相比于现有技术,该对UOF文档进行分块转换的方法包括对ODF文档进行解压处理,从而得到相应的解压ODF文档;对解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;再对XML文档进行解析处理,从而得到相应的文档解析输出结果;接着对文档解析输出结果进行文档内容纠错后,对文档解析输出结果进行样式分析,从而得到关于ODF文档的文档属性数据;再对文档属性数据依次进行区分预处理和转换处理,从而得到与ODF文档对应的UOF文档;最后对UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据;将文档内容错误数据上传至用户端进行备份后,对UOF文档进行打包压缩处理;可见,该对UOF文档进行分块转换的方法能够对解压后的ODF文档进行分块切分处理,以此全面逐一地获得所有XML文档,并对每个XML文档进行解析处理和样式分析,从而得到相应的文档属性数据;接着基于该文档属性数据转换得到与ODF文档对应的UOF文档;最后标定该UOF文档存在的文档内容错误数据并进行备份,以及对该UOF文档进行打包压缩处理,这样能够全面地针对所有XML文档进行逐一转换,从而避免发生遗漏转换或者重复转换的情况以及提高UOF文档的转换可靠性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的对UOF文档进行分块转换的方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的对UOF文档进行分块转换的方法的流程示意图。该对UOF文档进行分块转换的方法包括如下步骤:
步骤S1,对ODF文档进行解压处理,从而得到相应的解压ODF文档;对该解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;再对该XML文档进行解析处理,从而得到相应的文档解析输出结果;
步骤S2,对该文档解析输出结果进行文档内容纠错后,对该文档解析输出结果进行样式分析,从而得到关于该ODF文档的文档属性数据;再对该文档属性数据依次进行区分预处理和转换处理,从而得到与该ODF文档对应的UOF文档;
步骤S3,对该UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据;将该文档内容错误数据上传至用户端进行备份后,对该UOF文档进行打包压缩处理。
上述技术方案的有益效果为:该对UOF文档进行分块转换的方法能够对解压后的ODF文档进行分块切分处理,以此全面逐一地获得所有XML文档,并对每个XML文档进行解析处理和样式分析,从而得到相应的文档属性数据;接着基于该文档属性数据转换得到与ODF文档对应的UOF文档;最后标定该UOF文档存在的文档内容错误数据并进行备份,以及对该UOF文档进行打包压缩处理,这样能够全面地针对所有XML文档进行逐一转换,从而避免发生遗漏转换或者重复转换的情况以及提高UOF文档的转换可靠性。
优选地,在该步骤S1中,对ODF文档进行解压处理,从而得到相应的解压ODF文档具体包括:
基于开源代码Zip Utils设计形成文档解压缩模块,并将该文档解压模块上传至计算机终端中运行驱动,从而使该文档解压缩模块对该ODF文档进行解压处理,以此得到相应的解压ODF文档。
上述技术方案的有益效果为:基于开源代码Zip Utils设计形成文档解压缩模块,能够使得该文档解压缩模块对所有ODF文档具有解压缩普适性,该文解压缩模块可为但不限于是解压缩应用软件,该文档解压缩模块还能根据实际需要来对开源代码Zip Utils进行编辑而提高文档解压缩模块的解压缩保真性。
优选地,在该步骤S1中,对该解压ODF文档进行分块切分,以此获得其中包含的若干XML文档具体包括:
对该解压ODF文档进行扫描,以此确定该解压ODF文档包含的所有XML文档各自的文档起止数据部分;
根据该XML文档各自的文档起止数据部分,对该解压ODF文档进行分块切分,从而获得该解压ODF文档包含的所有XML文档。
上述技术方案的有益效果为:该解压ODF文档包含多个XML文档,这些XML文档相互之间在文档内容上通常是紧密连接的,若直接对该解压ODF文档进行整体统一解析,很容易导致解析结果出现紊乱。而通过对该解压ODF文档进行扫描,以此确定每个XM了文档各自的文档起止数据部分,其中该文档起止数据部分可为但不限于是文档的页眉和结束语段等。随后根据该文档起止数据部分,对该解压ODF文档进行分块切分,这样能够保证切分后的每个XML文档相互之间不存在文档内容的串扰。
优选地,在该步骤S1中,对该XML文档进行解析处理,从而得到相应的文档解析输出结果具体包括:
基于开源项目Xerces C++设计形成SAX解析模块,并将该SAX解析模块上传至计算机终端中运行驱动,从而使该SAX解析模块对所有XML文档分别进行解析处理,从而得到相应的文档解析输出结果;其中
该SAX解析模块对所有XML文档分别进行解析处理具体为:
该SAX解析模块分别对每个XML文档进行逐行扫描和解析处理,从而得到相应的XML文档解析结果和文档静态表,以此作为该文档解析输出结果。
上述技术方案的有益效果为:基于开源项目Xerces C++设计形成SAX解析模块,其能够对XML文档进行全面的逐行解析,从而有效避免解析遗漏的情况发生,好SAX解析模块可为但不限于是解析应用软件。此外,SAX(simple API for XML)是一种功能XML解析的替代方法,其是对文档进行逐行扫描,其能够一边对文档进行扫描一边解析,这能够保证对文档进行全面无遗漏的扫描,同时也能够提高文档解析的速度。
优选地,在该步骤S2中,对该文档解析输出结果进行文档内容纠错具体包括:
对该文档解析输出结果进行文档文字错误和/或语句语法的检查,以此确定该文档解析输出结果包含的错误文字和/或存在语法错误的语句;再对该错误文字和/或存在语法错误的语句进行纠错改正。
上述技术方案的有益效果为:该文档解析输出结果通常在文档内容上会存在文档文字错误(比如拼写错误)和/或语句语法错误等情况,若直接将该文档解析输出结果进行样式分析,会影响样式分析的准确性,比如影响样式分析中段落属性数据或者文字属性数据的分析准确性。而通过对该文档解析输出结果进行错误文字和/或存在语法错误的语句的纠错改正,能够确保该文档解析输出结果的文档内容正确性。
优选地,在该步骤S2中,对该文档解析结果进行样式分析,从而得到关于该ODF文档的文档属性数据具体包括:
对纠错后的该文档解析输出结果进行样式分析,从而得到该ODF文档包含的段落属性数据、文字属性数据、大纲属性数据、表格属性数据和图像属性数据。
上述技术方案的有益效果为:文档内部通常包括段落、文字、大纲、表格和图像等不同类型的文档样式内容,这些文档样式内容都具有自身的特点,通过对该文档解析输出进行样式分析能够有针对性地将每种文档样式的属性内容分别提取出来。
优选地,在该步骤S2中,对该文档属性数据依次进行区分预处理和转换处理,从而得到与该ODF文档对应的UOF文档具体包括:
首先,定义getID函数对该段落属性数据、该文字属性数据、该大纲属性数据、该表格属性数据和该图像属性数据进行处理,从而生成该段落属性数据、该文字属性数据、该表格属性数据和该图像属性数据各自对应的属性编号值;
再将该ODF文档包含的meta.xml文档、styles.xml文档、content.xml文档、uof.xml文档和rules.xml文档中段落属性数据、文字属性数据、大纲属性数据对应的属性编号值进行存储,从而作为该文档样式属性数据和文档分节属性数据;
最后,对该文档样式属性数据和该文档分节属性数据进行主转换处理和后继转换处理,从而得到与该ODF文档对应的UOF文档。
上述技术方案的有益效果为:通过定义合适的getID函数来定义每种属性数据设定相应的属性编号值,这样能够保证每种属性数据的编号值唯一性和便于后续对每种属性数据进行合适的处理。
此外,该ODF文档通常包括meta.xml文档、styles.xml文档、content.xml文档、uof.xml文档和rules.xml文档这几种不同类型的文档,这些文档各自的属性数据并不相同,按照这些属性数据各自的属性编号值进行分类存储,从而便于后续快速和准确地读取相应的属性数据进行转换处理。
优选地,该主转换处理包括定义分别关于MetaTranslator、StylesTranslator、ContentTranslator的三种转换方式;并利用上述三种转换方式对该文档样式属性数据和该文档分节属性数据进行转换处理,从而将该ODF文档包含的meta.xml文档、styles.xml文档和content.xml文档进行转换处理;
该后继转换处理包括对该uof.xml文档和该rules.xml文档进行转换处理;
最后,将对该meta.xml文档、该styles.xml文档和该content.xml文档进行主转换处理的结果,以及对该uof.xml文档和该rules.xml文档进行后继转换处理的结果进行压缩,从而得到与该ODF文档对应的UOF文档。
上述技术方案的有益效果为:通过上述主转换处理对应的三种转换方式能够从文字、格式和内容这三方面进行转换,从而便于对文档进行全面的分析。而通过上述后继转换处理,能够对文档的其他类型文档数据进行转换,从而提高对文档的转换有效性。
优选地,在该步骤S3中,对该UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据具体包括:
检查该UOF文档中是否存在文档乱码或者文档缺失,若存在,则对存在文档乱码或者文档缺失对应得到文档区域形成批注,从而标定该UOF文档中存在的文档乱码部分或者文档缺失部分;
其中,检查该UOF文档中是否存在文档乱码或者文档缺失具体包括:
判断该UOF文档中的每一个汉字/数字/英文以及标点符号是否为同一种编码形式,该UOF文档中的每一个汉字/数字/英文以及标点符号在相同的编码下会存在一个字节数,而在该ODF文档在解压的过程中还会解压出一个原文档的字节范围,通过判断该ODF文档中每一个汉字/数字/英文以及标点符号的字节数是否满足该原文档的字节范围,进而对其进行相应的框选标注,其具体过程为:
步骤S1,利用下面公式(1),判断该UOF文档中的每一个汉字/数字/英文/标点符号所对应的字节编码是否一致,
Figure BDA0003367948470000121
在上述公式(1)中,μ表示该UOF文档中字节编码是否一致的判定值;(Di+1)B表示该UOF文档中的第i+1个汉字/数字/英文/标点符号所对应的字节编码数,该字节编码数表示将字节编码种类进行排列,得到每个编码种类的排列号,该排列号即为该字节编码数;(Di)B表示该UOF文档中的第i个汉字/数字/英文/标点符号所对应的字节编码数;n表示该UOF文档中的汉字/数字/英文/标点符号的总个数;||表示求取绝对值运算;
当μ=0,表示该UOF文档中所有字节的编码是一致的,此时对该UOF文档中的所有汉字/数字/英文/标点符号继续进行下面步骤S2;
当μ≠0,表示该UOF文档中所有字节的编码是不一致的,此时确定出该UOF文档中使用最多的编码类型,然后对该UOF文档中不属于最多编码类型的汉字/数字/英文/标点符号进行矩形框选;并对最多编码类型的汉字/数字/英文/标点符号继续进行下面步骤S2;
步骤S2,利用下面公式(2),根据该原文档的字节范围判断该UOF文档中的每一个汉字/数字/英文/标点符号的字节数是否在该原文档的字节范围内,
Fa=[H-(Da)J]×[(Da)J-L] (2)
在上述公式(2)中,Fa表示通过步骤A1进行筛选后的该UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数是否在该原文档的字节范围内的判定值;[L,H]表示该ODF文档在解压的过程中解压出的原文档的字节范围,L表示字节范围中的字节数最小值,H表示字节范围中的字节数最大值;
当Fa≥0,表示该UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数在该原文档的字节范围内;
当Fa<0,表示该UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数不在该原文档的字节范围内,此时对该UOF文档中第a个汉字/数字/英文/标点符号进行矩形框选;
步骤S3,利用下面公式(3),根据上述步骤S1和S2中对该UOF文档中汉字/数字/英文/标点符号进行矩形框选的框选个数来对该框选的区域进行颜色突出显示,
Figure BDA0003367948470000131
在上述公式(3)中,G表示该UOF文档框选的区域颜色突出显示的亮度值;Gmin表示该颜色突出显示的最小亮度值,即肉眼可观察到的颜色最小亮度值;Gmax表示该颜色突出显示的最大亮度值,即显示设备可显示的最大亮度值;Se表示该UOF文档中的第e个框选区域内汉字/数字/英文/标点符号的个数;U表示该UOF文档中的被框选的区域个数;
当亮度值G大于或者等于预设亮度阈值,则确定该UOF文档中存在文档乱码或者文档缺失,否则,确定该UOF文档中不存在文档乱码或者文档缺失。
上述技术方案的有益效果为:当转换得到UOF文档后还需要对该UOF文档进行文档内容检查,以此确定该UOF文档是否存在乱码或者缺失空白的情况,并且还能够对存在乱码或者缺失空白情况的文档区域进行批注,从而提高UOF文档浏览的直观性。
利用上述公式(1)判断UOF文档中的每一个汉字/数字/英文/标点符号所对应的字节编码是否一致,进而得到在UOF文档中编码不一致的地方,并对编码不一致的区域进行框选,从而将文档在处理的过程中出现的编码不一致的问题进行精准的找出;再利用上述公式(2)根据原文档的字节范围判断所述UOF文档中的每一个汉字/数字/英文/标点符号的字节数是否在范围内,从而可以快速的对文档进行筛选找到乱码的地方进行快速框选标注;最后利用上述公式(3)根据上述步骤S1和步骤S2对UOF文档中汉字/数字/英文/标点符号进行矩形框选的框选个数来对所述框选的区域进行颜色突出显示,从而根据框选的区域内颜色突出显示的情况来知晓当前文档的内容错误程度,并且在浏览大量UOF文档时,可以通过看一下颜色突出显示情况大量的高效的快速的知晓每一个文档的内容错误程度,进而提高工作效率。
优选地,在该步骤S3中,将该文档内容错误数据上传至用户端进行备份后,对该UOF文档进行打包压缩处理具体包括:
将该UOF文档中存在的文档乱码部分或者文档缺失部分对应的批注数据上传至用户端进行备份;再对该UOF文档进行打包压缩处理,以及将该批注数据作为打包压缩后的UOF文档的备注信息。
上述技术方案的有益效果为:将该UOF文档中存在的文档乱码部分或者文档缺失部分对应的批注数据进行备份以及将该批注数据作为打包压缩后的UOF文档的备注信息,这样当用户查阅UOF文档时在不需要对UOF文档进行解压的情况也能直接查看到其中的文档内容错误数据。
从上述实施例的内容可知,该对UOF文档进行分块转换的方法能够对解压后的ODF文档进行分块切分处理,以此全面逐一地获得所有XML文档,并对每个XML文档进行解析处理和样式分析,从而得到相应的文档属性数据;接着基于该文档属性数据转换得到与ODF文档对应的UOF文档;最后标定该UOF文档存在的文档内容错误数据并进行备份,以及对该UOF文档进行打包压缩处理,这样能够全面地针对所有XML文档进行逐一转换,从而避免发生遗漏转换或者重复转换的情况以及提高UOF文档的转换可靠性
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.对UOF文档进行分块转换的方法,其特征在于,其包括如下步骤:
步骤S1,对ODF文档进行解压处理,从而得到相应的解压ODF文档;对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档;再对所述XML文档进行解析处理,从而得到相应的文档解析输出结果;
步骤S2,对所述文档解析输出结果进行文档内容纠错后,对所述文档解析输出结果进行样式分析,从而得到关于所述ODF文档的文档属性数据;再对所述文档属性数据依次进行区分预处理和转换处理,从而得到与所述ODF文档对应的UOF文档;
步骤S3,对所述UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据;将所述文档内容错误数据上传至用户端进行备份后,对所述UOF文档进行打包压缩处理。
2.如权利要求1所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S1中,对ODF文档进行解压处理,从而得到相应的解压ODF文档具体包括:
基于开源代码Zip Utils设计形成文档解压缩模块,并将所述文档解压模块上传至计算机终端中运行驱动,从而使所述文档解压缩模块对所述ODF文档进行解压处理,以此得到相应的解压ODF文档。
3.如权利要求2所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S1中,对所述解压ODF文档进行分块切分,以此获得其中包含的若干XML文档具体包括:
对所述解压ODF文档进行扫描,以此确定所述解压ODF文档包含的所有XML文档各自的文档起止数据部分;
根据所述XML文档各自的文档起止数据部分,对所述解压ODF文档进行分块切分,从而获得所述解压ODF文档包含的所有XML文档。
4.如权利要求3所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S1中,对所述XML文档进行解析处理,从而得到相应的文档解析输出结果具体包括:
基于开源项目Xerces C++设计形成SAX解析模块,并将所述SAX解析模块上传至计算机终端中运行驱动,从而使所述SAX解析模块对所有XML文档分别进行解析处理,从而得到相应的文档解析输出结果;
其中
所述SAX解析模块对所有XML文档分别进行解析处理具体为:
所述SAX解析模块分别对每个XML文档进行逐行扫描和解析处理,从而得到相应的XML文档解析结果和文档静态表,以此作为所述文档解析输出结果。
5.如权利要求1所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S2中,对所述文档解析输出结果进行文档内容纠错具体包括:
对所述文档解析输出结果进行文档文字错误和/或语句语法的检查,以此确定所述文档解析输出结果包含的错误文字和/或存在语法错误的语句;再对所述错误文字和/或存在语法错误的语句进行纠错改正。
6.如权利要求5所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S2中,对所述文档解析结果进行样式分析,从而得到关于所述ODF文档的文档属性数据具体包括:
对纠错后的所述文档解析输出结果进行样式分析,从而得到所述ODF文档包含的段落属性数据、文字属性数据、大纲属性数据、表格属性数据和图像属性数据。
7.如权利要求6所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S2中,对所述文档属性数据依次进行区分预处理和转换处理,从而得到与所述ODF文档对应的UOF文档具体包括:
首先,定义getID函数对所述段落属性数据、所述文字属性数据、所述大纲属性数据、所述表格属性数据和所述图像属性数据进行处理,从而生成所述段落属性数据、所述文字属性数据、所述表格属性数据和所述图像属性数据各自对应的属性编号值;
再将所述ODF文档包含的meta.xml文档、styles.xml文档、content.xml文档、uof.xml文档和rules.xml文档中段落属性数据、文字属性数据、大纲属性数据对应的属性编号值进行存储,从而作为所述文档样式属性数据和文档分节属性数据;
最后,对所述文档样式属性数据和所述文档分节属性数据进行主转换处理和后继转换处理,从而得到与所述ODF文档对应的UOF文档。
8.如权利要求7所述的对UOF文档进行分块转换的方法,其特征在于:
所述主转换处理包括定义分别关于MetaTranslator、StylesTranslator、ContentTranslator的三种转换方式;并利用上述三种转换方式对所述文档样式属性数据和所述文档分节属性数据进行转换处理,从而将所述ODF文档包含的meta.xml文档、styles.xml文档和content.xml文档进行转换处理;
所述后继转换处理包括对所述uof.xml文档和所述rules.xml文档进行转换处理;
最后,将对所述meta.xml文档、所述styles.xml文档和所述content.xml文档进行主转换处理的结果,以及对所述uof.xml文档和所述rules.xml文档进行后继转换处理的结果进行压缩,从而得到与所述ODF文档对应的UOF文档。
9.如权利要求1所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S3中,对所述UOF文档进行文档内容检查与批注处理,以此标定其中存在的文档内容错误数据具体包括:
检查所述UOF文档中是否存在文档乱码或者文档缺失,若存在,则对存在文档乱码或者文档缺失对应得到文档区域形成批注,从而标定所述UOF文档中存在的文档乱码部分或者文档缺失部分;
其中,检查所述UOF文档中是否存在文档乱码或者文档缺失具体包括:判断所述UOF文档中的每一个汉字/数字/英文以及标点符号是否为同一种编码形式,所述UOF文档中的每一个汉字/数字/英文以及标点符号在相同的编码下会存在一个字节数,而在所述ODF文档在解压的过程中还会解压出一个原文档的字节范围,通过判断所述ODF文档中每一个汉字/数字/英文以及标点符号的字节数是否满足所述原文档的字节范围,进而对其进行相应的框选标注,其具体过程为:
步骤S1,利用下面公式(1),判断所述UOF文档中的每一个汉字/数字/英文/标点符号所对应的字节编码是否一致,
Figure FDA0003367948460000041
在上述公式(1)中,μ表示所述UOF文档中字节编码是否一致的判定值;(Di+1)B表示所述UOF文档中的第i+1个汉字/数字/英文/标点符号所对应的字节编码数,所述字节编码数表示将字节编码种类进行排列,得到每个编码种类的排列号,所述排列号即为所述字节编码数;(Di)B表示所述UOF文档中的第i个汉字/数字/英文/标点符号所对应的字节编码数;n表示所述UOF文档中的汉字/数字/英文/标点符号的总个数;||表示求取绝对值运算;
当μ=0,表示所述UOF文档中所有字节的编码是一致的,此时对所述UOF文档中的所有汉字/数字/英文/标点符号继续进行下面步骤S2;
当μ≠0,表示所述UOF文档中所有字节的编码是不一致的,此时确定出所述UOF文档中使用最多的编码类型,然后对所述UOF文档中不属于最多编码类型的汉字/数字/英文/标点符号进行矩形框选;并对最多编码类型的汉字/数字/英文/标点符号继续进行下面步骤S2;
步骤S2,利用下面公式(2),根据所述原文档的字节范围判断所述UOF文档中的每一个汉字/数字/英文/标点符号的字节数是否在所述原文档的字节范围内,
Fa=[H-(Da)J]×[(Da)J-L] (2)
在上述公式(2)中,Fa表示通过步骤A1进行筛选后的所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数是否在所述原文档的字节范围内的判定值;[L,H]表示所述ODF文档在解压的过程中解压出的原文档的字节范围,L表示字节范围中的字节数最小值,H表示字节范围中的字节数最大值;
当Fa≥0,表示所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数在所述原文档的字节范围内;
当Fa<0,表示所述UOF文档中第a个汉字/数字/英文/标点符号所对应的字节数不在所述原文档的字节范围内,此时对所述UOF文档中第a个汉字/数字/英文/标点符号进行矩形框选;
步骤S3,利用下面公式(3),根据上述步骤S1和S2中对所述UOF文档中汉字/数字/英文/标点符号进行矩形框选的框选个数来对所述框选的区域进行颜色突出显示,
Figure FDA0003367948460000051
在上述公式(3)中,G表示所述UOF文档框选的区域颜色突出显示的亮度值;Gmin表示所述颜色突出显示的最小亮度值,即肉眼可观察到的颜色最小亮度值;Gmax表示所述颜色突出显示的最大亮度值,即显示设备可显示的最大亮度值;Se表示所述UOF文档中的第e个框选区域内汉字/数字/英文/标点符号的个数;U表示所述UOF文档中的被框选的区域个数;
当亮度值G大于或者等于预设亮度阈值,则确定所述UOF文档中存在文档乱码或者文档缺失,否则,确定所述UOF文档中不存在文档乱码或者文档缺失。
10.如权利要求9所述的对UOF文档进行分块转换的方法,其特征在于:
在所述步骤S3中,将所述文档内容错误数据上传至用户端进行备份后,对所述UOF文档进行打包压缩处理具体包括:
将所述UOF文档中存在的文档乱码部分或者文档缺失部分对应的批注数据上传至用户端进行备份;再对所述UOF文档进行打包压缩处理,以及将所述批注数据作为打包压缩后的UOF文档的备注信息。
CN202111388477.8A 2021-11-22 2021-11-22 对uof文档进行分块转换的方法 Active CN114218896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111388477.8A CN114218896B (zh) 2021-11-22 2021-11-22 对uof文档进行分块转换的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111388477.8A CN114218896B (zh) 2021-11-22 2021-11-22 对uof文档进行分块转换的方法

Publications (2)

Publication Number Publication Date
CN114218896A true CN114218896A (zh) 2022-03-22
CN114218896B CN114218896B (zh) 2022-09-02

Family

ID=80697765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111388477.8A Active CN114218896B (zh) 2021-11-22 2021-11-22 对uof文档进行分块转换的方法

Country Status (1)

Country Link
CN (1) CN114218896B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615174A (zh) * 2008-06-24 2009-12-30 北京信息科技大学 基于xml的不同格式文档的转换方法
CN101937426A (zh) * 2010-08-31 2011-01-05 北京红旗贰仟软件技术有限公司 一种不兼容数据的处理方法和装置
CN102289407A (zh) * 2011-09-06 2011-12-21 北京信息科技大学 文档格式转换自动测试方法及其装置
US20130179774A1 (en) * 2005-12-05 2013-07-11 Sursen Corp. Method and apparatus for processing document conforming to docbase standard
CN103412853A (zh) * 2013-08-05 2013-11-27 北京信息科技大学 一种针对文档转换器的测试用例自动生成方法
CN104881409A (zh) * 2014-02-27 2015-09-02 北京方捷软件有限公司 一种文档加载的方法及装置
CN110109838A (zh) * 2019-05-08 2019-08-09 北京信息科技大学 一种办公文档排版式样的测试方法及装置
CN111914305A (zh) * 2020-09-23 2020-11-10 江西金格科技股份有限公司 一种基于uof文档进行国密电子签章处理系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179774A1 (en) * 2005-12-05 2013-07-11 Sursen Corp. Method and apparatus for processing document conforming to docbase standard
CN101615174A (zh) * 2008-06-24 2009-12-30 北京信息科技大学 基于xml的不同格式文档的转换方法
CN101937426A (zh) * 2010-08-31 2011-01-05 北京红旗贰仟软件技术有限公司 一种不兼容数据的处理方法和装置
CN102289407A (zh) * 2011-09-06 2011-12-21 北京信息科技大学 文档格式转换自动测试方法及其装置
CN103412853A (zh) * 2013-08-05 2013-11-27 北京信息科技大学 一种针对文档转换器的测试用例自动生成方法
CN104881409A (zh) * 2014-02-27 2015-09-02 北京方捷软件有限公司 一种文档加载的方法及装置
CN110109838A (zh) * 2019-05-08 2019-08-09 北京信息科技大学 一种办公文档排版式样的测试方法及装置
CN111914305A (zh) * 2020-09-23 2020-11-10 江西金格科技股份有限公司 一种基于uof文档进行国密电子签章处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋超: "XML格式字处理文档的WEB发布系统的设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
李宁等: "标文通与OOXML演示文稿文档格式的比较与转换", 《北京信息科技大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN114218896B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
US6539116B2 (en) Information processing apparatus and method, and computer readable memory therefor
US6718519B1 (en) System and method for outputting character sets in best available fonts
US7433548B2 (en) Efficient processing of non-reflow content in a digital image
CN108595389B (zh) 一种将Word文档转换为txt纯文本文档的方法
US9471550B2 (en) Method and apparatus for document conversion with font metrics adjustment for format compatibility
US7106905B2 (en) Systems and methods for processing text-based electronic documents
US8413048B1 (en) Processing digital images including headers and footers into reflow content
US8023738B1 (en) Generating reflow files from digital images for rendering on various sized displays
US6813747B1 (en) System and method for output of multipart documents
CN109492199B (zh) 一种基于ocr预判断的pdf文件转换方法
CN110879937A (zh) 文档生成网页的方法、装置、计算机设备和存储介质
US20040202352A1 (en) Enhanced readability with flowed bitmaps
US7231600B2 (en) File translation
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
CN108389244B (zh) 一种根据指定字符规则渲染出flash富文本的实现方法
CN113408251A (zh) 版式文档的处理方法、装置、电子设备及可读存储介质
US9658989B2 (en) Apparatus and method for extracting and manipulating the reading order of text to prepare a display document for analysis
US6760887B1 (en) System and method for highlighting of multifont documents
CN113297425B (zh) 文档转换方法、装置、服务器及存储介质
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN114218896B (zh) 对uof文档进行分块转换的方法
US7031002B1 (en) System and method for using character set matching to enhance print quality
CN110765107B (zh) 基于数字化编码的题型识别方法及其系统
CN112965772A (zh) web页面显示方法、装置和电子设备
EP1959352A2 (en) System and method of report representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant