发明内容
本发明正是基于上述技术问题,提出了一种新的技术方案,通过本发明的技术方案,实现了WORD稿件的结构化,并且易用性强、可靠性高,便于后续将WORD稿件转换为XML标准文件。
有鉴于此,本发明的第一方面,提出了一种WORD稿件的结构化方法,包括:获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;对所述待结构化的WORD稿件的结构内容进行识别;根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该技术方案中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
其中,可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
在上述技术方案中,优选地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该技术方案中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
在上述技术方案中,优选地,所述根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件的步骤,包括:将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;对匹配完所述样式信息的所述结构内容标记内容标签;根据所述XML标签文件将所述内容标签转换为对应的XML节点标签;根据所述XML节点标签输出所述目标XML标准文件。
在该技术方案中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
其中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control Rich Text(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
在上述技术方案中,优选地,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
在该技术方案中,为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
在上述技术方案中,优选地,在所述获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件的步骤之前,还包括:根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该技术方案中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
根据本发明的另一方面,还提出了一种WORD稿件的结构化装置,包括:获取模块,用于获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;识别模块,用于对所述待结构化的WORD稿件的结构内容进行识别;处理模块,用于根据所述获取模块获取的所述样式模板文件和所述XML标签文件对所述识别模块识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该技术方案中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
其中,可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
在上述技术方案中,优选地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该技术方案中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
在上述技术方案中,优选地,所述处理模块包括:加载子模块,用于将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;标记子模块,用于对匹配完所述样式信息的所述结构内容标记内容标签;转换子模块,用于根据所述XML标签文件将所述标记子模块标记的所述内容标签转换为对应的XML节点标签;输出子模块,用于根据所述转换子模块转换得到的所述XML节点标签输出所述目标XML标准文件。
在该技术方案中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
其中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control Rich Text(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
在上述技术方案中,优选地,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
在该技术方案中,为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
在上述技术方案中,优选地,WORD稿件的结构化装置还包括:生成模块,用于在所述获取模块获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件之前,根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该技术方案中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
通过以上技术方案,利用样式处理和使用WORD内容控件实现了WORD稿件的结构化,并且易用性强、可靠性高,便于WORD稿件到XML文件的转换。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明的实施例的WORD稿件的结构化方法的流程示意图。
如图1所示,根据本发明的实施例的WORD稿件的结构化方法,具体包括以下流程步骤:
步骤102,获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件。
步骤104,对所述待结构化的WORD稿件的结构内容进行识别。
在该步骤中,具体可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
步骤106,根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该实施例中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
进一步地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该实施例中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
进一步地,如图2所示,在上述实施例中,步骤106可以具体执行为:
步骤1062,将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配。
步骤1064,对匹配完所述样式信息的所述结构内容标记内容标签。
在该步骤中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control RichText(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
步骤1066,根据所述XML标签文件将所述内容标签转换为对应的XML节点标签。
步骤1068,根据所述XML节点标签输出所述目标XML标准文件。
在该实施例中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
进一步地,在上述任一实施例中,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
进一步地,在上述任一实施例中,根据本发明的实施例的WORD稿件的结构化方法,在步骤102之前还包括如下步骤:
根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该实施例中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
图3示出了本发明的实施例的WORD稿件的结构化装置的示意框图。
如图3所示,根据本发明的实施例的WORD稿件的结构化装置300,具体包括:获取模块302、识别模块304和处理模块306。
其中,所述获取模块302用于获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;所述识别模块304用于对所述待结构化的WORD稿件的结构内容进行识别;所述处理模块306用于根据所述获取模块302获取的所述样式模板文件和所述XML标签文件对所述识别模块304识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该实施例中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
其中,可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
进一步地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该实施例中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
进一步地,在上述实施例中,所述处理模块306包括:加载子模块3062、标记子模块3064、转换子模块3066和输出子模块3068。
其中,所述加载子模块3062用于将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;所述标记子模块3064用于对匹配完所述样式信息的所述结构内容标记内容标签;所述转换子模块3066用于根据所述XML标签文件将所述标记子模块3064标记的所述内容标签转换为对应的XML节点标签;所述输出子模块3068用于根据所述转换子模块3066转换得到的所述XML节点标签输出所述目标XML标准文件。
在该实施例中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
其中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control Rich Text(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
进一步地,在上述任一实施例中,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
在该实施例中,为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
进一步地,根据本发明的实施例的WORD稿件的结构化装置300还包括:生成模块308,用于在所述获取模块302获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件之前,根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该实施例中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
下面结合图4和图5对本发明的实施例的WORD稿件的结构化方案进行详细说明。
当需要将WORD稿件转换为符合用户预期标准的XML文件(即XML标准文件),而在转换之前,需要将平层的WORD稿件标记成具有层次结构的稿件,即对稿件进行结构化,具体是将WORD稿件利用样式和内容控件进行结构化,主要包括以下内容:
(1)根据XML标准文件的输出标准制定XML标签文件和对应的样式模板文件。
在该步骤中,具体根据XML标准文件的schema(架构或模式,一份XML schema文件描述了可扩展标记语言文档的结构)定义易于理解的XML标签文件,并记录标签之间的对应关系,方便后续XML节点的直接输出。
另外,样式模板文件中以XML标签命名定义了样式(即样式信息),而XML标签的继承关系(或层次关系)可以用样式的基准样式进行层次表达;具体地,样式模板文件也是一个word模板(.dot)文件,而样式类型包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别,其主要目的是将预先定义好的样式拷贝到待结构化的WORD稿件中,方便后续稿件结构化时使用。
进一步地,XML标签文件中记录XML显式标签名(易于理解的中文标签名)、XML隐式标签名(即XML节点标签名称)、样式类型和XML节点属性信息,而样式模板文件中也记录了显示标签名;具体地,如图4所示,为一个XML标签文件的示例,其中:标签名(比如“中图分类号”)是显示标签;class属性的内容是隐式标签,即作为XML输出时的XML节点标签名称;styleType=“parachar style”代表可以是一个段落内容也可以是一个字符内容;“att_”开头的属性都是在XML输出时XML节点的属性(例如att_subj-group-type=“clc”),此XML标签文件对应输出的XML标准文件如图5所示。
(2)对待结构化的WORD稿件应用样式模板文件作为模板文件,以将预先定义好的样式拷贝到WORD稿件中,方便后续在对WORD稿件进行结构化识别时使用。
(3)利用正则表达式、样式匹配、人工智能、特征相似度等算法识别出待结构化的WORD稿件中的结构内容,进而可以对识别出的结构内容应用预先定义好的样式,即用样式在稿件中进行标识、记录,以建立样式与结构内容之间的对应关系。
(4)利用WORD自身的查找功能,在待结构化的WORD稿件全文查找定义的样式,并打上ContentControl(内容控制)标签(即内容标签),ContentControl标签显示的是易于理解的中文名称,具体可以利用WORD自身的ContentControl控件(即内容控件)将样式标引的内容打上标签,以便于查看结果,其中,ContentControl控件的tag属性显示显式标签名,title属性记录输出的XML节点属性信息,即ContentControl标签记录了XML显式标签名和XML节点属性信息。
(5)根据上述(1)中定义的XML标签文件,将上述(4)中在待结构化的WORD稿件中标记出的ContentControl标签转换为对应的XML标签,即将易于理解的中文名称转换为需要输出的XML节点标签名称,在XML输出时,直接读取WORD稿件中的ContentControl标签,并依据其tag和title的属性值转换成对应的XML信息。
综上,通过本发明的上述实施例,利用本发明Word稿件的结构化方案,可以在WORD中方便、快速地对稿件进行结构化,特别是为WORD转XML格式文件的输出提供了一种简单、快捷的方法。
以上结合附图详细说明了本发明的技术方案,WORD稿件到XML文件的转换过程中的最重要的WORD稿件的结构化问题,通过以上技术方案,利用样式处理和使用WORD内容控件得以解决,并且易用性强、可靠性高,便于后续WORD稿件到XML文件的转换。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。