CN103885972B

CN103885972B - 一种文档内容结构化的方法及装置

Info

Publication number: CN103885972B
Application number: CN201210560708.3A
Authority: CN
Inventors: 孙明明
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2017-02-08
Anticipated expiration: 2032-12-20
Also published as: US20140181640A1; CN103885972A

Abstract

本申请提供了一种文档内容结构化的方法及装置，所述方法包括：基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则；基于所述第一文档中的已结构化的第一内容的第一标签结构树，获得与所述第一内容对应的第一标签列表；从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，其中，所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容；判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签；基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树。

Description

一种文档内容结构化的方法及装置

技术领域

本发明涉及印刷领域，尤其涉及一种文档内容结构化的方法及装置。

背景技术

出版社收到大量来稿，需要将大量的来稿制作成图书或者期刊等印制品时，需要投入大量的精力来整理来稿内容结构，对于文档中不连续的内容，例如，试题和答案的分离时，试卷中的答案部分为相对于该试卷的不连续内容，概况内容与具体内容的分离时，具体内容为相对于整个内容文档扥不连续内容，在对这些文档内容整理时，需要将这些分离的答案对应试题的结构化，以及具体信息对应于具体信息的结构化，其中，这些需要结构化的部分有很相似之处，也具有一定的规律性。

现有技术中针对文档中的不连续内容的结构化，只能采用人工结构化的方式。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

由于文档中的不连续内容有很多相似之处，而人工结构化需要对不连续内容结构化时会进行很多重复性的劳动，存在结构化效率低，错误率高，以及结构化率低的技术问题。

发明内容

本申请实施例通过提供一种文档内容结构化的方法及装置，用于解决现有技术中存在结构化效率低，错误率高的技术问题。

一方面，本申请实施例提供了一种文档内容结构化的方法，所述方法包括：基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则；

基于所述第一文档中的已结构化的第一内容的第一标签结构树，获得与所述第一内容对应的第一标签列表；

从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，其中，所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容，M为大于等于1的正整数；

判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签；

基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树。

优选地，所述基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则，具体包括：

获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件；

基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件，从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本，以及从所述第一内容中获得与所述M个文本对应的多个匹配节点，其中，所述匹配节点的个数大于M个；

从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点，以生成第二结构化规则；

基于所述多个匹配节点及所述第二结构化规则，组成所述第一实例化规则。

优选地，所述第一结构化规则，具体为：格式匹配方式规则；和/或

样式匹配方式规则；和/或

大纲级别匹配方式规则；和/或

自定义通配符匹配方式规则。

优选地，所述从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，具体包括：

遍历所述第一标签列表；

基于第一标签列表，在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。

优选地，所述基于第一标签列表，在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本之后，所述方法还包括：

将与所述第一实例化规则匹配的所述M个文本存入堆栈中；

将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。

优选地，所述基于所述N个标签，将所述N个标签对应的N个文本结构化，具体包括：

获得所述N个文本中满足一预设规律的K个文本，基于与所述K个文本对应的K个标签，将所述K个文本自动结构化；

在检测到用户的辅助操作时，响应所述辅助操作，选择不满足所述预设规律的（N-K）个文本对应的第一标签列表中的（N-K）个父标签，以对所述（N-K）个文本辅助结构化。

优选地，所述获得所述N个文本中满足一预设规律的K个文本，基于与所述K个文本对应的K个标签，将所述K个文本自动结构化，具体包括：

将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表；

在所述第一标签列表中生成与所述K个文本对应的K个子标签，以将所述K个标签对应的K个文本自动结构化。

优选地，在所述基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树之后，所述方法还包括：

验证所述第二标签结构树是否正确，获得一验证结果；

当所述验证结果表明所述第二标签结构树正确时，显示所述第二标签结构树。

另一方面，本申请实施例提供了一种装置，所述装置包括：

生成模块，用于基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则；

第一获得模块，用于基于所述第一文档中的已结构化的第一内容的第一标签结构树，获得与所述第一内容对应的第一标签列表；

第二获得模块，用于从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，其中，所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容，M为大于等于1的正整数；

第三获得模块，用于判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签；

结构化模块，用于基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树。

优选地，所述生成模块，具体包括：

获取子模块，用于获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件；

第一获得子模块，用于基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件，从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本，以及从所述第一内容中获得与所述M个文本对应的多个匹配节点，其中，所述匹配节点的个数大于M个；

第二获得子模块，用于从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点，以生成第二结构化规则；

组成子模块，用于基于所述多个匹配节点及所述第二结构化规则，组成所述第一实例化规则。

优选地，所述第二获得模块，具体包括：

遍历子模块，用于遍历所述第一标签列表；

定位子模块，用于基于第一标签列表，在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。

优选地，所述第二获得模块，还包括：

存入子模块，用于将与所述第一实例化规则匹配的所述M个文本存入堆栈中；

设置子模块，用于将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。

优选地，所述结构化模块，具体包括：

自动结构化子模块，用于获得所述N个文本中满足一预设规律的K个文本，基于与所述K个文本对应的K个标签，将所述K个文本自动结构化；

辅助结构化子模块，用于在检测到用户的辅助操作时，响应所述辅助操作，选择不满足所述预设规律的（N-K）个文本对应的第一标签列表中的（N-K）个父标签，以对所述（N-K）个文本辅助结构化。

优选地，所述自动结构化子模块，具体包括：

添加单元，用于将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表；

生成单元，用于在所述第一标签列表中生成与所述K个文本对应的K个子标签，以将所述K个标签对应的K个文本自动结构化。

优选地，所述装置还包括：

验证模块，用于验证所述第二标签结构树是否正确，获得一验证结果；

显示模块，用于当所述验证结果表明所述第二标签结构树正确时，显示所述第二标签结构树。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于采用了在不连续内容中获得与实例化规则匹配的文本，并基于该文本的标签将该文本结构化的技术手段，所以，有效解决了现有技术中对不连续内容的结构化效率低，错误率高的技术问题，进而实现了在不改变文档内容结构的基础上，快速完成对不连续内容的结构化的技术效果，所以，提高不连续内容的结构化效率，降低结构化错误率。

2、由于采用基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则的技术手段，生成的第一实例化规则可以匹配基于开发人员确定的结构化规则不能匹配的文本，所以，有效解决了现有技术中对不连续内容的结构化率低的技术问题，进而，实现提高了不连续内容的匹配率的技术效果。

附图说明

图1为本申请实施例中文档内容结构化的方法的流程图；

图2为本申请实施例中文档内容结构化的方法步骤S101细化流程图；

图3为本申请实施例中文档内容结构化的方法步骤S103细化流程图；

图4为本申请实施例中试卷内容结构化的方法框图；

图5为本申请实施例中试卷内容结构化的优选实现方法流程图；

图6为本申请实施例中装置的模块图。

具体实施方式

本申请实施例通过提供一种文档内容结构化的方法及装置，解决了现有技术中对不连续内容的结构化效率低，错误率高的技术问题。

本申请实施例中的技术方案为解决上述不连续内容的结构化效率低，错误率高的问题，总体思路如下：

基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则；基于所述第一文档中的已结构化的第一内容的第一标签结构树，获得与所述第一内容对应的第一标签列表；从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，其中，所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容，M为大于等于1的正整数；判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签；基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树。

在不连续内容中获得与实例化规则匹配的文本，所以减少了人工在查找需要结构化的文本时出错的问题，然后，获得与实例化匹配的文本对应的标签，对需要结构化的进行内容结构化，所以，这种非人工化的结构化方法提高了结构化的效率，以及降低了错误率。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本申请一实施例提供了一种文档内容结构化的方法，参考图1，所述方法包括如下步骤：

步骤S101：基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则；

在具体实施过程中，第一文档为schema实例文档，第一schema文件以及XML文件为内嵌于所述第一文档中的文件中，其中，xml文件通常由开发人员开发的文件，在具体实施过程中，可以直接采用开发人员开发的xml文件对应的结构化规则，也可以生成新的实例化规则。

具体的，在一具体实施例中，为了不连续内容与第一内容中的节点匹配率更好，会生成新的实例化规则，具体步骤参考图2，即：图2为本申请实施例中文档内容结构化的方法步骤S101细化流程图。

S201：获取所述样式为预设样式的第一schema文件以及所述一规则为结构化规则的第一XML文件；

S202：基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件，从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本，以及从所述第一内容中获得与所述M个文本对应的多个匹配节点，其中，所述匹配节点的个数大于M个；

具体的，第一结构化规则为：格式匹配方式规则；和/或样式匹配方式规则；和/或大纲级别匹配方式规则；和/或自定义通配符匹配方式规则。

S203：从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点，以生成第二结构化规则；

具体的，第二结构化规则也可以为：格式匹配方式规则，样式匹配方式规则，大纲级别匹配方式规则，自定义通配符匹配方式规则中的一种或多中。

S204：基于所述多个匹配节点及所述第二结构化规则，组成所述第一实例化规则。

具体的，在本具体实施例中，会基于文档中的XML文件的结构化规则对第一内容中与所述M个文本对应匹配不成功的节点设置第二结构化规则，然后基于匹配成功的节点以及第二结构化规则生成第一实例化规则，以提高不连续内容与第一内容中的节点的的匹配率，例如，XML文件的结构化规则为样式匹配方式，基于该匹配方式只能获得少数匹配节点，然后就会基于匹配不成功的节点生成一个结构化规则，例如：匹配不成功的节点的匹配方式为通配符匹配方式，就将通配符方式设置为第二结构化规则，所以就可以同时基于通配符匹配方式以及样式匹配方式两种匹配方式结合成第一实例化规则。

在具体实施过程中，还可以对形成的第一实例化规则进行进一步的设置，形成满足用户需求的结构化规则。

执行步骤S102，即：基于所述第一文档中的已结构化的第一内容的第一标签结构树，获得与所述第一内容对应的第一标签列表；

在具体实施过程中，执行步骤S101与S102的顺序不分先后，所以本申请不对步骤S101以及S102的执行顺序构成限制。

具体的，本申请不限制第一文档的内容，例如，第一文档可以为一试卷文档，则第一内容为已经结构化的试题部分，不连续内容为答案部分。

执行完步骤S102或者S101之后，执行步骤S103，即：从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，其中，所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容，M为大于等于1的正整数；

在一具体实施例中，从不连续内容中获得与第一实例化规则匹配的M个文本的方法参考图3，图3为本申请实施例中文档内容结构化的方法步骤S103细化流程图，包括如下步骤：

S301：遍历所述第一标签列表；

S302：基于第一标签列表，在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本

S303：将与所述第一实例化规则匹配的所述M个文本存入堆栈中；

S304：将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。

具体来讲，遍历所述第一标签列表，就是对应整个第一文档的标签列表的每一个标签，在不连续内容中找到与该标签对应的文本。

然后将找到的文本依次以堆栈的方式存储，并将与该标签对应的文本设置成该与文本匹配成功的节点的样式。

执行完步骤S103之后，执行步骤S104，即：判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签；

在一具体实施例中，步骤S104具体可以通过如下具体步骤实现：

步骤1：获得所述N个文本中满足一预设规律的K个文本，基于与所述K个文本对应的K个标签，将所述K个文本自动结构化；

具体的，首先，将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表；然后，在所述第一标签列表中生成与所述K个文本对应的K个子标签，以将所述K个标签对应的K个文本自动结构化。

步骤2：然后在检测到用户的辅助操作时，响应所述辅助操作，选择不满足所述预设规律的（N-K）个文本对应的第一标签列表中的（N-K）个父标签，以对所述（N-K）个文本辅助结构化。

在具体实施过程中，一优选实施方式为：先执行步骤1，对不连续内容自动结构化，自动结构化完后，再执行步骤2：对自动结构化失败的（N-K）个文本执行辅助结构化，以提高结构化的速率。当然，在具体实施例过程中，也可以同时执行步骤1和步骤2，所以，该优选实施方式并不对本申请做出限制。

执行完步骤S104之后，执行步骤S105，即：基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树。

在具体实施过程中，在所述基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树之后，为了验证对不连续内容的结构化效果，会对生成的第二标签结构树进行验证。具体步骤为：

验证所述第二标签结构树是否正确，获得一验证结果；

下面以一试卷中答案部分的结构化方法为例，参考图4，图5，对不连续内容的一优选结构化方法做进一步详细的描述，其中，试题部分为已经结构化的连续部分。首先，参考图4，基于试卷文档中内嵌的schema文件以及XML文件，生成对该试卷文档中的答案部分结构化的实例化规则。然后，基于试题部分的标签结构树，获得试题部分的标签列表，然后匹配得到答案中与实例化规则匹配的文本。

匹配的具体实施过程请参考图5，下面结合图5对匹配的过程进行详细描述：

首先，选定需要标引答案节点的范围，即试题范围，对应该试题范围，选择答案标引，匹配的时候基于四点判断：

第一点：判断试题范围是否为存在；

第二点：范围内的试题部分是否含有标签标记，即该试题部分对应的答案部分是否已经结构化；

第三点：范围内的试题部分是否已经结构化；

第四点：答案规则是否正确。

然后，当同时满足以上四点时，依次取得答案中可匹配的答案标签，然后将答案标签以及对应的父节点添加到试题部分对应的标签列表中。

接着，依次在已经生成的标签上添加答案子标签，以完成答案的结构化。

最后，即：结构化完成后，在校对模式下进行对答案部分结构化后的结构树验证。

基于同一发明构思，本申请另一实施例提供一种装置，该装置用于实施本实施例中文档内容结构化的方法，该装置模块图请参考图6，所述装置具体包括如下模块：

生成模块601，用于基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则；

第一获得模块602，用于基于所述第一文档中的已结构化的第一内容的第一标签结构树，获得与所述第一内容对应的第一标签列表；

第二获得模块603，用于从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，其中，所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容，M为大于等于1的正整数；

第三获得模块604，用于判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签；

结构化模块605，用于基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树。

进一步，在具体实施例中，所述生成模块，具体包括：

进一步，在具体实施例中，所述第二获得模块，具体包括：

遍历子模块，用于遍历所述第一标签列表；

进一步，在具体实施例中，所述第二获得模块，还包括：

进一步，在具体实施例中，所述结构化模块，具体包括：

进一步，在具体实施例中，所述自动结构化子模块，具体包括：

进一步，在具体实施例中，所述装置还包括：

上述本申请实施例中的一个或技术方案，至少具有如下的技术效果或优点：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文档内容结构化的方法，其特征在于，所述方法包括：

基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则；

2.如权利要求1所述的方法，其特征在于，所述基于第一文档中样式为预设样式的第一schema文件以及一规则为结构化规则的第一XML文件，生成与所述第一文档对应的第一实例化规则，具体包括：

3.如权利要求2所述的方法，其特征在于，所述第一结构化规则，具体为：格式匹配方式规则；和/或

样式匹配方式规则；和/或

大纲级别匹配方式规则；和/或

自定义通配符匹配方式规则。

4.如权利要求1所述的方法，其特征在于，所述从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本，具体包括：

遍历所述第一标签列表；

5.如权利要求4所述的方法，其特征在于，所述基于第一标签列表，在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本之后，所述方法还包括：

将与所述第一实例化规则匹配的所述M个文本存入堆栈中；

6.如权利要求1所述的方法，其特征在于，所述基于所述N个标签，将所述N个标签对应的N个文本结构化，具体包括：

在检测到用户的辅助操作时，响应所述辅助操作，选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签，以对所述(N-K)个文本辅助结构化。

7.如权利要求4所述的方法，其特征在于，所述获得所述N个文本中满足一预设规律的K个文本，基于与所述K个文本对应的K个标签，将所述K个文本自动结构化，具体包括：

将所述K个标签及与所述K个标签对应匹配成功的K个节点添加到所述第一标签列表；

8.如权利要求1-7中任一权项所述的方法，其特征在于，在所述基于所述N个标签，将所述N个标签对应的N个文本结构化，获得第二标签结构树之后，所述方法还包括：

验证所述第二标签结构树是否正确，获得一验证结果；

9.一种装置，其特征在于，所述装置包括：

10.如权利要求9所述的装置，其特征在于，所述生成模块，具体包括：

11.如权利要求9所述的装置，其特征在于，所述第二获得模块，具体包括：

遍历子模块，用于遍历所述第一标签列表；

12.如权利要求11所述的装置，其特征在于，所述第二获得模块，还包括：

13.如权利要求9所述的装置，其特征在于，所述结构化模块，具体包括：

辅助结构化子模块，用于在检测到用户的辅助操作时，响应所述辅助操作，选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签，以对所述(N-K)个文本辅助结构化。

14.如权利要求13所述的装置，其特征在于，所述自动结构化子模块，具体包括：

添加单元，用于将所述K个标签及与所述K个标签对应匹配成功的K个节点添加到所述第一标签列表；

15.如权利要求9-14中任一权项所述的装置，其特征在于，所述装置还包括：