CN103885972B - 一种文档内容结构化的方法及装置 - Google Patents

一种文档内容结构化的方法及装置 Download PDF

Info

Publication number
CN103885972B
CN103885972B CN201210560708.3A CN201210560708A CN103885972B CN 103885972 B CN103885972 B CN 103885972B CN 201210560708 A CN201210560708 A CN 201210560708A CN 103885972 B CN103885972 B CN 103885972B
Authority
CN
China
Prior art keywords
text
rule
label
content
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210560708.3A
Other languages
English (en)
Other versions
CN103885972A (zh
Inventor
孙明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201210560708.3A priority Critical patent/CN103885972B/zh
Priority to US14/096,790 priority patent/US20140181640A1/en
Publication of CN103885972A publication Critical patent/CN103885972A/zh
Application granted granted Critical
Publication of CN103885972B publication Critical patent/CN103885972B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Abstract

本申请提供了一种文档内容结构化的方法及装置,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。

Description

一种文档内容结构化的方法及装置
技术领域
本发明涉及印刷领域,尤其涉及一种文档内容结构化的方法及装置。
背景技术
出版社收到大量来稿,需要将大量的来稿制作成图书或者期刊等印制品时,需要投入大量的精力来整理来稿内容结构,对于文档中不连续的内容,例如,试题和答案的分离时,试卷中的答案部分为相对于该试卷的不连续内容,概况内容与具体内容的分离时,具体内容为相对于整个内容文档扥不连续内容,在对这些文档内容整理时,需要将这些分离的答案对应试题的结构化,以及具体信息对应于具体信息的结构化,其中,这些需要结构化的部分有很相似之处,也具有一定的规律性。
现有技术中针对文档中的不连续内容的结构化,只能采用人工结构化的方式。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
由于文档中的不连续内容有很多相似之处,而人工结构化需要对不连续内容结构化时会进行很多重复性的劳动,存在结构化效率低,错误率高,以及结构化率低的技术问题。
发明内容
本申请实施例通过提供一种文档内容结构化的方法及装置,用于解决现有技术中存在结构化效率低,错误率高的技术问题。
一方面,本申请实施例提供了一种文档内容结构化的方法,所述方法包括:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;
基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;
从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;
判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;
基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
优选地,所述基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则,具体包括:
获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;
基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;
从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;
基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。
优选地,所述第一结构化规则,具体为:格式匹配方式规则;和/或
样式匹配方式规则;和/或
大纲级别匹配方式规则;和/或
自定义通配符匹配方式规则。
优选地,所述从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,具体包括:
遍历所述第一标签列表;
基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。
优选地,所述基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本之后,所述方法还包括:
将与所述第一实例化规则匹配的所述M个文本存入堆栈中;
将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。
优选地,所述基于所述N个标签,将所述N个标签对应的N个文本结构化,具体包括:
获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;
在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。
优选地,所述获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化,具体包括:
将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表;
在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。
优选地,在所述基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树之后,所述方法还包括:
验证所述第二标签结构树是否正确,获得一验证结果;
当所述验证结果表明所述第二标签结构树正确时,显示所述第二标签结构树。
另一方面,本申请实施例提供了一种装置,所述装置包括:
生成模块,用于基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;
第一获得模块,用于基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;
第二获得模块,用于从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;
第三获得模块,用于判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;
结构化模块,用于基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
优选地,所述生成模块,具体包括:
获取子模块,用于获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;
第一获得子模块,用于基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;
第二获得子模块,用于从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;
组成子模块,用于基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。
优选地,所述第二获得模块,具体包括:
遍历子模块,用于遍历所述第一标签列表;
定位子模块,用于基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。
优选地,所述第二获得模块,还包括:
存入子模块,用于将与所述第一实例化规则匹配的所述M个文本存入堆栈中;
设置子模块,用于将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。
优选地,所述结构化模块,具体包括:
自动结构化子模块,用于获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;
辅助结构化子模块,用于在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。
优选地,所述自动结构化子模块,具体包括:
添加单元,用于将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表;
生成单元,用于在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。
优选地,所述装置还包括:
验证模块,用于验证所述第二标签结构树是否正确,获得一验证结果;
显示模块,用于当所述验证结果表明所述第二标签结构树正确时,显示所述第二标签结构树。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、由于采用了在不连续内容中获得与实例化规则匹配的文本,并基于该文本的标签将该文本结构化的技术手段,所以,有效解决了现有技术中对不连续内容的结构化效率低,错误率高的技术问题,进而实现了在不改变文档内容结构的基础上,快速完成对不连续内容的结构化的技术效果,所以,提高不连续内容的结构化效率,降低结构化错误率。
2、由于采用基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则的技术手段,生成的第一实例化规则可以匹配基于开发人员确定的结构化规则不能匹配的文本,所以,有效解决了现有技术中对不连续内容的结构化率低的技术问题,进而,实现提高了不连续内容的匹配率的技术效果。
附图说明
图1为本申请实施例中文档内容结构化的方法的流程图;
图2为本申请实施例中文档内容结构化的方法步骤S101细化流程图;
图3为本申请实施例中文档内容结构化的方法步骤S103细化流程图;
图4为本申请实施例中试卷内容结构化的方法框图;
图5为本申请实施例中试卷内容结构化的优选实现方法流程图;
图6为本申请实施例中装置的模块图。
具体实施方式
本申请实施例通过提供一种文档内容结构化的方法及装置,解决了现有技术中对不连续内容的结构化效率低,错误率高的技术问题。
本申请实施例中的技术方案为解决上述不连续内容的结构化效率低,错误率高的问题,总体思路如下:
基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
在不连续内容中获得与实例化规则匹配的文本,所以减少了人工在查找需要结构化的文本时出错的问题,然后,获得与实例化匹配的文本对应的标签,对需要结构化的进行内容结构化,所以,这种非人工化的结构化方法提高了结构化的效率,以及降低了错误率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本申请一实施例提供了一种文档内容结构化的方法,参考图1,所述方法包括如下步骤:
步骤S101:基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;
在具体实施过程中,第一文档为schema实例文档,第一schema文件以及XML文件为内嵌于所述第一文档中的文件中,其中,xml文件通常由开发人员开发的文件,在具体实施过程中,可以直接采用开发人员开发的xml文件对应的结构化规则,也可以生成新的实例化规则。
具体的,在一具体实施例中,为了不连续内容与第一内容中的节点匹配率更好,会生成新的实例化规则,具体步骤参考图2,即:图2为本申请实施例中文档内容结构化的方法步骤S101细化流程图。
S201:获取所述样式为预设样式的第一schema文件以及所述一规则为结构化规则的第一XML文件;
S202:基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;
具体的,第一结构化规则为:格式匹配方式规则;和/或样式匹配方式规则;和/或大纲级别匹配方式规则;和/或自定义通配符匹配方式规则。
S203:从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;
具体的,第二结构化规则也可以为:格式匹配方式规则,样式匹配方式规则,大纲级别匹配方式规则,自定义通配符匹配方式规则中的一种或多中。
S204:基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。
具体的,在本具体实施例中,会基于文档中的XML文件的结构化规则对第一内容中与所述M个文本对应匹配不成功的节点设置第二结构化规则,然后基于匹配成功的节点以及第二结构化规则生成第一实例化规则,以提高不连续内容与第一内容中的节点的的匹配率,例如,XML文件的结构化规则为样式匹配方式,基于该匹配方式只能获得少数匹配节点,然后就会基于匹配不成功的节点生成一个结构化规则,例如:匹配不成功的节点的匹配方式为通配符匹配方式,就将通配符方式设置为第二结构化规则,所以就可以同时基于通配符匹配方式以及样式匹配方式两种匹配方式结合成第一实例化规则。
在具体实施过程中,还可以对形成的第一实例化规则进行进一步的设置,形成满足用户需求的结构化规则。
执行步骤S102,即:基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;
在具体实施过程中,执行步骤S101与S102的顺序不分先后,所以本申请不对步骤S101以及S102的执行顺序构成限制。
具体的,本申请不限制第一文档的内容,例如,第一文档可以为一试卷文档,则第一内容为已经结构化的试题部分,不连续内容为答案部分。
执行完步骤S102或者S101之后,执行步骤S103,即:从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;
在一具体实施例中,从不连续内容中获得与第一实例化规则匹配的M个文本的方法参考图3,图3为本申请实施例中文档内容结构化的方法步骤S103细化流程图,包括如下步骤:
S301:遍历所述第一标签列表;
S302:基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本
S303:将与所述第一实例化规则匹配的所述M个文本存入堆栈中;
S304:将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。
具体来讲,遍历所述第一标签列表,就是对应整个第一文档的标签列表的每一个标签,在不连续内容中找到与该标签对应的文本。
然后将找到的文本依次以堆栈的方式存储,并将与该标签对应的文本设置成该与文本匹配成功的节点的样式。
执行完步骤S103之后,执行步骤S104,即:判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;
在一具体实施例中,步骤S104具体可以通过如下具体步骤实现:
步骤1:获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;
具体的,首先,将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表;然后,在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。
步骤2:然后在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。
在具体实施过程中,一优选实施方式为:先执行步骤1,对不连续内容自动结构化,自动结构化完后,再执行步骤2:对自动结构化失败的(N-K)个文本执行辅助结构化,以提高结构化的速率。当然,在具体实施例过程中,也可以同时执行步骤1和步骤2,所以,该优选实施方式并不对本申请做出限制。
执行完步骤S104之后,执行步骤S105,即:基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
在具体实施过程中,在所述基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树之后,为了验证对不连续内容的结构化效果,会对生成的第二标签结构树进行验证。具体步骤为:
验证所述第二标签结构树是否正确,获得一验证结果;
当所述验证结果表明所述第二标签结构树正确时,显示所述第二标签结构树。
下面以一试卷中答案部分的结构化方法为例,参考图4,图5,对不连续内容的一优选结构化方法做进一步详细的描述,其中,试题部分为已经结构化的连续部分。首先,参考图4,基于试卷文档中内嵌的schema文件以及XML文件,生成对该试卷文档中的答案部分结构化的实例化规则。然后,基于试题部分的标签结构树,获得试题部分的标签列表,然后匹配得到答案中与实例化规则匹配的文本。
匹配的具体实施过程请参考图5,下面结合图5对匹配的过程进行详细描述:
首先,选定需要标引答案节点的范围,即试题范围,对应该试题范围,选择答案标引,匹配的时候基于四点判断:
第一点:判断试题范围是否为存在;
第二点:范围内的试题部分是否含有标签标记,即该试题部分对应的答案部分是否已经结构化;
第三点:范围内的试题部分是否已经结构化;
第四点:答案规则是否正确。
然后,当同时满足以上四点时,依次取得答案中可匹配的答案标签,然后将答案标签以及对应的父节点添加到试题部分对应的标签列表中。
接着,依次在已经生成的标签上添加答案子标签,以完成答案的结构化。
最后,即:结构化完成后,在校对模式下进行对答案部分结构化后的结构树验证。
基于同一发明构思,本申请另一实施例提供一种装置,该装置用于实施本实施例中文档内容结构化的方法,该装置模块图请参考图6,所述装置具体包括如下模块:
生成模块601,用于基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;
第一获得模块602,用于基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;
第二获得模块603,用于从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;
第三获得模块604,用于判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;
结构化模块605,用于基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
进一步,在具体实施例中,所述生成模块,具体包括:
获取子模块,用于获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;
第一获得子模块,用于基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;
第二获得子模块,用于从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;
组成子模块,用于基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。
进一步,在具体实施例中,所述第二获得模块,具体包括:
遍历子模块,用于遍历所述第一标签列表;
定位子模块,用于基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。
进一步,在具体实施例中,所述第二获得模块,还包括:
存入子模块,用于将与所述第一实例化规则匹配的所述M个文本存入堆栈中;
设置子模块,用于将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。
进一步,在具体实施例中,所述结构化模块,具体包括:
自动结构化子模块,用于获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;
辅助结构化子模块,用于在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。
进一步,在具体实施例中,所述自动结构化子模块,具体包括:
添加单元,用于将所述K个标签及与所述K个标签对应匹配成功的K个所述节点添加到所述第一标签列表;
生成单元,用于在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。
进一步,在具体实施例中,所述装置还包括:
验证模块,用于验证所述第二标签结构树是否正确,获得一验证结果;
显示模块,用于当所述验证结果表明所述第二标签结构树正确时,显示所述第二标签结构树。
上述本申请实施例中的一个或技术方案,至少具有如下的技术效果或优点:
1、由于采用了在不连续内容中获得与实例化规则匹配的文本,并基于该文本的标签将该文本结构化的技术手段,所以,有效解决了现有技术中对不连续内容的结构化效率低,错误率高的技术问题,进而实现了在不改变文档内容结构的基础上,快速完成对不连续内容的结构化的技术效果,所以,提高不连续内容的结构化效率,降低结构化错误率。
2、由于采用基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则的技术手段,生成的第一实例化规则可以匹配基于开发人员确定的结构化规则不能匹配的文本,所以,有效解决了现有技术中对不连续内容的结构化率低的技术问题,进而,实现提高了不连续内容的匹配率的技术效果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种文档内容结构化的方法,其特征在于,所述方法包括:
基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;
基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;
从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;
判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;
基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
2.如权利要求1所述的方法,其特征在于,所述基于第一文档中样式为预设样式的第一schema文件以及一规则为结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则,具体包括:
获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;
基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;
从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;
基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。
3.如权利要求2所述的方法,其特征在于,所述第一结构化规则,具体为:格式匹配方式规则;和/或
样式匹配方式规则;和/或
大纲级别匹配方式规则;和/或
自定义通配符匹配方式规则。
4.如权利要求1所述的方法,其特征在于,所述从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,具体包括:
遍历所述第一标签列表;
基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。
5.如权利要求4所述的方法,其特征在于,所述基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本之后,所述方法还包括:
将与所述第一实例化规则匹配的所述M个文本存入堆栈中;
将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。
6.如权利要求1所述的方法,其特征在于,所述基于所述N个标签,将所述N个标签对应的N个文本结构化,具体包括:
获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;
在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。
7.如权利要求4所述的方法,其特征在于,所述获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化,具体包括:
将所述K个标签及与所述K个标签对应匹配成功的K个节点添加到所述第一标签列表;
在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。
8.如权利要求1-7中任一权项所述的方法,其特征在于,在所述基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树之后,所述方法还包括:
验证所述第二标签结构树是否正确,获得一验证结果;
当所述验证结果表明所述第二标签结构树正确时,显示所述第二标签结构树。
9.一种装置,其特征在于,所述装置包括:
生成模块,用于基于第一文档中样式为预设样式的第一schema文件以及一规则为第一结构化规则的第一XML文件,生成与所述第一文档对应的第一实例化规则;
第一获得模块,用于基于所述第一文档中的已结构化的第一内容的第一标签结构树,获得与所述第一内容对应的第一标签列表;
第二获得模块,用于从与所述第一标签列表对应的不连续内容中获得与所述第一实例化规则匹配的M个文本,其中,所述不连续内容为不包含在所述已结构化的第一内容中的未结构化内容,M为大于等于1的正整数;
第三获得模块,用于判断获得所述M个文本对应的M个标签中可以与所述已结构化的第一内容匹配的N个标签;
结构化模块,用于基于所述N个标签,将所述N个标签对应的N个文本结构化,获得第二标签结构树。
10.如权利要求9所述的装置,其特征在于,所述生成模块,具体包括:
获取子模块,用于获取所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件;
第一获得子模块,用于基于所述样式为预设样式的第一schema文件以及所述一规则为第一结构化规则的第一XML文件,从与所述第一标签列表对应的不连续内容中获得与所述第一结构化规则匹配的所述M个文本,以及从所述第一内容中获得与所述M个文本对应的多个匹配节点,其中,所述匹配节点的个数大于M个;
第二获得子模块,用于从所述第一内容中获得与所述M个文本对应的至少一个不匹配节点,以生成第二结构化规则;
组成子模块,用于基于所述多个匹配节点及所述第二结构化规则,组成所述第一实例化规则。
11.如权利要求9所述的装置,其特征在于,所述第二获得模块,具体包括:
遍历子模块,用于遍历所述第一标签列表;
定位子模块,用于基于第一标签列表,在所述不连续内容中定位到与所述第一实例化规则匹配的M个文本。
12.如权利要求11所述的装置,其特征在于,所述第二获得模块,还包括:
存入子模块,用于将与所述第一实例化规则匹配的所述M个文本存入堆栈中;
设置子模块,用于将所述第一实例化规则匹配的所述M个文本的样式设置为所述第一内容中的节点的样式。
13.如权利要求9所述的装置,其特征在于,所述结构化模块,具体包括:
自动结构化子模块,用于获得所述N个文本中满足一预设规律的K个文本,基于与所述K个文本对应的K个标签,将所述K个文本自动结构化;
辅助结构化子模块,用于在检测到用户的辅助操作时,响应所述辅助操作,选择不满足所述预设规律的(N-K)个文本对应的第一标签列表中的(N-K)个父标签,以对所述(N-K)个文本辅助结构化。
14.如权利要求13所述的装置,其特征在于,所述自动结构化子模块,具体包括:
添加单元,用于将所述K个标签及与所述K个标签对应匹配成功的K个节点添加到所述第一标签列表;
生成单元,用于在所述第一标签列表中生成与所述K个文本对应的K个子标签,以将所述K个标签对应的K个文本自动结构化。
15.如权利要求9-14中任一权项所述的装置,其特征在于,所述装置还包括:
验证模块,用于验证所述第二标签结构树是否正确,获得一验证结果;
显示模块,用于当所述验证结果表明所述第二标签结构树正确时,显示所述第二标签结构树。
CN201210560708.3A 2012-12-20 2012-12-20 一种文档内容结构化的方法及装置 Expired - Fee Related CN103885972B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210560708.3A CN103885972B (zh) 2012-12-20 2012-12-20 一种文档内容结构化的方法及装置
US14/096,790 US20140181640A1 (en) 2012-12-20 2013-12-04 Method and device for structuring document contents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210560708.3A CN103885972B (zh) 2012-12-20 2012-12-20 一种文档内容结构化的方法及装置

Publications (2)

Publication Number Publication Date
CN103885972A CN103885972A (zh) 2014-06-25
CN103885972B true CN103885972B (zh) 2017-02-08

Family

ID=50954867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210560708.3A Expired - Fee Related CN103885972B (zh) 2012-12-20 2012-12-20 一种文档内容结构化的方法及装置

Country Status (2)

Country Link
US (1) US20140181640A1 (zh)
CN (1) CN103885972B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2022204170A1 (en) 2021-07-16 2023-02-02 Roar Software Pty Ltd System and method for processing an active document from a rich text document

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055578A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 基于规则的文档内容挖掘器
CN101308486A (zh) * 2008-03-21 2008-11-19 北京印刷学院 试题自动生成系统及方法
CN102479248A (zh) * 2011-05-30 2012-05-30 北京中科希望软件股份有限公司 一种电子文档结构化处理的方法和系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010032218A1 (en) * 2000-01-31 2001-10-18 Huang Evan S. Method and apparatus for utilizing document type definition to generate structured documents
US20020010709A1 (en) * 2000-02-22 2002-01-24 Culbert Daniel Jason Method and system for distilling content
US6738767B1 (en) * 2000-03-20 2004-05-18 International Business Machines Corporation System and method for discovering schematic structure in hypertext documents
US6681344B1 (en) * 2000-09-14 2004-01-20 Microsoft Corporation System and method for automatically diagnosing a computer problem
US7581170B2 (en) * 2001-05-31 2009-08-25 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML
US20040205612A1 (en) * 2002-04-10 2004-10-14 International Business Machines Corporation Programmatically generating a presentation style for legacy host data
US7251777B1 (en) * 2003-04-16 2007-07-31 Hypervision, Ltd. Method and system for automated structuring of textual documents
JP4236055B2 (ja) * 2005-12-27 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造化文書処理装置、方法、プログラム
US9411781B2 (en) * 2006-01-18 2016-08-09 Adobe Systems Incorporated Rule-based structural expression of text and formatting attributes in documents
US20070185868A1 (en) * 2006-02-08 2007-08-09 Roth Mary A Method and apparatus for semantic search of schema repositories
WO2009087996A1 (ja) * 2008-01-07 2009-07-16 Nec Corporation 情報抽出装置及び情報抽出システム
US20100088674A1 (en) * 2008-10-06 2010-04-08 Microsoft Corporation System and method for recognizing structure in text
US20100257182A1 (en) * 2009-04-06 2010-10-07 Equiom Labs Llc Automated dynamic style guard for electronic documents
US20110282861A1 (en) * 2010-05-11 2011-11-17 Microsoft Corporation Extracting higher-order knowledge from structured data
US9110882B2 (en) * 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
US9076152B2 (en) * 2010-10-20 2015-07-07 Microsoft Technology Licensing, Llc Semantic analysis of information
EP2506157A1 (en) * 2011-03-30 2012-10-03 British Telecommunications Public Limited Company Textual analysis system
JP5613118B2 (ja) * 2011-07-22 2014-10-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 変換規則生成支援装置、方法、およびプログラム
US9280525B2 (en) * 2011-09-06 2016-03-08 Go Daddy Operating Company, LLC Method and apparatus for forming a structured document from unstructured information
US9323767B2 (en) * 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055578A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 基于规则的文档内容挖掘器
CN101308486A (zh) * 2008-03-21 2008-11-19 北京印刷学院 试题自动生成系统及方法
CN102479248A (zh) * 2011-05-30 2012-05-30 北京中科希望软件股份有限公司 一种电子文档结构化处理的方法和系统

Also Published As

Publication number Publication date
US20140181640A1 (en) 2014-06-26
CN103885972A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN106155891B (zh) 接口测试方法、接口描述数据库生成方法及装置
CN102831213B (zh) 一种学习内容的搜索方法、装置及电子产品
CN106611008A (zh) 一种互联网内容标签的管理方法及装置
CN106649125A (zh) 创建支持多平台的自动化测试脚本的方法及其框架系统
CN106663108A (zh) 用于原生应用的深链接
CN102508674A (zh) 基于json进行对象化参数传递的方法及系统
CN104111953A (zh) 基于角色驱动的智能题库组卷方法及系统
CN104408099A (zh) 搜索方法和装置
CN106462585B (zh) 用于特定列物化调度的系统和方法
CN105023207A (zh) 一种教师布置家庭作业系统及方法
CN105719523A (zh) 试卷的生成方法及生成系统
CN109408701A (zh) 一种网络爬虫爬取路径的展示方法和装置
CN110489087A (zh) 一种生成分形结构的方法、装置、介质和电子设备
CN104699844B (zh) 为广告确定视频标签的方法及装置
CN103744987B (zh) 基于dom树匹配的视频网站媒资聚合方法和系统
CN109766881A (zh) 一种竖向文本图像的字符识别方法和装置
CN103699598A (zh) 一种图形化展示数据引用流程的方法及其装置
CN107678719A (zh) 页面展示方法、装置、电子设备及存储介质
CN104504006A (zh) 对新闻客户端的数据采集及解析的方法及系统
CN103902539B (zh) 可扩展标记语言数据解析方法及装置
CN105447198A (zh) 页面脚本便捷导入的方法及装置
CN103885972B (zh) 一种文档内容结构化的方法及装置
CN104268420A (zh) 基于二叉堆节点排序的a星寻路方法及系统
CN104166545B (zh) 一种网页资源的嗅探方法以及装置
CN110263279A (zh) 页面生成方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20191220