CN102103605B - 一种智能提取文档结构的方法及系统 - Google Patents

一种智能提取文档结构的方法及系统 Download PDF

Info

Publication number
CN102103605B
CN102103605B CN 200910242897 CN200910242897A CN102103605B CN 102103605 B CN102103605 B CN 102103605B CN 200910242897 CN200910242897 CN 200910242897 CN 200910242897 A CN200910242897 A CN 200910242897A CN 102103605 B CN102103605 B CN 102103605B
Authority
CN
China
Prior art keywords
structuring
key word
content
document
extracting rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910242897
Other languages
English (en)
Other versions
CN102103605A (zh
Inventor
余忠华
闫国龙
曹学军
缪萍
曾建英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN 200910242897 priority Critical patent/CN102103605B/zh
Publication of CN102103605A publication Critical patent/CN102103605A/zh
Application granted granted Critical
Publication of CN102103605B publication Critical patent/CN102103605B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种智能提取文档结构的方法,该方法包括:通过对文档小样进行分析,建立提取规则及其相对应的结构化关键字;对待提取结构的文档应用所建立的提取规则,提取文档内容形成按照结构化关键字表达的结构化内容。相应地,本发明提供一种智能提取文档结构的系统,该系统包括文档输入单元、分析单元、结构化单元、用户设置界面和文档输出单元。本发明依据文档中的样式(包括文字样式和段落样式)、文字属性、文字内容、标题级别等属性设置一些简单的提取规则,并根据这些规则智能提取文档中的结构化信息,从而实现任意文档格式的结构化自动加工。另一方面,用户仅通过简单的操作就可自行设置提取规则,灵活性强。

Description

一种智能提取文档结构的方法及系统
技术领域
本发明涉及电子文档数据处理领域,尤其涉及一种智能提取文档结构的方法及系统。
背景技术
随着IT应用的深入普及,各行各业都积累了大量的信息资源,这些信息资源都以电子文档数据的形式保存。科学管理和合理开发这些内部和外部信息资源已经成为企业正确决策、增强竞争力的关键。如何有效地从这些信息资源的电子文档数据内容中获取结构化的内容,也是许多计算机应用开发所需要解决的关键问题。比如,现在各个出版社都有大量的历史书籍资源,而且书籍的格式是多种多样的,出版社需要把历史资源结构化后入库,然后对这些结构化的资源进行再加工和利用,可以发布到网页html格式,pdf格式等。
目前,对信息资源的内容结构化方法主要是通过人工以储存、流程、元数据(Metadata)为要件来制作系统。储存多以关联式数据库的方式,也有的以一般数据文件方式储存,或者是根据需要两种方式并存。在储存方式中,通常使用专门软件对特定数据字段进行录入,这种方法的缺点是进行录入的数据字段受软件限制,而且需要手工录入,不容易实现自动化加工。另外还有一种使用类似XML编辑器的软件进行内容结构化加工的方法,这种方法的缺点是只能对纯内容的数据进行结构化,无法带入原文档内容的版式信息和样式信息。
因此,在申请号为200810238994.4的中国专利申请“一种基于样式的内容结构化方法及系统”中提出了一种内容结构化的自动加工方法。该方法根据需要结构化的文档建立内容结构化体系,然后建立样式与结构化关键字的对应关系,最后解析该文档提取内容形成结构化内容,从而完成内容结构化的加工。但是,由于这种方法完全依据段落样式进行结构化,所以仅能针对设置了段落样式的文档进行提取,而对于非段落样式的文档片段无法正确提取。也就是说,这种方法仅能对特定格式的文档进行结构化,而不能适用于任意文档格式的结构化加工。
发明内容
为了解决现有技术中存在的以上问题,本发明提供一种智能提取文档结构的方法及系统,以实现对任意文档格式内容的结构化自动加工方法。
为了实现以上目的,本发明提供的智能提取文档结构的方法包括以下步骤:小样分析步骤,即,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系;文档结构化步骤,即,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。
所述关键属性可包括字体样式、段落样式、文字属性和标题级别。所述结构化关键字是可以任意指定的,可以是但不限于是表示所述关键属性和/或特殊文字内容的关键字。提取规则和结构化关键字之间的关系也是可以任意指定的。
此外,还可由用户自行设置提取规则和结构化关键字。具体地,向用户提供小样中所包含的各部分内容及其关键属性,然后,用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。用户还可根据不同的需要对所建立的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系进行添加、删除或更新等修改操作。
优选地,在建立或修改提取规则和结构化关键字时,可执行以下步骤:对小样应用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容显示给用户;用户根据显示的结构化内容对所设置的提取规则和结构化关键字进行调整,直到所形成的结构化内容满足用户要求为止。
此外,为了能够以统一的结构化方法处理任意格式的文档,将小样或文档转化为作为中间结果的逻辑树,然后对该具有一致规范的逻辑树应用统一的方法进行结构化。
在这种情况下,所述小样分析步骤包括以下步骤:根据待提取结构的文档的小样生成包含该小样的各部分内容及其关键属性的逻辑树,并依据该逻辑树中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。所述文档结构化步骤包括以下步骤:根据待提取结构的文档生成包含该文档的各部分内容及其关键属性的逻辑树,并对该逻辑树应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。
在用户设置提取规则和结构化关键字的过程中,向用户提供根据小样生成的逻辑树中所包含的各部分内容及其关键属性,然后,用户根据所提供的信息建立或修改各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。
相应地,本发明提供一种智能提取文档结构的系统,该系统包括:文档输入单元,输入文档小样和待处理文档,并将文档小样发送给分析单元,将待处理文档发送给结构化单元;分析单元,依据从文档输入单元接收的文档小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字作为系统默认的提取规则和结构化关键字发送给结构化单元;结构化单元,对从文档输入单元接收的待处理文档应用从分析单元接收的提取规则,提取该文档的内容形成按照从分析单元接收的结构化关键字表达的结构化内容,并将所形成的结构化内容发送给文档输出单元;文档输出单元,输出从结构化单元接收的结构化内容。。
优选地,该系统还可包括用户设置界面,用户通过这个界面设置或修改提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将用户设置的提取规则和结构化关键字发送给结构化单元。
本发明依据文档中的样式(包括文字样式和段落样式)、文字属性、文字内容、标题级别等属性设置一些简单的提取规则,并根据这些规则智能提取文档中的结构化信息,从而实现任意文档格式的结构化自动加工。另一方面,用户仅通过简单的操作就可自行设置提取规则,提取丰富的文档结构,灵活性强。
附图说明
图1是根据本发明的第一实施例的智能提取文档结构的方法的流程图;
图2是一个文档小样的示例;
图3是对图2所示的小样生成的结构化内容;
图4是根据本发明的第二实施例的智能提取文档结构的方法的流程图;
图5是对图2所示的小样生成的结构化内容;
图6是根据本发明的智能提取文档结构的系统的框图;
图7是根据本发明的智能提取文档结构的另一系统的框图。
具体实施方式
下面,将结合实施例和附图对本发明进行详细描述。
(第一实施例)
图1是根据本发明的第一实施例的智能提取文档结构的方法的流程图。参照图1,该方法包括以下步骤:
步骤S1、小样分析步骤
在该步骤中,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,也就是说,所建立的各个部分的提取规则和结构化关键字应能体现出该部分的内容和/或关键属性。
其中,关键属性可以是,但不限于,字体样式、段落样式、文字属性和标题级别。提取规则可以依据小样中各部分内容的文字内容设置,还可以,但不限于,依据各部分内容的关键属性设置。结构化关键字可以是,但不限于是,表示关键属性和/或特殊文字内容的关键字。并且,提取规则和结构化关键字之间的关系也是可以任意指定的。这样,本发明能够依据各类文档的各种属性形成文档内容的结构化体系,而不仅适用于设置了段落样式的文档格式。也即是说,本发明可应用于任意文档格式的结构化加工。
步骤S2、文档结构化步骤
在该步骤中,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。这样,通过已经设置好的提取规则和结构化关键字,就自动完成了文档的结构化加工。
这里,需要指出的是,在小样分析步骤S1中,对于不需要提取结构的部分内容,可不建立提取规则。相应地,在文档结构化步骤S2中,不提取这些部分内容形成结构化内容。
此外,为了实现文档结构的个性化提取,还可由用户设置各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。具体地讲,向用户提供小样中所包含的各部分内容及其关键属性,比如,字体、字号、样式等,然后,用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。另外,用户还可根据不同的需要对所建立的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系进行添加、删除或更新等修改操作,从而实现该方法对任意文档格式的适用性。也就是说,对于一些类似的文档格式,只需修改所建立的少部分提取规则和结构化关键字,而不需要全部重新设置。
优选地,在用户建立或修改提取规则和结构化关键字时,对小样应用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容显示给用户。然后,用户根据显示的结构化内容对所设置的提取规则和结构化关键字进行调整,直到所形成的结构化内容满足用户要求为止。
通过上述交互方法,用户可根据需要自行设置提取规则和结构化关键字,从而实现个性化提取。另外,由于为用户提供文档小样中用到的字体、字号、样式等,用户仅通过简单的设置就可提取合适的规则和结构化关键字。这里,不限于用户从所提供的信息中选择其中一个,用户还可根据所提供的信息自定义一些提取规则和结构化关键字,提取规则和结构化关键字之间的对应关系,即,映射关系也可任意指定。但是,优选地,一个结构化关键字可以与多个提取规则映射,而一个提取规则只能与与一个结构化关键字映射。
以下将结合一个具体的示例对本实施例进行进一步的说明。在该示例中,以图2所示的排版文档作为小样,形成一个按照用户自定义的结构化关键字表达的结构化内容。
首先,依据图2所示小样中所包含的各部分内容和关键属性,建立文档结构的提取规则及其相对应的结构化关键字,也就是说,建立文档结构的提取规则和结构化关键字之间的映射关系。如上所述,可根据标题级别属性、固定样式属性、特殊文字内容或不同文字颜色属性等各种属性建立该小样的各个部分的提取规则和结构化关键字。在该示例中,用户建立如表1所示的提取规则和结构化关键字的映射表。
表1提取规则与结构化关键字的映射表
  文字内容   提取规则   结构化关键字
显示比例介绍   标题级别=1   一级标题
  版面提供多种操作途径改变显示比例   标题级别=2   二级标题
1、常用快捷操作   样式=行楷   方式
Shift+单击右键:缩放版面   不提取
Ctrl+W:全版面显   不提取
2、使用菜单  样式=行楷   方式
放大(Alt+.):以微调步长放大显示版面。缩小(Alt+,):以微调步长缩小显示版面。  不提取
3、使用放大镜  样式=行楷   方式
方法1:在工具箱里选择放大镜,鼠标左键单击版面,放大显示;  以方法+数字起始   子方法
  方法2:选择工具箱中的缩放工具,按住按鼠标左键,框选住需要放大的对象版面将以框选区域为中心放大显示对象。  以方法+数字起始   子方法
说明:版面可以在4%~4000%之间缩放显示   文字颜色=red   说明
从表1可看出,对小样的部分段落的内容进行了提取,并为提取的部分设置了相对应的结构化关键字。除了根据字体样式进行提取之外,还利用文字内容和文字颜色进行了提取。比如,对于小样第10行“方法1:在工具箱里……”这个段落,提取规则为“以“方法”+数字起始”,相对应的结构化关键字设为“子方法”。再比如,对于小样第14行“说明:……”这个段落,根据其文字颜色为红色进行提取,所对应的结构化关键字设为“说明”。
此外,除该表所显示内容之外,还应设置各个结构化关键字之间的层次关系。比如,可设置“一级标题”是“二级标题”的父节点,“子方法”是“方式”的子节点,等等。
最后,仅为了示例性地说明本实施例的效果,对图2所示小样应用表1中的提取规则,提取文档内容形成按照表1所示的结构化关键字表达的结构化内容。具体地讲,遍历图2所示小样的各个段落,使用表1所示的提取规则进行关键属性的匹配,如果匹配成功则提取该内容并使用与该提取规则对应的结构化关键字进行结构化,匹配不成功的就是不需要提取的内容。
完成结构化的结构化内容如图3所示。从图3可看出,内容结构化的结果是根据用户所设置的提取规则及其与结构化关键字之间的关系而产生的。内容结构化的结果符合XML标准规范。当然,本发明所述结构化内容不限于XML标准规范。
(第二实施例)
本实施例与第一实施例的不同之处在于,将小样或文档转换为一个作为中间结果的逻辑树,然后对该具有一致规范的逻辑树应用统一的方法进行结构化。通过这种方法能够以统一的结构化方法处理任意格式的文档。
图4是根据本发明的第二实施例的智能提取文档结构的方法的流程图。参照图4,该方法包括以下步骤:
步骤S41、小样分析步骤
在该步骤中,根据待提取结构的文档的小样生成包含该小样的各部分内容及其关键属性的逻辑树,并依据该逻辑树中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。这里,逻辑树可以是,但不限于是XML树,任何能够统一定义文档各部分内容及其关键属性的规范化的树结构都应包括在本发明中。
步骤S42、文档结构化步骤
在该步骤中,根据待提取结构的文档生成包含该文档的各部分内容及其关键属性的逻辑树,并对该逻辑树应用在小样分析步骤中建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。
从上可看出,通过将所有文档和小样转换为规范定义的逻辑树,可实现以统一的结构化方法对任意格式的文档进行结构化。
在该实施例中,在用户设置提取规则和结构化关键字时,向用户提供根据小样生成的逻辑树中所包含的各部分内容及其关键属性。同样,在用户建立或修改提取规则和结构化关键字时,对根据小样生成的逻辑树应用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容显示给用户。然后。用户根据显示的结构化内容对所设置的提取规则和结构化关键字进行调整,直到所形成的结构化内容满足用户要求为止。
以下将结合一个具体的实施例来描述本实施例的方法进行进一步的说明。在该示例中,仍以图2所示的排版文档作为小样。
首先,根据图2所示的小样文件生成一棵包含该小样的各部分内容及其关键属性的XML树,如下所示。
<?xml version=″1.0″encoding=″UTF-8″?>
<Root>
   <ParaStyles>
       <Style name=″行楷″fontsize=″五号″fontname=″华文行楷″/>
   </ParaStyles>
   <Story>
       <Para标题级别=″1″>
            <Text fontsize=″四号″fontname=″宋体″>显示比例介绍</Text>
        </Para>
        <Para标题级别=″2″>
            <Text fontsize=″小四″fontname=″宋体″>版面提供多种操作途径改变显示比
例</Text>
            </Para>
        <Para stylename=″行楷″>
           <Text>1、常用快捷操作</Text>
        </Para>
        <Para>
           <Text fontsize=″小五″fontname=″宋体″>Shift+单击右键:缩放版面</Text>
        </Para>
        <Para>
           <Text fontsize=″小五″fontname=″宋体″>Ctrl+W:全版面显</Text>
        </Para>
        <Para stylename=″行楷″>
           <Text>2、使用菜单</Text>
        </Para>
        <Para>
            <Text fontsize=″小五″fontname=″宋体″>放大(Alt+.):以微调步长放大显
示版面。 </Text>
        </Para>
        <Para>
            <Text fontsize=″小五″fontname=″宋体″>缩小(Alt+,):以微调步长缩小显
示版面。 </Text>
        </Para>
        <Para stylename=″行楷″>
            <Text>3、使用放大镜</Text>
        </Para>
        <Para>
            <Text fontsize=″小五″fontname=″宋体″>方法1:在工具箱里选择放大镜,
鼠标左键单击版面,放大显示;</Text>
        </Para>
        <Para>
            <Text fontsize=″小五″fontname=″宋体″>方法2:选择工具箱中的缩放工具,
按住按鼠标左键,框选住需要放大的对象版面将以框选区域为中心放大显示对象。
</Text>
        </Para>
        <Para>
            <Text fontsize=″五号″fontname=″宋体″color=″red″>说明:版面可以在4%~
4000%之间缩放显示</Text>
       </Para>
   </Story>
</Root>
从以上XML树可看出,该XML树中首先定义了一个段落字体“ParaStyles”节点,在该节点中,定义了图2中带数字编号的子标题的字体样式。其后,在每个段落节点中,分别包括各个段落的文字内容及其关键属性,比如,字体、字号、文字颜色。
应该理解,XML树仅是本发明所述逻辑树的一种实现方式,还可采用其它方式来实现包含文档各部分内容及其关键属性的逻辑树,比如对象树等。
接着,依据以上所示XML树中所包含的各部分内容和关键属性,建立如下表2所示的提取规则及其相对应的结构化关键字。表2提取规则与结构化关键字的映射表
  文字内容   提取规则   结构化关键字
显示比例介绍   标题级别=1   一级标题
  版面提供多种操作途径改变显示比例   标题级别=2   二级标题
2、常用快捷操作   样式=行楷   方式
Shift+单击右键:缩放版面   文字内容中包含“:”   子方法
Ctrl+W:全版面显   文字内容中包含“:”   子方法
2、使用菜单   样式=行楷   方式
放大(Alt+.):以微调步长放大显示版面。   文字内容中包含“:”   子方法
  缩小(Alt+,):以微调步长缩小显示版面。   文字内容中包含“:”   子方法
3、使用放大镜   样式=行楷   方式
方法1:在工具箱里选择放大镜,鼠标左键单击版面,放大显示;   以方法+数字起始   子方法
  方法2:选择工具箱中的缩放工具,按住按鼠标左键,框选住需要放大的对象版面将以框选区域为中心放大显示对象。   以方法+数字起始   子方法
说明:版面可以在4%~4000%之间缩放显示   文字颜色=red   说明
表2中提取规则与表1中所不同之处在于,提取文字内容中包含“:”的所有段落,并为其分配结构化关键字“子方法”。同样,如上所述,可根据需要改变结构化关键字之间的层次关系。
最后,对以上所示XML树应用表2中的提取规则,提取文档内容形成按照表2所示的结构化关键字表达的结构化内容。具体地讲,遍历XML树的段落节点,使用表2所示的提取规则进行关键属性的匹配,如果匹配成功则提取该内容并使用与该提取规则对应的结构化关键字进行结构化,匹配不成功的就是不需要提取的内容。
完成结构化的结构化内容如图4所示。从图4可看出,内容结构化的结果与图3所示结构化的结构根据用户所设置的提取规则及其与结构化关键字之间的关系的不同而发生改变,所提取的结构符合用户的不同需要。
相应地,本发明提供一种智能提取文档结构的系统。如图6所示,该系统包括:一种智能提取文档结构的系统,包括:文档输入单元40,输入文档小样和待处理文档,并将文档小样发送给分析单元42,将待处理文档发送给结构化单元44;分析单元42,依据从文档输入单元40接收的文档小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字作为系统默认的提取规则和结构化关键字发送给结构化单元44;结构化单元44,对从文档输入单元40接收的待处理文档应用从分析单元42接收的提取规则,提取该文档的内容形成按照从分析单元接收的结构化关键字表达的结构化内容,并将所形成的结构化内容发送给文档输出单元46;文档输出单元46,输出从结构化单元44接收的结构化内容。
在以上系统中通过分析单元建立了系统默认的提取规则和结构化关键字,为了让用户自行设置提取规则和结构化关键字,该系统还可包括用户设置界面48。分析单元42将小样中所包含的各部分内容及其关键属性作为提示信息发送给用户设置界面48以显示给用户。然后,用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字发送给结构化单元44。此外,用户还可根据不同的需要通过用户设置界面48对所设置的提取规则和结构化关键字进行添加、删除或更新等修改操作,并将修改的提取规则和结构化关键字发送给结构化单元44。
此外,优选地,还可以向用户提供根据本发明方法生成的小样的结构化内容作为预览内容,用户根据这个预览内容调整其所设置的提取规则和结构化关键字。具体地讲,在结构化单元44从用户设置界面48接收到提取规则和结构化关键字时,结构化单元44从文档输入单元40读取小样,并对该小样应用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容作为预览内容传送给用户设置界面48以在用户设置界面上显示;用户根据从结构化单元44接收的预览内容对所设置的提取规则和结构化关键字进行调整,并将调整后的提取规则和结构化关键字又发送给结构化单元44,结构化单元44再次对小样应用经过用户调整的提取规则,生成结构化内容,然后再次作为预览内容发送给用户设置界面48以显示给用户,如此反复操作,直到所形成的结构化内容满足用户要求为止。
此时,结构化单元44遍历文档小样或待处理文档的每个部分,使用从分析单元42接收的系统默认提取规则或者由用户通过用户设置界面48建立的提取规则进行关键属性的匹配,如果匹配成功则提取该部分的内容并使用与该提取规则对应的结构化关键字进行结构化,匹配不成功的就是不需要提取的内容。
此外,如上所述,为了以统一的方法对任意格式的文档进行结构化,首先可将任意格式的文档生成具有一致规范的逻辑树。因此,如图7所示,该系统还可包括逻辑树生成单元49。逻辑树生成单元49将从文档输入单元40接收的文档小样或待处理文档生成包含其各部分内容及其关键属性的逻辑树,并将生成的逻辑树发送给分析单元42和结构化单元44。在这种情况下,分析单元42依据从逻辑树生成单元49接收的逻辑树中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将其作为系统默认的提取规则和结构化关键字发送给结构化单元44。结构化单元44对从逻辑树生成单元49接收的逻辑树应用从分析单元42接收的提取规则,提取逻辑树中所包含的各部分内容形成按照从分析单元42接收的结构化关键字表达的结构化内容。
在这种情况下,分析单元可将从逻辑树生成单元49接收的逻辑树中所包含的各部分内容及其关键属性发送给用户设置界面以显示给用户。然后,用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字发送给结构化单元44。
另外,在结构化单元44从用户设置界面48接收到提取规则和结构化关键字时,结构化单元44还可从逻辑树生成单元49读取小样的逻辑树,并对该逻辑树应用用户所设置的提取规则,提取该逻辑树中所包含的各部分内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容作为预览内容传送给用户设置界面48以在用户设置界面48上显示。然后,用户根据从结构化单元44接收的预览内容对所设置的提取规则和结构化关键字进行调整,并将调整后的提取规则和结构化关键字又发送给结构化单元44,结构化单元44再次对小样的逻辑树应用经过用户调整的提取规则,生成结构化内容,然后再次作为预览内容发送给用户设置界面48以显示给用户,如此反复操作,直到所形成的结构化内容满足用户要求为止。
从以上描述可看出,本发明依据文档小样中的样式(包括文字样式和段落样式)、文字属性、文字内容、标题级别等属性,灵活设置提取规则,同时设置提取和结构化关键字的映射关系,最后遍历文档按照设置的提取规则智能提取文档结构,形成结构化内容,从而实现对任意文档格式的结构化自动加工。而且,还可由用户通过简单的操作自行设置提取规则和结构化关键字,从而实现对文档结构的个性化提取,灵活性强。此外,通过将任意格式的文档生成具有一定规范的逻辑树,然后对该逻辑树应用统一的方法进行结构化,从而能够以统一的结构化方法处理各类文档。
以上参考实施例描述了本发明。但是,本领域的技术人员应该理解,本发明不限于所公开的实施例,在不脱离本发明的基本原理的情况下,任何类似的修改、替换或变形都应包括在本发明的保护范围内。

Claims (18)

1.一种智能提取文档结构的方法,包括以下步骤:
小样分析步骤,即,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系;
文档结构化步骤,即,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。
2.根据权利要求1所述的方法,其特征在于,所述小样分析步骤包括以下步骤:
向用户提供小样中所包含的各部分内容及其关键属性;
用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。
3.根据权利要求2所述的方法,其特征在于,还包括:
用户根据不同的需要对所建立的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系进行修改操作。
4.根据权利要求2或3所述的方法,其特征在于,在用户建立或修改提取规则和结构化关键字时,执行以下步骤:
对小样应用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容显示给用户;
用户根据显示的结构化内容对所设置的提取规则和结构化关键字进行调整,直到所形成的结构化内容满足用户要求为止。
5.根据权利要求1所述的方法,其特征在于,所述文档结构化步骤包括以下步骤:
遍历所述文档的每个部分,使用所建立的提取规则进行关键属性的匹配,如果匹配成功则提取该部分的内容并使用与该提取规则对应的结构化关键字进行结构化,匹配不成功的就是不需要提取的内容。
6.根据权利要求1所述的方法,其特征在于,所述关键属性包括字体样式、段落样式、文字属性和标题级别。
7.根据权利要求1所述的方法,其特征在于,所述结构化关键字包括表示所述关键属性和/或特殊文字内容的关键字,并且,提取规则和结构化关键字之间的关系也是可以任意指定的。
8.根据权利要求1所述的方法,其特征在于,所述小样分析步骤包括以下步骤:
根据待提取结构的文档的小样生成包含该小样的各部分内容及其关键属性的逻辑树,并依据该逻辑树中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系;
在这种情况下,所述文档结构化步骤包括以下步骤:
根据待提取结构的文档生成包含该文档的各部分内容及其关键属性的逻辑树,并对该逻辑树应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。
9.根据权利要求8所述的方法,其特征在于,所述小样分析步骤中建立提取规则和结构化关键字的步骤包括以下步骤:
向用户提供根据小样生成的逻辑树中所包含的各部分内容及其关键属性;
用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。
10.根据权利要求8所述的方法,其特征在于,所述逻辑树为XML树,该XML树中的每个节点中分别包含文档的一个部分的内容及其关键属性。
11.一种智能提取文档结构的系统,包括:
文档输入单元,输入文档小样和待处理文档,并将文档小样发送给分析单元,将待处理文档发送给结构化单元;
分析单元,依据从文档输入单元接收的文档小样中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字作为系统默认的提取规则和结构化关键字发送给结构化单元;
结构化单元,对从文档输入单元接收的待处理文档应用从分析单元接收的提取规则,提取该文档的内容形成按照从分析单元接收的结构化关键字表达的结构化内容,并将所形成的结构化内容发送给文档输出单元;
文档输出单元,输出从结构化单元接收的结构化内容。
12.根据权利要求11所述的系统,其特征在于,还包括用户设置界面,分析单元将小样中所包含的各部分内容及其关键属性发送给用户设置界面以显示给用户;用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字发送给结构化单元。
13.根据权利要求12所述的系统,其特征在于,用户根据不同的需要通过用户设置界面对所设置的提取规则和结构化关键字进行修改操作,并将修改的提取规则和结构化关键字发送给结构化单元。
14.根据权利要求12或13所述的系统,其特征在于,在结构化单元从用户设置界面接收到提取规则和结构化关键字时,结构化单元从文档输入单元读取小样,并对该小样应用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容作为预览内容传送给用户设置界面以在用户设置界面上显示;用户根据从结构化单元接收的预览内容对所设置的提取规则和结构化关键字进行调整,并将调整后的提取规则和结构化关键字又发送给结构化单元,结构化单元再次对小样应用经过用户调整的提取规则,生成结构化内容,然后再次作为预览内容发送给用户设置界面以显示给用户,如此反复操作,直到所形成的结构化内容满足用户要求为止。
15.根据权利要求14所述的系统,其特征在于,所述结构化单元执行以下操作:
遍历文档小样或待处理文档的每个部分,使用从分析单元接收的系统默认提取规则或者由用户通过用户设置界面建立的提取规则进行关键属性的匹配,如果匹配成功则提取该部分的内容并使用与该提取规则对应的结构化关键字进行结构化,匹配不成功的就是不需要提取的内容。
16.根据权利要求11所述的系统,其特征在于,还包括:
逻辑树生成单元,将从文档输入单元接收的文档小样或待处理文档生成包含其各部分内容及其关键属性的逻辑树,并将生成的逻辑树发送给分析单元和结构化单元,
在这种情况下,分析单元依据从逻辑树生成单元接收的逻辑树中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将其作为系统默认的提取规则和结构化关键字发送给结构化单元,
结构化单元对从逻辑树生成单元接收的逻辑树应用从分析单元接收的提取规则,提取逻辑树中所包含的各部分内容形成按照从分析单元接收的结构化关键字表达的结构化内容。
17.根据权利要求16所述的系统,其特征在于,还包括用户设置界面,分析单元将从逻辑树生成单元接收的逻辑树中所包含的各部分内容及其关键属性发送给用户设置界面以显示给用户;用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字发送给结构化单元。
18.根据权利要求17所述的系统,其特征在于,在结构化单元从用户设置界面接收到提取规则和结构化关键字时,结构化单元从逻辑树生成单元读取小样的逻辑树,并对该逻辑树应用用户所设置的提取规则,提取该逻辑树中所包含的各部分内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容作为预览内容传送给用户设置界面以在用户设置界面上显示;用户根据从结构化单元接收的预览内容对所设置的提取规则和结构化关键字进行调整,并将调整后的提取规则和结构化关键字又发送给结构化单元,结构化单元再次对小样的逻辑树应用经过用户调整的提取规则,生成结构化内容,然后再次作为预览内容发送给用户设置界面以显示给用户,如此反复操作,直到所形成的结构化内容满足用户要求为止。
CN 200910242897 2009-12-18 2009-12-18 一种智能提取文档结构的方法及系统 Expired - Fee Related CN102103605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910242897 CN102103605B (zh) 2009-12-18 2009-12-18 一种智能提取文档结构的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910242897 CN102103605B (zh) 2009-12-18 2009-12-18 一种智能提取文档结构的方法及系统

Publications (2)

Publication Number Publication Date
CN102103605A CN102103605A (zh) 2011-06-22
CN102103605B true CN102103605B (zh) 2012-12-19

Family

ID=44156382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910242897 Expired - Fee Related CN102103605B (zh) 2009-12-18 2009-12-18 一种智能提取文档结构的方法及系统

Country Status (1)

Country Link
CN (1) CN102103605B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855244B (zh) * 2011-06-28 2015-02-25 北大方正集团有限公司 文档目录处理方法和装置
CN102495835A (zh) * 2011-10-21 2012-06-13 传神联合(北京)信息技术有限公司 标签保护方法
CN103186514B (zh) * 2011-12-31 2016-04-20 北大方正集团有限公司 用于实现文档结构化的方法和装置
CN103902918B (zh) * 2012-12-30 2017-01-18 航天信息股份有限公司 一种从Word文档中快速提取文字格式的方法和装置
CN104699714B (zh) * 2013-12-09 2017-10-20 北大方正集团有限公司 将书版格式文件转换为epub格式文件的方法及装置
CN105654022A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档结构化信息的方法及装置
CN104331390B (zh) * 2014-11-18 2018-09-11 网易(杭州)网络有限公司 一种筛选文本的方法及装置
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
US10572579B2 (en) 2015-08-21 2020-02-25 International Business Machines Corporation Estimation of document structure
CN107301184A (zh) * 2016-04-14 2017-10-27 珠海金山办公软件有限公司 一种识别文字文档生成目录的方法及装置
CN107301162A (zh) * 2016-04-14 2017-10-27 珠海金山办公软件有限公司 一种识别文字文档的方法及装置
CN107301180A (zh) * 2016-04-16 2017-10-27 深圳市唯德科创信息有限公司 一种文档结构的分析方法和装置
CN107766477A (zh) * 2017-09-30 2018-03-06 武汉汉思信息技术有限责任公司 页面结构化数据提取方法、终端设备及存储介质
CN108170715B (zh) * 2017-12-01 2020-10-23 厦门快商通信息技术有限公司 一种文本结构化处理方法
CN108153717A (zh) * 2017-12-29 2018-06-12 北京仁和汇智信息技术有限公司 一种科技期刊论文word文档的结构化处理方法及装置
CN109783777B (zh) * 2018-12-12 2023-05-16 东软集团股份有限公司 表单导出方法、装置、可读存储介质及电子设备
CN112784539B (zh) * 2019-11-11 2024-06-11 珠海金山办公软件有限公司 一种自动生成文档样式集的方法及装置
CN112001183B (zh) * 2020-07-26 2021-11-19 湖南省侍禾教育科技有限公司 一种基于段落语义的中小学试题分割提取方法及系统
CN113743076A (zh) * 2021-11-08 2021-12-03 中关村科技软件股份有限公司 一种数据提取方法及系统
CN114241501B (zh) * 2021-12-20 2023-03-10 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及系统

Also Published As

Publication number Publication date
CN102103605A (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
CN102103605B (zh) 一种智能提取文档结构的方法及系统
CN106575166B (zh) 手写输入字符的处理、数据拆分和合并及编解码处理方法
Guler et al. Scientific workflows for bibliometrics
US8135755B2 (en) Templates in a schema editor
CN102122280B (zh) 一种智能提取内容对象的方法及系统
US7613688B2 (en) Generating business warehouse reports
US7720809B2 (en) Application integration using XML
CN102141916B (zh) 嵌入式设备及其在osd界面显示语言文字的方法
US7831908B2 (en) Method and apparatus for layout of text and image documents
US20040221233A1 (en) Systems and methods for report design and generation
US6070175A (en) Method of file editing using framemaker enhanced by application programming interface clients
CN1997990A (zh) 电子化维修手册生成方法及附加数据生成方法
US20110041087A1 (en) Context-aware charting
US20230134235A1 (en) Applying a Visual Analytics Intent Language to Generate Data Visualizations
GB2423387A (en) Application-Generic Sequence Diagram Generator Driven by a Non-Proprietary Language
JPWO2006051964A1 (ja) データ処理システム、データ処理方法、及び管理サーバ
TWI381278B (zh) 在網頁檔案中建立連結的方法及其網頁編輯系統
JPWO2006051958A1 (ja) 情報配信システム
CN109656951A (zh) 基于表达式查询数据的方法及查询系统
US20050234886A1 (en) Report designer tool and method
CN106407172A (zh) 一种基于xml的报表生成方法
CN101324844B (zh) 具备智能感知的富文本控件制作方法
CN117057318A (zh) 领域模型生成方法、装置、设备以及存储介质
CN107391650A (zh) 一种文档的结构化拆分方法,装置及系统
US20100185936A1 (en) Information processing method, information processing apparatus, and program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121219

Termination date: 20191218

CF01 Termination of patent right due to non-payment of annual fee