CN102122280B - 一种智能提取内容对象的方法及系统 - Google Patents

一种智能提取内容对象的方法及系统 Download PDF

Info

Publication number
CN102122280B
CN102122280B CN 200910242830 CN200910242830A CN102122280B CN 102122280 B CN102122280 B CN 102122280B CN 200910242830 CN200910242830 CN 200910242830 CN 200910242830 A CN200910242830 A CN 200910242830A CN 102122280 B CN102122280 B CN 102122280B
Authority
CN
China
Prior art keywords
content object
document
content
list
extracting rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910242830
Other languages
English (en)
Other versions
CN102122280A (zh
Inventor
余忠华
曹学军
闫国龙
缪萍
曾建英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN 200910242830 priority Critical patent/CN102122280B/zh
Publication of CN102122280A publication Critical patent/CN102122280A/zh
Application granted granted Critical
Publication of CN102122280B publication Critical patent/CN102122280B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种智能提取内容对象的方法,该方法包括:根据文档小样形成文档的内容对象结构;为内容对象结构的每一项建立对应的提取规则;按照提取规则将待提取文档形成为按照内容对象结构表达的内容对象列表。相应地,提供一种智能提取内容对象的系统,包括文档输入单元、结构提取单元、对象列表形成单元、用户设置界面和文档输出单元。本发明依据内容对象在文档中的表现形式,设置一些识别内容对象的规则,然后根据这些规则自动提取文档中的内容对象,从而快速准确地提取任意格式的文档中的内容对象。而且,用户可通过简单的操作灵活地设置内容对象结构和提取规则,从而实现内容对象的个性化提取。

Description

一种智能提取内容对象的方法及系统
技术领域
本发明涉及电子文档数据处理领域,尤其涉及一种智能提取文档中内容对象的方法及系统。
背景技术
随着IT应用的深入普及,各行各业都积累了大量的信息资源,这些信息资源都以电子文档数据的形式保存。科学管理和合理开发这些内部和外部信息资源已经成为企业正确决策、增强竞争力的关键。如何有效地从这些信息资源的电子文档数据内容中获取结构化的内容,也是许多计算机应用开发所需要解决的关键问题。而内容结构化过程中必然涉及内容对象的提取。比如,目前各个出版单位都有很多的是习题集、试卷、教辅等书籍,这些资源里面都含有大量的试题,对于出版单位来说希望能够把这些试题对象入库,然后可以随机抽出一些试题来组成新的试卷或者习题集用于出版新的书籍或者试卷,甚至可以发布到网页,让用户在线答题等等。
但是,目前针对内容对象的提取主要是依靠人工识别、手工录入,效率低下,并且容易出错。
发明内容
为了解决现有技术中的上述问题,本发明提供一种智能提取文档中内容对象的方法,以实现文档中内容对象的智能提取。
为了实现以上目的,本发明提供的智能提取内容对象的方法包括以下步骤:(1)根据文档小样形成文档的待提取内容对象的结构;(2)为所述内容对象结构的每一项建立对应的提取规则;(3)按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。
优选地,为了以统一的提取方法处理各类文档,步骤(1)包括以下步骤:根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则。在这种情况下,所述步骤(3)包括以下步骤:根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。
更优选地,由用户自行设置内容对象结构和提取规则。具体地讲,向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。
相应地,本发明提供一种智能提取内容对象的系统,包括:文档输入单元,输入文档小样或文档,并将文档小样发送给结构提取单元,将文档发送给对象列表形成单元;结构提取单元,根据从文档输入单元接收的文档小样形成文档的待提取内容对象的结构,并为该内容对象结构的每一项建立对应的提取规则,并将内容对象结构和提取规则发送给对象列表形成单元;对象列表形成单元,按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表,并将所形成的内容对象列表发送给文档输出单元;文档输出单元,输出从对象列表形成单元接收的内容对象列表。
优选地,该系统还可包括用户设置界面。结构提取单元通过用户设置界面向用户提供文档小样中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。
本发明依据内容对象在文档中的表现形式,设置一些识别内容对象的规则,然后根据这些规则自动提取文档中的内容对象,从而快速准确地提取任意格式的文档中的内容对象。而且,用户可通过简单的操作灵活地设置内容对象结构和提取规则,从而实现内容对象的个性化提取。
附图说明
图1是根据本发明的智能提取内容对象的方法的流程图;
图2是文档小样的一个示例;
图3是对图2的文档小样生成的内容对象列表;
图4是根据本发明的智能提取内容对象的系统的框图。
具体实施方式
以下,将结合实施例和附图对本发明进行详细描述。
图1是根据本发明的智能提取内容对象的方法的流程图,参照图1,该方法包括以下步骤:
步骤S1、分析待提取内容对象的特征,形成文档的待提取内容对象的结构,其中,所形成的内容对象结构本身以及结构中每一项的关键字可以任意设定,形成的内容对象可以是单层结构,即,只有一项,也可以包含多项,甚至内容对象可以嵌套组成任意复杂的内容对象结构;
步骤S2、为内容对象结构的每一项建立对应的提取规则,其中,提取规则的层次结构与内容对象结构的层次结构应该是一致的;
步骤S3、遍历文档,按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表。
通过这种方法,可通过根据小样获得的内容对象结构和提取规则快速、准确、自动地提取文档中的内容对象。
此外,为了能够以统一的提取方法处理各类文档,可将任意格式的文档或文档小样转换为具有一定规范的逻辑树,然后对该逻辑树应用提取规则,形成内容对象列表。
在这种情况下,步骤S1包括以下步骤:根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,比如,XML树、对象树等,并依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则;步骤(3)包括以下步骤:根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。
优选地,由用户根据需要自行设置内容对象结构和提取规则。具体地,向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。这样,用户通过简单的操作就可灵活地设置不同的提取规则和内容对象结构,从而使得本发明的内容对象提取方法可适用于任意格式的文档。并且,用户还可对所设置的提取规则和内容对象进行修改,包括添加、删除或更新等,从而提高该方法的适用性。
以下,将以图2所示文档小样为例作进一步的说明。
首先,分析图2所示文档小样中待提取内容对象的特征,以形成内容对象的结构。在本实施例中,可建立如下内容对象结构:
<试题>
    <单选题>
        <选项/>
        <选项/>
    </单选题>
    <答案/>
    <分析/>
</试题>
其中,“试题”是待提取内容对象结构的名称,它是一个大内容对象结构,里面包含一个名称为“单选题”的子内容对象结构,还有“答案”子项目和“分析”子项目,而“单选题”子内容对象结构又包含多个“选项”子项目。这是一个典型的嵌套结构,是一个较为复杂的内容对象结构。
此外,如上所述,内容对象结构的定义不是唯一的,用户可以根据自己的需要灵活确定。比如,如果不需要区分选择题里面的选项,那么内容对象的结构可以简化为如下形式:
<试题>
    <题干/>
    <答案/>
    <分析/>
</试题>
这样就是一个简单的没有嵌套结构的内容对象,“试题”对象只是包含“题干”、“答案”和“分析”三个子项目。
接着,为内容对象结构的每一项建立对应的提取规则,提取规则的层次结构与内容对象结构的层次结构是一致的。分析过程如下:
“试题”结构是以形如1.、2.、……为起始标记的内容结构。其提取规则可以定义为:以“数字+.”起始的内容结构。
“单选题”结构是以形如1.、2.、……为起始标记的内容结构。其提取规则可以定义为:以“数字+.”起始的内容结构。
“选项”的规则就是以A.、B.、C.、D.、为起始的一个内容片段。
“答案”的规则就是以“答案”为起始的一段文字内容。
“分析”的规则就是以“解析”为起始的一段文字内容。
其中“试题”结构中必须包含“单选题”结构、“答案”子项目、“分析”子项目,“单选题”结构必须包含多个“选项”子项目。
根据上述的分析,可以建立的提取规则如下表1所示。
表1提取规则表
  内容对象   提取规则
  试题(结构)   以“\d\.”起始,并且包含以下所有结构
  单选题(结构)   以“\d\.”起始,并且包含多个“选项”子项目
  选项   以“[ABCD]\.”,到下一个“[ABCD]\.”或段尾结束
  答案   以“答案”起始
  分析   以“解析”起始
注:“\d\.”是正则表达式的一部分,表示:数字+.
“[ABCD]\.”是正则表达式的一部分,表示:A或B或C或D+.
最后,遍历文档结构,用提取规则进行匹配,将完全匹配的内容形成内容对象列表。具体过程如下:
1、遍历文档,找到下一个段落,使用“试题”规则匹配,如果不能匹配则说明不是“试题”内容对象,继续找到下一个段落,使用“试题”规则匹配。直到找到能匹配“试题”规则的段落,再进行第2步的识别。
2、使用“单选题”规则匹配,“单选题”是一个结构规则,需要一个嵌套的处理过程,继续使用该段落匹配,如果不能匹配则说明不是“单选题”内容对象,转到第1步继续处理。如果能匹配上,再进行第3步的识别。
3、找到下一段,使用“选项”规则匹配,如果不能成功匹配“选项”则转到第1步,如果能匹配多个选项,则进行第4步的识别。
4、找到下一段,使用“答案”规则匹配,如果不能成功匹配则转到第1步,如果能成功匹配,则进行第5步的识别。
5、找到下一段,使用“分析”规则匹配,如果不能成功匹配则转到第1步,如果能成功匹配,则完成“试题”内容对象的匹配。
匹配成功后,把以上各步骤匹配出来的内容组织到“试题”内容结构中,完成一个内容对象的提取。重复上述过程,直到完成整个文档的遍历,然后把提取的各个内容对象记录到图3所示的内容对象列表中。从图3可看出,该内容对象列表提取出了用户所需的对象内容。
对于其它类型的试卷,比如包括多选题和不定选题,可通过修改上述内容对象结构和提取规则来实现智能提取。通常在不同类型的选择题前面会有一行表示以下选择题为哪种类型的提示信息。这时,就可根据有无这样的提示信息来提取不同类型的选择题。也就是说,用户可根据需要通过简单的操作灵活地设置内容对象结构和提取规则,从而可适用于多种格式的文档中的对象内容提取。
相应地,本发明提供一种智能提取内容对象的系统。如图4所示,该系统包括:文档输入单元40,输入文档小样或文档,并将文档小样发送给结构提取单元42,将文档发送给对象列表形成单元44;结构提取单元42,根据从文档输入单元40接收的文档小样形成文档的待提取内容对象的结构,并为该内容对象结构的每一项建立对应的提取规则,并将内容对象结构和提取规则发送给对象列表形成单元44;对象列表形成单元44,按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表,并将所形成的内容对象列表发送给文档输出单元46;文档输出单元46,输出从对象列表形成单元接收的内容对象列表。此外,该系统还可包括用户设置界面48。结构提取单元42通过用户设置界面48向用户提供文档小样中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。结构提取单元42、对象列表形成单元44的操作与上述方法中的形成内容对象结构和提取规则以及形成内容对象列表的步骤相同,因此省略其操作。
从以上描述可看出,本发明根据文档中待提取内容对象的特征形成内容对象结构,为内容对象结构的每一项建立对应的提取规则,然后使用设定的提取规则匹配文档,提取能完全匹配的内容并形成内容对象列表,从而实现文档中内容对象的智能提取,无论是效率还是准确率都明显高于人工录入方式。而且,用户还可根据需要设置或修改内容对象结构和提取规则,从而可实现对文档中的内容对象的个性化提取。此外,通过将文档转换为具有一定规范的逻辑树,然后根据该逻辑树建立内容对象结构和提取规则,从而能够以统一的提取方式提取任意格式文档所转换的逻辑树中的内容对象。
以上参考实施例描述了本发明。但是,本领域的技术人员应该理解,本发明不限于所公开的实施例,在不脱离本发明的基本原理的情况下,任何类似的修改、替换或变形都应包括在本发明的保护范围内。

Claims (7)

1.一种智能提取内容对象的方法,包括以下步骤: 
(1)根据文档小样形成文档的待提取内容对象的结构; 
(2)为所述内容对象结构的每一项建立对应的提取规则; 
(3)按照提取规则将待提取文档形成为按照所述内容对象结构表达的内容对象列表; 
其中,所述步骤(1)包括以下步骤: 
根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则, 
在这种情况下,所述步骤(3)包括以下步骤: 
根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。 
2.根据权利要求1所述的方法,其特征在于,所述内容对象可以是单层结构,也可以具有嵌套结构。 
3.根据权利要求1所述的方法,其特征在于,所述提取规则的层次结构与内容对象结构的层次结构一致。 
4.根据权利要求1所述的方法,其特征在于,所述按照提取规则形成内容对象列表的步骤包括以下步骤: 
遍历文档,利用提取规则进行匹配,将完全匹配的内容形成按照所述内容对象结构表达的内容对象列表。 
5.根据权利要求1所述的方法,其特征在于,向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。 
6.一种智能提取内容对象的系统,包括: 
文档输入单元,输入文档小样或文档,并将文档小样发送给结构提取单元,将文档发送给对象列表形成单元; 
结构提取单元,根据从文档输入单元接收的文档小样形成文档的待提取内容对象的结构,并为该内容对象结构的每一项建立对应的提取规则,并将内容对象结构和提取规则发送给对象列表形成单元; 
对象列表形成单元,按照从结构提取单元接收的提取规则将从文档输入单元接收的文档形成为按照从结构提取单元接收的内容对象结构表达的内容对象列表,并将所形成的内容对象列表发送给文档输出单元; 
文档输出单元,输出从对象列表形成单元接收的内容对象列表
其中,所述结构提取单元执行以下操作: 
根据文档小样生成包含该小样的各部分内容及其关键属性的逻辑树,依据该逻辑树中所包含的各部分内容及其关键属性形成待提取内容对象的结构及其对应的提取规则, 
在这种情况下,所述对象列表形成单元执行以下操作: 
根据文档生成包含文档内容及其关键属性的逻辑树,遍历该逻辑树,按照提取规则将该逻辑树形成为按照所述内容对象结构表达的内容对象列表。 
7.根据权利要求6所述的系统,其特征在于,还包括用户设置界面,结构提取单元通过用户设置界面向用户提供文档小样或根据文档小样生成的逻辑树中所包含的各部分内容及其关键属性,用户根据所提供的信息设置内容对象结构及其提取规则。 
CN 200910242830 2009-12-17 2009-12-17 一种智能提取内容对象的方法及系统 Expired - Fee Related CN102122280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910242830 CN102122280B (zh) 2009-12-17 2009-12-17 一种智能提取内容对象的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910242830 CN102122280B (zh) 2009-12-17 2009-12-17 一种智能提取内容对象的方法及系统

Publications (2)

Publication Number Publication Date
CN102122280A CN102122280A (zh) 2011-07-13
CN102122280B true CN102122280B (zh) 2013-06-05

Family

ID=44250841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910242830 Expired - Fee Related CN102122280B (zh) 2009-12-17 2009-12-17 一种智能提取内容对象的方法及系统

Country Status (1)

Country Link
CN (1) CN102122280B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN103440294A (zh) * 2013-08-16 2013-12-11 哈尔滨工业大学(威海) 一种基于期望列表的网页内容抽取方法
CN104731822A (zh) * 2013-12-24 2015-06-24 明博教育科技有限公司 一种网络电子资源的存储及获取方法和系统
CN105677620B (zh) * 2014-11-21 2018-06-08 高德软件有限公司 项目管理文档生成方法及装置
CN104573098B (zh) * 2015-01-30 2018-05-29 深圳市华傲数据技术有限公司 基于Spark系统的大规模对象识别方法
CN106484663B (zh) * 2016-10-12 2019-05-03 天闻数媒科技(湖南)有限公司 一种文档内容的提取方法和装置
CN106845467B (zh) * 2016-12-14 2019-07-19 北京航天测控技术有限公司 基于光学字符识别技术的航空维修工卡工作内容识别方法
CN106815213A (zh) * 2016-12-30 2017-06-09 全民互联科技(天津)有限公司 一种合同履行条款自动提取方法及系统
US11070377B1 (en) * 2019-02-14 2021-07-20 Bank Of America Corporation Blended virtual machine approach for flexible production delivery of intelligent business workflow rules
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN112001183B (zh) * 2020-07-26 2021-11-19 湖南省侍禾教育科技有限公司 一种基于段落语义的中小学试题分割提取方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488110A (zh) * 2001-11-19 2004-04-07 松下电器产业株式会社 数据处理器和数据处理方法
CN1504925A (zh) * 2002-11-27 2004-06-16 用于导入和导出分层结构化数据的方法和计算机可读介质
CN1581172A (zh) * 2003-08-08 2005-02-16 富士通株式会社 多媒体对象检索设备和方法
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488110A (zh) * 2001-11-19 2004-04-07 松下电器产业株式会社 数据处理器和数据处理方法
CN1504925A (zh) * 2002-11-27 2004-06-16 用于导入和导出分层结构化数据的方法和计算机可读介质
CN1581172A (zh) * 2003-08-08 2005-02-16 富士通株式会社 多媒体对象检索设备和方法
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及系统

Also Published As

Publication number Publication date
CN102122280A (zh) 2011-07-13

Similar Documents

Publication Publication Date Title
CN102122280B (zh) 一种智能提取内容对象的方法及系统
CN102103605B (zh) 一种智能提取文档结构的方法及系统
CN106575166B (zh) 手写输入字符的处理、数据拆分和合并及编解码处理方法
Welsh Dealing with data: Using NVivo in the qualitative data analysis process
CN101908056A (zh) 从任意二维数据集中识别和抽象可视化点的设备和方法
CN101937427B (zh) 一种基于浏览器的内容编辑及发布的系统及方法
CN107885499A (zh) 一种接口文档生成方法及终端设备
US10049098B2 (en) Extracting actionable information from emails
CN103778200B (zh) 一种报文信息源抽取方法及其系统
CN101430714B (zh) 一种基于样式的内容结构化加工方法及系统
CN105138575A (zh) 语音文本串的解析方法和装置
Thomale Interpreting MARC: where’s the bibliographic data?
CN104169912A (zh) 信息处理终端和方法,以及信息管理设备和方法
CN109445794B (zh) 一种页面构造方法及装置
CN103020295A (zh) 一种问题标签标注方法及装置
CN101430684A (zh) 中文办公软件文档与其他格式文档相互转换的方法及装置
CN102193940A (zh) 一种对二维表格进行特征分析和数据提取的方法
CN107741972A (zh) 一种图片的搜索方法、终端设备及存储介质
CN105488471B (zh) 一种字形识别方法及装置
CN108520065B (zh) 命名实体识别语料库的构建方法、系统、设备及存储介质
CN106462933A (zh) 使用内容结构来社交地连接用户
US10628526B2 (en) Providing suggested diagrammatic representations of user entered textual information
CN108959204A (zh) 互联网金融项目信息抽取方法和系统
JP2020524833A (ja) テキスト情報を表示する方法および装置
CN109471957B (zh) 一种基于统一标签的元数据转换方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130605

Termination date: 20191217

CF01 Termination of patent right due to non-payment of annual fee