CN1629838A

CN1629838A - 电子文档的处理、浏览以及信息提取的方法、装置及系统

Info

Publication number: CN1629838A
Application number: CNA2003101231185A
Authority: CN
Inventors: 刘世霞; 杨力平
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-12-17
Filing date: 2003-12-17
Publication date: 2005-06-22
Also published as: US20050138026A1; US8554720B2; US7366715B2; US20080208857A1

Abstract

本发明公开了一种电子文档的处理方法及装置、一种电子文档的浏览方法及相应的浏览器，一种电子文档的信息提取方法及相应的信息提取系统。所述的电子文档的处理方法包括：在作者写作电子文档时，从所述电子文档中提取一个或多个文档所涉及领域的信息；以及与所述电子文档对应地保存所述信息。其中，利用一种或多种信息提取模式从所述文档中提取关于不同领域的信息。并且所提取的信息是经过作者核实了的信息，以确保其正确性、可靠性和可读性。

Description

电子文档的处理、浏览以及信息提取的方法、装置及系统

技术领域

本发明一般涉及数据处理技术，特别地，本发明涉及一种电子文档的处理方法及装置、一种电子文档的浏览方法及相应的浏览器、以及一种电子文档的信息提取方法以及相应的信息提取系统。

背景技术

随着计算机技术的普及以及互连网的迅猛发展，大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战，迫切需要一些自动化的工具来帮助人们在海量信息源中迅速找到真正的信息。信息提取(Information Extraction：IE)研究正是在这种背景下产生的。

信息提取是一种从以自然语言编写的文档中提取所规定的一组相关信息(事件、事实等)的简单文本处理形式，目标是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。信息提取系统的主要功能是从文本中提取出特定的事实信息。典型地，以信息提取系统为例，信息提取过程通常包括：1)识别；2)提取位于非结构化文本数据中的特定信息；以及3)生成用作所请求内容的输出。这例如可以参考以下文献，该文献在此引述作为参考，N.Catala，N.Castell，M.Martin.ESSENCE：a Portable Methodology for AcquiringInformation Extraction Patterns.Proceedings of 14th EuropeanConference on Artificial Intelligence(ECAI-2000)，411-415.Berlin，2000。被提取出来的信息以结构化的形式描述，可以直接存入数据库中，供用户查询以及进一步分析利用。

有两种主要的方法来设计信息提取系统，一种是知识工程方法(Knowledge Engineering Approach)，另一种是机器学习方法。这例如可以参考以下文献，Appelt，D.E.and Israel，D.J.Introductionto Information Extraction Technology.In Proceedings of the 16thInternational Joint Conference on Artificial Intelligence，1999该文献在此引述作为参考。

知识工程方法主要靠手工编制规则来使系统处理特定知识领域的信息提取问题。这种方法要求编制规则的知识工程师对该知识领域有深入的了解。显然，知识工程师的技能在系统要实现的性能上起了很大的作用。除了特定信息提取系统的需求技巧和详细知识以外，知识工程方法通常还需要许多额外的工作来改善该方法的性能。例如，构造高性能的信息提取系统通常是定制一组提取规则的重复的过程。在定制了信息提取系统的若干规则之后，可以在已经标注好的测试样本集运行该系统，并对输出的提取结果进行检查和比较，以检测所制定的规则是否完备。知识工程师然后根据比较结果对规则进行适当修改。重复上述过程直至获得一个完备的规则集。这是一个费时费力且需要较高智力水平的工作。

机器学习方法不一定需要如此专业的知识工程师，即不需要具备有关信息提取系统如何工作、如何书写信息提取系统规则的详细知识。该方法需要用户提供大量的具有代表性的学习样本。系统主要通过学习已经标注好的学习样本提取规则。对该知识领域比较熟悉的人都可以根据预先约定的规范标注学习样本，构造相应的语料库。这样，经过训练后的系统就能处理没有见过的新文本。依照这种方法，不需要让使用者手头具备详细的关于如何使信息提取系统工作的知识，或者如何书写用于信息提取系统的规则。而仅需要使知晓该技术领域和任务的使用者获得适量被标注了提取信息的样本集。通常，标注常集中在一个系统处理的特定方面。例如，通过使用领域相关的正确名字标注样本集，来训练名字识别器。一旦一个适当的训练样本集已经被标注好，就可以在该样本集运行学习算法，以获得有用的信息识别模式知识。

尽管已经提出了很多方法用于从非结构化的文本中来提取信息，但由于现有的学习和训练算法的局限性，这些方法都不能产生满意的结果。对于知识工程方法，这种方法要求编制规则的知识工程师对该知识领域有深入的了解。这样的人有时找不到，而且开发的过程可能非常耗时。而机器学习方法虽然比知识工程方法快，但需要足够数量的训练数据，才能保证其处理质量。现有机器学习方法中用于构造提取模式的方法的主要缺陷是：依赖于语言处理、机器学习或数据挖掘技术。这些方法的大多数需要有标注的训练样本集，而标注这些训练样本集是十分费时的而且必须由领域专家来做。

另外，通常文档写作工具是独立于使用者用来管理文档的工具的，例如，文档写作工具与文档信息提取工具是分开工作的。当前的使用情况是：作者在准备文档时，并不关心读者将如何利用文档的内容。同时，从信息访问的观点来看，用户又会感到难于找到他/她所真正想要的东西。

而且，由于目前计算机对自然语言的理解能力还处于字/词理解的水平，而对于文档管理工具和文档信息提取工具来说，需要句子甚至整篇文章的理解和语义能力，才能真正满足客户的需要。

发明内容

为解决现有信息提取技术中存在的上述问题，本发明提出在作者写作电子文档的过程中，就为以后的信息提取准备相关的信息，即，在作者准备文档期间，就为作者提供一些工具来方便地为以后用户进行信息提取做贡献。更具体地说，作者在写作文档时，通过结合现有技术中为不同领域所设计的提取模式和信息提取引擎，从所编辑的文档中提取以后特定领域用户所需要的信息。由此，可以帮助用户通过电子文档中所附着的涉及为特定领域提取的信息，方便地使用从文档中提取出的涉及不同领域的有关同一主题的信息。此外，当读取到涉及特定领域的信息的电子文档时，可以读出文档所涉及特定领域的可靠信息的知识标记，从而方便用户快速作出决策。并且，由于所述文档所保存的特定领域的信息是经过验证的，因此这些信息能更准确地反映所属领域的特征信息。

根据本发明的一个方面，提供了一种电子文档的处理方法，包括步骤：在作者写作电子文档时，从所述电子文档中提取一个或多个文档内容所涉及领域的信息；以及与所述电子文档对应地保存所述提取信息。

根据本发明的再一个方面，提供了一种电子文档的处理装置，包括：电子文档编辑单元，用于编辑电子文档；信息提取模式选择单元，用于从多种信息提取模式中为所述电子文档选择一种信息提取模式；信息提取单元，用于根据所选择的信息提取模式，从所述电子文档中提取出包含文档内容所涉及领域的多个信息的列表；提取信息生成单元，用于从所述的提取信息的列表中选择与所述电子文档最相关的信息；以及提取信息保存单元，用于与电子文档对应地保存由提取信息生成单元生成的信息。

根据本发明的另一个方面，提供了一种浏览电子文档的方法，包括步骤：读取有关从所述文档中提取出的文档内容所涉及不同领域的信息；将读取出的、从所述文档中提取出的信息呈现给用户；以及将所述提取信息所涉及的文档内容呈现给所述用户。

根据本发明的再一个方面，提供了一种电子文档浏览器，包括：电子文档浏览单元，用于浏览电子文档的内容；提取信息读取单元，用于读取与所述文档对应地保存的有关从所述文档中提取出的涉及不同领域的信息；以及提取信息呈现单元，用于将由提取信息读取单元读取的提取信息呈现给用户。

根据本发明的另一个方面，提供了一种电子文档的信息提取方法，包括步骤：获取与相应电子文档对应保存的从所述文档中提取出的信息；将所获取的从所述文档中提取出的信息保存在一个提取信息存储数据库中；根据用户的查询，找出与用户输入的查询对应的提取信息的列表；以及将与用户输入的查询相同或最接近的提取信息呈现给所述用户。

根据本发明的再一个方面，提供了一种电子文档的信息提取系统，包括：提取信息获取装置，用于获取与相应电子文档对应保存的、从所述电子文档中提取出信息；提取信息存储数据库，用于保存由所述提取信息获取装置所获取的提取信息；提取信息查找装置，用于根据用户的查询，从所述提取信息存储数据库中找出与用户输入的查询相同或最接近的一个或多个提取信息；以及提取信息呈现装置，用于将由提取信息查找装置找出的一个或多个提取信息呈现给用户。

附图说明

以下结合附图，对本发明的具体实施方式进行详细的说明，由此，本发明的特点、优点、目的和有益效果将会变得更明显，其中：

图1是根据本发明的一种实施方式的电子文档的处理方法的流程图；

图2是根据本发明的一种实施方式的电子文档的处理装置的结构示意图；

图3是根据本发明的一种实施方式的浏览电子文档的方法的流程图；

图4是根据本发明的一种实施方式的电子文档浏览器的结构的方框图；

图5是根据本发明的一种实施方式的电子文档的信息提取方法的流程图；以及

图6是根据本发明的一种实施方式的电子文档的信息提取系统的结构方框图。

具体实施方式

以下，结合附图对本发明的各优选实施例进行详细的说明。

电子文档的处理方法

根据本发明的一个方面，提出了一种电子文档的处理方法。图1是根据本发明的一种实施方式的电子文档的处理方法的流程图。

如图1所示，在步骤101，作者写作电子文档。根据本发明的电子文档的处理方法是基于传统的文档编辑方法，通过传统的文档编辑工具，例如MS Word，Adobe Writer，或WPS等等，作者可以对所写的文档进行常规的编辑、浏览等等操作。根据本发明，关于作者写作的文档的信息提取是在作者写完一篇文档时进行的，或者可以在完成文档的一部分(例如一个章节)时进行。

接着，在步骤102，为作者编辑的文档(或是文档中的一些章节)选择信息提取模式。首先对作者所编辑的文档进行预处理，主要是进行段落分割和去除停用词(即一些最常用的应该排除在搜索范围内的词，如中文词汇中的‘的’、‘地’、‘得’、‘了’等)。其中每种所述的信息提取模式是针对不同领域对文档进行信息提取所使用的预先定义的匹配规则。现有技术中，已经为不同领域设计了多种信息提取模式。由此，可由作者选择一种信息提取模式或通过算法来选择相应的信息提取模式。例如，如果通过从多种信息提取模式中由作者选择一种信息提取模式的话，则相应地也提供与所选取的信息提取模式对应的一些有代表性的、典型提取信息作为参考信息，然后，通过以下方法来进行信息提取模式的选择：

i)计算作者所编辑文档中的语句与给出的参考信息之间的相似性；这种计算相似性的方法例如可以利用以下公式(1)来计算所编辑的文档中的语句S_i与典型的信息IS_j的相似性：

relevanc e_{keywords} (S_{i}, I S_{j}) = \underset{k}{Σ} (w_{k} (K S_{i}) + w_{k} (I S_{j})) / Max {(wkn (S_{i}), wkn (I S_{j}))}^{*} 2 - - - (1)

其中，w_k(S_i)是所编辑的文档中的语句S_i和典型的提取信息IS_j中的第k个公共关键词在S_i中的权重，w_k(IS_j)是所编辑的文档中的语句S_i和信息提取模式数据库中信息IS_j的第k个公共关键词在IS_j中的权重(缺省，该值为1)，wkn(.)是构成一个串的所有词(不包括停用词)的权重的和。在这里，所编辑的文档中的语句S_j中第k个关键词的权值w_k(S_i)可以利用关键词的出现频率来计算关键词的重要性，例如tf(term frequency)方法或者tf-idf(term frequency-inversedocument frequency)方法等。tf方法就是按照每个关键词在该文本段中出现的次数来排序计算权重。tf-idf方法则是通过计算tf×idf来确定每个关键词的权重，其中，tf是该关键词在该文本段T中出现的次数，idf是该关键词在该文档的所有文本段中出现的次数的倒数。因此，tf-idf方法更能够体现关键词在不同文本段之间的相对重要性。当然，也可以用其他方法来计算关键词的权重。

ii)根据计算出来所编辑文档中的语句与给出的参考信息之间的相似性值的得分高低，对相应的信息提取模式进行排序；

iii)选择权值较高的信息提取模式，将其作为所编辑文档的候选信息提取模式。

在步骤102中，还包括，对多种信息提取模式进行结构化分层的处理。即，根据每种信息提取模式所属的领域或级别，将所述多种信息提取模式组织成分层结构，以方便进行信息提取模式的查找。

接着，再回到图1，过程进行到步骤103，根据选择的信息提取模式，从作者所编辑的文档中提取特定领域的信息，从而生成一个所述文档关于所涉及领域的信息的列表。

接着，在步骤104，由作者核实上述步骤中从文档中提取出来的文档所涉及领域的信息。在此，“核实”包括作者查看、修改生成的信息，以保证从所述文档中提取的信息的正确性、可靠性和有用性。

另外，在步骤104中，还可以包括：提供参考信息，其中所述的参考信息是与所选择的信息提取模式对应的典型提取信息；然后通过计算所述提取信息与参考信息之间的相似性，根据相似性的结果来核实所述提取信息的准确性。

接着，在步骤105，判断是否希望从所述文档中提取更多的信息。通常，一篇文档会包含许多方面的内容，这些内容可能涉及不同的主题或领域，同样读者在查找和阅读文档时会有各种不同的目的。因此如果在步骤105中判断需要提取更多的信息，就返回到步骤102，选择信息提取模式，从文档中提取下一个信息。如果没有其它信息需要提取的话，则进行到步骤106。

在步骤106，与该文档对应地保存从文档中提取的关于文档涉及不同领域的信息。具体地，根据本发明的优选实施方式，可以将提取出的信息作为知识标记(knowledge tag)与电子文档一起保存。例如，可以使用标记语言将标记附加到文档当中。

如前面所述，本发明没有对提取信息的具体保存方式进行限定，例如，可以与电子文档一起保存，即作为电子文档的一部分，也可以与电子文档分开保存，只要能够与所述电子文档对应即可。

举例来说，在以下的一种应用场景中(一则关于会议的报道)，本实施例可应用为：

“新华社北京3月8日电(记者李术峰)：中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。

会议研究通过了贯彻落实“两会”精神的有关决定，审议通过了中国农工民主党中央1998年工作要点(草案)，并任命了中央副秘书长。

农工民主党中央主席蒋正华主持了会议，他说，农工民主党有100多名党员作为代表和委员参加了今年的“两会”，各位党员要认真履行代表和委员的职责，开好会，在1998年的工作中认真贯彻“两会”精神，加强农工民主党的自身建设，推动事业进一步发展，为建设有中国特色社会主义事业作出新的贡献。

会前，农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。”

在这个应用实例中，根据本发明的电子文档的处理方法，在作者准备该篇文档时，可以提取有关会议的时间、地点、组织者、以及标题的信息。所提取的信息可以通过以下XML(可扩展标记语言)进行编辑而作为知识标记被保存。

<Pattern>ConferenceInfo<\Pattern>

<Title>中国农工民主党第十二届中央常委员会第一次会议</Title>

</ExtractedInfo>

</InformationExtraction>

其中，所使用的信息提取模式是关于新闻报道领域中使用的会议信息提取模式，提取出的信息包括有关会议的时间、地点、组织者、以及的标题的信息。

通过以上实施例的描述可知，如果采用本实施例的电子文档的处理方法，则可以辅助作者在写作的过程中提取关于文档所涉及不同领域内容的多个信息，在不增加作者负担的情况下，利用作者对所写作文档的理解，来保证从所述文档中提取出的信息的准确性。并且，由于可以从文档中提取出充分反映该文档所涉及领域的多个信息，由此，用户可以利用这些提取出的信息对不同领域但涉及同一主题的文档进行检索和预览，一方面，在将文档全部内容呈现给读者之前，让读者了解该文档大致所涉及领域的信息，节省了读者阅读的时间，另一方面，在用户进行决策时，能快速从所述电子文档中获得正确的信息

电子文档的处理装置

在同一发明构思下，根据本发明的另一个方面，提供了一种电子文档的处理装置。图2是根据本发明的一种实施方式的电子文档的处理装置的结构示意图。

如图2所示，该电子文档的处理装置200，包括：电子文档编辑单元201，用于编辑电子文档。电子文档编辑单元201可以是一个独立的文档编辑单元，也可以使用已有的文档编辑器，例如MSword，Adobe Writer，或WPS等等；信息提取模式选择单元202，用于为所编辑的电子文档选择一种或多种信息提取模式，其中每种所述的信息提取模式是针对不同领域对文档进行信息提取所使用的预先定义的匹配规则；信息提取单元203，用于根据所选择的信息提取模式，从所编辑的电子文档中提取出包含文档内容所涉及领域的多个信息的列表；提取信息生成单元205，用于从所述的提取信息的列表中选择与所述电子文档最相关的信息；提取信息核实单元204，用于允许作者对提取信息生成单元205所生成的信息进行评价、修改以保证所生成的提取信息的正确性、可读性和有用性；以及提取信息保存单元206，用于与电子文档对应地保存由提取信息生成单元205生成的提取信息。

此外，在本实施例的电子文档的处理装置200的信息提取模式选择单元202还可以包括：参考信息呈现单元(未示出)，用于呈现对应每种信息提取模式的一个或多个典型提取信息的参考信息；信息相似性计算单元(未示出)，用于计算所编辑文档中的语句与每种信息提取模式中的参考信息之间的相似性值；以及信息提取模式确定单元(未示出)，用于根据相似性值的排序，将具有高相似性值的信息提取模式确定为用于所述文档的信息提取模式。

此外，本实施例中的信息提取模式选择单元202还可以包括：信息提取模式排列单元(未示出)，用于根据每种信息提取模式所属的领域或级别，将信息提取模式排列为分层结构。这样，可以方便作者从多种信息提取模式中进行快速选择。

此外，在本实施例的电子文档的处理装置200的提取信息核实单元204中，还可以进一步包括：参考信息呈现单元(未示出)，用于呈现对应每种信息提取模式的一个或多个典型提取信息的参考信息；信息相似性计算单元(未示出)，用于计算所提取的信息与每种信息提取模式中的参考信息之间的相似性值；以及信息确定单元(未示出)，用于根据相似性值的排序，选择具有高相似性值的信息。

通过以上实施例的描述可知，如果采用本实施例的电子文档的处理装置，则可以利用由前述电子文档的处理方法编制的电子文档中保存的从所述文档中提取出的涉及不同领域内容的多个信息，在不增加作者负担的情况下，利用作者对所写作文档的理解，来保证从所述文档中提取出的信息的准确性。并且，由于可以从文档中提取出充分反映该文档所涉及领域的多个信息，由此，用户可以利用这些提取出的信息对不同领域但涉及同一主题的文档进行检索和预览，一方面，在将文档全部内容呈现给读者之前，让读者了解该文档大致所涉及领域的信息，节省了读者阅读的时间，另一方面，在用户进行决策时，能快速从所述电子文档中获得正确的信息。

浏览电子文档的方法

在同一发明构思下，根据本发明的另一个方面，提供一种浏览电子文档的方法，其中电子文档是通过上述电子文档的处理方法产生的文档，即，与该文档对应地保存有关从所述文档中提取出的涉及不同领域的信息。

图3是根据本发明的一种实施方式的浏览电子文档的方法的流程图。如图3所示，首先在步骤301，读取有关从所述文档中提取出的涉及不同领域的信息。具体地，根据所提取的信息的保存方式，读出信息。例如，如果提取信息是被保存在文档的尾部作为知识标记，则相应地识别出该知识标记并将其中的信息读出。

接着，在步骤302，将读取出的、从所述文档中提取出的信息呈现给读者(用户)。具体地，可以有多种方式来呈现相应的提取信息。

接着，在步骤303，读者查看这些提取信息，并判断是否对该文档感兴趣。如果读者对该文档感兴趣，则确认并进入到步骤304，将文档内容呈现给读者；否则，不显示文档内容，而进入到步骤305，关闭文档结束。

通过以上实施例的描述可知，如果采用本实施例的浏览电子文档的方法，则可以利用由前述电子文档的处理方法编制的电子文档中保存的、从所述文档中提取出的涉及不同领域内容的多个信息，在不增加作者负担的情况下，利用作者对所写作文档的理解，来保证从所述文档中提取出的信息的准确性。并且，由于可以从文档中提取出充分反映该文档所涉及领域的多个信息，由此，用户可以利用这些提取出的信息对不同领域但涉及同一主题的文档进行检索和预览，一方面，在将文档全部内容呈现给读者之前，让读者了解该文档大致所涉及领域的信息，节省了读者阅读的时间，另一方面，在用户进行决策时，能快速从所述电子文档中获得正确的信息。

电子文档浏览器

在同一发明构思下，根据本发明的另一个方面，提供了一种浏览电子文档的浏览器，其中电子文档是通过上述电子文档的处理方法产生的文档，即，与该文档对应地保存有关从所述文档中提取出的涉及不同领域的信息。

图4是根据本发明的一种实施方式的电子文档浏览器的结构的方框图。如图4所示，本实施例的电子文档浏览器400，包括：电子文档浏览单元401，用于浏览电子文档的内容，它可以是一个现有技术中的浏览器，如MS Word Viewer，MS Internet Explorer，Netscape Navigator，Acrobat Reader等等；

提取信息读取单元402，用于读取与所述文档对应地保存的有关从所述文档中提取出的涉及不同领域的信息。具体地，根据提取信息的保存方式，读出提取信息。例如，如果提取信息是被保存在文档的尾部作为知识标记，则相应地识别出该知识标记并将其中的提取信息读出；

提取信息呈现单元403，用于将由提取信息读取单元402读取的提取信息呈现给用户。具体地，可以有多种方式来呈现相应的从所述文档中提取出的信息。

通过以上实施例的描述可知，如果采用本实施例的浏览电子文档的浏览器，则可以利用由前述电子文档的处理方法编制的电子文档中保存的、从所述文档中提取出的涉及不同领域内容的多个信息，在不增加作者负担的情况下，利用作者对所写作文档的理解，来保证从所述文档中提取出的信息的准确性。并且，由于可以从文档中提取出充分反映该文档所涉及领域的多个信息，由此，用户可以利用这些提取出的信息从分散在各个文档中但涉及同一主题的文档进行检索和预览，一方面，在将文档全部内容呈现给读者之前，让读者了解该文档大致所涉及领域的信息，节省了读者阅读的时间，另一方面，在用户进行决策时，能快速从所述电子文档中获得正确的信息。

电子文档的信息提取方法

在同一发明构思下，根据本发明的另一个方面，提供了一种电子文档的信息提取方法，其中电子文档是通过上述电子文档的处理方法产生的文档，即，与该文档对应地保存有关从所述文档中提取出的涉及不同领域的信息。

图5是根据本发明的一个实施例的电子文档的信息提取方法的流程图。如图5所示，首先在步骤501，获取与相应电子文档对应保存的从所述文档中提取出的信息。具体地，如果电子文档是使用上述电子文档的处理装置200写作的文档，则每个文档都会有关于从所述文档中提取出的涉及不同领域的信息。特别地，对于在因特网上发布的电子文档，可以通过网络搜索器(web crawler)来遍历各个电子文档，来获取电子文档涉及不同领域内容的信息，例如从知识标记中获取。

接着，在步骤502，将所获取的从所述文档中提取出的信息保存在一个提取信息存储数据库中。

接着，在步骤503，由用户输入一个查询。

接着，在步骤504，在所述提取信息数据库中找出与用户输入的查询对应的提取信息的列表。

然后，在步骤505中，将与用户输入的查询相同或最接近的信息呈现给所述用户，据此，用户可以了解到文档所涉及的大致内容，从而可以快捷地作出决策。在该步骤中，可以包括：计算用户输入的查询与提取信息列表中的各个提取信息的相关程度，以及将上述相关程度最高的一个或者相关程度大于一个预定阈值的提取信息选择出来。并且，在步骤506中，如果用户还想了解更多的内容，则可以将与用户选择的信息对应的电子文档或者与所述电子文档的链接提供给所述用户。

通过以上实施例的描述可知，如果采用本实施例的电子文档的信息提取方法，则可以利用由前述电子文档的处理方法编制的电子文档中保存的、从所述文档中提取出的涉及不同领域内容的多个信息，在不增加作者负担的情况下，利用作者对所写作文档的理解，来保证从所述文档中提取出的信息的准确性。并且，由于可以从文档中提取出充分反映该文档所涉及领域的多个信息，由此，用户可以利用这些提取出的信息对不同领域但涉及同一主题的文档进行检索和预览，一方面，在将文档全部内容呈现给读者之前，让读者了解该文档大致所涉及领域的信息，节省了读者阅读的时间，另一方面，在用户进行决策时，能快速从所述电子文档中获得正确的信息。

电子文档的信息提取系统

在同一发明构思下，根据本发明的另一个方面，提供了一种电子文档的信息提取系统，其中电子文档是通过上述电子文档的处理方法产生的文档，即，与该文档对应地保存有关从所述文档中提取出的涉及不同领域的信息。

与图5所示的电子文档的信息提取方法相对应，图6是根据本发明的一个实施方式的电子文档的信息提取系统的结构方框图。

如图6所示，电子文档的信息提取系统600，包括：提取信息获取装置601，用于提取与相应电子文档对应保存的、从所述文档中提取出的信息。如前所述，提取信息获取装置601可以是一个网络搜索器来遍历网络上的各个电子文档，来获取从所述电子文档中提取出的信息；提取信息存储数据库602，用于保存由提取信息获取装置601所获取的提取信息；提取信息查找装置603，用于根据用户的查询，从提取信息存储数据库602中找出与用户输入的查询相同或最接近的一个或多个提取信息，例如，可以包括一个相关度计算装置，用于计算用户输入的查询与提取信息列表中的各个提取信息的相关程度，由此，所述提取信息查找装置603根据相关度计算装置的计算结果，将上述相关程度最高的一个或者相关程度大于一个预定阈值的提取信息选择出来；提取信息呈现装置604，用于将由提取信息查找装置603找出的一个或多个提取信息呈现给用户，据此，用户可以了解到文档所涉及的大致内容，从而可以快速地作出决策。此外，根据本实施例的电子文档的信息提取系统，还可以包括：电子文档提供装置605，用于将所述用户选择的提取信息所对应的电子文档或者与所述电子文档的链接提供给所述用户。

通过以上实施例的描述可知，如果采用本实施例的电子文档的信息提取系统，则可以实现上述电子文档的信息提取方法，利用由前述电子文档的处理方法编制的电子文档中保存的、从所述文档中提取出的涉及不同领域内容的多个信息，在不增加作者负担的情况下，利用作者对所写作文档的理解，来保证从所述文档中提取出的信息的准确性。并且，由于可以从文档中提取出充分反映该文档所涉及领域的多个信息，由此，用户可以利用这些提取出的信息对不同领域但涉及同一主题的文档进行检索和预览，一方面，在将文档全部内容呈现给读者之前，让读者了解该文档大致所涉及领域的信息，节省了读者阅读的时间，另一方面，在用户进行决策时，能快速从所述电子文档中获得正确的信息。

以上示例性地说明了本发明的电子文档的处理方法及装置、浏览电子文档的方法及装置，以及电子文档的信息提取方法及信息提取系统，但是以上这些实施例仅是示例的，本领域技术人员可以在本发明的精神和范围内作出各种变化和修改。因此，本发明不限于这些实施例，本发明的范围由随附权利要求限定为准。

Claims

1、一种电子文档的处理方法，其特征在于，包括步骤：

在作者写作电子文档时，从所述电子文档中提取一个或多个文档内容所涉及领域的信息；以及

与所述电子文档对应地保存所述提取信息。

2、根据权利要求1所述的电子文档的处理方法，其特征在于，所述的从所述电子文档中提取一个或多个文档内容所涉及领域的信息的步骤，还包括步骤：

i)从多种信息提取模式中为所述电子文档选择一种信息提取模式；

ii)根据所选取的信息提取模式，从所述电子文档中提取出包含文档内容所涉及领域的多个信息。

3、根据权利要求2所述的电子文档的处理方法，其特征在于，所述从多种信息提取模式中为所述电子文档选择一种信息提取模式的步骤，包括：

提供与所选取的信息提取模式对应的一些有代表性的、典型提取信息作为参考信息；

计算所述电子文档中的语句与给出的参考信息之间的相似性；

根据计算出来的相似性值的得分高低，对相应的信息提取模式进行排序；以及

选择权值较高的信息提取模式，将其选择为用于所述电子文档的信息提取模式。

4、根据权利要求2所述的电子文档的处理方法，其特征在于，还包括：

根据每种信息提取模式所属的领域或级别，对所提供的多种信息提取模式进行结构化分层处理的步骤。

5、根据权利要求2所述的电子文档的处理方法，其特征在于，还包括：

对从所述文档中提取的信息进行核实的步骤，其中所述核实包括：查看、修改所提取的信息。

6、根据权利要求5所述的电子文档的处理方法，其特征在于，所述对从所述文档中提取的信息进行核实的步骤，进一步包括：

提供参考信息，其中所述的参考信息是与所选择的信息提取模式对应的典型提取信息；

计算所述提取信息与参考信息之间的相似性；以及

根据相似性的结果，来核实所述提取信息。

7、根据权利要求1所述的电子文档的处理方法，其特征在于，所述与所述电子文档对应地保存所述提取信息的步骤，包括：

将所述提取信息作为知识标记保存在所述电子文档中。

8、根据权利要求1所述的电子文档的处理方法，其特征在于，所述与所述电子文档对应地保存所述提取信息的步骤，包括：

将所述提取信息保存为与所述电子文档相关联的知识标记文件。

9、一种电子文档的处理装置，其特征在于，包括：

电子文档编辑单元，用于编辑电子文档；

信息提取模式选择单元，用于从多种信息提取模式中为所述电子文档选择一种信息提取模式；

信息提取单元，用于根据所选择的信息提取模式，从所述电子文档中提取出包含文档内容所涉及领域的多个信息的列表；

提取信息生成单元，用于从所述的提取信息的列表中选择与所述电子文档最相关的信息；以及

提取信息保存单元，用于与电子文档对应地保存由提取信息生成单元生成的信息。

10、根据权利要求9所述的电子文档的处理装置，其特征在于，还包括：

提取信息核实单元，用于对所生成的提取信息进行评价、修改以保证所生成的提取信息的正确性、可读性和有用性。

11、根据权利要求10所述的电子文档的处理装置，其特征在于，所述的信息核实单元进一步包括：

参考信息呈现单元，用于呈现对应每种信息提取模式的一个或多个典型提取信息的参考信息；

信息相似性计算单元，用于计算所提取的信息与每种信息提取模式中的参考信息之间的相似性值；以及

信息确定单元，用于根据相似性值的排序，选择具有高相似性值的信息。

12、根据权利要求9所述的电子文档的处理装置，其特征在于，所述的信息提取模式选择单元进一步包括：

信息相似性计算单元，用于计算所编辑文档中的语句与每种信息提取模式中的参考信息之间的相似性值；以及

信息提取模式确定单元，用于根据相似性值的排序，将具有高相似性值的信息提取模式确定为用于所述文档的信息提取模式。

13、根据权利要求9所述的电子文档的处理装置，其特征在于，所述的信息提取模式选择单元进一步包括：

信息提取模式排列单元，用于根据每种信息提取模式所属的领域或级别，将信息提取模式排列为分层结构。

14、一种浏览电子文档的方法，其特征在于，包括步骤：

读取有关从所述文档中提取出的文档内容所涉及不同领域的信息；

将读取出的、从所述文档中提取出的信息呈现给用户；以及

将所述提取信息所涉及的文档内容呈现给所述用户。

15、一种电子文档浏览器，其特征在于，包括：

电子文档浏览单元，用于浏览电子文档的内容；

提取信息读取单元，用于读取与所述文档对应地保存的有关从所述文档中提取出的涉及不同领域的信息；以及

提取信息呈现单元，用于将由提取信息读取单元读取的提取信息呈现给用户。

16、一种电子文档的信息提取方法，其特征在于，包括步骤：

获取与相应电子文档对应保存的从所述文档中提取出的信息；

将所获取的从所述文档中提取出的信息保存在一个提取信息存储数据库中；

根据用户的查询，找出与用户输入的查询对应的提取信息的列表；以及

将与用户输入的查询相同或最接近的提取信息呈现给所述用户。

17、根据权利要求16所述的电子文档的信息提取方法，其特征在于，还包括：

计算用户输入的查询与提取信息列表中的各个提取信息的相关程度，以及

将上述相关程度最高的一个或者相关程度大于一个预定阈值的提取信息选择出来。

18、根据权利要求16所述的电子文档的信息提取方法，其特征在于，还包括：

将与用户选择的提取信息对应的电子文档或者与所述电子文档的链接提供给所述用户的步骤。

19、一种电子文档的信息提取系统，其特征在于，包括：

提取信息获取装置，用于获取与相应电子文档对应保存的、从所述电子文档中提取出的信息；

提取信息存储数据库，用于保存由所述提取信息获取装置所获取的提取信息；

提取信息查找装置，用于根据用户的查询，从所述提取信息存储数据库中找出与用户输入的查询相同或最接近的一个或多个提取信息；以及

提取信息呈现装置，用于将由提取信息查找装置找出的一个或多个提取信息呈现给用户。

20、根据权利要求18所述的电子文档的信息提取系统，其特征在于，还包括：

相关度计算装置，用于计算用户输入的查询与提取信息列表中的各个提取信息的相关程度，以及

所述提取信息查找装置根据相关度计算装置的计算结果，将上述相关程度最高的一个或者相关程度大于一个预定阈值的提取信息选择出来。

21、根据权利要求18所述的电子文档的信息提取系统，其特征在于，还包括：

电子文档提供装置，用于将所述用户选择的提取信息所对应的电子文档或者与所述电子文档的链接提供给所述用户。