CN101055581B

CN101055581B - 文档管理系统和方法

Info

Publication number: CN101055581B
Application number: CN2007100080684A
Authority: CN
Inventors: 车完奎; 金晶中; 安汉峻
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-04-13
Filing date: 2007-02-09
Publication date: 2012-07-04
Anticipated expiration: 2027-02-09
Also published as: CN101055581A; KR100816923B1; KR20070102035A

Abstract

本发明提供一种文档管理系统和方法。该文档管理系统包括：数据库，用于存储文档；和文档分类单元，用于对所述数据库中存储的文档进行自动分类，其中，所述文档分类单元包括：特征提取模块，基于在文档中包括的关键词提取特征，以及对所提取的特征进行矢量化；相似度判断模块，使用由所述特征提取模块形成的矢量判断文档之间的相似度；和分类系统模块，根据预设的分类系统对数据库中存储的文档进行分类，所述文档分类单元根据所述分类系统对提供给所述数据库的文档执行文档分类。

Description

文档管理系统和方法

技术领域

本发明涉及一种将数据库中存储文档进行分类以向用户提供关于所存储文档的信息的系统和文档管理方法。

背景技术

近来，由于互联网服务的快速延伸和传播，在大型机构所需的文档中通过互联网连接所获得的信息和文档的数量以稳定的速率增加。因此，变得非常重要。

当文档领域专家在每个种类中提供基本类型分类树结构时，文档的分类者从当前存储在系统中或新输入至系统中的文档提取属性，然后按该属性将文档分配至类型分类树中形成的每个种类中。

由该领域专家初始设置的类型分类树结构需要根据连续分配的文档来改变。因此，该领域专家必须通过仔细检查在该种类中分配的文档内容来改变结构。即，在输入没有包含在现有分类树中的新文档集的情况下，就生成能包括所述新文档集的新类别，将所述新文档集附加到类型分类树的预定位置，或者在由于每个种类中包括的文档内容中异质性较强而生成能绑定到新种类中的文档集的情况下，所述新种类应被划分为两个或更多种类。

然而，在文档集被不断改变以及文档数量快速增加的当前工作环境中，取决于在文档分类和分类树管理操作中人为因素的现有文档管理方法在其应用中受到限制。

另外，每个分类者具有不同的经验和知识。因此，存在这样的缺陷，即难以在文档分类中连续保持一致性。

发明内容

因此，本发明的目的在于提供一种文档管理系统和方法，其能够充分避免由于现有技术的限制和缺点所产生的一个或多个问题。

本发明的目的在于提供一种文档管理系统和文档管理方法，其通过从数据库中存储的文档中读取特征和文档之间的相似度，根据预定分类系统自动分类所存储的文档。

本发明的另一目的在于提供一种文档管理系统和文档管理方法，其可对从外部输入的新文档进行自动分类，以及通过智能管理新文档的分类结构来有效执行文档管理。

本发明的另一目的在于提供一种文档管理系统和文档管理方法，其可根据预定检索条件实时地或周期性监督是否新文档，以及在输入预定检索条件和采用新接收的信息服务的情况下将监督结果通知给用户。

本发明的另一目的在于提供一种文档管理系统和文档管理方法，其中在新文档具有在预定范围内的相似度的情况下，用户通过在客户端分配区域中存储新文档来简单确认新文档。

在随后的说明书中将部分提出本发明的额外优点、目的和特征，对于本领域普通技术人员，通过以下的说明，本发明将变得清楚或者可以通过本发明的实践而获知。通过在所述说明书及其权利要求书和附图中特别指出的结构可实现和达到本发明的目的和其它优点。

为了实现根据本发明目的的这些目标和其它优点，以下通过实施和广泛描述，提供一种文档管理系统，包括：数据库，用于存储文档；和文档分类单元，用于对所述数据库中存储的文档进行自动分类，其中所述文档分类单元包括：特征提取模块，基于在文档中包括的关键词提取特征并对所提取的特征进行矢量化；相似度判断模块，使用由所述特征提取模块形成的矢量来判断文档之间的相似度；以及分类系统模块，根据预设的分类系统对数据库中存储的文档进行分类，所述文档分类单元对于给所述数据库的文档执行文档分类。

在本发明的另一方面中，提供一种文档管理方法，包括：从数据库中存储的文档中提取特征，以及使用所提取的特征判断文档之间的相似度；基于文档之间的相似度，根据预定分类系统对数据库中存储的文档进行分类；和监督是否向数据库提供新文档，以及在提供新文档的情况下，对于新文档自动执行特征提取和文档分类。

附图说明

包括和结合附图，以提供对本发明的进一步理解，附图构成本申请的一部分，本发明的示例性实施例和说明书一起用于说明本发明的原理。其中：

图1是示出根据本发明的文档管理系统的框图；

图2是示出使用从文档提取的特征而被矢量化的文档的示图；

图3是示出根据本发明实施例的分类码的示图；

图4是示出根据本发明实施例的文档管理方法的流程图；

图5是根据本发明另一实施例的文档管理方法的流程图；

图6和图7示出提供给用户的用于文档管理的用户界面；以及

图8是示出根据本发明另一实施例的文档管理方法的流程图。

具体实施方式

现在，将详细参照本发明的优选实施例，并且在附图中示出其实例。

图1是示出根据本发明的文档管理系统的框图。

参照图1，文档管理系统100根据数据库中存储文档的相似度对其进行分类和管理。客户端200连接至文档管理系统100，并检索所分类的文档或接收文档管理系统100所提供的信息。

客户端200包括：输入模块，用户通过其发送预定查询至文档管理系统100；和输出模块，接收从文档管理系统100发送的文档信息，以向用户显示所发送的信息。

将多种通信网络210，例如互联网和局域网(LAN)，用作文档管理系统100和客户端200之间的通信介质。

文档管理系统100包括：文档分类单元120、新接收信息服务单元130和文档管理单元140。文档分类单元120根据数据库110中存储文档的相似度对其进行分类，或者根据分类系统对文档进行分类。新接收信息服务单元130根据用户设置的新接收信息更新设置向用户提供新接收的信息。文档管理单元140管理数据库110中存储的文档的法律状态。

另外，没有特别限制文档管理系统100的硬件配置。例如，聚类系统，即文档管理系统100，可以使用具有中央处理单元(CPU)或存储单元(只读存储器(ROM)、随机访问存储器(RAM)和硬盘)的计算机来实现。

尽管数据库110主要存储已公布的专利文档或已注册登记的专利文档，但是本发明不限于此。然而，基于这样的假设来说明以下将描述的实例，即假设已公布的专利文档或已注册登记的专利文档包括“背景技术”、“发明内容”和“具体实施方式”作为划分该文档每一部分的标识项。

在这种情况下，在专利文档的著录项目信息中包括法律状态。所述法律状态的实例为“已邮寄非最终审查意见”、“已邮寄最终审查意见”或“专利案”。

在数据库110中存储多个专利文档。尽管未示出，但是可以使用web机器人从连接至网络的另一web服务器获得专利文档。

另外，文档分类单元120可以实时地或根据用户设置的时间段监督是否有新文档提供至数据库110。文档分类单元120对新文档也执行文档分类。

文档分类单元120包括：特征提取模块121、相似度判断模块122和分类系统模块123。特征提取模块121从数据库110中存储的文档提取特征，并对所提取的特征进行矢量化。相似度判断模块122根据由特征提取模块121形成的文档矢量来判断文档之间的相似度。分类系统模块123根据由相似度判断模块122判断的文档之间的相似度对数据库110中存储的文档进行分类。

另外，分类系统模块123除了根据由相似度判断模块122判断的文档之间的相似度对数据库110中存储的文档进行分类之外，还可以参照以技术领域为单元分类的分类码124对数据库110中存储的文档进行分类。

另外，特征提取模块121在从数据库110中存储的文档提取特征以对所提取的特征进行矢量化的过程中起到重要的作用。

另外，在数据库110中存储的文档可以具有诸如doc、hwp、pdf、txt、html、xls和ppt这样的文本类型，从而对特征提取模块121提取的文档执行矢量化。

另外，特征提取模块121可以执行形态分析，用于从文档中记录的细节中分类出字词，以便从文档提取特征(例如关键词或索引项)。

例如，可以通过在诸如英语或朝鲜语这样的在字词之间使用空格的语言中寻找空格作为线索来确定字词。然而，优选需要这样一种用于判断字词的处理，以便在诸如日语和亚洲许多其它语言这样的字词之间不具有字词间隔的语言中使用字词作为关键词或索引项。

另外，特征提取模块121可以执行对从文档提取的特征分配权值的功能。在这种情况下，特征提取模块121分配权值，从而提高具有可耗尽性和特殊性的特征的重要性。

[数学式1]

[\begin{matrix} 1 & 0 & 5 & 2 & 3 \\ 0 & 3 & 3 & 2 & 0 \\ 3 & 2 & 0 & 4 & 0 \\ 6 & 6 & 8 & 7 & 0 \\ 4 & 1 & 4 & 0 & 0 \\ 0 & 5 & 0 & 3 & 2 \end{matrix}]

在该矩阵中，每行t1、t2、t3、t4、t5和t6对应于文档的特征，每列d1、d2、d3、d4和d5对应于矩阵中的数据库110中存储的文档。

矩阵元素“aij”表示在文档“dj”中出现的索引项ti的出现频率。

同样，该矩阵的每行表示在文档中出现的特征的分布，每列表示该文档的特征分布。

在基于文档特征的出现频率来分配权值的过程中，具有过高出现频率的字词对表征该文档的作用不大。因此，可将停止词(stopword)列表用于不担当文档特征的非一致性词(incongruent word)。

从这个观点来看，特征提取模块121可以采用相对频率作为权值，所述相对频率是通过将文档中所有关键词的出现次数除以从该文档中提取的关键词的出现频率来计算的。

可以通过以下数学表达式来执行关于这种情况的实施例。

[数学式2]

W = \frac{tf (t, d)}{\underset{s &Element; d}{Σ} tf (s, d)}

这里，用数字表示的公式tf(t，d)表示在特定文档“d”中出现的关键词“t”的出现频率。

另外，如上所述，特征提取模块121可以使用文档特征，例如从文档提取的所述关键词或索引项，对图2中所示的每个文档进行矢量化。

例如，对于在数据库110中存储的多个文档中的文档“1”，第一特征出现19次，第二特征出现35次，最后特征出现15次。

同样，可以通过上述方法形成具有与待分析文档相应的特征的矢量。

另外，相似度判断模块122可以使用特征提取模块121形成的矢量来判断各文档之间的相似度。在这种情况下，相似度判断模块122可以使用每个矢量之间的余弦值，来判断文档之间的相似度。

例如，相似度判断模块122可以通过以下数学表达式使用特征提取模块121所形成的矢量来判断在各文档之间的相似度。

[数学式3]

σ (dx, dy) = \frac{\underset{i = 1}{Σ} x_{i} \cdot y_{i}}{\sqrt{\underset{i = 0}{Σ} x_{i}^{2} \times \underset{i = 0}{Σ} y_{i}^{2}}}

另外，文档分类系统模块123根据由相似度判断模块122得出的文档之间的相似度判断结果对数据库110中存储的文档进行分类和系统化。

文档分类系统模块123根据分类系统对数据库110中存储的文档进行分类，其中所述分类系统可以是预定的标准，从而更快速地从数据库110中存储的文档中检索特定文档，并且快速执行已存储文档的聚类。

另外，由相似度判断模块122和分类系统模块123对新提供至数据库110的文档执行在文档之间的相似度判断和分类操作。因此，可自动分类数据库110中存储的文档。

另外，分类系统模块123可参照如图3所示的分类码124，并且用户可以通过预定输入模块根据所述分类码124对数据库110中存储的文档进行分类。

即，在图3所示的分类码124中包括以技术领域为单元分类的代码。例如，在用户从数据库110中检索与有机发光二极管(OLED)对应的文档的情况下，从包含在定向文件(DD)中的列表中选择与文档对应的分类码124中分配的特定代码，例如OLED，以根据分类码124对文档进行分类。

在分类码124中提供的每个代码(例如阴极射线管(CRT)、数字电视(DTV)、OLED、等离子显示面板(PDP)、投影仪和电视)均具有成为它们分类标准的特征值。因此，可以使用由特征提取模块121提取的文档特征将文档映射至分类码124。

如上所述，特征提取模块121、相似度判断模块122和分类系统模块123可以为新提供至数据库110的文档执行相同的服务。因此，上述方法可省去由用户手工对新文档进行分类的麻烦。

图4是示出根据本发明实施例的文档管理方法的流程图。特征提取模块121从数据库110中存储的每个文档中提取特征(例如关键词或索引项)(S101)。在这种情况下，可以对特征提取模块121提取的特征再执行权值分配操作，并基于所提取的特征执行矢量化操作。

由分类系统模块123判断文档之间的相似度(步骤S103)。可以使用矢量对特征提取模块121所形成的每个文档计算文档之间的相似度。

分类系统模块123将相似文档分类为相同类型，或者根据分类码124对文档分类(S105)。

如上所述，也可以判断提供至数据库110的新文档与相似度判断模块122先前存储的文档的相似度，并根据分类码124对新文档分类。

同时，可以重新存储由预定web机器人收集的文档。在这种情况下，通过上述方法，文档分类单元120对于新文档执行分类处理。

新接收信息服务单元130可以提供预定的信息，从而用户获知关于新存储文档的信息。这将参照图5至图7进行描述。

图5是示出根据本发明另一实施例的文档管理方法的流程图，图6和图7示出提供给用户的用于文档管理的用户界面。

参照图5至图7，用户从客户端200访问文档管理系统100(S501)。

如图6所示，用户写新接收的信息服务应用(S503)。

在新接收的信息服务应用中设置表示一种新接收信息服务的服务类型键。以下将描述在数据库110中存储/管理的文档为文本文件类型的专利文档的情况。

新接收的信息服务应用包括：信息的普通选择性分发(普通SDI)611、合法SDI 612和相似度检索SDI 613。普通SDI 611向用户提供与预定检索表达式相应的新文档。在改变数据库110中存储的特定文档法律状态的情况下，法律状态SDI 612将所改变的法律状态通知给用户。在提供与数据库110中存储的特定文档相似的新文档的情况下，相似度检索SDI 613将所提供的文档通知给用户。

图6示出在选择普通SDI 611的情况下，用于输入提供给用户的更新条件的用户界面。在选择法律状态SDI 612和相似度检索SDI 613的情况下，提供了用于在存储于数据库110中的文档之间选择特定文档的用户界面。

图6是示出用于输入项目名称、检索国家、检索表达式名和检索表达式的检索条件614的示意图。文档分类单元120确定在检索表达式中输入的关键词是否包括在提供至数据库110的文档中。

新接收信息服务单元130提供该文档的更新周期615、何时执行由新接收信息服务单元130提供的服务的持续时间616和关于用户使用新接收信息服务单元130的设置617。

新接收信息服务单元130检索或监督提供至数据库110的新文档(S505)。在与检索条件对应的新文档或由用户设置的更新条件存在的情况下(S507)，存储与数据库110中划分的客户端分配区域对应的新文档(S509)。

新接收信息服务单元130生成将发送至用户设置617中记录的用户的新接收信息警示邮件(S511)，并通过所产生的警示邮件向用户提供关于新文档的信息(S513)。

用户可以通过所提供的警示邮件访问文档管理系统100。在这种情况下，如图7所示，可以向用户提供关于新文档的信息。

可以提供选择键718，用以在关于所提供的新文档中选择特定文档，可以形成管理键(例如我的项目传输)719，用以对所选择的文档进行聚类处理或单独管理。因此，用户可确认与预定检索条件或更新条件对应的文档，并删除部分文档，或者单独管理或者聚类部分文档。另外，可以有效管理在数据库中存储的文档。

同时，在数据库110中存储的文档为专利文档的情况下，当该文档被公开时，在该文档的著录项目信息中包括并描述公开日期和公开号。

如果是美国专利与商标局(USPTO)，则提供“已邮寄非最终审查意见”、“已邮寄最终审查意见”或“专利案”作为状态。

在使用上述方法的本发明中，可以对专利文档中已授权的合法信息进行分类，并将所分类的信息提供至用户。将主要参照图8描述文档管理单元140的作用。

图8是示出根据本发明另一实施例的文档管理方法的流程图。

首先，由用户选择预定文档。在这种情况下，用户可以使用与预定关键词输入对应的文档检索结果来选择预定文档。

因此，从所选择的文档提取用于由文档管理单元140标识每个文档的文档代表值(例如，申请号、公开号和注册登记号)(S801)。

另外，文档管理单元140确定在数据库110中存储的文档中所选择文档的法律状态是否被改变(S803)。

即，可以通过确定公开日期(或公开号)是否包括在每个文档的著录项目信息中和注册登记日期(或注册登记号)是否包括在每个文档的著录项目信息中来执行确定每个专利文档的法律状态是否被改变。

同时，提供专利文档的web站点(fttp://www.uspto.gov/patft/index.html或http://ep.espacenet.com/？locale＝EN_ep)提供法律状态(公开、注册登记、授权异议、判决和撤回)以及专利文档的文本本身。在这种情况下，文档管理单元140可以确认从web站点提供的专利文档的法律状态(S805)。

作为文档管理单元140的判断结果，在特定文档的法律状态被改变的情况下，由新接收信息服务单元130向用户提供所改变的内容(S807)。新接收信息服务单元130可以使用预定邮件服务，用于通知用户该文档所改变的法律状态。因此，用户通过客户端200确认所接收的邮件，并确认特定文档的所改变的法律状态。

可以将通过web站点提供的文档和关于该文档的法律状态的信息存储在数据库110中(S809)。

根据上述本发明的实施例，能够省去每次执行检索所产生的不便，从而用户可确认特定文档的法律状态。

然而，本发明可以以多种不同的形式来实施，并且不应该理解为本发明限于这里所述的实施例；而是，提供这些实施例，使得公开是彻底的和完整的，并且向所属领域普通技术人员充分传达了本发明的范围。

Claims

1.一种文档管理系统，包括：

数据库，用于存储文档；

文档分类单元，用于对所述数据库中存储的文档进行自动分类；以及

新接收信息服务单元，用于通知用户关于特定文档的信息；

其中，所述文档分类单元包括：特征提取模块，基于所述文档中包括的关键词提取特征，并对所提取的特征进行矢量化；相似度判断模块，使用由所述特征提取模块形成的矢量判断文档之间的相似度；以及分类系统模块，根据预设的分类系统对数据库中存储的文档进行分类，

所述文档分类单元根据所述分类系统对提供给所述数据库的文档执行文档分类，

所述新接收信息服务单元监督提供至数据库的新文档，确定新文档是否与用户设置的检索条件对应，并在新文档与所述检索条件对应时，向用户提供新文档的信息。

2.如权利要求1所述的文档管理系统，其中在用户设置的每个周期由所述文档分类单元执行文档分类。

3.如权利要求1所述的文档管理系统，其中使用由对应于技术领域的特征所分类和形成的分类码对分类系统进行分类。

4.如权利要求1所述的文档管理系统，其中所述检索条件是存储在数据库中的文档，且在根据相似度判断模块的判断结果，所述新文档具有与指定为所述检索条件的文档在预定范围内的相似度的情况下，所述新接收信息服务单元向用户提供关于所述新文档的信息。

5.如权利要求1所述的文档管理系统，其中在向所述数据库提供所述新文档的情况下，所述新接收信息服务单元向用户发送警示邮件。

6.如权利要求5所述的文档管理系统，其中接收所述警示邮件的用户设置可以通过提供给用户的预定输入模块来修改。

7.如权利要求1所述的文档管理系统，其中由所述相似度判断模块所判断的文档相似度可以通过客户端的输入模块由用户来设置。

8.如权利要求1所述的文档管理系统，其中所述文档是公开的专利文档或注册登记的专利文档，以及

所述系统还包括：文档管理单元，提取文档的法律状态对应的表示值，以及根据所提取的代表值来判断其它文档的法律状态的改变。

9.如权利要求8所述的文档管理系统，还包括：新接收信息服务单元，用于在根据所述文档管理单元的判断结果，文档的法律状态被改变时，向用户提供所改变的内容。

10.一种文档管理方法，包括：

从数据库中存储的文档提取特征，以及使用所提取的特征判断文档之间的相似度；

基于文档之间的相似度，根据预定分类系统对数据库中存储的文档进行分类；

监督是否向数据库提供新文档，以及在提供新文档的情况下，对于新文档自动执行特征提取和文档分类；

确定新文档是否与用户设置的检索条件对应；以及

在新文档与所述检索条件对应时，向用户提供新文档的信息。

11.如权利要求10所述的方法，其中根据对每个技术领域进行特征分类所形成的分类码来执行文档分类。

12.如权利要求10所述的方法，其中在用户设定的每个周期执行是否提供新文档的所述监督。

13.如权利要求10所述的方法，其中所述检索条件是存储在数据库中的文档，且所述方法还包括：在新文档具有与指定为所述检索条件的文档在预定范围内的相似度的情况下，向用户提供关于所述新文档的信息。

14.如权利要求13所述的方法，其中在能够改变对新文档的相似度判断时，相似度条件可以通过由用户输入关键词的预定输入模块来修改。

15.如权利要求10所述的方法，其中数据库中存储的文档为公开的专利文档或注册登记的专利文档，以及

所述方法还包括：根据文档中包含的著录项目信息确认文档的法律状态，和使用所确认的文档的法律状态来判断文档的法律状态的改变。

16.如权利要求15所述的方法，还包括：在文档的法律状态被改变的情况下，向用户提供关于文档的法律状态的信息。