CN102591920A

CN102591920A - 对文档管理系统中的文档集合进行分类的方法以及系统

Info

Publication number: CN102591920A
Application number: CN2011104279706A
Authority: CN
Inventors: 刘松涛
Original assignee: 刘松涛
Current assignee: Beijing Jingyudian Network Technology Co., Ltd.
Priority date: 2011-12-19
Filing date: 2011-12-19
Publication date: 2012-07-18
Anticipated expiration: 2031-12-19
Also published as: CN102591920B

Abstract

本发明提供了一种对文档管理系统中的文档集合进行分类的方法，该方法包括：分析所述文档集合，从该文档集合中的每一文档内抽取特征值，并根据该特征值生成特征标签，每一所述特征标签对应所述文档集合中的一个或多个文档；选取所述文档集合的全集或非空子集；构建条件模型，该条件模型包括多个类别，每一所述类别关联一个或多个所述特征标签以及包括该一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档；根据所述条件模型对所述全集或非空子集中包括的文档进行分类。相应地，本发明还提供了一种对文档管理系统中的文档集合进行分类的系统。实施本发明可以降低文档分类的时间复杂度以及实现对大量文档按照任意需求进行多维度分类管理。

Description

对文档管理系统中的文档集合进行分类的方法以及系统

技术领域

本发明涉及电子文档处理领域，尤其涉及一种对文档管理系统中的文档集合进行分类的方法以及系统。

背景技术

随着计算机技术的发展，人们保留文件的方法开始由传统的纸质文件储存转变为更为方便快捷的电子文档存储。电子文档不仅可以存储资料的正文内容，还可以携带各种相关的文档属性。由于文档管理系统得到了广泛应用，用户不仅可以依靠其处理大量的文档信息，还可以快捷地根据需求从中进行检索以提取用户所需的特定文档。

上述文档检索过程指的是从文档管理系统中存储的大量文档中搜索用户期望获得的文档，现有的方法通常是对电子文档中包括的自然语言文本来执行关键词检索，或根据电子文档携带的文档属性来进行粗略分类后再进行检索。如果想提高检索的效率，对电子文档进行预分类和排序是非常必要的。

特定文档的文档管理系统，例如法律文件的文档管理系统，其存储了大量的电子法律文件，例如判决书等，如果仅仅依靠关键词或文档属性对其进行预分类，其时间复杂度较高，不仅需要投入大量的人力，还很难在有限时间内对大量的电子法律文件进行有效且精确的预分类。因此，从业者期望针对例如电子法律文件这一类其格式和内容具有特殊性的电子文档提供一种分类方法及系统，从而达到降低此类电子文档的分类复杂度的目的，以及可以对大量上述电子文档按照任意需求实现多维度的分类管理。

发明内容

本发明的目的在于提供一种对文档管理系统中的文档集合进行分类的方法以及系统，以实现高效地对文档进行分类管理。

为达到上述目的，一方面，本发明提供了一种对文档管理系统中的文档集合进行分类的方法，该方法包括：

分析所述文档集合，从该文档集合中的每一文档内抽取特征值，并根据该特征值生成特征标签，每一所述特征标签对应所述文档集合中的一个或多个文档；

选取所述文档集合的全集或非空子集；

构建条件模型，该条件模型包括多个类别，每一所述类别关联一个或多个所述特征标签以及包括该一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档；

根据所述条件模型对所述全集或非空子集中包括的文档进行分类。

另一方面，本发明提供了一种对文档管理系统中的文档集合进行分类的系统，该系统包括：

标签模块，用于分析所述文档集合，从该文档集合中的每一文档内抽取特征值，并根据该特征值生成特征标签，每一所述特征标签对应所述文档集合中的一个或多个文档；

选取模块，用于选取所述文档集合的全集或非空子集；

条件构建模块，用于构建条件模型，该条件模型包括多个类别，每一所述类别关联一个或多个所述特征标签以及包括该一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档。

本发明提供的对文档管理系统中的文档集合进行分类的方法以及系统，根据文档来生成特征标签，该特征标签和文档之间存在对应关系，再构建条件模型，所述条件模型的每一类别中包括一个或多个所述特征标签，根据所述对应关系可以确定该条件模型下包括的文档。所述条件模型即实现了在单一维度上对所述文档集合的简单分类，若组合多个所述条件模型的类别，则可以在多维度上实现对所述文档集合的复杂分类。上述方法和系统易于操作，自动化程度高，不仅降低了文档分类的时间复杂度，还实现了对大量文档按照任意需求进行多维度分类管理。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的对文档管理系统中的文档集合进行分类的方法的一种具体实施方式的流程图；

图2是图1示出的方法中进行特征值抽取的逻辑示意图；

图3和图4是图1示出的方法中构建条件模型的具体实施示意图；

图5是根据本发明的本发明的对文档管理系统中的文档集合进行分类的系统的一种具体实施方式的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施例作详细描述。

首先请参考图1，图1是根据本发明的对文档管理系统中的文档集合进行分类的方法的一种具体实施方式的流程图，该方法包括：

步骤S100，分析所述文档集合，从该文档集合中的每一文档内抽取特征值，并根据该特征值生成特征标签，每一所述特征标签对应所述文档集合中的一个或多个文档；

步骤S200，选取所述文档集合的全集或非空子集；

步骤S300，构建条件模型，该条件模型包括多个类别，每一所述类别关联一个或多个所述特征标签以及包括该一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档；

步骤S400，根据所述条件模型对所述全集或非空子集中包括的文档进行分类。

具体地，分别对步骤S100至步骤S400进行说明。步骤S100中的文档集合指的是存储在文档管理系统中的多个文档构成的集合，每一所述文档包含正文内容以及文档属性(该文档属性用于描述文档的客观性质或特征，例如创建时间、修改时间和创建者等)。由于所述文档在电子数据层面上具有可扩容性，所述文档通常能够隐性地包括除正文以外的更多信息，因此可认为所述文档的正文内容以及文档属性均可以描述所述文档的特征。

请参考图2，图2是图1示出的方法中进行特征值抽取的逻辑示意图，在步骤S100中，首先分别从所述文档集合中的每一文档10内抽取特征值20，本具体实施方式中，所述特征值20包括文档属性21、引用文献22、关键字23和其他附属信息24中任意一种或其组合，由于文档10的自然属性和文化含义，上述特征值20可以客观地描述文档10的性质。其中，文档属性21包括发文时间和发文单位，以文档10是法院判决书为例，其文档属性中的发文时间可以是“2011年10月10日”，发文单位可以是“北京市朝阳区人民法院”；引用文献22包括法律、行政法规、地方性法规等法律文献中任意一种或其组合，例如所述法院判决书的引用文献可以是“《专利法》”，具体地所述引用文献还可以精确到上述法律文献中特定组成部分，例如条款，典型的例子是：所述法院判决书的引用文献是“《中华人民共和国刑事诉讼法》第六十一条”。上述文档属性是不包含在所述文档的正文内容中的外置信息，而通常所述引用文献和关键字是基于所述文档的正文内容分析所得，所述关键字包括在所述每一文档内预定部分出现的词语，在所述每一文档内出现的数据库中预置的词语，和/或在所述每一文档的正文内出现次数超过预定阈值的词语，例如分析所述法院判决书的正文，其中词语“版权”出现次数超过十次的，即判定该词语“版权”为所述法院判决书的关键字；又例如针对所述法院判决书的格式较为固定这一特点，从该法院判决书正文内预定位置获取核心词语作为所述关键字；再例如，为了适应不同场景的应用需求，用户可自定义数据库中预置的词语，以在后续分析所述文档的正文内容的过程中获得期望的结果。

步骤S100中根据所述特征值生成特征标签，典型地根据所述关键字生成所述特征标签。例如根据关键字“盗窃”生成对应的特征标签<盗窃>，所述文档集合中可能有一个或多个文档包括所述关键字“盗窃”，因此特征标签<盗窃>对应所述一个或多个包括所述关键字“盗窃”的文档。相应地，每一所述文档也可以对应一个或多个根据所述关键字生成的特征标签。所有所述特征标签对应的文档即所述文档集合。

步骤S200中选取所述文档集合的全集或非空子集，具体地是根据用户针对所述特征值的操作选取所述文档集合中的特定文档组成所述全集或非空子集。可以根据用户针对所述特征值中的文档属性来选取所述特定文档，例如用户指定文档属性中发文作者为“北京市朝阳区人民法院”的特定文档，或用户选择发文日期在2011年10月以前的特定文档；也可以根据用户针对所述引用文献的选择操作来选取所述特定文档，例如用户选择引用“《中华人民共和国刑事诉讼法》第六十一条”的特定文档。上述特定文档构成的集合即所述文档集合的全集或非空子集。选出所述全集或非空子集的目的在于进行初选，尤其是所述文档集合中包括大量不同类型的文档时，进行合适的初选有助于提升分类的准确性和效率。

执行步骤S300，开始构建条件模型。所述条件模型代表了用几个要素条件可描述的事件，而所述事件与所述文档的正文内容的自然含义相关。一个所述条件模型包括多个类别，每一所述类别代表所述事件可能出现的一种情况。在构建所述条件模型时为其添加简短的描述性文字，用于简要说明所述事件。为了在所述条件模型与所述文档之间建立对应关系，步骤S300中采取的方法是将每一所述类别关联一个或多个所述特征标签。步骤S100的说明中已经指出所述特征标签是根据所述文档的特征值生成的，因此可知该类别关联的所述特征标签在所述全集或非空子集中对应的文档，即所述类别包括所述一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档。一些应用场景中，所述条件模型的操作可能导致各个类别中出现相同的文档，此时可以调整每一所述类别包括的文档，令任意两个所述类别包括的文档针对所述全集或非空子集互斥。

在一种典型的实施例中，步骤S300中将每一所述类别关联一个或多个所述特征标签的步骤具体包括：生成可视化图形界面，该可视化图形界面中包括多个固定区域和多个可活动图形元素，每一固定区域对应一个所述类别，每一所述图形元素对应一个所述特征标签；接收用户针对所述图形元素的操作，根据该操作将所述图形元素移动至所述固定区域内；将每一所述固定区域对应的所述类别判定为与该固定区域内的一个或多个图形元素对应的所述特征标签相关联。

结合附图对上述过程进行说明，请参考图3和图4，图3和图4是图1示出的方法中构建条件模型的具体实施示意图。需要说明的是，在进行如图3和图4中示出的有关条件构筑的操作之前，可以根据所述文档属性和/或引用文献从所有的法院判决书中进行初选，例如选择发文作者为“朝阳区人民法院”的文档属性，即可从该所有法院判决书中获得一个子集，该子集包括了朝阳区人民法院发出的所有判决书。

图3示出了一个可视化图形界面，其中包括代表所述条件模型的图形区域30和代表多个特征标签的多个图形元素40，该图形区域30中包括代表所述条件模型的三个类别的固定区域31、固定区域32和固定区域33。图3示出的实施例中所述文档集合是大量法院判决书构成的集合。所述条件模型的描述是“盗窃金额”，即根据该描述的语言含义可知构建此条件模型的目的是为了找出相关盗窃案件的这一类法院判决书并对其按照金额进行分类。在此之前，已从每一所述法院判决书中提取所述关键字这一特征值，并生成相应的特征标签。图3中的多个图形元素40示出了所述特征标签，典型地，浮动在所述图形元素40上的说明文字与所述关键字一致，因此可以清晰地表明其代表的所述关键字的含义，由所述特征标签可知，从所述法院判决书组成的集合中提取出来的关键字包括“盗窃案”、“盗窃数额较大”、“盗窃数额巨大”、“入室盗窃”、“盗窃数额特别巨大”、“专利权侵权”、“著作权侵权”、“惯犯”、“非惯犯”。下一步，将所述条件模型“盗窃金额”的三个类别分别与所述特征标签相关联。请参考图4，由于上述三个类别均是描述盗窃案件的金额特征，根据语言使用习惯，上述三个类别中应包括“盗窃数额较大”等特征标签，进一步地将所述“盗窃数额较大”等特征标签与所述三个类别相关联，具体方法可以如下实现：将代表特征标签“盗窃数额较大”等特征标签的活动的图形元素40拖拽至代表每一所述类别的固定区域31、固定区域32和固定区域33中，即实现了上述三个类别包括了关于盗窃金额的特征标签所对应的所有法院判决书，形成如图4中示出的情况。

完成图4示出的操作处理后，由于所有特征标签与法院判决书的对应关系已确定，每一所述类别也可以根据其关联的特征标签确定其包括的法院判决书。以第一类别为例，其关联的特征标签“盗窃数额特别巨大”对应的所有法院判决书。

图4中示出的条件模型“盗窃金额”的三个类别是用于描述盗窃案件通过盗窃金额来进行区分的三种情况的法院判决书，上述三个类别包括的法院判决书应针对法院判决书集合的全集或子集互斥。例如“盗窃案”非空子集对应10份法院判决书。通过分析上述10份法院判决书的特征标签对其具体所述情况进行判定，判断为上述10份法院判决书中有5份构成的第一类别属于盗窃数额特别巨大的情况，有3份构成第二类别属于盗窃数额巨大的情况，还有2份构成的第三子集属于盗窃数额较大的情况。但有时，一份判决书可能同时讨论“盗窃数额巨大”和“盗窃数额较大”两个问题，因此具有两个相应的特征标签，然而法院将案件定性为其中之一(法院对该判决书的定性说明通常记载在该判决书的正文内容中)，例如“盗窃数额较大”，因此需要根据正文内容将该篇判决书相应调整至对应类别，以保证第一类别、第二类别和第三类别包括的法院判决书形成的集合两两互斥。在这种情况下，可提供一用于支持上述调整功能的展示窗口，用于展示该篇判决书的正文内容以方便用户阅读。根据上述操作逻辑可知，用于条件构筑的类别和特征标签并不总是具有一一对应的关系，因此条件构筑的所述类别可以容纳多个特征标签及其所对应文档的并集。在此情况下，优选地，条件构筑仍要保持各类别的互斥。为了保持各类别的互斥，通常一个所述特征标签不能同时拖入多个类别中，但是可以由于上述调整功能而落入不同的类别中。

基于上述构建条件模型的跨平台性和易用性的考虑，可以将其在实施在B/S模式的系统中，服务器生成所述可视化图形界面，并发送至客户端的浏览器上显示，通过所述客户端的浏览器发出拖拽图形元素40的操作以实现上述关联过程。一个实施例中，可以将上述服务器和客户端集成在单一物理设备中，以实现单机应用。

图3和图4示出的实施例详细说明了步骤S300的一种具体实施场景。在完成步骤S300后，所述条件模型的每一类别所包括的文档已确定，因此可以根据上述包括关系对所述全集或非空子集进行分类。所述文档集合可以构建多个所述条件模型进行多方面地分类。所述条件模型只是在单一维度上对所述文档集合进行了分类，如果想在多个维度上对所述文档集合进行分类，则可以在已构建条件模型上的基础上构建复杂分类模型，所述复杂分类模型包括所述条件模型的多个类别，因此构建复杂分类模型后对所述文档集合形成多维分类。

相应地，本发明提供了一种对文档管理系统中的文档集合进行分类的系统，图5是根据本发明的对文档管理系统中的文档集合进行分类的系统500的一种具体实施方式的结构示意图，该系统500包括：

标签模块510，用于分析所述文档集合，从该文档集合中的每一文档内抽取特征值，并根据该特征值生成特征标签，每一所述特征标签对应所述文档集合中的一个或多个文档；

选取模块520，用于选取所述文档集合的全集或非空子集；

条件构建模块530，用于构建条件模型，该条件模型包括多个类别，每一所述类别关联一个或多个所述特征标签以及包括该一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档。

本说明书中对于系统500部分的描述中出现的术语及工作流程，其具体解释可以参考本说明书关于对文档管理系统中的文档集合进行分类的方法的描述中相关部分的内容。

系统500处理的文档集合存储在文档管理系统600内，在本实施例中，文档管理系统600设置在单独的运行环境中，例如设置在一个服务器或服务器集群中。在另一个实施例中，文档管理系统600可集成在系统500内。

接下来具体对系统500进行说明，所述特征值包括文档属性、引用文献、关键字和其他附属信息中任意一种或其组合。其中，文档属性包括发文时间和发文单位；所述引用文献包括法律、行政法规、地方性法规或其他法律文献中任意一种或其组合；所述关键字包括：在所述每一所述文档内预定部分出现的词语；在所述每一文档内出现的数据库中预置的词语，和/或在所述每一文档的正文内出现次数超过预定阈值的词语。

选取模块520包括接收单元521和选取单元522，其中，接收单元521，用于接收用户针对所述特征值的操作；选取单元522，用于根据所述操作选取所述文档集合中的特定文档组成所述全集或非空子集。设置选取模块520的目的是对所述文档集合进行初选，以提高分类的准确性和效率。

条件构建模块530包括图形单元531和关联单元532，其中，图形单元531，用于生成可视化图形界面，该可视化图形界面中包括多个固定区域和多个可活动图形元素，每一固定区域对应一个所述类别，每一所述图形元素对应一个所述特征标签；关联单元532，用于接收用户针对所述图形元素的操作，根据该操作将所述图形元素移动至所述固定区域内，并将每一所述固定区域对应的所述类别判定为与该固定区域内的一个或多个图形元素对应的所述特征标签相关联。典型地，所述用户针对所述图形元素的操作包括针对所述图形元素的拖拽操作。

优选地，条件构建模块530还包括调整单元533，该调整单元533用于调整每一所述类别包括的文档，令任意两个所述类别包括的文档针对所述全集或非空子集互斥。

优选地，系统500还包括复杂分类模型构建模块540，用于构建复杂分类模型，该复杂分类模型包括多个所述类别及其包括的全部或部分文档。

在优选的实施例中，系统500实施为计算机程序产品，上述计算机程序产品的实施例可以通过使用用于计算机可读信息的任何记录介质来实现，所述记录介质包括磁介质、光介质或其他适合的介质。进一步地，系统500实施为B/S架构。

本发明提供的对文档管理系统中的文档集合进行分类的方法可以使用可编程逻辑器件来实现，也可以实施为计算机程序软件，例如根据本发明的实施例可以是一种计算机程序产品，运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现对文档管理系统中的文档集合进行分类的方法的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如热拔插技术存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如盒带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。

本领域技术人员应当理解，任何具有适当编程装置的计算机系统都将能够执行包含在程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是作为固件和硬件实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。

本发明提供的对文档管理系统中的文档集合进行分类的方法以及系统，根据文档来生成特征标签，该特征标签和文档之间存在对应关系，再构建条件模型，所述条件模型的每一类别中包括一个或多个所述特征标签，根据所述对应关系可以确定该条件模型下包括的文档。所述条件模型即实现了在单一维度上对所述文档集合的简单分类，若组合多个所述条件模型的类别，则可以在多维度上实现对所述文档集合的复杂分类。上述方法和系统易于操作，自动化程度高，不仅降低了文档分类的时间复杂度，还实现了对大量文档进行多维度分类管理。

以上所揭露的仅为本发明的一些较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种对文档管理系统中的文档集合进行分类的方法，该方法包括：

选取所述文档集合的全集或非空子集；

2.根据权利要求1所述的方法，其中：

调整每一所述类别包括的文档，令任意两个所述类别包括的文档针对所述全集或非空子集互斥。

3.根据权利要求1所述的方法，该方法还包括：

构建复杂分类模型，该复杂分类模型包括一个或多个所述类别及其包括的全部或部分文档。

4.根据权利要求1所述的方法，其中，选取所述文档集合的全集或非空子集包括：

根据用户针对所述特征值的操作选取所述文档集合中的特定文档组成所述全集或非空子集。

5.根据权利要求1或4所述的方法，其中，所述特征值包括：

文档属性、引用文献、关键字和其他附属信息中任意一种或其组合。

6.根据权利要求5所述的方法，其中：

所述文档属性包括发文时间和发文单位。

7.根据权利要求5所述的方法，其中：

所述引用文献包括法律、行政法规、地方性法规和其他法律文献中任意一种或其组合，并可以具体到其中的特定组成部分。

8.根据权利要求5所述的方法，其中，所述关键字包括：

在所述每一文档内预定部分出现的词语；

在所述每一文档内出现的数据库中预置的词语；和/或

在所述每一文档的正文内出现次数超过预定阈值的词语。

9.根据权利要求1所述的方法，每一所述类别关联一个或多个所述特征标签包括：

生成可视化图形界面，该可视化图形界面中包括多个固定区域和多个可活动图形元素，每一固定区域对应一个所述类别，每一所述图形元素对应一个所述特征标签；

接收用户针对所述图形元素的操作，根据该操作将所述图形元素移动至所述固定区域内；

将每一所述固定区域对应的所述类别判定为与该固定区域内的一个或多个图形元素对应的所述特征标签相关联。

10.根据权利要求9所述的方法，其中：

所述可视化图形界面由服务器生成，并发送至客户端的浏览器上显示；

用户针对所述图形元素的操作包括针对所述图形元素的拖拽操作。

11.一种对文档管理系统中的文档集合进行分类的系统，该系统包括：

选取模块，用于选取所述文档集合的全集或非空子集；

12.根据权利要求11所述的系统，其中，所述条件构建模块包括：

调整单元，用于调整每一所述类别包括的文档，令任意两个所述类别包括的文档针对所述全集或非空子集互斥。

13.根据权利要求11所述的系统，该系统还包括：

复杂分类模型构建模块，用于构建复杂分类模型，该复杂分类模型包括一个或多个所述类别及其包括的全部或部分文档。

14.根据权利要求11所述的系统，其中，所述选取模块包括：

接收单元，用于接收用户针对所述特征值的操作；

选取单元，用于根据所述操作选取所述文档集合中的特定文档组成所述全集或非空子集。

15.根据权利要求11或14所述的系统，其中，所述特征值包括：

16.根据权利要求15所述的系统，其中：

所述文档属性包括发文时间和发文单位。

17.根据权利要求15所述的系统，其中：

18.根据权利要求15所述的系统，其中，所述关键字包括：

在所述每一文档内预定部分出现的词语；

在所述每一文档内出现的数据库中预置的词语；和/或

在所述每一文档的正文内出现次数超过预定阈值的词语。

19.根据权利要求11或12所述的系统，其中，所述条件构建模块包括：

图形单元，用于生成可视化图形界面，该可视化图形界面中包括多个固定区域和多个可活动图形元素，每一固定区域对应一个所述类别，每一所述图形元素对应一个所述特征标签；

关联单元，用于接收用户针对所述图形元素的操作，根据该操作将所述图形元素移动至所述固定区域内，并将每一所述固定区域对应的所述类别判定为与该固定区域内的一个或多个图形元素对应的所述特征标签相关联。

20.根据权利要求19所述的系统，其中：

所述用户针对所述图形元素的操作包括针对所述图形元素的拖拽操作。