CN105159936A

CN105159936A - 文件分类装置及方法

Info

Publication number: CN105159936A
Application number: CN201510481155.6A
Authority: CN
Inventors: 黄慧红; 张显聪; 杨柳; 范旭娟; 刘民
Original assignee: Guangzhou Power Supply Bureau Co Ltd
Current assignee: Guangzhou Power Supply Bureau Co Ltd
Priority date: 2015-08-06
Filing date: 2015-08-06
Publication date: 2015-12-16

Abstract

本发明涉及一种文件分类装置及方法，包括处理器：处理器包括处理单元；处理单元根据以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引；对文件词汇进行统计分析获得文件主题词，并根据以分类级别进行分类存储的主题词汇检索文件主题词所属的类别；还基于标引的结果和类别来确定待分类文件的最终类别本发明提供的文件分类装置及方法，克服了传统文件分类方法只能依据文件的属性对文件进行分类的问题，进而实现依据文件的内容对文件进行区分并确定文件的最终类别。

Description

文件分类装置及方法

技术领域

本发明涉及文件分类存储领域，特别是涉及一种文件分类装置及方法。

背景技术

传统的文件分类方法通常是按照文件的扩展名进行分类，将文件扩展名作为分类特征，根据待分类的扩展名称将具有相同扩展名的所有文件归为一类。这种文件分类方法是一种粗分类方法。

在实现过程中，发明人发现传统技术中至少存在如下问题：使用传统的文件分类方法只能够对文件的属性进行分类，如能够区别该文件为音频文件或者文本文件，却难以实现对文件的内容进行区分。此外，在科技领域中，无法根据文件的内容对其学科领域、涉及的主题进行分类，如区分该文件是关于电子器件还是关于电力输变等内容。

发明内容

基于此，有必要针对基于文件的内容进行分类的问题，提供一种文件分类装置及方法。

为了实现上述目的，本发明技术方案的实施例为：

一方面，提供了一种文件分类装置，包括处理器：

处理器包括处理单元；

处理单元根据以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引；对文件词汇进行统计分析获得文件主题词，并根据以分类级别进行分类存储的主题词汇检索文件主题词所属的类别；还基于标引的结果和类别来确定待分类文件的最终类别。

另一方面，提供了一种文件分类方法，包括以下步骤：：

调用以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引；

对文件词汇进行统计分析获得文件主题词；

调用以分类级别进行分类存储的主题词汇检索文件主题词对应的分类级别以确定待分类文件的类别；

基于标引的结果以及类别确定待分类文件的最终类别。

上述技术方案具有如下有益效果：

本发明提供的文件分类装置及方法，通过处理器根据名词存储器中的名词词汇对文件词汇进行标引，并根据主题词汇检索文件主题词在主题词存储器中所在的类别；并基于标引的结果以及所在的类别来确定文件的最终类别。所以克服了传统文件分类方法只能依据文件的属性对文件进行分类的问题，进而实现依据文件的内容对文件进行区分并确定文件的最终类别，使用户能够按照文件的内容灵活精确地对文件进行分类。

附图说明

通过附图中所示的本发明的优选实施例的更具体说明，本发明的上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分，且并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为本发明文件分类装置实施例1的结构示意图；

图2为本发明文件分类装置实施例1的具体结构示意图；

图3为本发明文件分类方法实施例1的流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件并与之结合为一体，或者可能同时存在居中元件。本文所使用的术语“相连接”、“统计分析”、“类别”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明文件分类装置实施例1：

图1为本发明文件分类装置实施例1的结构示意图，如图1所示，本发明文件分类装置，包括处理器30，其具体结构如图2所示：

处理器30包括处理单元310；

处理单元310，根据以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引；对文件词汇进行统计分析获得文件主题词，并根据以分类级别进行分类存储的主题词汇检索文件主题词所属的类别；还基于标引的结果和类别来确定待分类文件的最终类别。

其中，名词词汇包含主题词汇；文件主题词为处理单元310对文件词汇出现的频率和权重进行统计分析获得的权重最大的词汇。

在其中一个实施例中，处理器30还包括与处理单元310相连接的主题词存储器320和名词存储器330。

主题词存储器320存储以分类级别进行分类存储的主题词汇；

名词存储器330存储以分类级别进行分类存储的名词词汇；

另外，本发明文件分类装置还包括和处理器30相连接的文件存储器20；在其中一个实施例中，还包括和处理器30相连的终端10。

其中，终端10，用于接收外部信号，并将外部信号转换为指示信号发送给处理器30，以及接收处理器30反馈的分类数据并显示；亦用于存储待分类的文件，并将文件发送给处理器30以进行分类处理。

处理器30，用于根据指示信号查找读取文件存储器20中储存对应的分类数据并反馈给终端10；并用于对文件进行分类处理并发送给文件存储器；

文件存储器20，用于储存经处理器30分类处理已确定最终类别的文件以及文件的分类数据。

其中，终端10可以但不限于是服务器终端、移动终端及/或计算机终端。分类数据则包括：文件分类数据和索引数据。而索引数据进一步包括：文件存放位置、科学领域、文件名称及/或文件类别。

利用本发明提供的文件分类装置的实施例1，通过处理器根据名词词汇对文件词汇进行标引，并根据主题词汇检索文件主题词所在的类别；并基于标引的结果以及所在的类别来确定文件的最终类别。所以克服了传统文件分类方法只能依据文件的属性对文件进行分类的问题，进而实现依据文件的内容对文件进行区分并确定文件的最终类别，使用户能够按照文件的内容灵活精确地对文件进行分类。

图2为本发明文件分类装置实施例1的具体结构示意图，如图2所示，处理器30包括连接主题词存储器320和名词存储器330的处理单元310；

主题词存储器320，用于存储以分类级别进行分类存储的主题词汇；在具体实施例中，主题词存储器320中放置有科技文献中常用的若干关键主题词汇，如电力行业中的交流电、电力输变等主题词汇。这些主题词汇均按照一定结构、一定类别进行分类设置并存储。如将若干主题词汇分成八个大类，每个大类下再设置若干小类，在每个类别下又可以设置若干主题词汇。

名词存储器330，用于存储以分类级别进行分类存储的名词词汇；在具体实施例中，名词存储器330包含有若干名词词汇，如电力类、电子类和/或机械类等科技领域中常用的名词词汇。由于名词存储器330中包含若干科技领域中的词汇，一般所述主题词存储器320中的主题词汇均会在该名词存储器330中出现，即该名词存储器330中的词汇中至少包含有该主题词存储器320中的主题词汇。

处理单元310，则根据名词词汇对待分类文件中的文件词汇进行标引，以及对文件词汇进行统计分析获得文件主题词，并根据主题词汇检索文件主题词在主题词存储器320中所在的类别；并基于标引的结果以及所在的类别来确定待分类文件的最终类别。

为便于说明本发明的主旨，下面提供一具体实施例：

由于词汇本身的不确定性，词间存在着语义上的相似性，所以传统技术中简单地使用主题词汇检索的方法进行文件分类的缺点主要表现在以下几个方面：

a)对于同一对象，不同的人可能会使用不同的词汇进行描述；

b)一个变形词往往与原词具有相同的语义，一般人不会刻意区分；

c)同一个词在不同的应用领域，可能会表达完全不同的语义；

d)同一个词在同一应用领域，不同的描述词类可能使其具有不同的语义。

针对这些情况，处理单元310采用如下方法对文件进行分类：

首先，针对不同领域的待分类文件，使用各自的、与该领域相对应的名词存储器330中分类别存储的名词词汇进行标引，这样就避免了同一词汇在不同的应用领域可能出现的不同语义的问题；其次，按词汇的词类，如动词、名词、修饰词等对文件词汇进行标引，从而将文件词汇划分为多个，从而解决了由于文件词汇词类不同而导致的词汇语义上的混淆；再次地，可利用文件词汇与名词词汇之间的属分关系和英汉对照关系对该文件词汇进行标引。

其次，由于文件类目中不同的主题词在文件匹配时的地位是不同的，其差异主要表现为主题词反映类目的程度是不同和主题词在不同类目中出现的频率的不同。所以文件分类中往往都需要给各个类目中的各主题词赋予一个权重来描述这些差异。该差异不仅与人对其的主观评价有关，而且与其在实际使用中被使用的频率有关。若用Wi1和Wi2分别表示这两方面的权重，则有

Wi＝f(Wi1,Wi2)；

其中：i＝1，2，3，4，5……，n；

f是主题词权重Wi与各个分量Wi1、Wi2之间的函数关系。

按照主题词的相对重要程度，Wi1分别对应于“不重要”、“一般”、“较重要”、“重要”四个级别，由使用者根据自身经验和对类目表的理解确定Wi1的初值。在日后的使用以及分类过程中，处理单元310依据使用者的使用经验和对类目表的理解，即主题词反映类目的程度不同不断地对Wi1对应的级别进行修正，例如：处理单元310依据文件中的某一词汇与主题词存储器中主题词汇的相似度，判断该词汇是否对该主题词汇在主题词存储器中所在的存储位置(即类目)具有提示性，对具有提示性的词汇提高其Wi1的级别；又例如：根据主题词汇，抽取文件词汇中与其最相似的词汇作为主题词；若不存在这样的词汇，则综合利用多种特征计算文件词汇的重要性(此处为传统技术不赘述)，将得分最高的词汇作为文件主题词，同时处理单元310相应的提高其级别，即将Wi1的初值由“较重要”变更为“重要”；

Wi2则反映了在已经确定的分类(已经分过类的文件集)条件下，各主题词被使用的频率及被错误使用的频率，因此Wi2对原有分类的结果比较敏感。

一般而言，传统技术中衡量文件分类系统性能的指标主要有选中率、多项选择率、误选率、失败率这四个指标；其中，

选中率是指文件分类装置自动将文件正确分类的文件数与总文件数的比率，用a表示，即a＝正确分类的文件数/测试文件数；

多项选择率是指需要经过用户从备选类目组中进行选择才能确定分类的文件数与总文件数的比率，用b来表示，即b＝多项选择的文件数/测试文件数；

误选率是指被系统自动地错误分类的文件数与总文件数的比率，用c来表示，即c＝错误分类的文件数/测试文件数；

失败率是指系统自动分类失败的文件数与总文件数的比率，用d来表示，即d＝分类失败的文件数/测试文件数。

由以上对各指标的定义可知，a+b+c+d＝1。理论上，a越大b、c、d相对就越小，分类装置的性能就越好。

而从本发明文件分类装置的实际使用情况表明，本发明的分类装置在刚开始使用时，选中率比较低，一般情况为40％左右，而误选率c和多项选择率b也较低，失败率d较高。但本发明的分类装置在实际使用过程中会随着使用者在使用过程中的不断优化，具体即处理单元310根据待分类文件的文件主题词反映文件类目的程度以及使用者的使用频率，不断更新主题词存储器中储存的主题词的级别Wi1的初值以及Wi2，使得选中率a将不断增大，可达到60％甚至大于60％，多项选择率b也将增大至30％-60％左右，而误选率c幅度变化不大，失败率d则迅速下降。

最后，处理单元310根据上述统计分析得出权重最大的词汇，然后从主题词存储器320中检索该词汇在主题词存储器320中存储的位置，从而得到该文件的类别，综合名词存储器330所得到的标引结果得到该文件的最终类别。

即处理单元310根据名词存储器330中的名词词汇对文件词汇进行标引，然后根据处理单元310对文件词汇进行统计分析和权重划分获取权重最大的词汇作为文件主题词，并依据主题词存储器320中的主题词汇来检索文件主题词所在的类别，基于上述两种结果来确定该文件的最终类别，并将该文件存储于文件存储器20中对应的类别之列，并最终将所需信息反馈给所述终端10。

处理单元310进一步用于接收终端10发出的指示信号，根据指示信号读取主题词存储器320和名词存储器330中相对应的词条数据，再根据词条数据对文件存储器20中储存对应的分类数据进行查找读取，并反馈给终端10。

如图2所示，文件存储器20包括：数据存储器210和文件检索库220，其中：

数据存储器210，与处理单元310相连接，用于存储文件分类数据，并接收处理单元310查找与其对应的文件分类数据，将该文件分类数据发送给处理单元310；

文件检索库220，与所述处理单元310相连接，用于存储索引数据，并接收处理单元310查找与其对应的索引数据，将该索引数据发送给处理单元310。

为了能够扩充文件的内容和方便以后对文件的读取，本发明提供的文件分类装置中的终端10与处理器30连接，用于将网络资源或者其他各种资源服务器中下载文件，或者自身也能够存储文件，并将该文件传送至处理单元310中进行分类处理，方便用户对信息的查找。

该终端10还用于对存储后的文件进行查询，为了能够从文件存储器20中方便、快捷地读取用户想要的文件，该终端10通过处理单元310分别与文件存储器20中的数据存储器210和文件索引库220连接。当客户需要某些文件时，该终端10根据文件索引库220中的文件信息找到该文件的存放位置、学科领域等信息，并根据该文件信息于数据存储器210中读取文件数据。当然，所述终端10可以为服务器终端和/或计算机终端，在此不作出限定。

本发明文件分类方法实施例1：

图3为本发明文件分类方法实施例1的流程图。如图所示，本发明的文件分类方法实施例1具体包括以下步骤：

步骤S310：调用以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引；

步骤S320：对文件词汇进行统计分析获得文件主题词；

步骤S330：调用以分类级别进行分类存储的主题词汇检索文件主题词对应的分类级别以确定待分类文件的类别；

步骤S340：基于标引的结果以及类别确定待分类文件的最终类别。

在具体实施例中，主题词存储器中放置有科技文献中常用的若干关键主题词汇，如电力行业中的交流电、电力输变等主题词汇。这些主题词汇均按照一定结构、一定类别进行分类设置并存储。如将若干主题词汇分成八个大类，每个大类下再设置若干小类，在每个类别下又可以设置若干主题词汇。

在具体实施例中，名词存储器包含有若干名词词汇，如电力类、电子类和/或机械类等科技领域中常用的名词词汇。由于名词存储器中包含若干科技领域中的词汇，一般所述主题词存储器中的主题词汇均会在该名词存储器中出现，即该名词存储器中的词汇中至少包含有该主题词存储器中的主题词汇。

为便于说明本发明方法实施例1步骤S320的流程，下面提供一具体实施例：

针对这些情况，处理单元310采用如下方法对文件进行分类：

首先，针对不同领域的待分类文件，使用各自的、与该领域相对应的名词存储器中分类别存储的名词词汇进行标引，这样就避免了同一词汇在不同的应用领域可能出现的不同语义的问题；其次，按词汇的词类，如动词、名词、修饰词等对文件词汇进行标引，从而将文件词汇划分为多个，从而解决了由于文件词汇词类不同而导致的词汇语义上的混淆；再次地，可利用文件词汇与名词词汇之间的属分关系和英汉对照关系对该文件词汇进行标引。

Wi＝f(Wi1,Wi2)；

其中：i＝1，2，3，4，5……，n；

f是主题词权重Wi与各个分量Wi1、Wi2之间的函数关系。

按照主题词的相对重要程度，Wi1分别对应于“不重要”、“一般”、“较重要”、“重要”四个级别，由使用者根据自身经验和对类目表的理解确定Wi1的初值。在日后的使用以及分类过程中，处理单元依据使用者的使用经验和对类目表的理解，即主题词反映类目的程度不同不断地对Wi1对应的级别进行修正，例如：处理单元依据文件中的某一词汇与主题词存储器中主题词汇的相似度，判断该词汇是否对该主题词汇在主题词存储器中所在的存储位置(即类目)具有提示性，对具有提示性的词汇提高其Wi1的级别；又例如：根据主题词汇，抽取文件词汇中与其最相似的词汇作为主题词；若不存在这样的词汇，则综合利用多种特征计算文件词汇的重要性(此处为传统技术不赘述)，将得分最高的词汇作为文件主题词，同时处理单元相应的提高其级别，即将Wi1的初值由“较重要”变更为“重要”；

而从本发明文件分类装置的实际使用情况表明，本发明的分类装置在刚开始使用时，选中率比较低，一般情况为40％左右，而误选率c和多项选择率b也较低，失败率d较高。但本发明的分类装置在实际使用过程中会随着使用者在使用过程中的不断优化，具体即根据待分类文件的文件主题词反映文件类目的程度以及使用者的使用频率，不断更新主题词存储器中储存的主题词的级别Wi1的初值以及Wi2，使得选中率a将不断增大，可达到60％甚至大于60％，多项选择率b也将增大至30％-60％左右，而误选率c幅度变化不大，失败率d则迅速下降。

最后，处理单元根据上述统计分析得出权重最大的词汇，将该权重最大的词汇作为文件主题词，然后从主题词存储中检索该文件主题词在主题词存储器中存储的位置，从而得到该文件的类别，综合名词存储器所得到的标引统计分析结果得到该文件的最终类别。

即处理单元先根据名词存储器中的词汇对文件词汇进行标引性质的统计分析，然后根据各词汇的标引结果和与文件主题词相对应的主题词存储器中的主题词汇所在的类别来确定该文件的最终类别。

本发明提供的文件分类方法，通过处理器根据名词存储器中的名词词汇对文件词汇进行标引，并根据主题词汇检索文件主题词在主题词存储器中所在的类别；并基于标引的结果以及所在的类别来确定文件的最终类别。所以克服了传统文件分类方法只能依据文件的属性对文件进行分类的问题，进而实现依据文件的内容对文件进行区分并确定文件的最终类别，使用户能够按照文件的内容灵活精确地对文件进行分类。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文件分类装置，其特征在于，包括处理器，所述处理器包括处理单元；

所述处理单元根据以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引；对所述文件词汇进行统计分析获得文件主题词，并根据以分类级别进行分类存储的主题词汇检索所述文件主题词所属的类别；还基于所述标引的结果和所述类别来确定所述待分类文件的最终类别。

2.根据权利要求1所述的文件分类装置，其特征在于，所述名词词汇包含所述主题词汇；所述文件主题词为所述处理单元对所述文件词汇出现的频率和权重进行统计分析获得的权重最大的词汇。

3.根据权利要求1所述的文件分类装置，其特征在于，所述标引包括：针对所述文件词汇所属的领域，使用与所述领域相对应的所述分类级别下存储的名词词汇对所述文件词汇进行标引；并根据所述文件词汇的词类划分所述文件词汇，所述词类包括动词、名词和修饰词；还根据所述文件词汇与所述名词词汇之间的从属关系以及英汉对照关系对所述文件词汇进行标引。

4.根据权利要求1所述的文件分类装置，其特征在于，还包括与所述处理单元相连接的主题词存储器和名词存储器；所述主题词存储器用于存储所述主题词汇，所述名词存储器用于存储所述名词词汇。

5.根据权利要求1至4中任意一项所述的文件分类装置，其特征在于，还包括与所述处理器相连接的文件存储器，用于储存经所述处理器分类处理已确定最终类别的文件以及所述文件的分类数据；所述分类数据包括文件分类数据和索引数据。

6.根据权利要求5所述的文件分类装置，其特征在于，所述文件存储器包括与所述处理单元相连接的数据存储器和文件检索库；

所述数据存储器，用于存储所述文件分类数据；

所述文件检索库，用于存储所述索引数据。

7.根据权利要求5所述的文件分类装置，其特征在于，所述处理单元还用于接收终端发送的指示信号，并根据所述指示信号读取所述主题词存储器和所述名词存储器中相对应的词条数据，再根据所述词条数据对所述文件存储器中存储对应的所述分类数据进行查找读取，并反馈给所述终端。

8.一种文件分类方法，其特征在于，包括以下步骤：

对所述文件词汇进行统计分析获得文件主题词；

调用以分类级别进行分类存储的主题词汇检索所述文件主题词对应的分类级别以确定所述待分类文件的类别；

基于所述标引的结果以及所述类别确定所述待分类文件的最终类别。

9.根据权利要求8所述的文件分类方法，其特征在于，所述进行统计分析的步骤包括：

对所述文件词汇出现的频率和权重进行统计分析获得权重最大的词汇；并将所述权重最大的词汇作为所述文件主题词。

10.根据权利要求8或9所述的文件分类方法，其特征在于，所述进行标引的步骤包括：

针对所述文件词汇所属的领域，使用与所述领域相对应的所述分类级别下存储的名词词汇对所述文件词汇进行标引；

根据所述文件词汇的词类划分所述文件词汇，所述词类包括动词、名词和修饰词；

根据所述文件词汇与所述名词词汇之间的从属关系以及英汉对照关系对所述文件词汇进行标引。