CN107451168A

CN107451168A - 基于词汇统计的档案分类系统及方法

Info

Publication number: CN107451168A
Application number: CN201610786178.2A
Authority: CN
Inventors: 陈嬿如; 林春风; 王昱钧; 许庭玮
Original assignee: Chunghwa Telecom Co Ltd
Current assignee: Chunghwa Telecom Co Ltd
Priority date: 2016-05-30
Filing date: 2016-08-31
Publication date: 2017-12-08
Anticipated expiration: 2036-08-31
Also published as: TW201741909A; CN107451168B; TWI605353B

Abstract

本发明是提供一种基于词汇统计的档案分类系统及方法。前述的方法运行于具备运算能力的电子装置，包含下列步骤：首先，读取一个或多个档案的档案描述信息，以及一个或多个用户历史操作信息；接着，自用户历史操作信息萃取出一个或多个词汇信息，并计算词汇信息位于档案描述信息的权重值，并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标以建立特定档案的连结。通过前述的处理后即可自动的对各个档案建立标签及链接，让用户可方便的进行档案管理。

Description

基于词汇统计的档案分类系统及方法

技术领域

本发明是一种档案分类技术手段，尤指一种基于词汇统计的档案分类系统及方法。

背景技术

为能方便的管理电子档案，用户大多会依照属性将各个档案放置在特定的文件夹，然而当各个档案具有多个属性时，前述的方案并无法让使用者便捷的存取档案。

为解决前述的问题，部分的使用者会透过人工方式对各个档案设定属性卷标，而用户在点选各个标签后即可开启特定的档案，举例说明之，当使用者持有档案「花莲旅游计划书.doc」时，可对此档案设定卷标「花莲」以及卷标「旅游」，因此当使用者点选其中一个标签时，即可开启该档案。

只是上述的方案需通过人工方式进行分类以及设定，因此使用者需耗费相当多的时间来执行重复性工作，而造成使用者相当大的困扰。而当档案数量日益增加时，前述的管理方案会严重的降低使用者的操作意愿。

综上所述，如何提供一种可自动进行档案分类技术方案乃本领域亟需解决的技术问题。

发明内容

为解决前揭的问题，本发明的目的是提供一种基于词汇统计的档案分类系统及方法。

为达上述目的，本发明提出一种基于词汇统计的档案分类系统。前述的系统运行于具备运算能力的电子装置，并包含读取模块以及处理模块。前述的读取模块是读取一个或多个档案的档案描述信息以及一个或多个用户历史操作信息。前述的处理模块连接读取模块，并自用户历史操作信息萃取出一个或多个词汇信息、计算词汇信息位于档案描述信息的权重值，并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标，其中列表卷标是用于建立特定档案的连结。

为达上述目的，本发明提出一种基于词汇统计的档案分类方法。前述的方法运行于具备运算能力的电子装置，并包含下列步骤：首先，读取一个或多个档案之档案描述信息，以及一个或多个用户历史操作信息。接着，自用户历史操作信息萃取出一个或多个词汇信息，并计算词汇信息位于档案描述信息的权重值，并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标，其中列表卷标是用于建立特定档案的连结。

综上所述，本发明的基于词汇统计的档案分类系统及其方法可对档案内容中的词汇进行统计分析，并依权重值选取出特定的词汇作为虚拟目录列表的列表卷标，而得以提供使用者更为便捷的档案管理方案。

附图说明

图1为本发明第一实施例基于词汇统计的档案分类系统的系统方块图。

图2为本发明第二实施例基于词汇统计的档案分类方法的方法流程图。

图3～图5为本发明第二实施例档案分类方法的细部运作流程图。

图6为本发明词汇权重排序流程图。

图7为本发明后缀数组的示意图。

图8为本发明字典顺序排序的示意图。

图9为本发明优化虚拟目录列表示意图。

图10为本发明档案分类画面。

附图标记说明

1 基于词汇统计的档案分类系统

11 读取模块

12 处理模块

具体实施方式

以下将描述具体的实施例以说明本发明的实施态样，惟其并非用以限制本发明所欲保护的范畴。

请参阅图1，其为本发明第一实施例基于词汇统计的档案分类系统1的系统方块图。前述的档案分类系统进一步包含读取模块11以及处理模块12。前述的读取模块11用于读取外部一个或多个档案的档案描述信息，及一个或多个用户历史操作信息。前述的处理模块12连接读取模块11，并自用户历史操作信息萃取出一个或多个词汇信息，并计算词汇信息位于档案描述信息的权重值，并依据权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标，前述的列表卷标是用于建立特定档案的连结。

于另一实施例中，前述的处理模块12是计算词汇信息位于档案描述信息的词频-逆向文件频率权重值。于另一实施例中，前述的处理模块12是依据列表上限以挑选词汇信息作为列表卷标。于另一实施例中，前述的处理模块12依据权重值大小以挑选词汇信息以作为列表卷标。于另一实施例中，前述的用户历史操作信息是用户历史操作信息。

请参阅图2，其为本发明第二实施例基于词汇统计的档案分类方法的方法流程图。前述的方法运行于具备运算能力的电子装置，并包含下列步骤：

S101：读取一个或多个档案的档案描述信息。

S102：读取一个或多个用户历史操作信息。

S103：自用户历史操作信息萃取出一个或多个词汇信息，并计算词汇信息位于档案描述信息的权重值，并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标，其中列表卷标是用于建立特定档案的连结。

于另一实施例中，前述的方法更计算词汇信息位于档案描述信息的词频-逆向文件频率权重值。于另一实施例中，更依据列表上限以挑选词汇信息作为列表卷标。于另一实施例中，前述的方法更依据权重值大小以挑选词汇信息以作为列表卷标。于另一实施例中，前述方法的用户历史操作信息是用户历史操作信息。

本发明于第三实施例更提供一种基于词汇统计的档案分类计算机程序产品，当计算机装置加载并执行该计算机程序产品，可完成前述方法所述的步骤。

本发明兹以第二实施例的档案分类方法进行说明，惟其第一实施例的档案分类系统以及第三实施例的基于词汇统计的档案分类计算机程序产亦可达成相同或相似的技术功效。请参阅图3～图5，其为档案分类方法的细部运作流程图，图3的步骤说明(S11～S15)如下：

步骤S11：读取档案描述信息以及用户历史操作数据。前述的档案描述信息进一步包含：

(1).档案数据属性(如：文件名、文件类型、档案标题、档案主旨、档案标记、档案GPS经纬度坐标数据)；

(2).使用者对该档案做的批注说明；

(3).档案内容或档案内文；

前述的用户历史操作数据进一步包含：

(1).用户习惯的书签分类名称；

(2).用户查询数据输入的关键词；或

(3).用户点选实体或虚拟目录的项目名称等。

步骤S12：此时会分析档案描述信息以及用户历史操作数据，以撷取用户关注的词汇。前述撷取使用者关注词汇方法的步骤(图4，S21～S23)说明如下：

步骤S21：利用抽词方法自档案描述信息中撷取词汇，于此步骤主要是档案描述信息(例如：档案内容、档案数据属性与档案批注内容)进行词性分析，包括前后词判断，以及同义字(Synonym)、一字多义字(Polysemy)、反义字(Antonym)、泛称(Hypernym)、具体名称(Hyponym)等；而单字可能与前后文字组成单词(例如劳「作」、「作」业、工「作」、杵「作」、「作」文、磨杵「作」针等)，并撷取语句中的重要词汇并依其出现的频率进行排序(S211～S213)：

步骤S211：前述的抽词方法可使用后缀数组(suffix array)抽词方法。后缀数组的基本元素为给定一长字符串(string)，其长度为L，后缀指的是从字符串的某一个位置i(0<＝i<L)开始到字符串最末端字尾(string[L-1])的一个子串，表示为suffix(i)；L个suffix(i)按照字典顺序排列，并依序储存在一个数组SA[L]中，则SA[L]称为后缀数组，其元素值储存的是suffix(i)的起始字符在string中的位置；每一个suffix[i]对应在SA[k]数组中的一个位置，将这个对应的位置储存为Rank[i]，时间复杂度为O(N)；对于任意两个suffix[i]和suffix[j]，由于知晓其在Rank[L]中的前后位置，所以在O(1)的时间内就可以算得出他们的字典顺序排列大小关系；建构SA[i]数组中相邻元素的最长共同前缀(LCP，Longest Common Prefix)，Height[i]表示SA[i]和SA[i-1]的LCP(i,j)；H[i]＝Height[Rank[i]表示Suffix[i]和字典顺序排序在它前一名的后缀子串的LCP大小。

而对于正整数i和j而言，最长共同前缀的定义如下:LCP(i,j)＝lcp(Suffix(SA[i]),Suffix(SA[j]))＝min(Height[k]|i+1<＝k<＝j)；也就是计算LCP(i,j)等同于查找Height数组中下表在i+1到j之间的元素最小值。以图5的案例说明之，若LCP(0,3)，则最小值为2，则"aaaab"和"aabaaaab"的LCP为2；

为了方便比较，创造后缀数组前都会在字符串的末尾端添加一个$字符表示字符串行的结束，并且在字典顺序中最小。本案采用倍增算法(DoublingAlgorithm)来快速建构后缀数组。于倍增算法中，输入为字符串string的所有suffix[i]；按照<＝h进行搜寻排序，并且h的值在搜寻时取"1,2,4,8,……2^N"，每次搜寻保证后缀子串<＝h有序；首先对h进行排序；当扩展到<＝2h有序的时候，由于2h的前面h个字符已经比较过，所以只需要比较后面的h个字符，而后面的这h个字符恰好在前一次<＝h有序的时候作为其他后缀的前h个字符已经比较过，所以一次搜寻中字符串行的时间复杂为O(N)；长度为N的字符串行需要进行logN次搜寻(h的值为2^N)，直到Rank[i]数组中没有相等的字符串行；所以倍增算法的时间复杂度为O(NlogN)；

前述步骤的虚拟程序代码如表1所示：

表1

步骤S212：经抽词方法所撷取出的词汇会先利用预先给定的规则条件进行初步过滤，删除非成词的词汇，例如：删除标点符号、括号、引号等非成词的词汇。

步骤S213：利用预先收集的中英文停用词(stop words)列表，进一步过滤撷取出的词汇，删除中文停用词，例如：我、你、妳、他、她、是、的等停用词，删除英文停用词，例如：I,me,you,your,he,his,am,are,is等停用词。

步骤S22：以空格分隔自用户历史操作数据撷取词汇，由于用户历史操作数据(例如：用户习惯的书签分类名称、搜寻关键词与用户点选实体或虚拟目录的项目名称)多为单词，因此于此步骤使用空格分隔撷取词汇。

步骤S23：计算撷取出的每个词汇于档案描述信息、用户历史操作数据之中的个别的TF-IDF数值。「TF-IDF算法」计算步骤说明如下：

步骤S231：先计算词频TF(Term Frequency)：假设dj是「某一特定文件」，ti是该文件中所使用单词或单字的「其中一种」，那么tfi的计算方法就是ti在每篇文章dj中出现次数的加总，除以所有词汇在每篇文章的加总，其表达式如下所示：

步骤S232：再计算逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词汇的IDF，可以由所有文件总数除以包含该词汇在文件总数中出现的文件数，再将得到的商取对数得到，其表达式如下所示：

步骤S233：将tfi＊idfi来进行计算，以某一特定文件内的高单词频率，乘上该词汇在文件总数中的低文件频率，便可以产生TF-IDF权重值，且TF-IDF倾向于过滤掉常见的单词，保留重要的词汇，其表达式如下所示：

TF-IDF_i＝tf_i*idf_i

步骤S13：综合档案描述信息，用户历史操作数据计算权重依权重公式进行虚拟目录名称的词汇权重排序，其步骤说明如图6所示：

S31：由用户点选虚拟目录项目的记录，并对权重公式参数进行优化。

S32：对用户使用的云端储存空间，新增更新档案相关信息，以及记录用户历史操作数据。

S33：依权重公式计算撷取的词汇的权重值，以产生词汇清单。

S34：将词汇清单由权重高至低排序，并排除超过清单上限或权重值低于门坎值的词汇。

更进一步说明「虚拟目录词汇权重公式计算方法」，计算方法用一实施例说明如下：

假设词汇权重计算公式由五项因子组成分别为档案内容的TF-IDF值、档案批注的TF-IDF值、档案数据属性的TF-IDF值、书签分类名称的TF-IDF值、搜寻关键词的TF-IDF值，所以词汇i的权重值并以参数λ_content、λ_comment、λ_metadata、λ_tag、λ_keyword、λ_ε为变量，撷取出的词汇构成一个算式，令已知的重要词汇达到最大值为该算式理想值，n笔词汇构成n个算式，可使用参数优化算法求解(如:线性回归算法)，各参数λ的下边界(lower bound)设定为0.1，而上边界(upper bound)则以初始的训练数据经参数优化算法所求出的最佳解的最大值再加10为其上边界(upper bound)的值；

步骤S14：依排序的结果产生虚拟目录列表，并将档案归纳至合适或所属的虚拟目录，于该步骤中主要是产生的虚拟目录词汇，若词汇ti有出现在第dj个档案的档案描述信息中，则将第dj个档案归纳至合适或所属的虚拟目录词汇ti，再将所属词汇ti的此些档案依其ti出现在该档案的出现次数由大到小排序。

步骤S15：产生优化虚拟目录列表给用户。

以下兹提供实际范例以说明本案的技术思想。若记录使用端在云储存系统记录有如表2的档案描述信息与历史操作数据：

表2

此时输入关键词「花莲」进行查询，和汇入用户习惯的书签，其书签习惯的分类名称为旅游、美食、住宿、音乐等等。接着依序对文本文件做抽词方法运算，若「花东旅游行程.doc」档案内文为「…花莲创意文化园区位于市区中心，地址是花莲市中华路144号，前身是花莲酒厂，园区内是日式建筑，这里有很大的广场、日式风格的走廊，处处还可以看到前身酒厂的创意风格…」，而在进行后缀数组运算后可得如图7所示的后缀数组，前述的后缀数组组合分别为酒厂、花莲、花莲市、花莲酒厂、花莲市中华路、花莲市中华路144号、花莲创意文化园区等内容。

请再参阅图8，再依字典顺序排序，找到「花莲」的出现次数为6、「花莲市」的出现次数为3，因此撷取出现次数最高的词汇「花莲」。

经过抽词方法对每一个档案内文做运算后，抽出的词汇分别为花莲、台东、旅游、预算、太鲁阁、玉里、池上、照片、美食、住宿、音乐等词汇，分别计算这些词汇在所有档案内容的出现次数(表3)：

文件名	花莲	台东	旅游	…	音乐
						花东旅游行程.doc	10	9	5	…	0
花东预算.xls	7	6	2	…	0
						花莲照片.jpg	0	0	0	…	0
台东照片.jpg	0	0	0	…	0
						太鲁阁.jpg	0	0	0	…	0
六十石山.jpg	0	0	0	…	0
						…	…	…	…	…	…
池上便当.doc	0	1	0	…	0

表3

之后得到这些词汇在档案内容因子的TF值、IDF值、TF-IDF权重值(表4)：

词汇	TF值	IDF值	TF-IDF权重值
				花莲	0.9	2	1.8
台东	0.8	1.5	1.2
				旅游	0.5	1	0.5
预算	0.01	0.4	0.004
				太鲁阁	0	0.2	0
玉里	0	0.2	0
				池上	0.02	0.3	0.006
照片	0	0.6	0
				美食	0	1	0
住宿	0.01	0.1	0.001
				音乐	0	0	0

表4

以此类推去计算这些词汇的档案批注的TF-IDF值、档案数据属性的TF-IDF值、书签分类名称的TF-IDF值、搜寻关键词的TF-IDF值，后可得到表5的内容：

表5

接着，再依虚拟目录词汇权重公式计算后可得到如表6的内容：

词汇	权重值
		花莲	8
台东	4.7
		旅游	3.55
预算	1.104
		太鲁阁	0.9
玉里	0.9
		池上	0.906
照片	1.2
		美食	1.7
住宿	1.301
		音乐	0.9

表6

再依清单由权重高至低排序，并排除超过清单上限或默认最低值的词汇。假设清单上限为4，并取前四大的权重值的词汇后，可得到表7的内容：

词汇	权重值
		花莲	8
台东	4.7
		旅游	3.55
美食	1.7

表7

接着将档案归纳至合适或所属的虚拟目录，可得到如表8的内容：

表8

最后则产生如图9所示的优化虚拟目录列表给使用端，使用端可在操作窗口中看到虚拟目录列表链接。而点选虚拟清单的「花莲」链接时，会出现如图10的档案分类画面。

上列详细说明系针对本发明之一可行实施例的具体说明，惟该实施例并非用以限制本发明的专利范围，凡未脱离本发明技艺精神所为的等效实施或变更，均应包含于本案的专利范围中。

Claims

1.一种基于词汇统计的档案分类系统，运行于具备运算能力的电子装置，其特征在于，包含：

读取模块，读取一个或多个档案的档案描述信息，以及一个或多个用户历史操作信息；以及

处理模块，连接该读取模块，该处理模块更自该用户历史操作信息萃取出一个或多个词汇信息，并计算该词汇信息位于该档案描述信息的权重值，并依该权重值自该词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标，其中该列表卷标是用于建立特定该档案的连结。

2.根据权利要求1所述的档案分类系统，其特征在于，该处理模块是计算该词汇信息位于该档案描述信息的词频-逆向文件频率权重值。

3.根据权利要求1所述的档案分类系统，其特征在于，该处理模块是依据列表上限以挑选该词汇信息作为该列表卷标。

4.根据权利要求1所述的档案分类系统，其特征在于，该处理模块依据权重值大小以挑选该词汇信息以作为该列表卷标。

5.根据权利要求1所述的档案分类系统，其特征在于，该用户历史操作信息是为卷标信息。

6.一种基于词汇统计的档案分类方法，运行于具备运算能力的电子装置，其特征在于，包含下列步骤：

读取一个或多个档案的档案描述信息，以及一个或多个用户历史操作信息；以及

自该用户历史操作信息萃取出一个或多个词汇信息，并计算该词汇信息位于该档案描述信息的权重值，并依该权重值自该词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标，其中该列表卷标是用于建立特定该档案的连结。

7.根据权利要求6所述的档案分类方法，其特征在于，更计算该词汇信息位于该档案描述信息的词频-逆向文件频率权重值。

8.根据权利要求6所述的档案分类方法，其特征在于，更依据清单上限以挑选该词汇信息作为该列表卷标。

9.根据权利要求6所述的档案分类方法，其特征在于，更依据权重值大小以挑选该词汇信息以作为该列表卷标。

10.根据权利要求6所述的档案分类方法，其特征在于，该用户历史操作信息是为卷标信息。