CN103793474A

CN103793474A - 一种面向知识管理的自定义知识分类方法

Info

Publication number: CN103793474A
Application number: CN201410003685.5A
Authority: CN
Inventors: 黄河燕; 史树敏; 陈振钊; 冯冲; 李侃
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-01-04
Filing date: 2014-01-04
Publication date: 2014-05-14
Anticipated expiration: 2034-01-04
Also published as: CN103793474B

Abstract

本发明属于计算机应用技术领域，涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中，在缺乏标注文本集合的条件下，实现用户自定义分类管理知识的问题，提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题，通过用《同义词词林》扩展用户自定义关键词，利用Wu-Manber多模式匹配算法来快速匹配关键词，根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件，且速度快的特点。

Description

一种面向知识管理的自定义知识分类方法

技术领域

本发明涉及一种面向知识管理的自定义知识分类方法，属于计算机应用技术领域。

背景技术

随着企业规模的不断扩大，企业内部的历史记录不断积累，业务流程日益复杂化，知识管理系统软件应运而生。知识管理的实质是对知识进行管理，通过对知识分类、检索、智能推送等手段已达到企业内部知识在运动中不断增值的目的。其中，知识的分类是知识管理系统中的重要组成模块，通过分类可以高效地管理和检索知识，便于相关知识的寻找，提高知识的利用价值。为了满足知识多维度展示的要求，我们提出了自定义知识分类。有价值的知识主要来自网络和企业内部的历史积累，通常以文本格式存储在数据库中，因此知识分类就转化成了文本分类。

空间向量模型（SVM）是当前比较流行的分类方法，理论基础是通过将文本转换成空间向量，向量的分类结果，就是文本的分类结果。空间向量分类过程包括预处理、特征提取、分类器训练、分类器评测。此类方法的必要前提条件是具备大量标注文本集，集合中的文本都带有经过专家人工标注生成的分类标签。生成分类器时，标注集合被分成两部分，一部分用于分类器训练，另一部分用于分类器评测。此类方法的优点是处理速度快，分类精度高，缺点是类别固定，需要大量的标注文本，以及分类器训练复杂。还有很多类似SVM的分类器例如感知机、贝叶斯、神经网络等分类方法都有依赖标大量注语料、参数学习和动态更新不及时等缺陷，因此，此类方法不适合知识管理系统中缺乏训练集和自定义分类的要求。

词匹配法是最早被提出的分类算法，这种方法根据文档中是否出现了某些固定的词来判断文档是否属于某个类别。这种方法的缺点是通过简单机械的匹配会影响分类效果，优点是不需要标注集，类别中关键词的可以由用户自定义添加，比较适合知识管理系统中缺乏标注集、自定义的条件。针对本系统特殊应用需求，我们采用了改进的次匹配方法，通过《同义词词林》扩展关键词同义词，以改善分类效果。

发明内容

本发明的目的是为了解决知识管理系统中，在缺乏标注文本集合的条件下，实现用户自定义分类管理知识的问题，提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题，通过用《同义词词林》扩展用户自定义关键词，利用Wu-Manber多模式匹配算法来快速匹配关键词，根据关键词在文档中的命中率来判断分类类别。

为实现上述目的，本发明所采用的技术方案如下：

步骤一、对知识管理系统中相关定义进行说明，具体如下：

定义1：知识管理系统中每个具体分类称为子类，记为c；

定义2：用户为每个子类制定的专属一系列词组称为子类关键词，记为keys，单个词记为key；关键词集和记为KEYS；

定义3：通过《同义词词林》对子类关键词key_i(i＝0,1,2…n)进行同义词扩展，得到key_i(i＝0,1,2…n)的同义词集合E{key_i}(i＝0,1,2…n)，所有子类关键词E{key_i}(i＝0,1,2…n)的合并称为子类扩展关键词，记为E(keys)。其中，i表示关键词的下标，n表示子类中关键词的个数；

定义4：若干个包含关键词的子类组成一套完整的分类标准，称为一个类组，记为C；要求文档集合中的所有文档按不同类组进行分类，因此在一个类组中文档集合中每个文档只能属于至多一个子类，但是可以属于其他类组中的子类；

例如，C₁{c₁₁,c₁₂,c₁₃}和C₂{c₂₁,c₂₂,c₂₃}是系统中的两个类组，文档d_j(j＝0,1,2…m)只能同时属于子类

或者属于子类

二者之一；其中，j表示文档的下标，m表示文档集合中的文档数；

定义5：在给定文档集合D{d₁,d₂…d_i…d_m}，其中，i代表文档下标，m代表文档集合总数量；

步骤二、用户自定义一个类组C{c₁,c₂…c_i…c_n}，其中，i表示子类的下标，n表示类组包含的子类数；

步骤三、为每个子类c_i添加自定义的子类关键词keys_i；

步骤四、用《同义词词林》对每个子类关键词keys_i进行扩展，得到子类c_i扩展子类关键词E{keys_i}；

步骤五、把类组C所有子类c_i的扩展子类关键词E{keys_i}合并为关键词集合

其中

代表关键词集合中下标为h的关键词项，K_h代表关键词，其后面()中的c表示关键词K_h包含在子类c中，s_h代表包含关键词K_h的子类数；t代表关键词集合元素数；

步骤六、应用Wu-Manber多模式匹配算法统计一组关键词keys在文档d中出现次数；首先要对模式串的集合进行预处理，预处理阶段将建立三个表格：SHIFT表，HASH表，SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离，HASH表用来存储匹配窗口内尾字符散列值相同的模式串，PREFIX表用来存储匹配窗口内首字符散列值相同的模式串；

步骤七、把关键词集合KEYS看做多模式匹配中的模式串，把文档d_i看做多模式匹配中的文本串，利用Wu-Manber多模式匹配算法进行关键词匹配，记录匹配成功的关键词来自的子类c_i和匹配的位置，每个文档包括标题Title、摘要Abstract和正文Text，统计每个扩展子类关键词E{keys_i}在文档d_i各个位置中出现的次数，分别记为count_i{Title}、count_i{Abstract}和count_i{Text}；

Wu-Manber多模式匹配算法原理如下：

假设B=1，S是我们当前正在处理的文本中单个字，并且S映射到SHIFT表。m为最短模式串的长度，从文本串的第m-1个位置开始匹配时。考虑两种情况:

(1)S不在任何一个模式串中出现，即不可能有候选模式串可以匹配成功，将考察的位置向后移动m个字符的距离，于是我们在SHIFT[h(S)]中存放m，其中h(S)代表字符S的散列值。

(2)S在某些模式串中出现，这种情况下，考察那些模式串中S出现的最右位置。假设，S在模式串P1中的q位置出现，且在其他的出现S的模式串中S的位置都不大于q。那么我们应该在SHIFT[h(S)]中存放m-q。

下面描述算法匹配的主要过程：

(1)计算所有模式串中最短的模式串的长度，记为m，并且我们只考虑每一个模式串的前m个字符，即m为匹配窗口的大小。

(2)根据文本当前正考察的m个字符计算其尾字符c散列值h。

(3)检查SHIFT[h(c)]的值，如果SHIFT[h(c)]>0，那么将窗口向右移动SHIFT[h(c)]大小位置，返回第(2)步，否则，进入第(4)步。

(4)从HASH[h(c)]得到以位置为m-1为c的模式串列表，逐个比较直到找到匹配模式串。若文本串匹配结束，则停止。否则，将窗口向右移动1位，返回第(2)步。

步骤八、确定最合适的分类：

假设：在一个文档d中关键词命中率最高的子类为文档最终所属的类别。

\hat{c} = \arg \max_{1 < i < n} {{Count}_{i}} - - - (1)

其中，

代表最佳分类标号，i代表自定义子类的下标，Count_i表示子类c_i在文档d中的命中率。

由于关键词出现的位置不同会带来不同的效果，应该区分对待。通常知识管理系统中知识文档包含三个部分，分别是标题、摘要和正文。因此，同一个关键词出现在标题中比出现在摘要中要重要，而出现在摘要中要比出现在正文中的关键词要重要。命中率不能仅仅通过文档中关键词出现的总数来衡量，而是出现在不同的位置赋予不同的权重，最终子类c_i在一个文档d中的命中率定义如下式。

Count_i＝α·count_i{Title}+β·count_i{Abstract}+γ·count_i{Text} (2)

其中α,β,γ(α＞β＞λ)分别为关键词出现在文档d标题、摘要和正文的权重，count_i{Title}、count_i{Abstract}、count_i{Text}分别代表文档d标题、摘要和正文出现关键词的个数。

有益效果

本发明是对针对知识管理系统中特殊条件下的特殊用户需求提出的，是其他现有方法难以实现的，并且取得了较好的效果。特殊的条件是缺乏标注语料，特殊的需求是多维度的用户自定义分类。

附图说明

图1为本发明方法的结构图

具体实施方式

下面结合实施例对本发明做进一步说明。

假设要对文档d(来自凤凰网)进行自定义分类，文档d结构如下。

根据步骤一，进行相关定义；

根据步骤二、假设用户定义类组C{c₁,c₂,c₃}，其中，子类c₁为交通、子类c₂为医药、子类c₃为教育；

根据步骤三、为每个子类c_i添加自定义的子类关键词keys_i，每个子类关键词如下：

子类	关键词
		c₁	运输；铁路；公路；车辆；
c₂	治疗；病人；医院；疾病；

c₃	教育；教师；学生；教学；

根据步骤四、用《同义词词林》对每个子类关键词keys_i进行扩展，得到子类c_i扩展子类关键词E{keys_i}。

合并同义词后得到如下子类扩展关键词。

根据步骤五、合并所有子类的关键形成以个总的关键词集合。

根据步骤六、生成SHIFT表、HASH表和PREFIX表。

根据步骤七、利用步骤六的三个散列表，采用Wu-Manber多模式匹配算法，分别对文档d的标题、摘要和正文进行关键词匹配，结果如下。

c₁

c₂

c₃

count{Title}	0	0	2(老师:2)
				count{Abstract}	0	2(治疗:1医疗:1)	2(老师:2)
count{Text}	0	4(医疗:3医院:1)	18(老师:13学生:5)

步骤八、根据公式(2)(其中，α＝2,β＝1.5,γ＝1)计算三个子类的命中率如下，

Count₁＝α·count₁{Title}+β·count₁{Abstract}+γ·count₁{Text}＝2×0+1.5×0+0＝0

Count₂＝α·count₂{Title}+β·count₂{Abstract}+γ·count₂{Text}＝2×0+1.5×2+4＝7

Count₃＝α·count₃{Title}+β·count₃{Abstract}+γ·count₃{Text}＝2×2+1.5×2+18＝25

根据公式(2)可知，文档d属于子类c₃。

Claims

1.一种面向知识管理的自定义知识分类方法，其特征在于：

步骤一、对知识管理系统中相关定义进行说明，具体如下：

定义1：知识管理系统中每个具体分类称为子类，记为c；

定义3：通过《同义词词林》对子类关键词key_i(i＝0,1,2…n)进行同义词扩展，得到key_i(i＝0,1,2…n)的同义词集合E{key_i}(i＝0,1,2…n)，所有子类关键词E{key_i}(i＝0,1,2…n)的合并称为子类扩展关键词，记为E(keys)。其中，i表示关键的下标，n表示子类中关键词的个数；

步骤三、为每个子类c_i添加自定义的子类关键词keys_i；

步骤五、把类组C所有子类c_i的扩展子类关键词E{keys_i}合并为关键词集合其中

步骤八、确定文档的类别：

假设在一个文档d中关键词命中率最高的子类为文档最终所属的类别。

\hat{c} = \arg \max_{1 < i < n} {{Count}_{i}}

其中，

代表最佳分类标号，i代表自定义子类的下标，Count_i表示子类c_i在文档d中的命中率；

最终子类c_i在一个文档d中的命中率定义如下式：

Count_i＝α·count_i{Title}+β·count_i{Abstract}+γ·count_i{Text}其中α,β,γ(α＞β＞λ)分别为关键词出现在文档d标题、摘要和正文的权重，count_i{Title}、count_i{Abstract}、count_i{Text}分别代表文档d标题、摘要和正文出现关键词的个数。