CN103793474A - 一种面向知识管理的自定义知识分类方法 - Google Patents

一种面向知识管理的自定义知识分类方法 Download PDF

Info

Publication number
CN103793474A
CN103793474A CN201410003685.5A CN201410003685A CN103793474A CN 103793474 A CN103793474 A CN 103793474A CN 201410003685 A CN201410003685 A CN 201410003685A CN 103793474 A CN103793474 A CN 103793474A
Authority
CN
China
Prior art keywords
subclass
keyword
document
count
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410003685.5A
Other languages
English (en)
Other versions
CN103793474B (zh
Inventor
黄河燕
史树敏
陈振钊
冯冲
李侃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201410003685.5A priority Critical patent/CN103793474B/zh
Publication of CN103793474A publication Critical patent/CN103793474A/zh
Application granted granted Critical
Publication of CN103793474B publication Critical patent/CN103793474B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机应用技术领域,涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。

Description

一种面向知识管理的自定义知识分类方法
技术领域
本发明涉及一种面向知识管理的自定义知识分类方法,属于计算机应用技术领域。 
背景技术
随着企业规模的不断扩大,企业内部的历史记录不断积累,业务流程日益复杂化,知识管理系统软件应运而生。知识管理的实质是对知识进行管理,通过对知识分类、检索、智能推送等手段已达到企业内部知识在运动中不断增值的目的。其中,知识的分类是知识管理系统中的重要组成模块,通过分类可以高效地管理和检索知识,便于相关知识的寻找,提高知识的利用价值。为了满足知识多维度展示的要求,我们提出了自定义知识分类。有价值的知识主要来自网络和企业内部的历史积累,通常以文本格式存储在数据库中,因此知识分类就转化成了文本分类。 
空间向量模型(SVM)是当前比较流行的分类方法,理论基础是通过将文本转换成空间向量,向量的分类结果,就是文本的分类结果。空间向量分类过程包括预处理、特征提取、分类器训练、分类器评测。此类方法的必要前提条件是具备大量标注文本集,集合中的文本都带有经过专家人工标注生成的分类标签。生成分类器时,标注集合被分成两部分,一部分用于分类器训练,另一部分用于分类器评测。此类方法的优点是处理速度快,分类精度高,缺点是类别固定,需要大量的标注文本,以及分类器训练复杂。还有很多类似SVM的分类器例如感知机、贝叶斯、神经网络等分类方法都有依赖标大量注语料、参数学习和动态更新不及时等缺陷,因此,此类方法不适合知识管理系统中缺乏训练集和自定义分类的要求。 
词匹配法是最早被提出的分类算法,这种方法根据文档中是否出现了某些固定的词来判断文档是否属于某个类别。这种方法的缺点是通过简单机械的匹配会影响分类效果,优点是不需要标注集,类别中关键词的可以由用户自定义添加,比较适合知识管理系统中缺乏标注集、自定义的条件。针对本系统特殊 应用需求,我们采用了改进的次匹配方法,通过《同义词词林》扩展关键词同义词,以改善分类效果。 
发明内容
本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。 
为实现上述目的,本发明所采用的技术方案如下: 
步骤一、对知识管理系统中相关定义进行说明,具体如下: 
定义1:知识管理系统中每个具体分类称为子类,记为c; 
定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key;关键词集和记为KEYS; 
定义3:通过《同义词词林》对子类关键词keyi(i=0,1,2…n)进行同义词扩展,得到keyi(i=0,1,2…n)的同义词集合E{keyi}(i=0,1,2…n),所有子类关键词E{keyi}(i=0,1,2…n)的合并称为子类扩展关键词,记为E(keys)。其中,i表示关键词的下标,n表示子类中关键词的个数; 
定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类; 
例如,C1{c11,c12,c13}和C2{c21,c22,c23}是系统中的两个类组,文档dj(j=0,1,2…m)只能同时属于子类
Figure BDA0000453189890000021
或者属于子类 
Figure BDA0000453189890000022
二者之一;其中,j表示文档的下标,m表示文档集合中的文档数; 
定义5:在给定文档集合D{d1,d2…di…dm},其中,i代表文档下标,m代表文档集合总数量; 
步骤二、用户自定义一个类组C{c1,c2…ci…cn},其中,i表示子类的下标,n表示类组包含的子类数; 
步骤三、为每个子类ci添加自定义的子类关键词keysi; 
步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi}; 
步骤五、把类组C所有子类ci的扩展子类关键词E{keysi}合并为关键词集合 
Figure BDA0000453189890000031
其中
Figure BDA0000453189890000032
代表关键词集合中下标为h的关键词项,Kh代表关键词,其后面()中的c表示关键词Kh包含在子类c中,sh代表包含关键词Kh的子类数;t代表关键词集合元素数; 
步骤六、应用Wu-Manber多模式匹配算法统计一组关键词keys在文档d中出现次数;首先要对模式串的集合进行预处理,预处理阶段将建立三个表格:SHIFT表,HASH表,SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离,HASH表用来存储匹配窗口内尾字符散列值相同的模式串,PREFIX表用来存储匹配窗口内首字符散列值相同的模式串; 
步骤七、把关键词集合KEYS看做多模式匹配中的模式串,把文档di看做多模式匹配中的文本串,利用Wu-Manber多模式匹配算法进行关键词匹配,记录匹配成功的关键词来自的子类ci和匹配的位置,每个文档包括标题Title、摘要Abstract和正文Text,统计每个扩展子类关键词E{keysi}在文档di各个位置中出现的次数,分别记为counti{Title}、counti{Abstract}和counti{Text}; 
Wu-Manber多模式匹配算法原理如下: 
假设B=1,S是我们当前正在处理的文本中单个字,并且S映射到SHIFT表。m为最短模式串的长度,从文本串的第m-1个位置开始匹配时。考虑两种情况: 
(1)S不在任何一个模式串中出现,即不可能有候选模式串可以匹配成功,将考察的位置向后移动m个字符的距离,于是我们在SHIFT[h(S)]中存放m,其中h(S)代表字符S的散列值。 
(2)S在某些模式串中出现,这种情况下,考察那些模式串中S出现的最右位置。假设,S在模式串P1中的q位置出现,且在其他的出现S的模式串中S的位置都不大于q。那么我们应该在SHIFT[h(S)]中存放m-q。 
下面描述算法匹配的主要过程: 
(1)计算所有模式串中最短的模式串的长度,记为m,并且我们只考虑每一个模式串的前m个字符,即m为匹配窗口的大小。 
(2)根据文本当前正考察的m个字符计算其尾字符c散列值h。 
(3)检查SHIFT[h(c)]的值,如果SHIFT[h(c)]>0,那么将窗口向右移动SHIFT[h(c)]大小位置,返回第(2)步,否则,进入第(4)步。 
(4)从HASH[h(c)]得到以位置为m-1为c的模式串列表,逐个比较直到找到匹配模式串。若文本串匹配结束,则停止。否则,将窗口向右移动1位,返回第(2)步。 
步骤八、确定最合适的分类: 
假设:在一个文档d中关键词命中率最高的子类为文档最终所属的类别。 
c ^ = arg max 1 < i < n { Count i } - - - ( 1 )
其中,
Figure BDA0000453189890000042
代表最佳分类标号,i代表自定义子类的下标,Counti表示子类ci在文档d中的命中率。 
由于关键词出现的位置不同会带来不同的效果,应该区分对待。通常知识管理系统中知识文档包含三个部分,分别是标题、摘要和正文。因此,同一个关键词出现在标题中比出现在摘要中要重要,而出现在摘要中要比出现在正文中的关键词要重要。命中率不能仅仅通过文档中关键词出现的总数来衡量,而是出现在不同的位置赋予不同的权重,最终子类ci在一个文档d中的命中率定义如下式。 
Counti=α·counti{Title}+β·counti{Abstract}+γ·counti{Text}    (2) 
其中α,β,γ(α>β>λ)分别为关键词出现在文档d标题、摘要和正文的权重,counti{Title}、counti{Abstract}、counti{Text}分别代表文档d标题、摘要和正文出现关键词的个数。 
有益效果 
本发明是对针对知识管理系统中特殊条件下的特殊用户需求提出的,是其他现有方法难以实现的,并且取得了较好的效果。特殊的条件是缺乏标注语料,特殊的需求是多维度的用户自定义分类。 
附图说明
图1为本发明方法的结构图 
具体实施方式
下面结合实施例对本发明做进一步说明。 
假设要对文档d(来自凤凰网)进行自定义分类,文档d结构如下。 
Figure DEST_PATH_GDA0000477261500000051
根据步骤一,进行相关定义; 
根据步骤二、假设用户定义类组C{c1,c2,c3},其中,子类c1为交通、子类c2为医药、子类c3为教育; 
根据步骤三、为每个子类ci添加自定义的子类关键词keysi,每个子类关键词如下: 
子类 关键词
c1 运输;铁路;公路;车辆;
c2 治疗;病人;医院;疾病;
 
c3 教育;教师;学生;教学;
根据步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi}。 
合并同义词后得到如下子类扩展关键词。 
Figure BDA0000453189890000061
根据步骤五、合并所有子类的关键形成以个总的关键词集合。 
Figure BDA0000453189890000062
根据步骤六、生成SHIFT表、HASH表和PREFIX表。 
根据步骤七、利用步骤六的三个散列表,采用Wu-Manber多模式匹配算法,分别对文档d的标题、摘要和正文进行关键词匹配,结果如下。 
  c1 c2 c3
 
count{Title} 0 0 2(老师:2)
count{Abstract} 0 2(治疗:1医疗:1) 2(老师:2)
count{Text} 0 4(医疗:3医院:1) 18(老师:13学生:5)
步骤八、根据公式(2)(其中,α=2,β=1.5,γ=1)计算三个子类的命中率如下, 
Count1=α·count1{Title}+β·count1{Abstract}+γ·count1{Text}=2×0+1.5×0+0=0 
Count2=α·count2{Title}+β·count2{Abstract}+γ·count2{Text}=2×0+1.5×2+4=7 
Count3=α·count3{Title}+β·count3{Abstract}+γ·count3{Text}=2×2+1.5×2+18=25 
根据公式(2)可知,文档d属于子类c3。 

Claims (1)

1.一种面向知识管理的自定义知识分类方法,其特征在于:
步骤一、对知识管理系统中相关定义进行说明,具体如下:
定义1:知识管理系统中每个具体分类称为子类,记为c;
定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key;关键词集和记为KEYS;
定义3:通过《同义词词林》对子类关键词keyi(i=0,1,2…n)进行同义词扩展,得到keyi(i=0,1,2…n)的同义词集合E{keyi}(i=0,1,2…n),所有子类关键词E{keyi}(i=0,1,2…n)的合并称为子类扩展关键词,记为E(keys)。其中,i表示关键的下标,n表示子类中关键词的个数;
定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类;
定义5:在给定文档集合D{d1,d2…di…dm},其中,i代表文档下标,m代表文档集合总数量;
步骤二、用户自定义一个类组C{c1,c2…ci…cn},其中,i表示子类的下标,n表示类组包含的子类数;
步骤三、为每个子类ci添加自定义的子类关键词keysi
步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi};
步骤五、把类组C所有子类ci的扩展子类关键词E{keysi}合并为关键词集合其中
Figure FDA0000453189880000012
代表关键词集合中下标为h的关键词项,Kh代表关键词,其后面()中的c表示关键词Kh包含在子类c中,sh代表包含关键词Kh的子类数;t代表关键词集合元素数;
步骤六、应用Wu-Manber多模式匹配算法统计一组关键词keys在文档d中出现次数;首先要对模式串的集合进行预处理,预处理阶段将建立三个表格:SHIFT表,HASH表,SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离,HASH表用来存储匹配窗口内尾字符散列值相同的模式串,PREFIX表用来存储匹配窗口内首字符散列值相同的模式串;
步骤七、把关键词集合KEYS看做多模式匹配中的模式串,把文档di看做多模式匹配中的文本串,利用Wu-Manber多模式匹配算法进行关键词匹配,记录匹配成功的关键词来自的子类ci和匹配的位置,每个文档包括标题Title、摘要Abstract和正文Text,统计每个扩展子类关键词E{keysi}在文档di各个位置中出现的次数,分别记为counti{Title}、counti{Abstract}和counti{Text};
步骤八、确定文档的类别:
假设在一个文档d中关键词命中率最高的子类为文档最终所属的类别。
c ^ = arg max 1 < i < n { Count i }
其中,
Figure FDA0000453189880000022
代表最佳分类标号,i代表自定义子类的下标,Counti表示子类ci在文档d中的命中率;
最终子类ci在一个文档d中的命中率定义如下式:
Counti=α·counti{Title}+β·counti{Abstract}+γ·counti{Text}其中α,β,γ(α>β>λ)分别为关键词出现在文档d标题、摘要和正文的权重,counti{Title}、counti{Abstract}、counti{Text}分别代表文档d标题、摘要和正文出现关键词的个数。
CN201410003685.5A 2014-01-04 2014-01-04 一种面向知识管理的自定义知识分类方法 Expired - Fee Related CN103793474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410003685.5A CN103793474B (zh) 2014-01-04 2014-01-04 一种面向知识管理的自定义知识分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410003685.5A CN103793474B (zh) 2014-01-04 2014-01-04 一种面向知识管理的自定义知识分类方法

Publications (2)

Publication Number Publication Date
CN103793474A true CN103793474A (zh) 2014-05-14
CN103793474B CN103793474B (zh) 2017-01-11

Family

ID=50669140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410003685.5A Expired - Fee Related CN103793474B (zh) 2014-01-04 2014-01-04 一种面向知识管理的自定义知识分类方法

Country Status (1)

Country Link
CN (1) CN103793474B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN105447142A (zh) * 2015-11-23 2016-03-30 中国农业大学 一种双模式农业科技成果分类方法及系统
WO2017202125A1 (zh) * 2016-05-25 2017-11-30 华为技术有限公司 文本分类方法及装置
CN112767925A (zh) * 2020-12-24 2021-05-07 贝壳技术有限公司 语音信息识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452055C (zh) * 2007-04-13 2009-01-14 清华大学 一种用于文本或网络内容分析的大规模多关键词匹配方法
CN100552673C (zh) * 2007-08-30 2009-10-21 上海交通大学 开放式文档同构引擎系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899260A (zh) * 2015-05-20 2015-09-09 东华大学 一种中文病理文本结构化处理方法
CN104899260B (zh) * 2015-05-20 2018-02-23 东华大学 一种中文病理文本结构化处理方法
CN105447142A (zh) * 2015-11-23 2016-03-30 中国农业大学 一种双模式农业科技成果分类方法及系统
CN105447142B (zh) * 2015-11-23 2019-03-26 中国农业大学 一种双模式农业科技成果分类方法及系统
WO2017202125A1 (zh) * 2016-05-25 2017-11-30 华为技术有限公司 文本分类方法及装置
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN112767925A (zh) * 2020-12-24 2021-05-07 贝壳技术有限公司 语音信息识别方法及装置
CN112767925B (zh) * 2020-12-24 2023-02-17 贝壳技术有限公司 语音信息识别方法及装置

Also Published As

Publication number Publication date
CN103793474B (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
Rathi et al. Sentiment analysis of tweets using machine learning approach
CN102508859B (zh) 一种基于网页特征的广告分类方法及装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
Amigó et al. Overview of replab 2014: author profiling and reputation dimensions for online reputation management
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN105205124B (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及系统
CN103577462B (zh) 一种文档分类方法及装置
CN104778161A (zh) 基于Word2Vec和Query log抽取关键词方法
CN105389379A (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN101561805A (zh) 文档分类器生成方法和系统
CN103810264A (zh) 基于特征选择的网页文本分类方法
CN102567464A (zh) 基于扩展主题图的知识资源组织方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN104881689A (zh) 一种多标签主动学习分类方法及系统
CN104484380A (zh) 个性化搜索方法及装置
Yuan-jie et al. Web service classification based on automatic semantic annotation and ensemble learning
CN103793474B (zh) 一种面向知识管理的自定义知识分类方法
CN110688474A (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
Trivedi et al. Interplay between probabilistic classifiers and boosting algorithms for detecting complex unsolicited emails
CN106951565B (zh) 文本分类方法及获得的文本分类器
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
CN107292348A (zh) 一种Bagging_BSJ短文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Shi Shumin

Inventor after: Huang Heyan

Inventor after: Chen Zhenzhao

Inventor after: Feng Chong

Inventor after: Li Kan

Inventor before: Huang Heyan

Inventor before: Shi Shumin

Inventor before: Chen Zhenzhao

Inventor before: Feng Chong

Inventor before: Li Kan

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: HUANG HEYAN SHI SHUMIN CHEN ZHENZHAO FENG CHONG LI KAN TO: SHI SHUMIN HUANG HEYAN CHEN ZHENZHAO FENG CHONG LI KAN

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170111

Termination date: 20180104

CF01 Termination of patent right due to non-payment of annual fee