CN109325096A

CN109325096A - 一种基于知识资源分类的知识资源搜索系统

Info

Publication number: CN109325096A
Application number: CN201810757626.5A
Authority: CN
Inventors: 李振凯; 王焕金; 曹建梅; 杨祥来
Original assignee: State Grid Corp of China SGCC; State Grid of China Technology College
Current assignee: State Grid Corp of China SGCC; State Grid of China Technology College
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2019-02-12
Anticipated expiration: 2038-07-11
Also published as: CN109325096B

Abstract

本发明公开了一种基于知识资源分类的知识资源搜索系统，包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器，其中，采集服务器通信连接学员信息服务器；模型服务器通信连接采集服务器和知识资源库服务器；分类服务器通信连接模型服务器和知识资源库服务器；搜索服务器，通信连接学员信息服务器、分类服务器和知识资源库服务器。该发明有效解决由于知识资源分类精度不够，造成的学员检索效果不理想，电力培训教学效果差的问题。

Description

一种基于知识资源分类的知识资源搜索系统

技术领域

本发明涉及资源分类与搜索领域，尤其涉及一种基于知识资源分类的知识资源搜索系统。

背景技术

高等院校的数据库中知识资源的分类存储意义重大，尤其对于积累了大量电力培训知识资源的高等电力院校，若资源分类不明确将造成资源利用率不高、资源检索准确率较低等情况，学生无法准确获取到所需知识资源，知识资源没有被充分利用起来会造成的教学知识资源的空置浪费，这种浪费限制了院校培训教学质量的提升。而且现有技术中没有针对高等院校知识资源的特点进行分类的知识分类手段，因此分类精度不够，同时也造成了学生检索效果不够理想，如何提高知识资源利用率、为学生提供更科学的辅助教学服务，成为电力培训教学必须要解决的问题。

发明内容

为解决上述技术问题，本发明提出了一种基于知识资源分类的知识资源搜索系统，解决了由于知识资源分类精度不够，造成的学员检索效果不理想，电力培训教学效果差的问题。

本发明的技术方案如下：

一种基于知识资源分类的知识资源搜索系统，包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器，其中，

学员信息服务器，用于存储学员的专业类别信息；

知识资源库服务器，具有存储知识资源数据的知识资源数据库；

采集服务器，通信连接所述学员信息服务器，用于从所述学员信息服务器中获取学员的专业类别信息；

模型服务器，通信连接所述采集服务器和知识资源库服务器；用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据，对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据，使用所述数据分类模型对所述训练集数据进行训练，生成知识资源分类模型；

分类服务器，通信连接模型服务器和知识资源库服务器，利用所述知识资源分类模型对知识资源数据库进行分类；

搜索服务器，通信连接学员信息服务器、分类服务器和知识资源库服务器，用于确定该学生专业，按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库，然后在该底层知识资源数据库内进行搜索操作。

所述分类服务器包括：

预处理模块，对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词，选择知识资源特征词；

向量提取模块，通过提取知识资源特征词的特征，得到知识资源数据的TF-IDF特征向量；

分类模块，将TF-IDF特征向量输入到知识资源分类模型中进行分类；

所述预处理模块、向量提取模块和分类模块依次通信连接。

所述预处理模块中设置有分词器。

所述向量提取模块中包括CHI统计器和TF-IDF权重计算器，

所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值，然后按所述CHI值大小排序，选取CHI值大的知识资源特征词。

所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度，即计算词频率-逆文档频率TF-IDF，用来评估特征词的重要程度，计算过程为：特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目，选取出现频率大的知识资源特征词作为TF-IDF特征向量。

所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。

本发明具有以下有益效果：

本发明提供的一种基于知识资源分类的知识资源搜索系统，对知识资源按照越远所在专业类别进行分类，按学员专业构建个性化知识资源搜索引擎。有效改善知识资源分类精度，提高知识资源利用率，为学生提供更科学的辅助教学服务。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明提供的一种基于知识资源分类的知识资源搜索系统的结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释部分:包括自定义术语、不常见术语、需要解释限定清楚的术语、引用文献涉及内容等、

正如背景技术所介绍的，现有技术中存在学生检索效果不够理想，知识资源利用率低的不足，为了解决如上的技术问题，本申请提出了一种基于知识资源分类的知识资源搜索系统。

本发明的一种典型的实施方式，如图1所示，本发明提供的基于知识资源分类的知识资源搜索系统，包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器，其中，

采集服务器，通信连接学员信息服务器，并从中获取学员的专业类别信息。

模型服务器，通信连接采集服务器和知识资源库服务器，从知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据，对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据，使用数据分类模型对训练集数据进行训练，生成知识资源分类模型。

进一步地，分类服务器包括预处理模块、向量提取模块和分类模块，所述预处理模块、向量提取模块和分类模块依次通信连接，其中：

预处理模块，对知识资源库中的每一知识资源进行分词并去除停用词和低频词，选择知识资源特征词。ICTCLAS(Institute of Computing Technology,Chinese LexicalAnalysis System)是中国科学院计算技术研究所研制的汉语词法分析系统，本发明中的预处理模块中设置有具有ICTCLAS的分词器。选用分词器对知识资源进行分词，并去除不能反映知识资源所属类别的词语、通常自身并无明确意义，只有将其放入一个完整的句子中才有一定连接语句作用的词语以及低频词语；

中文分词是将中文语句中的词语切分开来的过程。它和英文的分词是存在区别的，英文的语句是以由字母组成的单词为基本单位的，单词之间存在一个空格，因此其本身已经完成了分词的过程。而中文的语句是以字为基本单位的。词语通常有多个字组成，因此对于中文来说分词的过程是必不可少的。

停用词(Stop Words)，词典译为“电脑检索中的虚字、非检索用字”。通常意义上，停用词(Stop Words)大致可分为如下两类：使用频率较高的单词。比如英文的“is”、“what”，中文的“我”、“就”之类词几乎在每个知识资源上均会出现，这些词存在于每一个类别的知识资源中，不能反映知识资源所属类别，对于知识分类实际价值。因此，需要去除这部分词语。文本实际意义不大的词。这一类主要包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定连接语句作用的词语。如常见的“的”、“在”、“只是”之类的。

向量提取模块，通过提取知识资源特征词的特征，得到知识资源的TF-IDF特征向量，可选地，所述向量提取模块中设置有CHI统计器和TF-IDF权重计算器，CHI统计器是利用CHI法统计知识资源特征词的装置，TF-IDF权重计算器是利用TF-IDF法计算CHI统计器选取的知识资源特征词的权重的装置。具体地，

CHI统计器用以计算知识资源特征词与知识资源类别的CHI统计量，然后按值大小排序，根据实际需要选取CHI值大的知识资源特征词，计算公式如下：

(本申请的CHI统计器的CHI计算公式)，

(传统CHI计算公式)，

其中，用χ²(t_k,c_i)来度量知识资源特征词t_k和知识资源类别c_i之间的相关程度；

特征词频度tf(t_k,c_i),知识资源特征词t_k在某类知识资源类别c_i中出现的次数；

类间聚集度其中|C|为训练集数据中总的类别数，|C_k|为包含知识资源特征词t_k的类别数；

类内分散度用df_i(t_k)/N_i表示，其中df_i(t_k)表示知识资源特征词t_k在知识资源类别c_i内出现的知识资源数，N_i表示知识资源类别c_i内知识总数；

TF-IDF权重计算器用来评估所选取的CHI值大的知识资源特征词的重要程度，词频率-逆文档频率TF-IDF°，用来评估特征词的重要程度，特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目，选取出现频率大的知识资源特征词作为TF-IDF°特征向量，传统的TF-IDF在计算特征词权重时只考虑了特征词频率和包含特征词的知识资源数量，没有考虑特征词的长度信息，通常较长的特征词包含更多的信息，对于文本分类起更大的决定作用，因此需要增大较长词的权重。因此我们对TF-IDF°值进行改进。其公式如下，

TFIDF°＝TFIDF×ln(L+3)(本申请TF-IDF权重计算器的TF-IDF°计算公式)，

(传统TF-IDF计算公式)，

其中n_k,i是所选取的CHI值大的知识资源特征词t_k在知识资源d_i中出现的次数，是知识资源中出现所选取的CHI值大的知识资源特征词的总数，N是知识资源总数，N(t_k)是包含所选取的CHI值大的知识资源特征词t_k的知识资源总数。

分类模块，将TF-IDF特征向量输入到知识资源分类模型中进行分类。

分类服务器5，通信连接模型服务器4和知识资源库服务器2，利用知识资源分类模型对知识资源库进行分类。

搜索服务器6，通信连接学员信息服务器1、分类服务器5和知识资源库服务器2，确定该学生专业，按该专业类别从分类后的知识资源库中选取其对应的底层知识资源库，然后在该底层知识资源库内进行搜索操作。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

Claims

1.一种基于知识资源分类的知识资源搜索系统，其特征在于，包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器，其中，

学员信息服务器，用于存储学员的专业类别信息；

2.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统，其特征在于，所述分类服务器包括：

所述预处理模块、向量提取模块和分类模块依次通信连接。

3.根据权利要求2要求所述的基于知识资源分类的知识资源搜索系统，其特征在于，所述预处理模块中设置有分词器。

4.根据权利要求2要求所述的基于知识资源分类的知识资源搜索系统，其特征在于，所述向量提取模块中包括CHI统计器和TF-IDF权重计算器。

5.根据权利要求4要求所述的基于知识资源分类的知识资源搜索系统，其特征在于，所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值，然后按所述CHI值大小排序，选取CHI值大的知识资源特征词。

6.根据权利要求4要求所述的基于知识资源分类的知识资源搜索系统，其特征在于，所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度，即计算词频率-逆文档频率TF-IDF，用来评估特征词的重要程度，计算过程为：特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目，选取出现频率大的知识资源特征词作为TF-IDF特征向量。

7.根据权利要求1-5任一项要求所述的基于知识资源分类的知识资源搜索系统，其特征在于，所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。