CN109325096A - 一种基于知识资源分类的知识资源搜索系统 - Google Patents
一种基于知识资源分类的知识资源搜索系统 Download PDFInfo
- Publication number
- CN109325096A CN109325096A CN201810757626.5A CN201810757626A CN109325096A CN 109325096 A CN109325096 A CN 109325096A CN 201810757626 A CN201810757626 A CN 201810757626A CN 109325096 A CN109325096 A CN 109325096A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- server
- resource
- knowledge resource
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Abstract
本发明公开了一种基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,采集服务器通信连接学员信息服务器;模型服务器通信连接采集服务器和知识资源库服务器;分类服务器通信连接模型服务器和知识资源库服务器;搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器。该发明有效解决由于知识资源分类精度不够,造成的学员检索效果不理想,电力培训教学效果差的问题。
Description
技术领域
本发明涉及资源分类与搜索领域,尤其涉及一种基于知识资源分类的知识资源搜索系统。
背景技术
高等院校的数据库中知识资源的分类存储意义重大,尤其对于积累了大量电力培训知识资源的高等电力院校,若资源分类不明确将造成资源利用率不高、资源检索准确率较低等情况,学生无法准确获取到所需知识资源,知识资源没有被充分利用起来会造成的教学知识资源的空置浪费,这种浪费限制了院校培训教学质量的提升。而且现有技术中没有针对高等院校知识资源的特点进行分类的知识分类手段,因此分类精度不够,同时也造成了学生检索效果不够理想,如何提高知识资源利用率、为学生提供更科学的辅助教学服务,成为电力培训教学必须要解决的问题。
发明内容
为解决上述技术问题,本发明提出了一种基于知识资源分类的知识资源搜索系统,解决了由于知识资源分类精度不够,造成的学员检索效果不理想,电力培训教学效果差的问题。
本发明的技术方案如下:
一种基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
学员信息服务器,用于存储学员的专业类别信息;
知识资源库服务器,具有存储知识资源数据的知识资源数据库;
采集服务器,通信连接所述学员信息服务器,用于从所述学员信息服务器中获取学员的专业类别信息;
模型服务器,通信连接所述采集服务器和知识资源库服务器;用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用所述数据分类模型对所述训练集数据进行训练,生成知识资源分类模型;
分类服务器,通信连接模型服务器和知识资源库服务器,利用所述知识资源分类模型对知识资源数据库进行分类;
搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器,用于确定该学生专业,按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库,然后在该底层知识资源数据库内进行搜索操作。
所述分类服务器包括:
预处理模块,对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词,选择知识资源特征词;
向量提取模块,通过提取知识资源特征词的特征,得到知识资源数据的TF-IDF特征向量;
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类;
所述预处理模块、向量提取模块和分类模块依次通信连接。
所述预处理模块中设置有分词器。
所述向量提取模块中包括CHI统计器和TF-IDF权重计算器,
所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值,然后按所述CHI值大小排序,选取CHI值大的知识资源特征词。
所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度,即计算词频率-逆文档频率TF-IDF,用来评估特征词的重要程度,计算过程为:特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF特征向量。
所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。
本发明具有以下有益效果:
本发明提供的一种基于知识资源分类的知识资源搜索系统,对知识资源按照越远所在专业类别进行分类,按学员专业构建个性化知识资源搜索引擎。有效改善知识资源分类精度,提高知识资源利用率,为学生提供更科学的辅助教学服务。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明提供的一种基于知识资源分类的知识资源搜索系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释部分:包括自定义术语、不常见术语、需要解释限定清楚的术语、引用文献涉及内容等、
正如背景技术所介绍的,现有技术中存在学生检索效果不够理想,知识资源利用率低的不足,为了解决如上的技术问题,本申请提出了一种基于知识资源分类的知识资源搜索系统。
本发明的一种典型的实施方式,如图1所示,本发明提供的基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
采集服务器,通信连接学员信息服务器,并从中获取学员的专业类别信息。
模型服务器,通信连接采集服务器和知识资源库服务器,从知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用数据分类模型对训练集数据进行训练,生成知识资源分类模型。
进一步地,分类服务器包括预处理模块、向量提取模块和分类模块,所述预处理模块、向量提取模块和分类模块依次通信连接,其中:
预处理模块,对知识资源库中的每一知识资源进行分词并去除停用词和低频词,选择知识资源特征词。ICTCLAS(Institute of Computing Technology,Chinese LexicalAnalysis System)是中国科学院计算技术研究所研制的汉语词法分析系统,本发明中的预处理模块中设置有具有ICTCLAS的分词器。选用分词器对知识资源进行分词,并去除不能反映知识资源所属类别的词语、通常自身并无明确意义,只有将其放入一个完整的句子中才有一定连接语句作用的词语以及低频词语;
中文分词是将中文语句中的词语切分开来的过程。它和英文的分词是存在区别的,英文的语句是以由字母组成的单词为基本单位的,单词之间存在一个空格,因此其本身已经完成了分词的过程。而中文的语句是以字为基本单位的。词语通常有多个字组成,因此对于中文来说分词的过程是必不可少的。
停用词(Stop Words),词典译为“电脑检索中的虚字、非检索用字”。通常意义上,停用词(Stop Words)大致可分为如下两类:使用频率较高的单词。比如英文的“is”、“what”,中文的“我”、“就”之类词几乎在每个知识资源上均会出现,这些词存在于每一个类别的知识资源中,不能反映知识资源所属类别,对于知识分类实际价值。因此,需要去除这部分词语。文本实际意义不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定连接语句作用的词语。如常见的“的”、“在”、“只是”之类的。
向量提取模块,通过提取知识资源特征词的特征,得到知识资源的TF-IDF特征向量,可选地,所述向量提取模块中设置有CHI统计器和TF-IDF权重计算器,CHI统计器是利用CHI法统计知识资源特征词的装置,TF-IDF权重计算器是利用TF-IDF法计算CHI统计器选取的知识资源特征词的权重的装置。具体地,
CHI统计器用以计算知识资源特征词与知识资源类别的CHI统计量,然后按值大小排序,根据实际需要选取CHI值大的知识资源特征词,计算公式如下:
(本申请的CHI统计器的CHI计算公式),
(传统CHI计算公式),
其中,用χ2(tk,ci)来度量知识资源特征词tk和知识资源类别ci之间的相关程度;
特征词频度tf(tk,ci),知识资源特征词tk在某类知识资源类别ci中出现的次数;
类间聚集度其中|C|为训练集数据中总的类别数,|Ck|为包含知识资源特征词tk的类别数;
类内分散度用dfi(tk)/Ni表示,其中dfi(tk)表示知识资源特征词tk在知识资源类别ci内出现的知识资源数,Ni表示知识资源类别ci内知识总数;
TF-IDF权重计算器用来评估所选取的CHI值大的知识资源特征词的重要程度,词频率-逆文档频率TF-IDF°,用来评估特征词的重要程度,特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF°特征向量,传统的TF-IDF在计算特征词权重时只考虑了特征词频率和包含特征词的知识资源数量,没有考虑特征词的长度信息,通常较长的特征词包含更多的信息,对于文本分类起更大的决定作用,因此需要增大较长词的权重。因此我们对TF-IDF°值进行改进。其公式如下,
TFIDF°=TFIDF×ln(L+3)(本申请TF-IDF权重计算器的TF-IDF°计算公式),
(传统TF-IDF计算公式),
其中nk,i是所选取的CHI值大的知识资源特征词tk在知识资源di中出现的次数,是知识资源中出现所选取的CHI值大的知识资源特征词的总数,N是知识资源总数,N(tk)是包含所选取的CHI值大的知识资源特征词tk的知识资源总数。
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类。
分类服务器5,通信连接模型服务器4和知识资源库服务器2,利用知识资源分类模型对知识资源库进行分类。
搜索服务器6,通信连接学员信息服务器1、分类服务器5和知识资源库服务器2,确定该学生专业,按该专业类别从分类后的知识资源库中选取其对应的底层知识资源库,然后在该底层知识资源库内进行搜索操作。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
Claims (7)
1.一种基于知识资源分类的知识资源搜索系统,其特征在于,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
学员信息服务器,用于存储学员的专业类别信息;
知识资源库服务器,具有存储知识资源数据的知识资源数据库;
采集服务器,通信连接所述学员信息服务器,用于从所述学员信息服务器中获取学员的专业类别信息;
模型服务器,通信连接所述采集服务器和知识资源库服务器;用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用所述数据分类模型对所述训练集数据进行训练,生成知识资源分类模型;
分类服务器,通信连接模型服务器和知识资源库服务器,利用所述知识资源分类模型对知识资源数据库进行分类;
搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器,用于确定该学生专业,按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库,然后在该底层知识资源数据库内进行搜索操作。
2.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述分类服务器包括:
预处理模块,对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词,选择知识资源特征词;
向量提取模块,通过提取知识资源特征词的特征,得到知识资源数据的TF-IDF特征向量;
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类;
所述预处理模块、向量提取模块和分类模块依次通信连接。
3.根据权利要求2要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述预处理模块中设置有分词器。
4.根据权利要求2要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述向量提取模块中包括CHI统计器和TF-IDF权重计算器。
5.根据权利要求4要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值,然后按所述CHI值大小排序,选取CHI值大的知识资源特征词。
6.根据权利要求4要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度,即计算词频率-逆文档频率TF-IDF,用来评估特征词的重要程度,计算过程为:特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF特征向量。
7.根据权利要求1-5任一项要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810757626.5A CN109325096B (zh) | 2018-07-11 | 2018-07-11 | 一种基于知识资源分类的知识资源搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810757626.5A CN109325096B (zh) | 2018-07-11 | 2018-07-11 | 一种基于知识资源分类的知识资源搜索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325096A true CN109325096A (zh) | 2019-02-12 |
CN109325096B CN109325096B (zh) | 2019-12-06 |
Family
ID=65263672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810757626.5A Expired - Fee Related CN109325096B (zh) | 2018-07-11 | 2018-07-11 | 一种基于知识资源分类的知识资源搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325096B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993235A (zh) * | 2019-04-10 | 2019-07-09 | 苏州浪潮智能科技有限公司 | 一种多变量数据分类方法与装置 |
CN112632298A (zh) * | 2021-01-13 | 2021-04-09 | 中教云智数字科技有限公司 | 一种数字教育资源检索系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678575A (zh) * | 2015-12-31 | 2016-06-15 | 华南师范大学 | 基于用户属性知识库的个性化推荐方法和系统 |
US20170262529A1 (en) * | 2010-10-01 | 2017-09-14 | Google Inc. | Sponsor answers and user-approved, system-suggested links in a social search engine |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
-
2018
- 2018-07-11 CN CN201810757626.5A patent/CN109325096B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262529A1 (en) * | 2010-10-01 | 2017-09-14 | Google Inc. | Sponsor answers and user-approved, system-suggested links in a social search engine |
CN105678575A (zh) * | 2015-12-31 | 2016-06-15 | 华南师范大学 | 基于用户属性知识库的个性化推荐方法和系统 |
CN107886949A (zh) * | 2017-11-24 | 2018-04-06 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
Non-Patent Citations (3)
Title |
---|
郭正斌等: "一种面向文本分类的特征向量优化方法", 《计算机应用研究》 * |
陶宏曜等: "基于卷积神经网络的职位描述文本分类方法", 《软件》 * |
高知新等: "基于隐马尔科夫模型与语义融合的文本分类", 《计算机应用与软件》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993235A (zh) * | 2019-04-10 | 2019-07-09 | 苏州浪潮智能科技有限公司 | 一种多变量数据分类方法与装置 |
CN112632298A (zh) * | 2021-01-13 | 2021-04-09 | 中教云智数字科技有限公司 | 一种数字教育资源检索系统 |
CN112632298B (zh) * | 2021-01-13 | 2023-06-02 | 中教云智数字科技有限公司 | 一种数字教育资源检索系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109325096B (zh) | 2019-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
CN110489538B (zh) | 基于人工智能的语句应答方法、装置及电子设备 | |
CN108319686A (zh) | 基于受限文本空间的对抗性跨媒体检索方法 | |
CN107076567A (zh) | 多语言图像问答 | |
CN104794212A (zh) | 基于用户评论文本的上下文情感分类方法及分类系统 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
Gooding et al. | Recursive context-aware lexical simplification | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
CN111524578A (zh) | 一种基于电子心理沙盘的心理评估装置、方法及系统 | |
CN116821377A (zh) | 基于知识图谱和大模型的小学语文自动评测系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN109325096A (zh) | 一种基于知识资源分类的知识资源搜索系统 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
Panchenko et al. | Ukrainian news corpus as text classification benchmark | |
CN109002561A (zh) | 基于样本关键词学习的文本自动分类方法、系统及介质 | |
Chu et al. | Distribution of large-scale English test scores based on data mining | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
Munggaran et al. | Sentiment analysis of twitter users’ opinion data regarding the use of chatgpt in education | |
CN115859962B (zh) | 一种文本可读性评估方法和系统 | |
Knight et al. | Towards mining sequences and dispersion of rhetorical moves in student written texts | |
Zhang et al. | Product features extraction and categorization in Chinese reviews | |
Voronov et al. | Forecasting popularity of news article by title analyzing with BN-LSTM network | |
CN113569741A (zh) | 图像试题的答案生成方法、装置、电子设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191206 Termination date: 20210711 |