CN109325096B - 一种基于知识资源分类的知识资源搜索系统 - Google Patents

一种基于知识资源分类的知识资源搜索系统 Download PDF

Info

Publication number
CN109325096B
CN109325096B CN201810757626.5A CN201810757626A CN109325096B CN 109325096 B CN109325096 B CN 109325096B CN 201810757626 A CN201810757626 A CN 201810757626A CN 109325096 B CN109325096 B CN 109325096B
Authority
CN
China
Prior art keywords
knowledge resource
server
knowledge
classification
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810757626.5A
Other languages
English (en)
Other versions
CN109325096A (zh
Inventor
李振凯
王焕金
曹建梅
杨祥来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid of China Technology College
Original Assignee
State Grid Corp of China SGCC
State Grid of China Technology College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid of China Technology College filed Critical State Grid Corp of China SGCC
Priority to CN201810757626.5A priority Critical patent/CN109325096B/zh
Publication of CN109325096A publication Critical patent/CN109325096A/zh
Application granted granted Critical
Publication of CN109325096B publication Critical patent/CN109325096B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Abstract

本发明公开了一种基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,采集服务器通信连接学员信息服务器;模型服务器通信连接采集服务器和知识资源库服务器;分类服务器通信连接模型服务器和知识资源库服务器;搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器。该发明有效解决由于知识资源分类精度不够,造成的学员检索效果不理想,电力培训教学效果差的问题。

Description

一种基于知识资源分类的知识资源搜索系统
技术领域
本发明涉及资源分类与搜索领域,尤其涉及一种基于知识资源分类的知识资源搜索系统。
背景技术
高等院校的数据库中知识资源的分类存储意义重大,尤其对于积累了大量电力培训知识资源的高等电力院校,若资源分类不明确将造成资源利用率不高、资源检索准确率较低等情况,学生无法准确获取到所需知识资源,知识资源没有被充分利用起来会造成的教学知识资源的空置浪费,这种浪费限制了院校培训教学质量的提升。而且现有技术中没有针对高等院校知识资源的特点进行分类的知识分类手段,因此分类精度不够,同时也造成了学生检索效果不够理想,如何提高知识资源利用率、为学生提供更科学的辅助教学服务,成为电力培训教学必须要解决的问题。
发明内容
为解决上述技术问题,本发明提出了一种基于知识资源分类的知识资源搜索系统,解决了由于知识资源分类精度不够,造成的学员检索效果不理想,电力培训教学效果差的问题。
本发明的技术方案如下:
一种基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
学员信息服务器,用于存储学员的专业类别信息;
知识资源库服务器,具有存储知识资源数据的知识资源数据库;
采集服务器,通信连接所述学员信息服务器,用于从所述学员信息服务器中获取学员的专业类别信息;
模型服务器,通信连接所述采集服务器和知识资源库服务器;用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用所述数据分类模型对所述训练集数据进行训练,生成知识资源分类模型;
分类服务器,通信连接模型服务器和知识资源库服务器,利用所述知识资源分类模型对知识资源数据库进行分类;
搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器,用于确定该学生专业,按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库,然后在该底层知识资源数据库内进行搜索操作。
所述分类服务器包括:
预处理模块,对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词,选择知识资源特征词;
向量提取模块,通过提取知识资源特征词的特征,得到知识资源数据的TF-IDF特征向量;
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类;
所述预处理模块、向量提取模块和分类模块依次通信连接。
所述预处理模块中设置有分词器。
所述向量提取模块中包括CHI统计器和TF-IDF权重计算器,
所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值,然后按所述CHI值大小排序,选取CHI值大的知识资源特征词。
所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度,即计算词频率-逆文档频率TF-IDF,用来评估特征词的重要程度,计算过程为:特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF特征向量。
所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。
本发明具有以下有益效果:
本发明提供的一种基于知识资源分类的知识资源搜索系统,对知识资源按照越远所在专业类别进行分类,按学员专业构建个性化知识资源搜索引擎。有效改善知识资源分类精度,提高知识资源利用率,为学生提供更科学的辅助教学服务。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明提供的一种基于知识资源分类的知识资源搜索系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释部分:包括自定义术语、不常见术语、需要解释限定清楚的术语、引用文献涉及内容等、
正如背景技术所介绍的,现有技术中存在学生检索效果不够理想,知识资源利用率低的不足,为了解决如上的技术问题,本申请提出了一种基于知识资源分类的知识资源搜索系统。
本发明的一种典型的实施方式,如图1所示,本发明提供的基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
采集服务器,通信连接学员信息服务器,并从中获取学员的专业类别信息。
模型服务器,通信连接采集服务器和知识资源库服务器,从知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用数据分类模型对训练集数据进行训练,生成知识资源分类模型。
进一步地,分类服务器包括预处理模块、向量提取模块和分类模块,所述预处理模块、向量提取模块和分类模块依次通信连接,其中:
预处理模块,对知识资源库中的每一知识资源进行分词并去除停用词和低频词,选择知识资源特征词。ICTCLAS(Institute of Computing Technology,Chinese LexicalAnalysis System)是中国科学院计算技术研究所研制的汉语词法分析系统,本发明中的预处理模块中设置有具有ICTCLAS的分词器。选用分词器对知识资源进行分词,并去除不能反映知识资源所属类别的词语、通常自身并无明确意义,只有将其放入一个完整的句子中才有一定连接语句作用的词语以及低频词语;
中文分词是将中文语句中的词语切分开来的过程。它和英文的分词是存在区别的,英文的语句是以由字母组成的单词为基本单位的,单词之间存在一个空格,因此其本身已经完成了分词的过程。而中文的语句是以字为基本单位的。词语通常有多个字组成,因此对于中文来说分词的过程是必不可少的。
停用词(Stop Words),词典译为“电脑检索中的虚字、非检索用字”。通常意义上,停用词(Stop Words)大致可分为如下两类:使用频率较高的单词。比如英文的“is”、“what”,中文的“我”、“就”之类词几乎在每个知识资源上均会出现,这些词存在于每一个类别的知识资源中,不能反映知识资源所属类别,对于知识分类实际价值。因此,需要去除这部分词语。文本实际意义不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定连接语句作用的词语。如常见的“的”、“在”、“只是”之类的。
向量提取模块,通过提取知识资源特征词的特征,得到知识资源的TF-IDF特征向量,可选地,所述向量提取模块中设置有CHI统计器和TF-IDF权重计算器,CHI统计器是利用CHI法统计知识资源特征词的装置,TF-IDF权重计算器是利用TF-IDF法计算CHI统计器选取的知识资源特征词的权重的装置。具体地,
CHI统计器用以计算知识资源特征词与知识资源类别的CHI统计量,然后按值大小排序,根据实际需要选取CHI值大的知识资源特征词,计算公式如下:
(本申请的CHI统计器的CHI计算公式),
(传统CHI计算公式),
其中,用χ2(tk,ci)来度量知识资源特征词tk和知识资源类别ci之间的相关程度;
特征词频度tf(tk,ci),知识资源特征词tk在某类知识资源类别ci中出现的次数;
类间聚集度其中|C|为训练集数据中总的类别数,|Ck|为包含知识资源特征词tk的类别数;
类内分散度用dfi(tk)/Ni表示,其中dfi(tk)表示知识资源特征词tk在知识资源类别ci内出现的知识资源数,Ni表示知识资源类别ci内知识总数;
TF-IDF权重计算器用来评估所选取的CHI值大的知识资源特征词的重要程度,词频率-逆文档频率TF-IDF°,用来评估特征词的重要程度,特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF°特征向量,传统的TF-IDF在计算特征词权重时只考虑了特征词频率和包含特征词的知识资源数量,没有考虑特征词的长度信息,通常较长的特征词包含更多的信息,对于文本分类起更大的决定作用,因此需要增大较长词的权重。因此我们对TF-IDF°值进行改进。其公式如下,
TFIDF°=TFIDF×ln(L+3)(本申请TF-IDF权重计算器的TF-IDF°计算公式),
(传统TF-IDF计算公式),
其中nk,i是所选取的CHI值大的知识资源特征词tk在知识资源di中出现的次数,是知识资源中出现所选取的CHI值大的知识资源特征词的总数,N是知识资源总数,N(tk)是包含所选取的CHI值大的知识资源特征词tk的知识资源总数。
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类。
分类服务器5,通信连接模型服务器4和知识资源库服务器2,利用知识资源分类模型对知识资源库进行分类。
搜索服务器6,通信连接学员信息服务器1、分类服务器5和知识资源库服务器2,确定该学生专业,按该专业类别从分类后的知识资源库中选取其对应的底层知识资源库,然后在该底层知识资源库内进行搜索操作。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

Claims (5)

1.一种基于知识资源分类的知识资源搜索系统,其特征在于,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
学员信息服务器,用于存储学员的专业类别信息;
知识资源库服务器,具有存储知识资源数据的知识资源数据库;
采集服务器,通信连接所述学员信息服务器,用于从所述学员信息服务器中获取学员的专业类别信息;
模型服务器,通信连接所述采集服务器和知识资源库服务器;用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用所述数据分类模型对所述训练集数据进行训练,生成知识资源分类模型;
分类服务器,通信连接模型服务器和知识资源库服务器,利用所述知识资源分类模型对知识资源数据库进行分类;
搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器,用于确定该学员 专业,按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库,然后在该底层知识资源数据库内进行搜索操作;
所述分类服务器包括:
预处理模块,对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词,选择知识资源特征词;
向量提取模块,通过提取知识资源特征词的特征,得到知识资源数据的TF-IDF特征向量;所述向量提取模块中包括CHI统计器和TF-IDF权重计算器,TF-IDF权重计算器根据特征词频率、包含特征词的知识资源数量以及特征词的长度信息,计算词频率-逆文档频率TF-IDF°数值,计算中通过增加特征词的长度信息的变量信息增加较长词的权重;
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类;
所述预处理模块、向量提取模块和分类模块依次通信连接。
2.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述预处理模块中设置有分词器。
3.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值,然后按所述CHI值大小排序,选取CHI值大的知识资源特征词。
4.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度,即计算词频率-逆文档频率TF-IDF,用来评估特征词的重要程度,计算过程为:特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF特征向量。
5.根据权利要求1-4任一项要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。
CN201810757626.5A 2018-07-11 2018-07-11 一种基于知识资源分类的知识资源搜索系统 Expired - Fee Related CN109325096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810757626.5A CN109325096B (zh) 2018-07-11 2018-07-11 一种基于知识资源分类的知识资源搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810757626.5A CN109325096B (zh) 2018-07-11 2018-07-11 一种基于知识资源分类的知识资源搜索系统

Publications (2)

Publication Number Publication Date
CN109325096A CN109325096A (zh) 2019-02-12
CN109325096B true CN109325096B (zh) 2019-12-06

Family

ID=65263672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810757626.5A Expired - Fee Related CN109325096B (zh) 2018-07-11 2018-07-11 一种基于知识资源分类的知识资源搜索系统

Country Status (1)

Country Link
CN (1) CN109325096B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993235A (zh) * 2019-04-10 2019-07-09 苏州浪潮智能科技有限公司 一种多变量数据分类方法与装置
CN112632298B (zh) * 2021-01-13 2023-06-02 中教云智数字科技有限公司 一种数字教育资源检索系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262529A1 (en) * 2010-10-01 2017-09-14 Google Inc. Sponsor answers and user-approved, system-suggested links in a social search engine
CN105678575B (zh) * 2015-12-31 2020-11-13 华南师范大学 基于用户属性知识库的个性化推荐方法和系统
CN107886949B (zh) * 2017-11-24 2021-04-30 科大讯飞股份有限公司 一种内容推荐方法及装置

Also Published As

Publication number Publication date
CN109325096A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
WO2017097231A1 (zh) 话题处理方法及装置
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN107491518A (zh) 一种搜索召回方法和装置、服务器、存储介质
US11210334B2 (en) Method, apparatus, server and storage medium for image retrieval
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN106708926B (zh) 一种支持海量长文本数据分类的分析模型的实现方法
CN106294786A (zh) 一种代码搜索方法和系统
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN109325096B (zh) 一种基于知识资源分类的知识资源搜索系统
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN104881446A (zh) 搜索方法及装置
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN110866393B (zh) 基于领域知识库的简历信息抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191206

Termination date: 20210711

CF01 Termination of patent right due to non-payment of annual fee