CN101604341A - 一种评价网络学术资源重要性的新方法 - Google Patents
一种评价网络学术资源重要性的新方法 Download PDFInfo
- Publication number
- CN101604341A CN101604341A CNA2009103000939A CN200910300093A CN101604341A CN 101604341 A CN101604341 A CN 101604341A CN A2009103000939 A CNA2009103000939 A CN A2009103000939A CN 200910300093 A CN200910300093 A CN 200910300093A CN 101604341 A CN101604341 A CN 101604341A
- Authority
- CN
- China
- Prior art keywords
- academic resources
- network academic
- importance
- resources
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种评价网络学术资源重要性的新方法,属于信息管理领域技术领域。本方案针对网络学术资源的特点,提出了基于支持向量机的排序算法(SVM Ranking:SupportVector Machine Ranking)自动评价网络学术资源重要性的新方法。该方法包括训练和应用两个阶段:训练阶段由专家对一组样本的任意两个标注其相对重要性,然后依据标记样本学习出支持向量机排序模型;在应用阶段,对任意的网络学术资源,训练好的支持向量机排序模型可输出一个实数表示其重要性。支持向量机排序模型被周期更新,每次更新都将基于专家新标记的样本。网络学术资源的重要性可被用来调整检索结果的排序,使把相关性类似但重要性较高的结果排在前面。
Description
技术领域
本发明揭示了一种基于支持向量机排序模型来评价网络学术资源重要性的方法,属于信息管理的技术范畴,可应用到互联网上学术性资源的重要性评价、网络学术资源检索结果的排序。在学科上属于现代图书馆学、情报学范畴。
背景技术
网络学术资源是互联网上的和学术有关的数字化资源。网络学术资源数量巨大,种类繁多,学科覆盖面广,并且具有一定的学术价值,是传统学术资源,例如学术期刊的重要补充。
但和学术期刊等传统的学术资源不同,互联网学术资源的发表过程缺少严格的专家评审过程,直接揭示其重要性的字段乏善可陈,例如,一般没有参考文献信息,也一般缺少作者机构等字段。迄今没有一套评价互联网学术资源的重要性的方案。
另一方面学术资源的重要性又是一个读者非常关注的重要属性。一般而言,读者总是倾向于优先阅读重要性较高的文献。传统的学术期刊类的资源,可以用各种基于文献引用关系计算出的引用因子计算出影响因子来衡量其重要性。这种计算方法得到了作者和读者的广泛认可。如前所述,这种方法,对网络学术资源并不适用。
本发明提出了基于支持向量机的排序算法自动评价网络学术资源重要性的新方法。每个网络学术资源表示为一个特征向量;特征向量包括静态特征和动态特征两类:静态特征是网络学术资源初次下载时可获得的特征,如资源类型,发布该资源的站点等;动态特征是网络学术资源在使用过程中积累的特征,如下载量,点击次数,用户反馈评级等。该方法包括训练和应用两个阶段:训练阶段由专家对一组样本的任意两个标注其相对重要性,然后依据标记样本学习出支持向量机排序模型;在应用阶段,对任意的网络学术资源,训练好的支持向量机排序模型可输出一个实数表示其重要性。周期性的由专家重新标记样本,并更新基于支持向量机排序模型。网络学术资源的重要性可被用来调整检索结果的排序,使把相关性类似但重要性较高的结果排在前面,这样大大提高读者利用网络学术文献资源的效率。
发明内容
本发明揭示了一种基于支持向量机排序模型来评价网络学术资源重要性的方法,属于信息管理的技术范畴。本发明的具体内容如下:
(1)用特征向量表示网络学术文献资源
特征向量包括静态特征和动态特征两类。静态特征是网络学术资源初次下载时可获得的特征:文献类型、文件格式、发布该资源的页面的PageRank值、是否图文、文字字数、作者机构、等等。
动态特征是网络学术资源在使用过程中积累的特征:下载量、点击次数、用户反馈评级、等等。
这样每个网络学术文献资源可表示为列向量d=(f1,f2,...,fi,...,fn)T,其中fi为特征i的值。
(2)随机选择一批网络学术文献,由专家标记其相对重要性
用S={d1,d2,...,di,...,dm}表示随机选出的样本,现在由专家制定样本间的相对重要性,也就是对两个样本di,dj,如果前者比后者重要,则标记di>dj,如果后者比前者重要,则标记dj>di。如果专家对两个样本的相对重要性认识有分歧,则按多胜少的投票原则,决定最终的标记。
(3)训练支持向量机排序模型
确定线性函数F(d)=w·d,中的w,并且如果di>dj,那么w·di>w·dj。转化为如下的优化问题:
满足: w·di≥w·dj+1-ξij,ξij≥0
根据专家标记的训练样本,并用标准的SVM相关的训练工具(如SVM-light),可确定w。
(4)计算网络学术资源的重要性
(5)周期性更新网络学术资源的权重
网络学术资源在使用过程中,其动态特征,例如下载次数、浏览次数,会发生变化。这样每隔一段时间,例如半年,就重复上面1~4步骤,更新网络学术资源的权重。
(6)用网络学术资源重要性调整检索结果
如下修改检索结果相关度:R′(d,Q)=I(d)·R(d,Q),Q表示查询,d表示网络学术资源,R′,R分别是网络学术资源d相对于查询Q修改后和修改前的相关度,I(d)大于0的,并且是网络学术资源d重要性的单调非递减函数。
本方案的优点
本发明揭示了一种基于支持向量机排序模型来评价网络学术资源重要性的方法,能改善检索结果的排序,并提高用户利用网络学术资源的效率。
1、把每个网络学术资源表示为一个特征向量。表示时,综合考虑网络学术资源本身的特征以及在使用过程中积累起来的动态特征。
2、随机挑选一批网络学术资源,由专家指定其相对重要性;并用投票机制解决样本标记的分歧。
3、根据专家标记的样本训练基于支持向量机排序模型,该模型将对每个网络学术资源特征向量,输出实数值表示其重要性。这是一个全自动的过程,没有人工干预;
4、周期性的由专家重新标记样本,并相应更新基于支持向量机排序模型。这样能充分利用用户在使用网络学术资源中贡献的反馈信息;
5、把网络学术资源重要性和检索结果相关度的计算结合起来,把把相关性类似但重要性较高的结果排在前面。
具体实施方案
第一步,由专业编辑用人工方法提取网络学术资源的静态特征。
第二步,对每个网络学术资源,完善其动态特征。动态特征提取主要来自检索系统的日志信息。
第三步,按专题选择训练样本,由专家标记其相对重要性。
第四步,对每个专题,根据训练样本学习出支持向量机的排序模型。
第五步,对每个专题,依据学习出来的支持向量机排序模型计算每个网络学术资源的重要性。
第六步,周期性的重复二~五步。
附图说明
附图是一种评价网络学术资源重要性的新方法的原理图。详见《说明书附图》。
Claims (6)
1.一种评价网络学术资源重要性的新方法,该方案具有如下特点:
(1)每个网络学术资源表示为一个特征向量;特征向量包括静态特征和动态特征两类:静态特征是网络学术资源初次下载时可获得的特征,如资源类型,发布该资源的站点等;动态特征是网络学术资源在使用过程中积累的特征,如下载量,点击次数,用户反馈评级等;
(2)随机挑选一批网络学术资源,由专家指定其相对重要性;并用投票机制解决样本标记的分歧;
(3)根据专家标记的样本训练基于支持向量机排序模型,该模型将对每个网络学术资源特征向量,输出实数值表示其重要性;
(4)周期性的由专家重新标记样本,并更新基于支持向量机排序模型;
(5)网络资源重要性作为检索结果排序的依据,使把相关性类似但重要性较高的结果排在前面在其他在检索结果相关度。
2.如权利要求1中的评价网络学术资源重要性的新方法的特点所述,该方法用动态特征和静态特征来描述网络学术资源。
3.如权利要求1中的评价网络学术资源重要性的新方法的特点所述,该方法用随机挑选一批网络学术资源,由专家指定其相对重要性,并用投票机制解决样本标记的分歧。
4.如权利要求1中的评价网络学术资源重要性的新方法的特点所述,该方法根据专家标记的样本训练基于支持向量机排序模型,该模型将对每个网络学术资源特征向量,输出实数值表示其重要性。
5.如权利要求1中的评价网络学术资源重要性的新方法的特点所述,该方法周期性的由专家重新标记样本,并更新基于支持向量机排序模型。
6.如权利要求1中的评价网络学术资源重要性的新方法的特点所述,该方法计算出的网络资源重要性可作为检索结果排序的依据,使把相关性类似但重要性较高的结果排在前面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009103000939A CN101604341A (zh) | 2009-01-07 | 2009-01-07 | 一种评价网络学术资源重要性的新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009103000939A CN101604341A (zh) | 2009-01-07 | 2009-01-07 | 一种评价网络学术资源重要性的新方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101604341A true CN101604341A (zh) | 2009-12-16 |
Family
ID=41470070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2009103000939A Pending CN101604341A (zh) | 2009-01-07 | 2009-01-07 | 一种评价网络学术资源重要性的新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101604341A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077306A (zh) * | 2013-03-28 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及系统 |
US9477670B2 (en) | 2012-04-02 | 2016-10-25 | Hewlett Packard Enterprise Development Lp | Information management policy based on relative importance of a file |
CN107015973A (zh) * | 2016-01-27 | 2017-08-04 | 腾讯科技(深圳)有限公司 | 一种应用排序方法、装置及服务器 |
CN109508872A (zh) * | 2018-10-29 | 2019-03-22 | 四川文轩教育科技有限公司 | 一种基于大数据的地区教学资源评测方法 |
-
2009
- 2009-01-07 CN CNA2009103000939A patent/CN101604341A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9477670B2 (en) | 2012-04-02 | 2016-10-25 | Hewlett Packard Enterprise Development Lp | Information management policy based on relative importance of a file |
CN104077306A (zh) * | 2013-03-28 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及系统 |
CN104077306B (zh) * | 2013-03-28 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及系统 |
CN107015973A (zh) * | 2016-01-27 | 2017-08-04 | 腾讯科技(深圳)有限公司 | 一种应用排序方法、装置及服务器 |
CN107015973B (zh) * | 2016-01-27 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种应用排序方法、装置及服务器 |
CN109508872A (zh) * | 2018-10-29 | 2019-03-22 | 四川文轩教育科技有限公司 | 一种基于大数据的地区教学资源评测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101556553B (zh) | 基于需求变更的缺陷预测方法和系统 | |
CN106875014B (zh) | 基于半监督学习的软件工程知识库的自动化构建实现方法 | |
CN102253937B (zh) | 获取网页中的感兴趣信息的方法及相关装置 | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN103853834B (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
CN104657496A (zh) | 一种计算信息热度值的方法和设备 | |
CN102902806A (zh) | 一种利用搜索引擎进行查询扩展的方法及系统 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
CN104636456A (zh) | 一种基于词向量的问题路由方法 | |
CN103823857B (zh) | 基于自然语言处理的空间信息检索方法 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN104361102A (zh) | 一种基于群组匹配的专家推荐方法及系统 | |
CN102279844A (zh) | 汉语作文自动测试方法及系统 | |
CN103577581A (zh) | 农产品价格趋势预测方法 | |
CN103870001A (zh) | 一种生成输入法候选项的方法及电子装置 | |
CN103970666A (zh) | 一种软件重复缺陷报告检测的方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
Li et al. | Knowledge transfer and adaptation for land-use simulation with a logistic cellular automaton | |
CN103761266A (zh) | 基于多级逻辑回归的点击率预测方法和系统 | |
CN107423264A (zh) | 一种工程材料专业特征提取方法 | |
CN103473217A (zh) | 从文本中抽取关键词的方法和装置 | |
CN102567392A (zh) | 一种基于时间窗口兴趣主题挖掘的控制方法 | |
CN116910335A (zh) | 一种基于网页标签分析的数据采集方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20091216 |