CN103049575B - 一种主题自适应的学术会议搜索系统 - Google Patents
一种主题自适应的学术会议搜索系统 Download PDFInfo
- Publication number
- CN103049575B CN103049575B CN201310003000.2A CN201310003000A CN103049575B CN 103049575 B CN103049575 B CN 103049575B CN 201310003000 A CN201310003000 A CN 201310003000A CN 103049575 B CN103049575 B CN 103049575B
- Authority
- CN
- China
- Prior art keywords
- submodule
- academic conference
- information
- periodical
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000005065 mining Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 10
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 8
- 101100243022 Mus musculus Pcnt gene Proteins 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块以及数据处理模块,数据采集模块包括网络爬虫子模块和数据存储子模块,主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块,数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块,网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页,数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地,网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中。本发明可根据关键词进行主题自适应的相关性判定过程,并具有很强的专业性、高精确性和权威性。
Description
技术领域
本发明属于信息检索、信息抽取、文本挖掘领域,更具体地,涉及一种主题自适应的学术会议搜索系统。
背景技术
随着学术交流的举办愈加频繁,全球学术会议及学术期刊的数量逐年激增。对于科研工作者而言,如何方便快捷地从众多的学术会议和学术期刊中找到与自己的研究领域相吻合的会议或期刊,进而查阅相关的文献用以参考;又或者如何从海量的学术会议及学术期刊中选择适合自己论文投稿的会议或期刊,以增加录用的概率,已然成为科研工作者十分关心的问题。
现有的科技文献检索引擎基本上采用的都是基于关键字的全文检索方式来响应用户的查询请求,而且其主要检索对象大部分都是定位在科技文献上,对于学术会议的检索支持很少甚至没有。例如,Google Scholar、ACM数据库、IEEE数字图书馆、中国知识资源总库CNKI,大多没有专门针对学术会议提供检索服务,更没有对学术会议的主题信息进行深度挖掘。此外,通过对科研工作者的论文进行文本挖掘进而达到主题发现的目的,以实现主题自适应的投稿推荐服务在现有的科技文献平台中还鲜有见过。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种主题自适应的学术会议搜索系统,该系统可以为用户提供主题自适应的学术会议检索服务以及主题自适应的个性化投稿推荐服务,以解决现有科技文献检索引擎存在的弊端,如检索不灵活,只能按关键字匹配等,在主题自适应的学术会议检索服务中,用户可以通过研究领域主题关键字来检索到相关的学术会议,与传统的科技文献检索引擎相比,该系统可以根据关键词进行主题自适应的相关性判定过程,并且具有更强的专业性、更高的精确性和权威性。
为实现上述目的,本发明提供了一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块、数据处理模块以及用户接口模块,用户接口模块包括学术会议搜索接口子模块以及个性化投稿推荐接口子模块,数据采集模块包括网络爬虫子模块和数据存储子模块,主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块,数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块,网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页,数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地,网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中,个性化投稿推荐接口子模块用于接收用户上传的论文文档,并将其传递给文本抽取子模块,文本抽取子模块用于解析来自个性化投稿推荐接口子模块的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块,文本挖掘子模块用于对文本抽取子模块获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块,数据库子模块用于将网页信息抽取子模块抽取到的学术会议和/或期刊信息存储到数据库中,索引子模块用于利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索引,学术会议评价子模块用于计算学术会议和/或期刊的等级值,学术会议搜索接口子模块用于接收用户输入的搜索关键词,并将其传递给检索子模块,检索子模块用于从学术会议搜索接口子模块接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块,检索子模块还用于接收来自文本挖掘子模块的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块,学术会议搜索接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅,个性化投稿推荐接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅。
网络爬虫子模块利用HttpClient开源Jar包实现对信息源的统一资源标识符进行特征分析,以判断该信息源中是否包括学术会议和/或期刊信息。
网页信息抽取子模块利用HtmlParser开源Jar包实现信息的抽取,信息具体包括标题、举办时间、举办地点、投稿日期、会议主题。
网页信息抽取子模块首先构建节点过滤器对包含学术会议和/或期刊信息的网页进行解析,得到节点队列,并进一步通过解析器解析出属性节点,再通过正则表达式或条件随机场的方法解析出属性值,最后将属性值分类并存储在文件中。
文本挖掘子模块是通过机器学习、文本聚类等方法实现文本挖掘,具体为:对文本抽取子模块获取的文本信息进行文本预处理,包括特征提取、特征选择,然后进行文本抽取,抽取的信息包括术语、主题词、关键词等,最后通过聚类分析和主题聚类发现主题信息。
数据库子模块采用JDBC、ODBC、ADO、OLE DB、JDBC-ODBC桥的连接方式将抽取到的学术会议和/或期刊信息存储到数据库中。
数据库包括Access、MySQL、Microsoft SQL Server、DB2、Oracle。
索引子模块创建索引的域,包括索引的时间、学术会议和/或期刊的简称、全称、时间、地点、摘要注册截止日期、等级、主题属性,将相关属性值保存在索引文件中,并对其中的全称域和主题域进行分词索引。
学术会议评价子模块采用以下公式计算学术会议和/或期刊的等级值:
其中,IF(score)表示学术会议和/或期刊的等级值,y表示学术会议和/或期刊所在的年份,py表示该年份的学术会议和/或期刊中收录的文章,cit(py)表示文章py的被引用计数,pcnt(y)表示该年份的学术会议和/或期刊中收录的文章总数,E(δ)为若干年内学术会议和/或期刊的录用率的平均值。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
(1)主题自适应:由于采用了主题发现模块,本系统提供的学术会议检索服务可以通过输入主题关键字来检索到相关的学术会议和/或期刊,并且具有主题自适应的特点,用户不必关心输入的关键词分类信息,系统会自动化的进行主题自适应的过程;而传统的科技文献检索引擎大多采用基于全文检索的关键字查询方式或分类查询方式,而且其主要检索对象为科技文献。
(2)面向学术影响的学术会议科学排序:由于采用了自发明的学术会议评价子模块,其能够为学术会议和/或期刊计算科学的影响因子(等级值),该影响因子在检索结果Top-K中具有很大的影响作用,这使得检索结果具有更高的认同度和更强的影响力,可以为用户提供更有说服力的学术评价参考信息。
(3)主题自适应的个性化投稿推荐的特色服务。本系统提供的主题自适应的个性化投稿推荐服务可以为科研工作者上传的论文推荐相关的学术会议和/或期刊以供投稿参考。由于采用了文本抽取子模块和文本挖掘子模块,本系统可以自动化的发现用户上传的论文文档的主题领域,经过主题自适应的过程,从而提供具有定制特性的推荐服务,实现了自动化管理。
(4)更强的专业性。本系统对学术会议和/或期刊进行了细致规范的划分,为每一个学术会议和/或期刊记录添加了专业领域主题,具有更细化、更全面的优点。
(5)更高的准确率。本系统的主题自适应特性使得本系统的检索结果具有更高的召回率和准确率,可以更好的满足用户的检索请求,具有更好的检索性能。
(6)更强的权威性。由于本系统的学术会议评价子模型采用了面向学术影响的评价指标作为计算因子,这使得计算结果具有客观性、真实性,并且经过大量的数据测试,评价模型已具有成熟稳定的特性,因而使得检索结果具有更好的说服力和更大的影响力。
附图说明
图1为本发明主题自适应的学术会议搜索系统的示意框图。
图2为本发明的网页信息抽取子模块的处理流程图。
图3为本发明的文本挖掘子模块的处理流程图。
图4为本发明主题自适应的学术会议搜索系统的原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明主题自适应的学术会议搜索系统包括数据采集模块1、主题发现模块2、数据处理模块3以及用户接口模块4。
用户接口模块4包括学术会议搜索接口子模块41以及个性化投稿推荐接口子模块42。
数据采集模块1包括网络爬虫子模块11和数据存储子模块12。
网络爬虫子模块11用于从公开免费的信息源(诸如WikiCFP、DBLP、CiterSeerx等网站)爬取包含学术会议和/或期刊信息的网页。具体而言,在爬取过程中,利用HttpClient开源Jar包实现对信息源的统一资源标识符(Uniform Resource Identifier,简称URI)进行特征分析,以判断该信息源中是否包括学术会议和/或期刊信息。
数据存储子模块12用于将网络爬虫子模块11爬取的网页以文件的形式存储在本地。具体而言,是以HTML文件的形式存储网页。
主题发现模块2包括网页信息抽取子模块21、文本抽取子模块22以及文本挖掘子模块23。
如图2所示,网页信息抽取子模块21用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中。具体而言,利用HtmlParser开源Jar包实现信息的抽取,信息具体包括标题、举办时间、举办地点、投稿日期、会议主题等。首先,构建节点过滤器对包含学术会议和/或期刊信息的网页进行解析,得到节点队列,并进一步通过解析器解析出属性节点,再通过正则表达式或条件随机场的方法解析出属性值,最后将属性值分类(例如简称、时间、主题等)并存储在文件中。
个性化投稿推荐接口子模块42用于接收用户上传的论文文档,并将其传递给文本抽取子模块22。
文本抽取子模块22用于解析来自个性化投稿推荐接口子模块42的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块23。具体而言,利用于PDFBOX等工具实现论文文档的解析和获取,论文文档的格式是.pdf、.doc等。
如图3所示,文本挖掘子模块23用于对文本抽取子模块22获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块34。具体而言,是通过机器学习、文本聚类等方法实现文本挖掘。首先,通过对文本抽取子模块22获取的文本信息进行文本预处理,包括特征提取、特征选择;然后进行文本抽取,抽取的信息包括术语、主题词、关键词等;最后通过聚类分析(例如,划分聚类、层次聚类)和主题聚类发现主题信息。
数据处理模块3包括数据库子模块31、索引子模块32、学术会议评价子模块33以及检索子模块34。
数据库子模块31用于将网页信息抽取子模块21抽取到的学术会议和/或期刊信息存储到数据库中。具体而言,其采用Java数据库连接(Java DataBase Connectivity,简称JDBC)、开放数据库互连(Open DatabaseConnectivity,简称ODBC)、ActiveX数据对象(ActiveX Data Objects,简称ADO)、对象链接嵌入数据库(Object Linking and Embedding,Database,简称OLE DB)、JDBC-ODBC桥等的连接方式将抽取到的学术会议和/或期刊信息存储到数据库中,数据库包括有Access、MySQL、Microsoft SQLServer、DB2、Oracle等。
索引子模块32用于利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索引。具体而言,创建索引的域,包括索引的时间、学术会议和/或期刊的简称、全称、时间、地点、摘要注册截止日期(Abstract Registration Due)、等级(Rank)、主题等属性,将相关属性值保存在索引文件中,并对其中的全称域和主题域进行分词索引,在本实施方式中,是利用Lucene开源全文检索引擎工具包中的Analyzer、IndexWriter、Field、Document等类来实现以上功能。
学术会议评价子模块33用于采用以下公式计算学术会议和/或期刊的等级值:
其中,IF(score)表示学术会议和/或期刊的影响因子(即等级值),y表示学术会议和/或期刊所在的年份,py表示该年份的学术会议和/或期刊中收录的文章,cit(py)表示文章py的被引用计数,pcnt(y)表示该年份的学术会议和/或期刊中收录的文章总数,E(δ)为若干年内学术会议和/或期刊的录用率的平均值,在本实施方式中,取最近3年内学术会议和/或期刊的录用率计算求得平均值E(δ)。
学术会议搜索接口子模块41用于接收用户输入的搜索关键词,并将其传递给检索子模块34。
检索子模块34用于从学术会议搜索接口子模块41接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块32构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块33计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块41。具体而言,对搜索关键词进行解析的过程包括分词处理、查询语法解析等;在本实施方式中,是利用Lucene开源全文检索引擎工具包中的IndexSearcher、Hits、Sort、Query等类来实现上述功能。
检索子模块34还用于接收来自文本挖掘子模块23的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块32构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块33计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块42。
学术会议搜索接口子模块41还用于将来自于检索子模块34的排序结果以可视化的形式呈现在Web页面上,供用户查阅。具体而言,学术会议搜索接口子模块41是采用JSP、JavaScript等方式实现上述功能。
个性化投稿推荐接口子模块42还用于将来自于检索子模块34的排序结果以可视化的形式呈现在Web页面上,供用户查阅。具体而言,个性化投稿推荐接口子模块42是采用JSP、JavaScript等方式实现上述功能。
如图4所示,本发明的工作原理如下:在主题自适应的学术会议搜索服务中,用户首先输入关键字,系统对关键字进行分词处理、查询语法分析等操作后,再在已构建的索引文件中查询与关键字相关的记录,进而从数据库中取出相关数据,在通过相关性计算后将结果返回给用户,在主题自适应的个性化投稿推荐服务中,用户首先上传论文文件,然后系统对用户上传的论文进行文本抽取、主题发现的操作,再根据自动发现的主题关键词检索索引文件,完成检索匹配的过程,之后通过Rank计算后将最终结果返回给用户。具体而言,网络爬虫子模块11从公开免费的信息源(诸如WikiCFP、DBLP、CiterSeerx等网站)爬取包含学术会议和/或期刊信息的网页,数据存储子模块12将网络爬虫子模块11爬取的网页以文件的形式存储在本地,网页信息抽取子模块21从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中,个性化投稿推荐接口子模块42接收用户上传的论文文档,并将其传递给文本抽取子模块22,文本抽取子模块22解析来自个性化投稿推荐接口子模块42的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块23,文本挖掘子模块23对文本抽取子模块22获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块34,数据库子模块31将网页信息抽取子模块21抽取到的学术会议和/或期刊信息存储到数据库中,索引子模块32利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索引,学术会议评价子模块33计算学术会议和/或期刊的等级值,学术会议搜索接口子模块41接收用户输入的搜索关键词,并将其传递给检索子模块34,检索子模块34从学术会议搜索接口子模块41接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块32构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块33计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块41,检索子模块34还接收来自文本挖掘子模块23的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块32构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块33计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块42,学术会议搜索接口子模块41还将来自于检索子模块34的排序结果以可视化的形式呈现在Web页面上,供用户查阅,个性化投稿推荐接口子模块42还将来自于检索子模块34的排序结果以可视化的形式呈现在Web页面上,供用户查阅。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种主题自适应的学术会议搜索系统,包括数据采集模块、主题发现模块、数据处理模块以及用户接口模块,其特征在于,
用户接口模块包括学术会议搜索接口子模块以及个性化投稿推荐接口子模块;
数据采集模块包括网络爬虫子模块和数据存储子模块;
主题发现模块包括网页信息抽取子模块、文本抽取子模块以及文本挖掘子模块;
数据处理模块包括数据库子模块、索引子模块、学术会议评价子模块以及检索子模块;
网络爬虫子模块用于从公开免费的信息源爬取包含学术会议和/或期刊信息的网页;
数据存储子模块用于将网络爬虫子模块爬取的网页以文件的形式存储在本地;
网页信息抽取子模块用于从爬取的网页中抽取出学术会议和/或期刊的信息并存储在文件中;
个性化投稿推荐接口子模块用于接收用户上传的论文文档,并将其传递给文本抽取子模块;
文本抽取子模块用于解析来自个性化投稿推荐接口子模块的论文文档,以获取文档内容的文本信息,并将文本信息传递给文本挖掘子模块;
文本挖掘子模块用于对文本抽取子模块获取的文本信息进行文本挖掘,以获取主题信息,并将主题信息传给检索子模块;
数据库子模块用于将网页信息抽取子模块抽取到的学术会议和/或期刊信息存储到数据库中;
索引子模块用于利用开源全文检索引擎工具包为存储在数据库中的学术会议和/或期刊信息构建索引;
学术会议评价子模块用于计算学术会议和/或期刊的等级值;
学术会议搜索接口子模块用于接收用户输入的搜索关键词,并将其传递给检索子模块;
检索子模块用于从学术会议搜索接口子模块接收搜索关键词,利用开源全文检索引擎工具包对该搜索关键词进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给学术会议搜索接口子模块;
检索子模块还用于接收来自文本挖掘子模块的主题信息,利用开源全文检索引擎工具包对该主题信息进行解析,根据解析结果在索引子模块构建的索引中进行检索以获取对应的学术会议和/或期刊信息作为检索结果,根据学术会议评价子模块计算的等级值对检索结果进行排序,并将排序结果传送给个性化投稿推荐接口子模块;
学术会议搜索接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅;
个性化投稿推荐接口子模块还用于将来自于检索子模块的排序结果以可视化的形式呈现在Web页面上,供用户查阅。
2.根据权利要求1所述的学术会议检索系统,其特征在于,网络爬虫子模块利用HttpClient开源Jar包实现对信息源的统一资源标识符进行特征分析,以判断该信息源中是否包括学术会议和/或期刊信息。
3.根据权利要求1所述的学术会议检索系统,其特征在于,网页信息抽取子模块利用HtmlParser开源Jar包实现信息的抽取,信息具体包括标题、举办时间、举办地点、投稿日期、会议主题。
4.根据权利要求3所述的学术会议检索系统,其特征在于,网页信息抽取子模块首先构建节点过滤器对包含学术会议和/或期刊信息的网页进行解析,得到节点队列,并进一步通过解析器解析出属性节点,再通过正则表达式或条件随机场的方法解析出属性值,最后将属性值分类并存储在文件中。
5.根据权利要求1所述的学术会议检索系统,其特征在于,文本挖掘子模块是通过机器学习、文本聚类等方法实现文本挖掘,具体为:对文本抽取子模块获取的文本信息进行文本预处理,包括特征提取、特征选择,然后进行文本抽取,抽取的信息包括术语、主题词、关键词等,最后通过聚类分析和主题聚类发现主题信息。
6.根据权利要求1所述的学术会议检索系统,其特征在于,数据库子模块采用JDBC、ODBC、ADO、OLE DB、JDBC-ODBC桥的连接方式将抽取到的学术会议和/或期刊信息存储到数据库中;
数据库包括Access、MySQL、Microsoft SQL Server、DB2、Oracle。
7.根据权利要求1所述的学术会议检索系统,其特征在于,索引子模块创建索引的域,包括索引的时间、学术会议和/或期刊的简称、全称、时间、地点、摘要注册截止日期、等级、主题属性,将相关属性值保存在索引文件中,并对其中的全称域和主题域进行分词索引。
8.根据权利要求1所述的学术会议检索系统,其特征在于,学术会议评价子模块采用以下公式计算学术会议和/或期刊的等级值:
其中,IF(score)表示学术会议和/或期刊的等级值,y表示学术会议和/或期刊所在的年份,py表示该年份的学术会议和/或期刊中收录的文章,cit(py)表示文章py的被引用计数,pcnt(y)表示该年份的学术会议和/或期刊中收录的文章总数,E(δ)为若干年内学术会议和/或期刊的录用率的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310003000.2A CN103049575B (zh) | 2013-01-05 | 2013-01-05 | 一种主题自适应的学术会议搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310003000.2A CN103049575B (zh) | 2013-01-05 | 2013-01-05 | 一种主题自适应的学术会议搜索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103049575A CN103049575A (zh) | 2013-04-17 |
CN103049575B true CN103049575B (zh) | 2015-08-19 |
Family
ID=48062215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310003000.2A Expired - Fee Related CN103049575B (zh) | 2013-01-05 | 2013-01-05 | 一种主题自适应的学术会议搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103049575B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336793B (zh) * | 2013-06-09 | 2015-08-12 | 中国科学院计算技术研究所 | 一种个性化论文推荐方法及其系统 |
CN103425799B (zh) * | 2013-09-04 | 2016-06-15 | 北京邮电大学 | 基于主题的个性化研究方向推荐系统和推荐方法 |
CN103440329B (zh) * | 2013-09-04 | 2016-05-18 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN103577579B (zh) * | 2013-11-08 | 2015-01-21 | 南方电网科学研究院有限责任公司 | 基于用户潜在需求的资源推荐方法及系统 |
CN104951430B (zh) * | 2014-03-27 | 2019-03-12 | 上海携程商务有限公司 | 产品特征标签的提取方法及装置 |
CN105843808A (zh) * | 2015-01-13 | 2016-08-10 | 丰小月 | 基于锚标签和时间标记的计算机会议实时信息抽取方法 |
CN104657505B (zh) * | 2015-03-13 | 2017-10-10 | 华北电力大学 | 一种基于云平台和移动终端的论文自动查收查引方法 |
CN106372093A (zh) * | 2015-07-24 | 2017-02-01 | 同方知网(北京)技术有限公司 | 一种学术指数体系及其发布方法 |
CN105069101A (zh) * | 2015-08-07 | 2015-11-18 | 桂林电子科技大学 | 分布式索引构建及检索方法 |
CN106776805A (zh) * | 2016-11-22 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的期刊信息获取方法及装置 |
CN107122495A (zh) * | 2017-05-24 | 2017-09-01 | 苏州唯亚信息科技股份有限公司 | 适用于专利公开科技数据库的信息抓取方法 |
CN108416034B (zh) * | 2018-03-12 | 2021-11-16 | 宿州学院 | 基于金融异构大数据的信息采集系统及其控制方法 |
CN110288112A (zh) * | 2018-03-19 | 2019-09-27 | 朱将中 | 一种面向范围广的智能投顾的判断方法 |
CN108389133A (zh) * | 2018-03-19 | 2018-08-10 | 朱将中 | 一种智能化辅助投顾的决策方法 |
CN109213908A (zh) * | 2018-08-01 | 2019-01-15 | 浙江工业大学 | 一种基于数据挖掘的学术会议论文推送系统 |
CN109933717B (zh) * | 2019-01-17 | 2021-05-14 | 华南理工大学 | 一种基于混合推荐算法的学术会议推荐系统 |
CN110704713B (zh) * | 2019-09-26 | 2022-02-08 | 国家计算机网络与信息安全管理中心 | 一种基于多数据源的论文数据爬取方法及系统 |
CN111061863B (zh) * | 2019-12-16 | 2023-09-15 | 新方正控股发展有限责任公司 | 期刊目录展示方法、装置及设备 |
CN113524202B (zh) * | 2021-09-10 | 2021-12-21 | 湖南三湘银行股份有限公司 | 一种基于rpa机器人的智能整合系统 |
CN113934911B (zh) * | 2021-10-20 | 2023-03-03 | 国网江苏省电力有限公司镇江供电分公司 | 一种文件爬取与搜索方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012911A (zh) * | 2010-11-19 | 2011-04-13 | 清华大学 | 基于约束优化的专家匹配方法及系统 |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
-
2013
- 2013-01-05 CN CN201310003000.2A patent/CN103049575B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012911A (zh) * | 2010-11-19 | 2011-04-13 | 清华大学 | 基于约束优化的专家匹配方法及系统 |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103049575A (zh) | 2013-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049575B (zh) | 一种主题自适应的学术会议搜索系统 | |
Cafarella et al. | Structured data on the web | |
CN105488196B (zh) | 一种基于互联语料的热门话题自动挖掘系统 | |
US9940365B2 (en) | Ranking tables for keyword search | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
US20170212899A1 (en) | Method for searching related entities through entity co-occurrence | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN102087669A (zh) | 基于语义关联的智能搜索引擎系统 | |
CN105045852A (zh) | 一种教学资源的全文搜索引擎系统 | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
CN103838732A (zh) | 一种生活服务领域垂直搜索引擎 | |
CN101515287A (zh) | 一种用于复杂页面的包装器自动生成方法 | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Li | [Retracted] Internet Tourism Resource Retrieval Using PageRank Search Ranking Algorithm | |
Deng et al. | Information re-finding by context: A brain memory inspired approach | |
Patil et al. | A spatial web crawler for discovering geo-servers and semantic referencing with spatial features | |
KR101880474B1 (ko) | 고부가 가치화 콘텐츠 정보서비스를 위한 키워드 기반 서비스 제공 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램 | |
CN104281693A (zh) | 一种语义搜索方法及系统 | |
Tabarcea et al. | Framework for location-aware search engine | |
Chen et al. | HIB-tree: An efficient index method for the big data analytics of large-scale human activity trajectories | |
Subroto et al. | The architecture of indonesian publication index: A major indonesian academic database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150819 |
|
CF01 | Termination of patent right due to non-payment of annual fee |