CN103064837A - 学术领域内领军人物检索与可视化导航系统 - Google Patents
学术领域内领军人物检索与可视化导航系统 Download PDFInfo
- Publication number
- CN103064837A CN103064837A CN201110319218XA CN201110319218A CN103064837A CN 103064837 A CN103064837 A CN 103064837A CN 201110319218X A CN201110319218X A CN 201110319218XA CN 201110319218 A CN201110319218 A CN 201110319218A CN 103064837 A CN103064837 A CN 103064837A
- Authority
- CN
- China
- Prior art keywords
- author
- retrieval
- name
- user
- paper
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于社会数据分析与可视化领域,涉及社会网络分析、信息可视化、信息检索与过滤排序技术,公开一种支持多模式检索的领域内领军人物发现与可视化导航系统,它包括:(1)数据采集与处理,主要涉及采集阶段的作者关联验证,以及数据内在关联的分析与提取;(2)多模式检索:①基于作者姓名的检索,应对用户对某作者的姓名有一定的印象,但记得不太清楚的场景;②基于领域的检索,领域按照国际自然科学基金委的学科划分体系进行划分,可检出影响力高的作者;③基于内容检索,根据搜索内容检出相关论文及其作者,目的是为学习者的知识需求相关的作者集合。(3)采用合适的可视化布局算法对搜索结果及其之间的关联进行可视化呈现。
Description
技术领域
本发明属于计算机应用领域,涉及文献检索、社会网络分析、信息可视化技术,特别涉及一种以论文作者为主体的学术检索与导航可视化方法。
背景技术
本发明旨在为学习者检索兴趣相似又有较高影响力的领军人物,并对检索结果进行可视化呈现与导航,提高学习者认知效率,更快的把握学术前沿。在作者合作关系分析与可视化方面,美国北卡罗来纳州立大学进行了部分探索和研究,采用Pajek可视化工具对公开的IEEE数据集片段进行了可视化分析,观察作者合作关系的社区特性,但该研究并非面向真实应用,也不具备检索、导航等功能;澳门大学对Wikipedia中的作者合作关系进行了研究,其目的是通过发现内容间的关系,进行页面推荐;此外相关研究还有Liveplasma推出的可视化音乐与电影搜索,对演员间的合作关系来进行可视化检索。
发明内容
本发明的目的在于提出一种真对作者的多模式检索与可视化导航系统,提供领域内领军人物发现、兴趣相似者检索、作者合作关系可视化导航等功能。总体架构如图1所示,整体工作流程为:首先,基于学术主页定制模版为用户创建个人学术主页;其次,统计与分析用户之间的相似度、作者之间的合作关系与合作次数等,同时采用全文索引技术对论文建立索引。第三,基于用户姓名、研究领域、研究内容进行检索;最后,通过图形布局技术对检索出的作者及内在合作关系进行可视化呈现。
本发明的贡献在于:①建立学术主页生成与服务平台,为用户提供基本的学术主页构建与发布服务;②提供领军人物发现功能,为学习者推送本领域内最具影响力的研究者,更快的把握学术前沿。③支持作者姓名、论文内容、研究领域等多模式检索;④支持作者合作关系可视化与导航功能,提供基于合作关系进行学术搜索服务。
附图说明
附图1系统总体架构图。
附图2是用户注册与姓名对接过程图。
附图3是论文信息录入及作者对接过程图。
附图4是基于姓名的检索效果图
附图5是基于论文内容的检索效果图
附图6是基于领域的检索效果图
下面结合附图对本发明的内容作进一步详细说明。
具体实施方案
1.用户注册与姓名对接
参照图2,用户注册时,采用“用户互动参与”的方式解决用户“被带入”以及同名问题,其思路为:检索出同名作者及其论文,以论文作为区别同名者的依据,让注册者从中辨认和选择。具体步骤如下:
步骤1:根据真实姓名r按照文献领域使用的姓名简写规则生成其简称si,因存在多种简写方式,故简称用集合表示,记为{s1,s2,...,sm},其中m≥1。
步骤2:以{r}∪{s1,s2,...,sm}为条件查看“真实姓名与简称表”中是否存在该用户,该表的关系模式为:R(UID,RealName,Abbreviations)。
步骤3:如果存在,则从表中取出UID分配给注册用户,对重名现象通过论文进一步甄别。同时将RealName列中的值用当前用户输入的真实姓名r替换,Abbreviations的值用{s1,s2,...,sm}更新;否则,为注册用户生成UID,并将记录(UID,r,{s1,s2,...,sm})插入表中。
2.论文信息录入与作者对接
参照图2,具体步骤为:
步骤1:根据论文作者向姓名映射表中查询,如果作者已经在系统中,则取出作者的UID;否则为输入的作者姓名新建UID。
步骤2:根据刊物的名称从影响因子表中获得该论文的影响因子,插入论文的影响因子字段。
步骤3:论文名称规范化。按照如下命名规则为实体文件重命名:
第一作者UID. | 合作者人数. | 合作者1的ID. | 合作者2的ID. | ... | 合作者m的ID. | 论文上传日期. | 扩展名 |
此规则目的在于可根据文件名快速得到论文的第一作者及其他全部合作者,从而实现从论文到作者的搜索结果转换。
3.多模式检索
参照附图1,系统支持三种检索模式:
(1)基于姓名的检索
步骤1:输入姓名全部或部分后,根据字符串模糊匹配规则,检索出名称相似的用户ID列表List={u1,u2,...uk}代表前k个最相似的用户,其中k为用户设定的阈值。
步骤2:选择List={u1,u2,...uk}中的某个用户,激活根据用户ID检索和当前用户合作过的作者以及兴趣相似的前t个作者,得到作者集合C={co1,co2,...cok}∪{s1,s2,...,st}.
步骤3:根据C进一步获得C中元素的合作关系R,得到作者合作关系数据集D={C,R}.
(2)基于领域的检索
步骤1:根据用户选择的领域从用户中检出该领域的研究者,如果用户选定的领域层次不是最底层,则将该中间层次下所辖的所有子领域一律检出;
步骤2:根据用户发表论文的数目及论文的影响因子对用户进行排序,排序指标
步骤3:根据屏幕的尺寸,选取前k个用户。得到作者合作关系数据集D={C,R}.
(3)基于内容的检索
步骤1:采用开源Lucene和Pdfbox对多种格式的实体文件进行转换与全文索引;
步骤2:根据用户输入的关键词检出相关的论文集合,获得其路径和文件名;
步骤3:解析文件名命名,获得论文作者集合,按照作者的影响力进行排序后,选取前k个返回,得到作者合作关系数据集D={C,R}.
4.检索结果可视化呈现
每个作者用圆球表示,圆球的直径、颜色、颜色的深浅分别表示作者发表论文的数目、作者所在的兴趣社区以及作者的影响力。而作者之间的合作关系通过连线表示,连线的粗细代表作者之间合作的次数,具体步骤如下:
步骤1:采用随机方式将对进行节点随机布局;
步骤2:构建距离可调的能量函数
该能量函数包含了a、e和λ三个可调参数,该能量函数是FruchtermanReingold、Vertex-Repulsion Linlog、Edge-Repulsion Linlog和WeightedEdge-Repulsion Linlog四种模型的统一表示,可以通过调节参数a和e获得不同的模型,根据实际应用需求进行调整,对应关系如下表所示:
能量模型 | 参数a | 参数e |
Fruchterman Reingold | 3 | 0 |
Vertex-Repulsion Linlog | 1 | 0 |
Edge-Repulsion Linlog | 1 | 1 |
Weighted Edge-Repulsion Linlog | 1 | 1 |
参数λ通常大于1,通过对λ进行调整,使得节点距离考虑节点半径的影响,使节点尚未重叠时,能量便退化为稳定状态,从而停止进一步的收拢。
步骤3:根据屏幕或画布大小等应用需求,按照一定的缩放比例,采用绘画函数进行绘制。
Claims (4)
1.一种领域内领军人物检索与可视化导航系统,其特征在于,首先,研制论文作者关联引擎,负责处理作者信息、论文信息及其作者之间的关联关系的发现与对接;其次,根据用户不同需求,实现基于作者姓名、论文内容以及研究领域的多模式检索功能,为学习者提供领域内学术领军人物检索服务;最后,突破传统检索结果呈现方式,对检索结果及其内在关联进行可视化呈现与导航。
2.根据权利要求1所述的一种领域内领军人物检索与可视化导航系统,其特征在于所说的数据采集过程不但是信息的简单录入,而是针对采集过程中存在“姓名带入”、“姓名简写”等问题,研究一种能够实现作者姓名正确对接的机制与方法,在论文信息、作者信息进入系统的同时,也将论文作者间的合作关系正确建立起来。
3.根据权利要求1所述的而向作者的学术检索与导航可视化系统,其特征在于所说的多模式作者检索是:①按姓名检索。适用于用户对某作者的名字有一定印象,但可能没有记全的情景。按照模糊匹配获取备选集合供用户选择,用户选择确认后再调用姓名精确检索模块查找兴趣相似者与合作者。②按领域检索。研究领域按照国家自然科学基金学科方向划分方法进行划分,为学习者检索本领域内与用户兴趣相似又具有影响力的作者。③检索模式三:按照研究内容进行检索。首先对论文建立全文索引;然后根据用户需求检出相关论文;最后对论文作者进行整合,返回最有影响力的作者。
4.根据权利要求1所述的可视化呈现与导航功能,其特征在于:首先,把作者集合V及其合作关系R表示为图G={V,R};其次,明确负责呈现的符号、形状及其意义:用球表示作者,半径表示作者论文数目,颜色代表所属领域、颜色深浅表示影响力,球间连线的粗细表示合作次数。最后,采用合适的可视化布局算法进行呈现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319218XA CN103064837A (zh) | 2011-10-19 | 2011-10-19 | 学术领域内领军人物检索与可视化导航系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319218XA CN103064837A (zh) | 2011-10-19 | 2011-10-19 | 学术领域内领军人物检索与可视化导航系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103064837A true CN103064837A (zh) | 2013-04-24 |
Family
ID=48107467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110319218XA Pending CN103064837A (zh) | 2011-10-19 | 2011-10-19 | 学术领域内领军人物检索与可视化导航系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103064837A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239565A (zh) * | 2014-09-28 | 2014-12-24 | 陆嘉恒 | 一种基于学术搜索的姓名自动提示方法 |
CN104933111A (zh) * | 2015-06-03 | 2015-09-23 | 中南大学 | 一种基于学术关系网络的专家学术距离评估方法 |
CN106934422A (zh) * | 2017-03-16 | 2017-07-07 | 浙江工业大学 | 基于改进力导引图布局的层级视觉抽象方法 |
WO2020048059A1 (zh) * | 2018-09-03 | 2020-03-12 | 平安科技(深圳)有限公司 | 基金数据关联方法、系统、计算机设备和存储介质 |
CN112052411A (zh) * | 2020-08-12 | 2020-12-08 | 南京航空航天大学 | 一种基于爬虫的学术搜索结果可视化方案设计方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075942A (zh) * | 2007-06-22 | 2007-11-21 | 清华大学 | 基于专家值传播算法的社会网络专家信息处理系统及方法 |
US20100076966A1 (en) * | 2008-09-21 | 2010-03-25 | Vitrue, Inc. | Systems and methods for generating social index scores for key term analysis and comparisons |
CN102156706A (zh) * | 2011-01-28 | 2011-08-17 | 清华大学 | 一种指导者推荐系统及方法 |
-
2011
- 2011-10-19 CN CN201110319218XA patent/CN103064837A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075942A (zh) * | 2007-06-22 | 2007-11-21 | 清华大学 | 基于专家值传播算法的社会网络专家信息处理系统及方法 |
US20100076966A1 (en) * | 2008-09-21 | 2010-03-25 | Vitrue, Inc. | Systems and methods for generating social index scores for key term analysis and comparisons |
CN102156706A (zh) * | 2011-01-28 | 2011-08-17 | 清华大学 | 一种指导者推荐系统及方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239565A (zh) * | 2014-09-28 | 2014-12-24 | 陆嘉恒 | 一种基于学术搜索的姓名自动提示方法 |
CN104933111A (zh) * | 2015-06-03 | 2015-09-23 | 中南大学 | 一种基于学术关系网络的专家学术距离评估方法 |
CN104933111B (zh) * | 2015-06-03 | 2018-01-12 | 中南大学 | 一种基于学术关系网络的专家学术距离评估方法 |
CN106934422A (zh) * | 2017-03-16 | 2017-07-07 | 浙江工业大学 | 基于改进力导引图布局的层级视觉抽象方法 |
CN106934422B (zh) * | 2017-03-16 | 2019-07-26 | 浙江工业大学 | 基于改进力导引图布局的层级视觉抽象方法 |
WO2020048059A1 (zh) * | 2018-09-03 | 2020-03-12 | 平安科技(深圳)有限公司 | 基金数据关联方法、系统、计算机设备和存储介质 |
CN112052411A (zh) * | 2020-08-12 | 2020-12-08 | 南京航空航天大学 | 一种基于爬虫的学术搜索结果可视化方案设计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Mapping cultural ecosystem services 2.0–Potential and shortcomings from unlabeled crowd sourced images | |
Qasim | Sustainability and wellbeing: a scientometric and bibliometric review of the literature | |
Morse et al. | Evaluating visualizations: using a taxonomic guide | |
Van Eck et al. | Visualizing bibliometric networks | |
Backstrom et al. | Spatial variation in search engine queries | |
JP3648051B2 (ja) | 関連情報検索装置及びプログラム記録媒体 | |
CN109657068B (zh) | 面向智慧博物馆的文物知识图谱生成与可视化方法 | |
Kumar et al. | Research collaboration networks of two OIC nations: Comparative study between Turkey and Malaysia in the field of ‘Energy Fuels’, 2009–2011 | |
Huang et al. | Tracing the development of mapping knowledge domains | |
JP7228946B2 (ja) | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 | |
TW201108007A (en) | Semantic trading floor | |
CN102456016B (zh) | 一种对搜索结果进行排序的方法及装置 | |
Wang et al. | Preference-based spatial co-location pattern mining | |
CN103064837A (zh) | 学术领域内领军人物检索与可视化导航系统 | |
CN103995903B (zh) | 基于同构子空间映射和优化的跨媒体检索方法 | |
Yin et al. | Detecting latent topics and trends in blended learning using LDA topic modeling | |
Huang et al. | Open access research outputs receive more diverse citations | |
Kurashima et al. | Mining and visualizing local experiences from blog entries | |
Ahlers et al. | Location-based Web search | |
Hu et al. | Identifying the “Ghost City” of domain topics in a keyword semantic space combining citations | |
Wu et al. | Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis | |
Behnisch et al. | Urban data-mining: spatiotemporal exploration of multidimensional data | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN112286921B (zh) | 一种基于多源异构数据的动态企业画像生成方法 | |
KR101264898B1 (ko) | 기술 및 시장 동향 정보를 이용한 유망 사업화 아이템 추출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 710121 Changan District, Shaanxi, Wei Guolu, Applicant after: Xi'an University of Posts & Telecommunications Address before: 710121 Changan District, Shaanxi, Wei Guolu, Applicant before: Xi'an Post & Telecommunication College |
|
COR | Change of bibliographic data | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130424 |