CN110119412A - 一种引文来源数据库辨别方法 - Google Patents

一种引文来源数据库辨别方法 Download PDF

Info

Publication number
CN110119412A
CN110119412A CN201910304533.1A CN201910304533A CN110119412A CN 110119412 A CN110119412 A CN 110119412A CN 201910304533 A CN201910304533 A CN 201910304533A CN 110119412 A CN110119412 A CN 110119412A
Authority
CN
China
Prior art keywords
database
periodical
school
quotation
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910304533.1A
Other languages
English (en)
Other versions
CN110119412B (zh
Inventor
黄镝
张明龙
深璟
刘旭华
胡序斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Insect Software Co Ltd
Original Assignee
Nanjing Insect Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Insect Software Co Ltd filed Critical Nanjing Insect Software Co Ltd
Priority to CN201910304533.1A priority Critical patent/CN110119412B/zh
Publication of CN110119412A publication Critical patent/CN110119412A/zh
Application granted granted Critical
Publication of CN110119412B publication Critical patent/CN110119412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种引文来源数据库辨别方法,包括以下步骤:S1:梳理本校馆藏数据,明确各数据库收录的每一份期刊和收录年份范围;S2:梳理本校所有数据库中每一份期刊的下载使用量数据;S3:根据S1中梳理的本校收录的期刊数据,将同一份期刊在多个数据库收录的不同年份范围提取总结;S4:遍历本校所有引文,根据引文所引用的文章的引用年份和期刊,得到每一份期刊的年份、收录数据库和其引用次数;S5:根据收录数据库和引用次数,结合步骤S2中的使用量数据进行引用量的拆分,得到每个数据库总的引用量。本发明根据每个数据库总的下载量和收录范围,辨别引文来源数据库,方便高校数据库相关统计分析工作。

Description

一种引文来源数据库辨别方法
技术领域
本发明属于引文数据分析技术领域,具体涉及一种引文来源数据库辨别方法。
背景技术
学术论文的发布会在文章末尾注明参考文献,即本申请说明书中所说的引文,一般参考文献来自于某份期刊上的某一篇文章。由于同一份期刊会被多个数据库收录,而高校图书馆通常会购买多个学术期刊数据库供学者使用,具体学者使用的是哪个数据库是随机的,并不能明确知道的。所以高校图书馆在做数据库绩效利用分析时,无法判定引文出自于哪个数据库。
发明内容
本发明的目的是提供一种引文来源数据库辨别方法,根据每个数据库总的下载量和收录范围,辨别引文来源数据库,方便高校数据库相关统计分析工作。
本发明提供了如下的技术方案:
一种引文来源数据库辨别方法,包括以下步骤:
S1:梳理本校馆藏数据,明确各数据库收录的每一份期刊和收录年份范围;
S2:梳理本校所有数据库中每一份期刊的下载使用量数据;
S3:根据S1中梳理的本校收录的期刊数据,将同一份期刊在多个数据库收录的不同年份范围提取总结;
S4:遍历本校所有引文,根据引文所引用的文章的引用年份和期刊,对应步骤S3中提取总结的不同年份范围引用的数据库进行计数,得到每一份期刊的年份、收录数据库和其引用次数;
S5:根据收录数据库和引用次数,结合步骤S2中的使用量数据进行引用量的拆分,得到每个数据库总的引用量。
优选的,所述期刊数据为每一份期刊的名称、ISSN号、收录起始和截止年份。
优选的,所述S2中通过COUNTER报告梳理本校所有数据库的下载量数据。
优选的,所述S3中提取总结的方式为将同一期刊在多个数据库收录的年份范围表示出来,并按数据库重叠年份范围不同记录总结收录数据库。
优选的,所述S4中遍历本校所有引文,根据引文所引用的文章的引用年份和期刊,对应所述年份范围的收录数据库进行计数,得到每一份期刊的年份、收录数据库和其引用次数。
优选的,所述S5中引用量的拆分为:当收录数据库为一个,则当前数据库直接为所有的引用次数;当收录数据库为若干个,则按照步骤S2中梳理的每个数据库每个期刊的下载量比例进行拆分。
本发明的有益效果是:虽然期刊可以被多个数据库进行收录,但是收录的时间范围各不相同,通过引用年份,可以过滤一部分不在收录时间范围内的数据库,为统计工作节约大量时间和工作量;当一份期刊在一个时间范围内有多个数据库收录,本方法根据这份期刊在多个数据库中的使用量进行按比例拆分,最后得到一个相对准确的数值,辨别引文来源数据库,大大方便了高校图书馆在做数据库绩效利用分析时的工作。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明流程示意图;
图2是本发明实施例年份范围提取折线示意图;
图3是本发明实施例年份范围收录数据库总结示意表;
图4是本发明实施例遍历引文总结引用次数示意表。
具体实施方式
如图1所示,一种引文来源数据库辨别方法,包括以下步骤:S1:梳理本校馆藏数据,明确各数据库收录的每一份期刊和收录年份范围;S2:梳理本校所有数据库中每一份期刊的下载使用量数据;S3:根据S1中梳理的本校收录的期刊数据,将同一份期刊在多个数据库收录的不同年份范围提取总结;S4:遍历本校所有引文,根据引文所引用的文章的引用年份和期刊,对应步骤S3中提取总结的不同年份范围引用的数据库进行计数,得到每一份期刊的年份、收录数据库和其引用次数;S5:根据收录数据库和引用次数,结合步骤S2中的使用量数据进行引用量的拆分,得到每个数据库总的引用量。
具体的,以上海交通大学图书馆为实施例,已知本校2018年发文14025篇,共计461318条引文,数据来源于Web of Science,Web of Science是全球获取学术信息的重要数据库,Web of Science包括自然科学、社会科学、艺术与人文领域的信息,来自全世界近9,000种最负盛名的高影响力研究期刊及12,000多种学术会议多学科内容。
如图1所示,一种引文来源数据库辨别方法,包括以下步骤:
S11:梳理本校的馆藏数据即各数据库收录期刊数据,具体的为,ACM数据库收录了96份期刊,需要明确的是每一份期刊的名称、ISSN号(国际标准期刊号)、收录起始和截止年份;
S21:通过COUNTER(Counting Online Usage of Networked ElectronicResources)报告来梳理本校所有数据库的下载量数据,即联网电子资源在线使用情况统计,具体的为,JR1报告,包含了每个数据库中每一份期刊的使用量;
S31:根据S11中梳理的本校收录的期刊数据,将同一份期刊在多个数据库收录的不同年份抽取出来,具体如图2所示,甲期刊同时被3个数据库收录,且起始截止年份各不相同,图2中A数据库的线段表示A数据库收录时间范围是1985-2010年,B数据库的线段表示B数据库收录时间范围是1980-1995年,C数据库的线段表示C数据库收录时间范围是1990年-至今,根据线段的重叠我们可以分析出图中所示,1980-1985年只有B数据库收录,1985-1990年由AB两个数据库收录,以此类推我们得到图3总结的记录数据库信息表;
S41:遍历461318条引文,根据引文所引用的文章的引用年份和期刊,对步骤S31中所列的表(图3所示)进行计数,如甲期刊有一篇1981年的文章被引用了,对1980-1985年B数据库收录这条信息的计数加1;
S42:完成步骤S41后,得到一份期刊、年份、收录数据库和引用次数的计数表格,如图4所示;
S51:遍历步骤S42中的表格(图4所示),根据收录数据库和引用次数,进行引用量的拆分。如果收录数据库只有一个,那当前数据库直接拿到所有的引用次数;如果收录数据库有多个,则根据步骤S21中梳理的每个数据库每个期刊的下载量,按照比例进行拆分,譬如99次引用来自于1985-1990年,这个范围内有A、B两个数据库收录,根据甲期刊在A、B两个数据库中的下载量,A数据库下载量100次,B数据库下载量10次,则根据比例将99次引用量分配给A、B两个;
S52:完成步骤S51后,就可以得到每个数据库总的引用量,至此引用量的拆分结束,高效完成数据库绩效利用分析工作。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种引文来源数据库辨别方法,其特征在于,包括以下步骤:
S1:梳理本校馆藏数据,明确各数据库收录的每一份期刊和收录年份范围;
S2:梳理本校所有数据库中每一份期刊的下载使用量数据;
S3:根据S1中梳理的本校收录的期刊数据,将同一份期刊在多个数据库收录的不同年份范围提取总结;
S4:遍历本校所有引文,根据引文所引用的文章的引用年份和期刊,对应步骤S3中提取总结的不同年份范围引用的数据库进行计数,得到每一份期刊的年份、收录数据库和其引用次数;
S5:根据收录数据库和引用次数,结合步骤S2中的使用量数据进行引用量的拆分,得到每个数据库总的引用量。
2.根据权利要求1所述的一种引文来源数据库辨别方法,其特征在于,所述期刊数据为每一份期刊的名称、ISSN号、收录起始和截止年份。
3.根据权利要求1所述的一种引文来源数据库辨别方法,其特征在于,所述S2中通过COUNTER报告梳理本校所有数据库的下载量数据。
4.根据权利要求1所述的一种引文来源数据库辨别方法,其特征在于,所述S3中提取总结的方式为将同一期刊在多个数据库收录的年份范围表示出来,并按数据库重叠年份范围不同记录总结收录数据库。
5.根据权利要求4所述的一种引文来源数据库辨别方法,其特征在于,所述S4中遍历本校所有引文,根据引文所引用的文章的引用年份和期刊,对应所述年份范围的收录数据库进行计数,得到每一份期刊的年份、收录数据库和其引用次数。
6.根据权利要求1所述的一种引文来源数据库辨别方法,其特征在于,所述S5中引用量的拆分为:当收录数据库为一个,则当前数据库直接为所有的引用次数;当收录数据库为若干个,则按照步骤S2中梳理的每个数据库每个期刊的下载量比例进行拆分。
CN201910304533.1A 2019-04-16 2019-04-16 一种引文来源数据库辨别方法 Active CN110119412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910304533.1A CN110119412B (zh) 2019-04-16 2019-04-16 一种引文来源数据库辨别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304533.1A CN110119412B (zh) 2019-04-16 2019-04-16 一种引文来源数据库辨别方法

Publications (2)

Publication Number Publication Date
CN110119412A true CN110119412A (zh) 2019-08-13
CN110119412B CN110119412B (zh) 2023-01-03

Family

ID=67521131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910304533.1A Active CN110119412B (zh) 2019-04-16 2019-04-16 一种引文来源数据库辨别方法

Country Status (1)

Country Link
CN (1) CN110119412B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112968957A (zh) * 2021-02-19 2021-06-15 南京昆虫软件有限公司 针对图书馆馆藏资源的分析方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404641A (zh) * 2015-10-23 2016-03-16 华建宇通科技(北京)有限责任公司 一种基于baseline的期刊评价方法及评价装置
CN105740386A (zh) * 2016-01-27 2016-07-06 北京航空航天大学 基于排序集成的论文搜索方法及装置
CN105808729A (zh) * 2016-03-08 2016-07-27 上海交通大学 基于论文间引用关系的学术大数据分析方法
CN106485613A (zh) * 2016-10-21 2017-03-08 长沙市麓智信息科技有限公司 专利被引用数量统计系统及其统计方法
US9727617B1 (en) * 2014-03-10 2017-08-08 Google Inc. Systems and methods for searching quotes of entities using a database
US20180373708A1 (en) * 2017-06-27 2018-12-27 Salesforce.Com, Inc. Systems and methods of database tenant migration

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9727617B1 (en) * 2014-03-10 2017-08-08 Google Inc. Systems and methods for searching quotes of entities using a database
CN105404641A (zh) * 2015-10-23 2016-03-16 华建宇通科技(北京)有限责任公司 一种基于baseline的期刊评价方法及评价装置
CN105740386A (zh) * 2016-01-27 2016-07-06 北京航空航天大学 基于排序集成的论文搜索方法及装置
CN105808729A (zh) * 2016-03-08 2016-07-27 上海交通大学 基于论文间引用关系的学术大数据分析方法
CN106485613A (zh) * 2016-10-21 2017-03-08 长沙市麓智信息科技有限公司 专利被引用数量统计系统及其统计方法
US20180373708A1 (en) * 2017-06-27 2018-12-27 Salesforce.Com, Inc. Systems and methods of database tenant migration

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞立平: "期刊影响力指标的时间异质性及其重构研究——基于多属性评价的视角", 《图书情报工作》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112968957A (zh) * 2021-02-19 2021-06-15 南京昆虫软件有限公司 针对图书馆馆藏资源的分析方法、装置、设备及存储介质
CN112968957B (zh) * 2021-02-19 2022-08-12 南京昆虫软件有限公司 针对图书馆馆藏资源的分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110119412B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
Linares-Vásquez et al. Triaging incoming change requests: Bug or commit history, or code authorship?
US6216132B1 (en) Method and system for matching consumers to events
CA2655735C (en) Data profiling
JP5635691B2 (ja) 複数のシステムを用いたデータ解析
Prakash et al. Geo-identification of web users through logs using ELK stack
CN108874614A (zh) 一种大数据日志智能分析系统及方法
US10044820B2 (en) Method and system for automated transaction analysis
CN105577454A (zh) 一种基于日志快速定位业务故障的方法
Azeroual et al. Improving the data quality in the research information systems
CN106933906B (zh) 数据多维度的查询方法及装置
US20190149344A1 (en) Intelligent search system for service cost and method thereof
JP6054888B2 (ja) ルール属性から運賃検出を提供するための方法、システム、およびコンピュータプログラム
US11184269B1 (en) Collecting route-based traffic metrics in a service-oriented system
Cheng et al. Efficient event correlation over distributed systems
CN103077192B (zh) 一种数据处理方法及其系统
US20230040635A1 (en) Graph-based impact analysis of misconfigured or compromised cloud resources
JP2023071664A (ja) フォーマット特有のデータ処理動作
CN113626447A (zh) 一种民航数据管理平台及方法
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN110119412A (zh) 一种引文来源数据库辨别方法
Anderson et al. Architectural Implications of Social Media Analytics in Support of Crisis Informatics Research.
CN115309767A (zh) 一种数据融合方法和装置
CN106649344A (zh) 一种网络日志压缩方法和装置
Petermann et al. Graph mining for complex data analytics
Liu et al. Customer satisfaction measurement model of e-government service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Huang Di

Inventor after: Zhang Minglong

Inventor after: Shen Jing

Inventor after: Liu Xuhua

Inventor after: Hu Xubin

Inventor before: Huang Di

Inventor before: Zhang Minglong

Inventor before: Shen Jing

Inventor before: Liu Xuhua

Inventor before: Hu Xubin

CB03 Change of inventor or designer information