CN104834671A

CN104834671A - 文献元数据的并行下载方法及装置

Info

Publication number: CN104834671A
Application number: CN201510133983.0A
Authority: CN
Inventors: 裴韬; 宋辞; 董承玮
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2015-08-12
Anticipated expiration: 2035-03-25
Also published as: CN104834671B

Abstract

本发明公开一种面向WebScience数据库的文献元数据的并行下载方法及装置，能够解决现有技术耗时耗力和容易出错的问题。所述方法包括：自动建立用于文献元数据下载的多个会话；解析用户输入的检索式，获取所述检索式对应的检索请求信息，通过将所述检索式对应的检索请求信息发送给服务器，获取所述服务器返回的检索id和所述检索id下的文献的文献编号；根据任务量，自动为各个会话分配所述检索id下的文献的文献编号；通过所述各个会话并行下载所述用户输入的检索式所对应的文献元数据。

Description

文献元数据的并行下载方法及装置

技术领域

本发明涉及文献元数据下载技术领域，具体涉及一种面向WebScience数据库的文献元数据的并行下载方法及装置。

背景技术

WebScience数据库是目前国际上最权威的论文数据库(即SCI数据库)，是国内外用于学术交流、成果评价、科研现状分析以及学科方向预测的最主要信息来源。目前国际WebScience论文以每天近6000篇的速度增长，如何从中及时获取专业信息，掌握学科发展的热点已经成为科学研究的前提条件。这种需求一方面来自于我国400多万科研工作者进行文章写作、学术专著编写、科研项目申请以及科研奖项的申报；另一方面来源于1100多个大学图书馆和8000多个专业科技图书馆进行科研实力竞争评价、学科分析日常业务。然而，在对WebScience文献分析的实践中，所用到的基础信息就是海量的文献元数据信息，这些信包含了文献的各类情报数据(如作者、关键词、摘要、学科方向、发表杂志、研究机构等二十余项信息)。目前，操作者对从WebScience数据库检索出的文献进行手工下载时，一次只能对一个用户的检索需求进行下载，更为麻烦的是，由于webof science数据库对每次下载的文献数目进行了限制(即一次最多只能下载并导出500条文献相关信息)，因此如果文献超过500条，则只能进行另一次操作。以一次熟练的操作需要60秒计算，10000篇文献的下载就需要1200秒，即20分钟。除了时间效率问题之外，更加困扰用户的问题就是因引文下载程序的复杂而导致下载文献存在一定程度错误率。据有关统计，对于无经验的操作者，文献下载的错误率超过10％，而对于熟练的操作者也有1-3％的错误率。若要对错误进行检查则需要花费比下载更多的时间成本。

下面以在web of science网站上检索并下载图1所示的期刊2010年-2014年所有的文献元数据为例对从WebScience数据库手工下载文献的过程进行详细说明。

整个过程分为下面6个步骤。

第一步，确定下载期刊或文献检索式(关键词的组合、发表时间、作者等信息与期刊目录结合共同成为文献下载的检索式)。

第二步，输入检索式。在本例中，以期刊Journal of geographicalsciences为例输入图2所示的检索界面中的检索式，点击检索界面的“检索”按钮进行文献检索，检索结果如图3所示。

第三步，在图4所示的界面中选择所要下载文献记录以及其元数据类型，将检索结果下载至本地，下载的文献检索信息包含的内容如图5所示。

第四步：点击发送键，将结果保存为文件。

第五步：当一次检索的文献超出500篇而需要连续下载时，则必须在上一次下载的基础上修改参数(如图4所示的界面中的“记录”编辑框需要改为501-1000)；与此同时，由于系统给出的文件全部采用缺省文件名，因此，当下载的文献数目超过500个而需要多个文件进行保存时，则需要手动修改文件名。最终下载完成结果如图6所示。

第六步：当需要另开始一项下载任务时，则需要重新打开WebScience以更新下载的SID号，并重复上述步骤。

正是由于WebScience数据的限制，使得对该数据的下载仍依赖人工操作，不仅操作流程复杂，极容易出错，同时耗时耗力，在下载的文献量较大时给分析的时效性和准确性带来很大的压力。

发明内容

本发明的目的在于，提供一种面向WebScience数据库的文献元数据的并行下载方法及装置，能够解决现有技术耗时耗力和容易出错的问题。

为此目的，一方面，本发明提出一种面向WebScience数据库的文献元数据的并行下载方法，包括：

自动建立用于文献元数据下载的多个会话；

解析用户输入的检索式，获取所述检索式对应的检索请求信息，通过将所述检索式对应的检索请求信息发送给服务器，获取所述服务器返回的检索id和所述检索id下的文献的文献编号；

根据任务量，自动为各个会话分配所述检索id下的文献的文献编号；

通过所述各个会话并行下载所述用户输入的检索式所对应的文献元数据。

另一方面，本发明提出一种面向WebScience数据库的文献元数据的并行下载装置，包括：

会话建立单元，用于自动建立用于文献元数据下载的多个会话；

获取单元，用于解析用户输入的检索式，获取所述检索式对应的检索请求信息，通过将所述检索式对应的检索请求信息发送给服务器，获取所述服务器返回的检索id和所述检索id下的文献的文献编号；

分配单元，用于根据任务量，自动为各个会话分配所述检索id下的文献的文献编号；

下载单元，用于通过所述各个会话并行下载所述用户输入的检索式所对应的文献元数据。

本发明实施例所述的面向WebScience数据库的文献元数据的并行下载方法及装置，将下载任务划分给多个会话，通过所述多个会话并行下载用户需要下载的文献元数据，因而能够提高文献元数据的下载速度，节省人力成本，同时，当用户确定好检索式后，整个过程都不需要在服务器页面上进行人工交互，从而达到文献元数据的检索、下载过程自动化、并行化，极大地提高了文献元数据下载的准确率。

附图说明

图1为一实施例中用户要下载的期刊的示意图；

图2为一实施例中用户输入的检索式的示意图；

图3为对图2所示的检索式进行检索的检索结果的示意图；

图4为一实施例中选择所要下载的文献记录以及其元数据类型的界面的示意图；

图5为一实施例中下载的文献包含的内容的示意图；

图6为一实施例中文献下载结果的示意图；

图7为本发明面向WebScience数据库的文献元数据的并行下载方法一实施例的流程示意图；

图8为本发明面向WebScience数据库的文献元数据的并行下载装置一实施例的方框结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图7所示，本实施例公开一种面向WebScience数据库的文献元数据的并行下载方法，包括：

S1、自动建立用于文献元数据下载的多个会话；

S2、解析用户输入的检索式，获取所述检索式对应的检索请求信息，通过将所述检索式对应的检索请求信息发送给服务器，获取所述服务器返回的检索id和所述检索id下的文献的文献编号；

S3、根据任务量，自动为各个会话分配所述检索id下的文献的文献编号；

S4、通过所述各个会话并行下载所述用户输入的检索式所对应的文献元数据。

本发明实施例所述的面向WebScience数据库的文献元数据的并行下载方法，将下载任务划分给多个会话，通过所述多个会话并行下载用户需要下载的文献元数据，因而能够提高文献元数据的下载速度，节省人力成本，同时，当用户确定好检索式后，整个过程都不需要在服务器页面上进行人工交互，从而达到文献元数据的检索、下载过程自动化、并行化，极大地提高了文献元数据下载的准确率。

可选地，在本发明面向WebScience数据库的文献元数据的并行下载方法的另一实施例中，所述解析用户输入的检索式，获取所述检索式对应的检索请求信息，通过将所述检索式对应的检索请求信息发送给服务器，获取所述服务器返回的检索id和所述检索id下的文献的文献编号，包括：

获取用户输入的检索式，通过将所述检索式加入预设的检索请求信息模板的对应位置，生成所述检索式对应的服务器能够识别的检索请求信息；

通过向所述服务器发送所述检索式对应的服务器能够识别的检索请求信息，确定出所述检索请求信息所对应的检索id和所述检索id下的文献的文献编号。

可选地，在本发明面向WebScience数据库的文献元数据的并行下载方法的另一实施例中，所述根据任务量，自动为各个会话分配所述检索id下的文献的文献编号，包括：

为同一个会话分配同一个检索id下的文献的文献编号。

本发明实施例中，将同一个检索id下的文献的文献编号分配给同一个会话，即按照检索式数量分配文献下载任务，能够便于对用户需要下载的文献的分配。

为所述各个会话平均分配所述检索id下的文献的文献编号。

本发明实施例中，将所述检索id下的文献的文献编号平均分配给各个会话，使每一个会话下载的文献的数量相等，能够合理利用网络资源，进一步提高文献下载速度。

可选地，在本发明面向WebScience数据库的文献元数据的并行下载方法的另一实施例中，所述通过所述各个会话并行下载所述用户输入的检索式所对应的文献元数据，包括：

根据预先确定的下载请求信息模板以及为每一个会话分配的各个文献的文献编号，生成该会话对应的下载请求信息；

通过将每一个会话对应的下载请求信息发送至所述服务器，下载所述用户输入的检索式所对应的文献元数据。

如图8所示，本实施例公开一种面向WebScience数据库的文献元数据的并行下载装置，包括：

会话建立单元1，用于自动建立用于文献元数据下载的多个会话；

获取单元2，用于解析用户输入的检索式，获取所述检索式对应的检索请求信息，通过将所述检索式对应的检索请求信息发送给服务器，获取所述服务器返回的检索id和所述检索id下的文献的文献编号；

分配单元3，用于根据任务量，自动为各个会话分配所述检索id下的文献的文献编号；

下载单元4，用于通过所述各个会话并行下载所述用户输入的检索式所对应的文献元数据。

本发明实施例所述的面向WebScience数据库的文献元数据的并行下载装置，将下载任务划分给多个会话，通过所述多个会话并行下载用户需要下载的文献元数据，因而能够提高文献元数据的下载速度，节省人力成本，同时，当用户确定好检索式后，整个过程都不需要在服务器页面上进行人工交互，从而达到文献元数据的检索、下载过程自动化、并行化，极大地提高了文献元数据下载的准确率。

可选地，在本发明面向WebScience数据库的文献元数据的并行下载装置的另一实施例中，所述获取单元，包括：

检索请求信息生成子单元，用于获取用户输入的检索式，通过将所述检索式加入预设的检索请求信息模板的对应位置，生成所述检索式对应的服务器能够识别的检索请求信息；

文献编号确定子单元，用于通过向所述服务器发送所述检索式对应的服务器能够识别的检索请求信息，确定出所述检索请求信息所对应的检索id和所述检索id下的文献的文献编号。

可选地，在本发明面向WebScience数据库的文献元数据的并行下载装置的另一实施例中，所述分配单元，用于为同一个会话分配同一个检索id下的文献的文献编号。

可选地，在本发明面向WebScience数据库的文献元数据的并行下载装置的另一实施例中，所述分配单元，用于为所述各个会话平均分配所述检索id下的文献的文献编号。

可选地，在本发明面向WebScience数据库的文献元数据的并行下载装置的另一实施例中，所述下载单元，包括：

下载请求信息生成子单元，用于根据预先确定的下载请求信息模板以及为每一个会话分配的各个文献的文献编号，生成该会话对应的下载请求信息；

下载子单元，用于通过将每一个会话对应的下载请求信息发送至所述服务器，下载所述用户输入的检索式所对应的文献元数据。

下面对本发明面向WebScience数据库的文献元数据的并行下载方法的具体步骤进行详细说明。

面向WebScience数据库的文献元数据的并行下载方法具体步骤如下：

(1)建立用于文献下载的多个会话，可以包括：

对Web of Science(WOS)服务器发送多个http请求，如http://apps.webofknowledge.com/。在返回的页面中解析出SID(SESSION ID)信息，格式如：<input type＝"hidden"id＝"SID"name＝"SID"value＝"R1zShrEb3q8Em345w1m"/>。具体需要的SID数，根据文献下载量、电脑配置以及单位所能申请的并发访问数限制设定。SID数量越多，下载越快；根据个人电脑的内存量，一般PC机设置为3-6个较为合适。

(2)获取用户输入的检索式，通过将所述用户输入的检索式加入预设的检索请求信息模板的对应位置，生成所述用户输入的检索式对应的服务器能够识别的检索请求信息，可以包括：

采用机器学习的方法，根据预先确定的原始检索式中各字段及符号与WOS服务器可识别的检索请求信息(训练样本的WOS服务器可识别的检索请求信息通过预先输入若干组检索式，并与WOS页面进行交互操作获得)之间的对应关系，解析出用户输入的检索式所对应的检索请求信息。

比如用户输入的检索式为：TS＝{“A1＝human A2＝mobility”or(B1＝“trajectory”B2＝and B3＝“travel”)}AND SO＝{C1＝Natural C2＝orC3＝Scicence C4＝or C5＝PLos C6＝One}；start year＝2006＝D1,endyear＝2014＝D2(检索请求信息模板为：sa_params＝WOS％7C％7CQ2Rx6Khs4mi3h6ujc18％7Chttp％3A％2F％2Fapps.webofknowledge.com％7C％27&formUpdated＝true&value％28input1％29＝％E2％80％9CA1+A2％E2％80％9D+or+％28％E2％80％9CB1％E2％80％9D+and+％E2％80％9CB2％E2％80％9D％29&value％28select1％29＝TS&value％28hidInput1％29＝&value％28bool_1_2％29＝AND&value％28input2％29＝C1+C2+C3+C4+C5+C6&value％28select2％29＝SO&x＝1216&y＝358&value％28hidInput2％29＝&limitStatus＝collapsed&ss_lemmatization＝On&ss_spellchecking＝Suggest&SinceLastVisit_UTC＝&SinceLastVisit_DATE＝&range＝ALL&period＝Year+Range&startYear＝D1&endYear＝D2&editions＝SCI&editions＝SSCI&update_back2search_link_param＝yes&ssStatus＝display％3Anone&ss_showsuggestions＝ON&ss_numDefaultGeneralSearchFields＝1&ss_query_language＝&rs_sort_by＝PY.D％3BLD.D％3BSO.A％3BVL.D％3BPG.A％3BAU.A)，则将该检索式包括的字段和符号加入检索请求信息模板中的对应位置，生成的WOS服务器可识别的检索请求信息为：sa_params＝WOS％7C％7CQ2Rx6Khs4mi3h6ujc18％7Chttp％3A％2F％2Fapps.webofknowledge.com％7C％27&formUpdated＝true&value％28input1％29＝％E2％80％9Chuman+mobility％E2％80％9D+or+％28％E2％80％9Ctrajectory％E2％80％9D+and+％E2％80％9Ctravel％E2％80％9D％29&value％28select1％29＝TS&value％28hidInput1％29＝&value％28bool_1_2％29＝AND&value％28input2％29＝Natural+or+Scicence+or+PLos+One&value％28select2％29＝SO&x＝1216&y＝358&value％28hidInput2％29＝&limitStatus＝collapsed&ss_lemmatization＝On&ss_spellchecking＝Suggest&SinceLastVisit_UTC＝&SinceLastVisit_DATE＝&range＝ALL&period＝Year+Range&startYear＝2006&endYear＝2014&editions＝SCI&editions＝SSCI&update_back2search_link_param＝yes&ssStatus＝display％3Anone&ss_showsuggestions＝ON&ss_numDefaultGeneralSearchFields＝1&ss_query_language＝&rs_sort_by＝PY.D％3BLD.D％3BSO.A％3BVL.D％3BPG.A％3BAU.A。通过我们机器学习的结果，可以通过程序直接完成上述转换。

(3)通过向所述服务器发送所述用户输入的检索式对应的服务器能够识别的检索请求信息，确定出所述检索请求信息所对应的检索id和所述检索id下的文献的文献编号，可以包括：

解析出的检索式对应的WOS服务器检索请求后，将其发送，则将返回此次检索的文献列表页面。此时，可以通过模式匹配的方法，再次对该页面源代码进行解析，找到FINAL_DISPLAY_RESULTS_COUNT以及qid标签所对应的值。分别表示文献总数量以及当前检索id。

(4)将所述检索id下的文献的文献编号分配给各个会话，可以包括：

根据文献总数量(比如60000篇文献)，以及设定的SID数量(比如3)，自动划分下载任务，如3个SID分别下载第1-20000个文献，第20001-40000个文献，第40001-60000个文献。若专家有多个检索需求(检索式)，也可以直接将各个检索任务分配至SID上，实现并行下载。

(5)根据预先确定的下载请求信息模板以及为每一个会话分配的各个文献的文献编号，生成该会话对应的下载请求信息，可以包括：

划分完任务、确定qid后，各个SID所下载的文献编号也就确定下来。根据文献编号和qid对WOS服务器发送相应的下载请求，下载文献元数据。这里我们采用与步骤(2)相同的方法，再次对下载请求信息进行解析。比如，要下载SID(Q2Rx6Khs4mi3h6ujc18＝E1)第3(E2)次检索的1(E3)-200(E4)篇文献时(下载请求模板为http://ets.webofknowledge.com/ETS/ets.do？rurl＝http％253A％252F％252Fapps.webofknowledge.com％252Fsummary.do％253FSID％253DE1％2526SID％253DE1％2526SID％253DE1％2526product％253DWOS％2526product％253DWOS％2526product％253DWOS％2526qid％253D3％2526search_mode％253DGeneralSearch％2526search_mode％253DGeneralSearch％2526search_mode％253DGeneralSearch&qid＝E2&mark_to＝E4&fileOpt＝othersoftware&displayCitedRefs＝true&totalMarked＝E4&SID＝E1&product＝UA&mark_from＝E3&parentQid＝E2&displayTimesCited＝true&sortBy＝PY.D；LD.D；SO.A；VL.D；PG.A；AU.A&UserIDForSaveToRID＝null&action＝saveToFile&colName＝WOS&filters＝PMID％20USAGEIND％20AUTHORSIDENTIFIERS％20ACCESSION_NUM％20FUNDING％20SUBJECT_CATEGORY％20JCR_CATEGORY％20LANG％20IDS％20PAGEC％20SABBR％20CITREFC％20ISSN％20PUBINFO％20KEYWORDS％20CITTIMES％20ADDRS％20CONFERENCE_SPONSORS％20DOCTYPE％20CITREF％20ABSTRACT％20CONFERENCE_INFO％20SOURCE％20TITLE％20AUTHORS)，对应的WOS服务器下载请求如下：

http://ets.webofknowledge.com/ETS/ets.do？rurl＝http％253A％252F％252Fapps.webofknowledge.com％252Fsummary.do％253FSID％253DQ2Rx6Khs4mi3h6ujc18％2526SID％253DQ2Rx6Khs4mi3h6ujc18％2526SID％253DQ2Rx6Khs4mi3h6ujc18％2526product％253DWOS％2526product％253DWOS％2526product％253DWOS％2526qid％253D3％2526search_mode％253DGeneralSearch％2526search_mode％253DGeneralSearch％2526search_mode％253DGeneralSearch&qid＝3&mark_to＝200&fileOpt＝othersoftware&displayCitedRefs＝true&totalMarked＝200&SID＝Q2Rx6Khs4mi3h6ujc18&product＝UA&mark_from＝1&parentQid＝3&displayTimesCited＝true&sortBy＝PY.D；LD.D；SO.A；VL.D；PG.A；AU.A&UserIDForSaveToRID＝null&action＝saveToFile&colName＝WOS&filters＝PMID％20USAGEIND％20AUTHORSIDENTIFIERS％20ACCESSION_NUM％20FUNDING％20SUBJECT_CATEGORY％20JCR_CATEGORY％20LANG％20IDS％20PAGEC％20SABBR％20CITREFC％20ISSN％20PUBINFO％20KEYWORDS％20CITTIMES％20ADDRS％20CONFERENCE_SPONSORS％20DOCTYPE％20CITREF％20ABSTRACT％20CONFERENCE_INFO％20SOURCE％20TITLE％20AUTHORS。

(6)通过将每一个会话对应的下载请求信息发送至所述服务器，下载所述用户输入的检索式所对应的文献。

本步骤中由于WOS服务一次只能请求500篇文献元数据的下载，因此可以循环发送请求。将WOS服务器返回的下载文献规范化起名，并自动存储在指定目录下。

下面对本发明面向WebScience数据库的文献元数据的并行下载方法的操作过程进行举例说明。

以下载人文地理相关杂志的文献元数据为例，下载过程主要分为3个步骤：

1、运行程序，分别点击”期刊列表”，“关键词”等，找到待输入的检索条件文件(*.txt格式)。

2、输入并行数量，点击”获取SID”按钮。

3、点击”下载”按钮，程序将文献元数据自动下载至该程序所在的文件夹内。等待完成即可。

本发明有以下优点：

1、大幅提高文献信息下载的工作效率

按同等任务量比较，非并行程序实现的效率比人工手动检索下载提高近四倍；而并行程序的效率能提高10-20倍。40万文献，人工下载需要15小时；非并行程序下载约4个小时，普通PC机5个SID并行下载1小时内可以完成。输入好参数运行后，无需人工操作。

2、显著提升文献信息下载的准确程度

人工手动检索出错在所难免，通过程序下载的相关信息准确率100％。

3、对于多个检索需求可以并发进行。

对于多次检索，人工操作必须要逐个处理，完成一个检索后才能完成第二个。该程序可以同时进行多个检索、下载操作，减少人员成本。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种面向WebScience数据库的文献元数据的并行下载方法，其特征在于，包括：

自动建立用于文献元数据下载的多个会话；

2.根据权利要求1所述的面向WebScience数据库的文献元数据的并行下载方法，其特征在于，所述解析用户输入的检索式，获取所述检索式对应的检索请求信息，通过将所述检索式对应的检索请求信息发送给服务器，获取所述服务器返回的检索id和所述检索id下的文献的文献编号，包括：

3.根据权利要求2所述的面向WebScience数据库的文献元数据的并行下载方法，其特征在于，所述根据任务量，自动为各个会话分配所述检索id下的文献的文献编号，包括：

为同一个会话分配同一个检索id下的文献的文献编号。

4.根据权利要求2所述的面向WebScience数据库的文献元数据的并行下载方法，其特征在于，所述根据任务量，自动为各个会话分配所述检索id下的文献的文献编号，包括：

为所述各个会话平均分配所述检索id下的文献的文献编号。

5.根据权利要求1所述的面向WebScience数据库的文献元数据的并行下载方法，其特征在于，所述通过所述各个会话并行下载所述用户输入的检索式所对应的文献元数据，包括：

6.一种文献元数据的并行下载装置，其特征在于，包括：

7.根据权利要求6所述的面向WebScience数据库的文献元数据的并行下载装置，其特征在于，所述获取单元，包括：

8.根据权利要求7所述的面向WebScience数据库的文献元数据的并行下载装置，其特征在于，所述分配单元，用于为同一个会话分配同一个检索id下的文献的文献编号。

9.根据权利要求7所述的面向WebScience数据库的文献元数据的并行下载装置，其特征在于，所述分配单元，用于为所述各个会话平均分配所述检索id下的文献的文献编号。

10.根据权利要求6所述的面向WebScience数据库的文献元数据的并行下载装置，其特征在于，所述下载单元，包括：