CN115827948A - 一种爬取文献数据的单反射性智能体和文献数据爬取方法 - Google Patents
一种爬取文献数据的单反射性智能体和文献数据爬取方法 Download PDFInfo
- Publication number
- CN115827948A CN115827948A CN202310086593.7A CN202310086593A CN115827948A CN 115827948 A CN115827948 A CN 115827948A CN 202310086593 A CN202310086593 A CN 202310086593A CN 115827948 A CN115827948 A CN 115827948A
- Authority
- CN
- China
- Prior art keywords
- crawling
- module
- data
- periodicals
- intelligent agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种爬取文献数据的单反射性智能体和文献数据爬取方法,所述单反射性智能体包括性能模块、环境模块、感知模块和执行器模块;所述性能模块用于构建性能目标函数;所述环境模块构建单反射性智能体的环境集合;所述感知模块监测系统时间以及期刊数量是否变化;所述执行器模块基于所述性能目标函数设定目标,并自动化爬取文献数据。优点是,本发明通过构建用于爬取文献数据的单反射性智能体实现文献数据爬取,所述单反射性智能体通过构建衡量自动化爬取文献数据的性能目标函数,执行器模块基于所述目标性能函数设定目标,实现全面准确的文献数据爬取。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种爬取文献数据的单反射性智能体和文献数据爬取方法。
背景技术
科技文献数据不仅体现了一个科研人员的学术修养,更是评估高校办学实力的核心指标。随着时间的推移和互联网技术的发展,科技文献数据呈现爆发式增长,学术期刊的影响因子也会动态变化。因此,如何高效地实时获取科技文献数据,以支撑学科评估、学者画像,成为了一个亟待解决的问题。
传统的网络爬虫旨在模拟用户在浏览器上的操作,从特定网站自动提取对用户有价值的网络数据。由于网络爬虫的数据获取会和真实用户的访问一样带来网站资源的消耗,特别是面向Web of Science这类存储着海量科技文献数据的网站,其资源消耗远远大于真实用户的访问。
传统的应对Web of Science网站的反爬虫策略,主要依靠人工操作,如人工降低网络爬虫工具的访问频率、重新设置网络爬虫的IP地址、手动人机验证等。人工操作不仅需要工作人员具备一定的专业知识和业务素质,而且需要耗费大量的时间,进而影响获取科技文献数据的速度、准确性以及全面性。
综上所述,急需一种爬取文献数据的单反射性智能体和文献数据爬取方法以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种爬取文献数据的单反射性智能体和文献数据爬取方法,具体技术方案如下:
一种爬取文献数据的单反射性智能体,包括性能模块、环境模块、感知模块和执行器模块;
其中,所述性能模块用于构建性能目标函数,所述性能目标函数的构建方式为:以目标数据库中期刊的发文量为基准,构建单反射性智能体的全面性指标;分析目标数据库中文献数据的特征,构建单反射性智能体的准确性指标;根据所述全面性指标和准确性指标建立性能目标函数;
所述环境模块用于分析期刊中文献数据更新的周期性特征,构建单反射性智能体的环境集合;
所述感知模块基于所述环境集合监测系统时间以及期刊数量是否变化;
所述执行器模块基于所述性能目标函数设定目标,并自动化爬取单反射性智能体运行环境中的文献数据。
优选的,所述全面性指标的表达式如下:
优选的,所述准确性指标的表达式如下:
优选的,所述性能目标函数的表达式如下:
优选的,所述环境集合表达式如下:
优选的,所述感知模块持续监测环境集合中的系统时间以及期刊数量,表达式如下:
优选的,所述单反射性智能体还包括存储模块,用于存储爬取到的文献数据以及爬取文献数据过程中的日志信息。
另外,本发明还包括一种文献数据爬取方法,应用如上述的单反射性智能体爬取文献数据,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取文献数据。
应用本发明的技术方案,具有以下有益效果:
本发明通过构建用于爬取文献数据的单反射性智能体实现文献数据爬取,所述单反射性智能体通过建立文献数据的全面性指标和准确性指标,并根据全面性指标和准确性指标构建性能目标函数,执行器模块基于所述目标性能函数设定目标,实现全面准确的文献数据爬取。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例1中论文智能体进行论文信息爬取的示意图;
图2是本发明优选实施例1中论文智能体爬取的论文部分字段信息;
图3是本发明优选实施例2中影响因子智能体进行影响因子爬取的示意图。
实施方式
传统的应对Web of Science网站的反爬虫策略,主要依靠人工操作,如人工降低网络爬虫工具的访问频率、重新设置网络爬虫的IP地址、手动人机验证等。人工操作不仅需要工作人员具备一定的专业知识和业务素质,而且需要耗费大量的时间,进而影响获取科技文献数据的速度、准确性以及全面性。
为了克服上述现有技术的不足,本发明提供了一种爬取文献数据的单反射性智能体和文献数据爬取方法,以解决现有网络爬虫爬取科技文献数据需要人工干预、数据爬取不全面、数据爬取准确性低的技术问题。
以下结合附图对本发明的实施例进行详细说明,但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。
实施例1:
如图1所示,本实施例公开了一种爬取文献数据的单反射性智能体,特别是一种用于爬取论文信息的论文智能体,所述论文智能体包括论文爬取性能模块、论文爬取环境模块论文爬取感知模块、论文爬取执行器模块和论文信息存储模块。另外,本实施例爬取的目标数据库为Web of Science数据库。
其中,所述论文爬取性能模块用于构建论文信息爬取性能目标函数,所述论文信息爬取性能目标函数的构建方式为:以Web of Science数据库中期刊的发文量为基准,构建论文智能体的论文信息爬取全面性指标;分析Web of Science数据库中每篇论文包含的字段信息,构建论文智能体的论文信息爬取准确性指标;根据所述全面性指标和准确性指标建立论文信息爬取性能目标函数。
本实施例中论文的字段信息包括文献标题、文献类型、语种、关键词、摘要、参考文献、参考文献数量、数字对象标志符、作者、通讯作者地址、Research ID、出版物名称、出版商、出版日期等。
所述论文爬取环境模块用于分析期刊出版论文的发文量及Web of Science数据库更新的周期性特征,构建论文智能体的论文信息环境集合;
所述论文爬取感知模块持续监测论文智能体运行环境的系统时间及期刊数量是否变化;
所述论文爬取执行器模块用于自动化爬取论文智能体运行环境中的论文信息。
所述论文信息存储模块用于存储爬取到的论文信息以及爬取过程中的日志信息。
进一步地,所述论文信息爬取全面性指标的表达式如下:
其中,是衡量论文智能体自动化爬取论文信息的论文信息爬取全面性指标,表示论文智能体自动化爬取期刊的论文数量,为期刊在时间跨度内出版的论文数量,表示二范式距离函数。与的值越接近,表明论文智能体自动化爬取期刊的论文数量越接近Web of Science数据库中期刊的发文量。的值越小,表明论文智能体自动化爬取的论文信息越全面。
进一步地,所述论文信息爬取准确性指标的表达式如下:
其中,是衡量论文智能体自动化爬取论文信息的论文信息爬取准确性指标,表示单反射性智能体自动化爬取期刊的第篇文献数据,表示文献数据所包含的字段数量,表示Web of Science数据库中文献数据的字段数量。例如,参见图2,在2021年,Web of Science数据库中每篇论文包含文献标题、文献类型、语种、关键词等70个字段信息,即。
进一步地,所述论文信息爬取性能目标函数的表达式如下:
进一步地,所述论文信息环境集合表达式如下:
其中,表示论文信息环境集合,为期刊论文信息在Web of Science数据库中更新的时间跨度,为期刊在时间跨度内出版的论文数量,为Web of Science数据库中期刊的数量。例如,在2021年,的值为12424,即Web of Science数据库共计存储了12424个期刊。其中,第23个期刊PRL(Pattern Recognition Letters)在2021年内共记出版373篇论文,即,。
进一步地,所述感知模块持续监测环境集合中的系统时间以及期刊数量变化,表达式如下:
其中,用于反映系统时间以及期刊数量的变化,表示感知模块监测到的当前系统时间,为感知模块监测到Web of Science数据库中最新的期刊数量。当感知模块检测到的当前系统时间大于期刊更新的时间跨度,或者Web of Science数据库中增加了新的期刊,则。当时,表示系统时间以及期刊数量发生变化。
另外,本实施例还公开了一种文献数据爬取方法,特别是一种论文爬取方法,应用如上述的论文智能体爬取论文信息,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取论文智能体运行环境中的论文信息。
本实施例公开的论文爬取方法通过论文信息爬取准确性指标和论文信息爬取全面性指标构建论文爬取性能目标函数,确保论文信息爬取的准确性和全面性,减少人工干预,增加了论文信息爬取效率。
进一步地,本实施例采用上述的论文智能体爬取了Web of Science数据库中2017-2021共计五年的论文信息数据。
表1论文信息爬取结果
实施例2:
如图3所示,本实施例公开了一种爬取文献数据的单反射性智能体,特别是一种用于爬取期刊影响因子的影响因子智能体,所述影响因子智能体包括影响因子爬取性能模块、影响因子爬取环境模块、影响因子爬取感知模块、影响因子爬取执行器模块和影响因子存储模块。另外,本实施例爬取的目标数据库为Web of Science数据库。
其中,所述影响因子爬取性能模块用于构建影响因子爬取性能目标函数,所述影响因子爬取性能目标函数的构建方式为:以Web of Science数据库中期刊的数量为基准,构建影响因子智能体的影响因子爬取全面性指标;分析Web of Science数据库中期刊的影响因子变化,构建影响因子智能体的影响因子爬取准确性指标;根据所述全面性指标和准确性指标建立影响因子爬取性能目标函数。
所述影响因子爬取环境模块用于分析期刊的影响因子大小及其更新频率,构建影响因子智能体的影响因子环境集合;
所述影响因子爬取感知模块持续监测影响因子智能体运行环境的系统时间及期刊数量是否变化;
所述影响因子爬取执行器模块用于自动化爬取影响因子智能体运行环境中的影响因子。
所述影响因子存储模块用于存储爬取到的影响因子以及爬取过程中的日志信息。
其中,是衡量影响因子智能体自动化爬取论文信息的全面性指标,表示影响因子智能体自动化爬取期刊影响因子的数量,表示二范式距离函数。与的值越接近,表明影响因子智能体自动化爬取期刊影响因子的数量越接近Web of Science数据库中期刊影响因子的数量。的值越小,表明影响因子智能体自动化爬取的期刊影响因子越全面。
进一步地,所述影响因子爬取准确性指标的表达式如下:
其中,是衡量影响因子智能体自动化爬取期刊影响因子的准确性指标,表示影响因子智能体自动化爬取期刊的影响因子数值。与越接近,表明影响因子智能体自动化爬取期刊的影响因子越准确。的值越小,表明影响因子智能体自动化爬取的期刊影响影子越准确。
进一步地,所述影响因子爬取性能目标函数的表达式如下:
其中,表示影响因子智能体运行的外部环境集合,为期刊影响因子在Webof Science数据库中更新的时间跨度,为期刊在时间跨度内的影响因子数值,为Web of Science数据库中期刊的数量。例如,在2021年,N的值为12424,即Web of Science数据库共计存储了12424个期刊。其中,第23个期刊PRL(Pattern Recognition Letters)每12个月更新一次影响因子,且在2021年的影响因子为4.757,即,。
进一步地,所述感知模块持续监测环境集合中的系统时间以及期刊数量变化,表达式如下:
另外,本实施例还公开了一种文献数据爬取方法,特别是一种影响因子爬取方法,应用如上述的影响因子智能体爬取影响因子,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取影响因子。
表2影响因子爬取结果
如表2所示,本实施例爬取了Web of Science数据库中2017-2021共计五年的期刊影响因子数据。
通过表2可知,影响因子爬取失败的比例为0。由此可见应用本实施例进行期刊影响因子爬取,确保了爬取结果的稳定性和全面性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种爬取文献数据的单反射性智能体,其特征在于,包括性能模块、环境模块、感知模块和执行器模块;
其中,所述性能模块用于构建性能目标函数,所述性能目标函数的构建方式为:以目标数据库中期刊的发文量为基准,构建单反射性智能体的全面性指标;分析目标数据库中文献数据的特征,构建单反射性智能体的准确性指标;根据所述全面性指标和准确性指标建立性能目标函数;
所述环境模块用于分析期刊中文献数据更新的周期性特征,构建单反射性智能体的环境集合;
所述感知模块基于所述环境集合监测系统时间以及期刊数量是否变化;
所述执行器模块基于所述性能目标函数设定目标,并自动化爬取单反射性智能体运行环境中的文献数据。
7.根据权利要求1所述的单反射性智能体,其特征在于,还包括存储模块,用于存储爬取到的文献数据以及爬取文献数据过程中的日志信息。
8.一种文献数据爬取方法,其特征在于,应用如权利要求1-7任意一项所述的单反射性智能体爬取文献数据,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取文献数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310086593.7A CN115827948B (zh) | 2023-02-09 | 2023-02-09 | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310086593.7A CN115827948B (zh) | 2023-02-09 | 2023-02-09 | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115827948A true CN115827948A (zh) | 2023-03-21 |
CN115827948B CN115827948B (zh) | 2023-05-02 |
Family
ID=85520938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310086593.7A Active CN115827948B (zh) | 2023-02-09 | 2023-02-09 | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115827948B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176985A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种及时高效的互联网信息爬取方法 |
US20200050637A1 (en) * | 2018-08-07 | 2020-02-13 | Marlabs Innovations Private Limited | System and method to analyse and predict impact of textual data |
CN111368167A (zh) * | 2020-03-06 | 2020-07-03 | 北京师范大学 | 基于网络爬虫技术的中文文献数据自动化获取方法 |
CN111797296A (zh) * | 2020-07-08 | 2020-10-20 | 中国人民解放军军事科学院军事医学研究院 | 基于网络爬取的毒物-靶标文献知识挖掘方法及系统 |
CN115238163A (zh) * | 2021-04-23 | 2022-10-25 | 上海市教育人才交流服务中心 | 基于文献数据的信息推送方法及装置、存储介质、终端 |
-
2023
- 2023-02-09 CN CN202310086593.7A patent/CN115827948B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176985A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种及时高效的互联网信息爬取方法 |
US20200050637A1 (en) * | 2018-08-07 | 2020-02-13 | Marlabs Innovations Private Limited | System and method to analyse and predict impact of textual data |
CN111368167A (zh) * | 2020-03-06 | 2020-07-03 | 北京师范大学 | 基于网络爬虫技术的中文文献数据自动化获取方法 |
CN111797296A (zh) * | 2020-07-08 | 2020-10-20 | 中国人民解放军军事科学院军事医学研究院 | 基于网络爬取的毒物-靶标文献知识挖掘方法及系统 |
CN115238163A (zh) * | 2021-04-23 | 2022-10-25 | 上海市教育人才交流服务中心 | 基于文献数据的信息推送方法及装置、存储介质、终端 |
Non-Patent Citations (1)
Title |
---|
虞哲英;关贝;昝道广;吕荫润;毕丽阳;王永吉;: "一种不依赖用户行为数据的科研文献推送系统" * |
Also Published As
Publication number | Publication date |
---|---|
CN115827948B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Adar et al. | Implicit+ Structure+ and+ the+ Dynamics+ of+ Blogspace | |
US7401076B2 (en) | RDL search engine | |
US9811604B2 (en) | Method and system for defining an extension taxonomy | |
US7099872B2 (en) | Method for providing access to online employment information | |
AU2018282276A1 (en) | Method and system for information retrieval and processing | |
Wang et al. | Ranking user's relevance to a topic through link analysis on web logs | |
US20080071739A1 (en) | Using anchor text to provide context | |
Lim et al. | An automated approach for retrieving hierarchical data from HTML tables | |
WO2003007118A2 (en) | Defining external parameters in spreadsheets | |
Krotov et al. | Research note: Scraping financial data from the web using the R language | |
US7389289B2 (en) | Filtering search results by grade level readability | |
Spertus et al. | Squeal: a structured query language for the Web | |
CN102073641A (zh) | 对消费者生成媒体信息进行处理的方法、装置和程序 | |
EP1683049A1 (en) | Sytems and methods for searching and displaying reports | |
US20110145005A1 (en) | Method and system for automatic business content discovery | |
CN112084452A (zh) | 时态一致性约束判断的网页时效获取方法 | |
US8775443B2 (en) | Ranking of business objects for search engines | |
CA2327196C (en) | System and method for detecting dirty data fields | |
CN103944935A (zh) | 一种网址信息投放方法和装置 | |
US20040015483A1 (en) | Document tracking system and method | |
CN115827948A (zh) | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 | |
US7895529B1 (en) | System and method for processing featured content | |
Stenmark | A method for intranet search engine evaluations | |
Payne et al. | Schema. org for research data managers: a primer | |
Biletskiy et al. | Focused crawling for downloading learning objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |