CN115827948A

CN115827948A - 一种爬取文献数据的单反射性智能体和文献数据爬取方法

Info

Publication number: CN115827948A
Application number: CN202310086593.7A
Authority: CN
Inventors: 龙军; 陈庭轩; 杨柳; 王子冬; 罗帅; 唐自强
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-03-21
Anticipated expiration: 2043-02-09
Also published as: CN115827948B

Abstract

本发明公开了一种爬取文献数据的单反射性智能体和文献数据爬取方法，所述单反射性智能体包括性能模块、环境模块、感知模块和执行器模块；所述性能模块用于构建性能目标函数；所述环境模块构建单反射性智能体的环境集合；所述感知模块监测系统时间以及期刊数量是否变化；所述执行器模块基于所述性能目标函数设定目标，并自动化爬取文献数据。优点是，本发明通过构建用于爬取文献数据的单反射性智能体实现文献数据爬取，所述单反射性智能体通过构建衡量自动化爬取文献数据的性能目标函数，执行器模块基于所述目标性能函数设定目标，实现全面准确的文献数据爬取。

Description

一种爬取文献数据的单反射性智能体和文献数据爬取方法

技术领域

本发明涉及互联网技术领域，具体涉及一种爬取文献数据的单反射性智能体和文献数据爬取方法。

背景技术

科技文献数据不仅体现了一个科研人员的学术修养,更是评估高校办学实力的核心指标。随着时间的推移和互联网技术的发展，科技文献数据呈现爆发式增长，学术期刊的影响因子也会动态变化。因此，如何高效地实时获取科技文献数据，以支撑学科评估、学者画像，成为了一个亟待解决的问题。

传统的网络爬虫旨在模拟用户在浏览器上的操作，从特定网站自动提取对用户有价值的网络数据。由于网络爬虫的数据获取会和真实用户的访问一样带来网站资源的消耗，特别是面向Web of Science这类存储着海量科技文献数据的网站，其资源消耗远远大于真实用户的访问。

传统的应对Web of Science网站的反爬虫策略，主要依靠人工操作，如人工降低网络爬虫工具的访问频率、重新设置网络爬虫的IP地址、手动人机验证等。人工操作不仅需要工作人员具备一定的专业知识和业务素质，而且需要耗费大量的时间，进而影响获取科技文献数据的速度、准确性以及全面性。

综上所述，急需一种爬取文献数据的单反射性智能体和文献数据爬取方法以解决现有技术中存在的问题。

发明内容

本发明目的在于提供一种爬取文献数据的单反射性智能体和文献数据爬取方法，具体技术方案如下：

一种爬取文献数据的单反射性智能体，包括性能模块、环境模块、感知模块和执行器模块；

其中，所述性能模块用于构建性能目标函数，所述性能目标函数的构建方式为：以目标数据库中期刊的发文量为基准，构建单反射性智能体的全面性指标；分析目标数据库中文献数据的特征，构建单反射性智能体的准确性指标；根据所述全面性指标和准确性指标建立性能目标函数；

所述环境模块用于分析期刊中文献数据更新的周期性特征，构建单反射性智能体的环境集合；

所述感知模块基于所述环境集合监测系统时间以及期刊数量是否变化；

所述执行器模块基于所述性能目标函数设定目标，并自动化爬取单反射性智能体运行环境中的文献数据。

优选的，所述全面性指标的表达式如下：

；

其中，

是衡量单反射性智能体自动化爬取文献数据的全面性指标，

表示单反射性智能体自动化爬取期刊

的文献数据数量，

表示二范式距离函数，

为期刊

在时间跨度

内出版的文献数据数量。

优选的，所述准确性指标的表达式如下：

；

其中，

是衡量单反射性智能体自动化爬取文献数据的准确性指标，

表示单反射性智能体自动化爬取期刊

的第

篇文献数据，

表示文献数据

的数据特征，

表示目标数据库中文献数据的数据特征。

优选的，所述性能目标函数的表达式如下：

；

其中，

为衡量单反射性智能体自动化爬取文献数据的性能目标函数。

优选的，所述环境集合表达式如下：

；

其中，

表示环境集合，

为期刊

在目标数据库中更新的时间跨度，

为期刊

在时间跨度

内出版的文献数据数量，

为目标数据库中期刊的数量。

优选的，所述感知模块持续监测环境集合中的系统时间以及期刊数量，表达式如下：

；

其中，

用于反映系统时间以及期刊数量的变化，

时，表示系统时间以及期刊数量发生变化，

表示感知模块监测到的当前系统时间，

为感知模块监测到目标数据库中最新的期刊数量。

优选的，所述单反射性智能体还包括存储模块，用于存储爬取到的文献数据以及爬取文献数据过程中的日志信息。

另外，本发明还包括一种文献数据爬取方法，应用如上述的单反射性智能体爬取文献数据，当所述感知模块监测到系统时间及期刊数量发生变化时，所述执行器模块基于性能模块构建的性能目标函数设定目标，并自动化爬取文献数据。

应用本发明的技术方案，具有以下有益效果：

本发明通过构建用于爬取文献数据的单反射性智能体实现文献数据爬取，所述单反射性智能体通过建立文献数据的全面性指标和准确性指标，并根据全面性指标和准确性指标构建性能目标函数，执行器模块基于所述目标性能函数设定目标，实现全面准确的文献数据爬取。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例1中论文智能体进行论文信息爬取的示意图；

图2是本发明优选实施例1中论文智能体爬取的论文部分字段信息；

图3是本发明优选实施例2中影响因子智能体进行影响因子爬取的示意图。

实施方式

传统的应对Web of Science网站的反爬虫策略，主要依靠人工操作，如人工降低网络爬虫工具的访问频率、重新设置网络爬虫的IP地址、手动人机验证等。人工操作不仅需要工作人员具备一定的专业知识和业务素质，而且需要耗费大量的时间，进而影响获取科技文献数据的速度、准确性以及全面性。

为了克服上述现有技术的不足，本发明提供了一种爬取文献数据的单反射性智能体和文献数据爬取方法，以解决现有网络爬虫爬取科技文献数据需要人工干预、数据爬取不全面、数据爬取准确性低的技术问题。

以下结合附图对本发明的实施例进行详细说明，但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。

实施例1：

如图1所示，本实施例公开了一种爬取文献数据的单反射性智能体，特别是一种用于爬取论文信息的论文智能体，所述论文智能体包括论文爬取性能模块、论文爬取环境模块论文爬取感知模块、论文爬取执行器模块和论文信息存储模块。另外，本实施例爬取的目标数据库为Web of Science数据库。

其中，所述论文爬取性能模块用于构建论文信息爬取性能目标函数，所述论文信息爬取性能目标函数的构建方式为：以Web of Science数据库中期刊的发文量为基准，构建论文智能体的论文信息爬取全面性指标；分析Web of Science数据库中每篇论文包含的字段信息，构建论文智能体的论文信息爬取准确性指标；根据所述全面性指标和准确性指标建立论文信息爬取性能目标函数。

本实施例中论文的字段信息包括文献标题、文献类型、语种、关键词、摘要、参考文献、参考文献数量、数字对象标志符、作者、通讯作者地址、Research ID、出版物名称、出版商、出版日期等。

所述论文爬取环境模块用于分析期刊出版论文的发文量及Web of Science数据库更新的周期性特征，构建论文智能体的论文信息环境集合；

所述论文爬取感知模块持续监测论文智能体运行环境的系统时间及期刊数量是否变化；

所述论文爬取执行器模块用于自动化爬取论文智能体运行环境中的论文信息。

所述论文信息存储模块用于存储爬取到的论文信息以及爬取过程中的日志信息。

进一步地，所述论文信息爬取全面性指标的表达式如下：

；

其中，

是衡量论文智能体自动化爬取论文信息的论文信息爬取全面性指标，

表示论文智能体自动化爬取期刊

的论文数量，

为期刊

在时间跨度

内出版的论文数量，

表示二范式距离函数。

与

的值越接近，表明论文智能体自动化爬取期刊

的论文数量越接近Web of Science数据库中期刊

的发文量。

的值越小，表明论文智能体自动化爬取的论文信息越全面。

进一步地，所述论文信息爬取准确性指标的表达式如下：

；

其中，

是衡量论文智能体自动化爬取论文信息的论文信息爬取准确性指标，

表示单反射性智能体自动化爬取期刊

的第

篇文献数据，

表示文献数据

所包含的字段数量，

表示Web of Science数据库中文献数据的字段数量。例如，参见图2，在2021年，Web of Science数据库中每篇论文包含文献标题、文献类型、语种、关键词等70个字段信息，即

。

进一步地，所述论文信息爬取性能目标函数的表达式如下：

；

其中，

为衡量论文智能体自动化爬取论文信息的论文信息爬取性能目标函数。

值越低，表明论文智能体自动化爬取的论文信息更加全面和准确。

进一步地，所述论文信息环境集合表达式如下：

；

其中，

表示论文信息环境集合，

为期刊

论文信息在Web of Science数据库中更新的时间跨度，

为期刊

在时间跨度

内出版的论文数量，

为Web of Science数据库中期刊的数量。例如，在2021年，

的值为12424，即Web of Science数据库共计存储了12424个期刊。其中，第23个期刊PRL（Pattern Recognition Letters）在2021年内共记出版373篇论文，即

，

。

进一步地，所述感知模块持续监测环境集合中的系统时间以及期刊数量变化，表达式如下：

；

其中，

用于反映系统时间以及期刊数量的变化，

表示感知模块监测到的当前系统时间，

为感知模块监测到Web of Science数据库中最新的期刊数量。当感知模块检测到的当前系统时间大于期刊更新的时间跨度，或者Web of Science数据库中增加了新的期刊，则

。当

时，表示系统时间以及期刊数量发生变化。

另外，本实施例还公开了一种文献数据爬取方法，特别是一种论文爬取方法，应用如上述的论文智能体爬取论文信息，当所述感知模块监测到系统时间及期刊数量发生变化时，所述执行器模块基于性能模块构建的性能目标函数设定目标，并自动化爬取论文智能体运行环境中的论文信息。

本实施例公开的论文爬取方法通过论文信息爬取准确性指标和论文信息爬取全面性指标构建论文爬取性能目标函数，确保论文信息爬取的准确性和全面性，减少人工干预，增加了论文信息爬取效率。

进一步地，本实施例采用上述的论文智能体爬取了Web of Science数据库中2017-2021共计五年的论文信息数据。

表1论文信息爬取结果

详见表1，该爬取结果中执行器模块设定目标为

，其中爬取失败的比例均不超过0.02。

实施例2：

如图3所示，本实施例公开了一种爬取文献数据的单反射性智能体，特别是一种用于爬取期刊影响因子的影响因子智能体，所述影响因子智能体包括影响因子爬取性能模块、影响因子爬取环境模块、影响因子爬取感知模块、影响因子爬取执行器模块和影响因子存储模块。另外，本实施例爬取的目标数据库为Web of Science数据库。

其中，所述影响因子爬取性能模块用于构建影响因子爬取性能目标函数，所述影响因子爬取性能目标函数的构建方式为：以Web of Science数据库中期刊的数量为基准，构建影响因子智能体的影响因子爬取全面性指标；分析Web of Science数据库中期刊的影响因子变化，构建影响因子智能体的影响因子爬取准确性指标；根据所述全面性指标和准确性指标建立影响因子爬取性能目标函数。

所述影响因子爬取环境模块用于分析期刊的影响因子大小及其更新频率，构建影响因子智能体的影响因子环境集合；

所述影响因子爬取感知模块持续监测影响因子智能体运行环境的系统时间及期刊数量是否变化；

所述影响因子爬取执行器模块用于自动化爬取影响因子智能体运行环境中的影响因子。

所述影响因子存储模块用于存储爬取到的影响因子以及爬取过程中的日志信息。

进一步地，所述影响因子爬取全面性指标的表达式如下：

；

其中，

是衡量影响因子智能体自动化爬取论文信息的全面性指标，

表示影响因子智能体自动化爬取期刊影响因子的数量，

表示二范式距离函数。

与

的值越接近，表明影响因子智能体自动化爬取期刊影响因子的数量越接近Web of Science数据库中期刊影响因子的数量。

的值越小，表明影响因子智能体自动化爬取的期刊影响因子越全面。

进一步地，所述影响因子爬取准确性指标的表达式如下：

；

其中，

是衡量影响因子智能体自动化爬取期刊影响因子的准确性指标，

表示影响因子智能体自动化爬取期刊的影响因子数值。

与

越接近，表明影响因子智能体自动化爬取期刊的影响因子越准确。

的值越小，表明影响因子智能体自动化爬取的期刊影响影子越准确。

进一步地，所述影响因子爬取性能目标函数的表达式如下：

；

其中，

为衡量影响因子智能体自动化爬取影响因子的影响因子爬取性能目标函数。

值越低，表明影响因子智能体自动化爬取的期刊影响因子更加全面和准确。

进一步地，所述影响因子环境集合表达式如下：

；

其中，

表示影响因子智能体运行的外部环境集合，

为期刊

影响因子在Webof Science数据库中更新的时间跨度，

为期刊

在时间跨度

内的影响因子数值，

为Web of Science数据库中期刊的数量。例如，在2021年，N的值为12424，即Web of Science数据库共计存储了12424个期刊。其中，第23个期刊PRL（Pattern Recognition Letters）每12个月更新一次影响因子，且在2021年的影响因子为4.757，即

，

。

；

其中，

用于反映系统时间以及期刊数量的变化，

时，表示系统时间以及期刊数量发生变化。

另外，本实施例还公开了一种文献数据爬取方法，特别是一种影响因子爬取方法，应用如上述的影响因子智能体爬取影响因子，当所述感知模块监测到系统时间及期刊数量发生变化时，所述执行器模块基于性能模块构建的性能目标函数设定目标，并自动化爬取影响因子。

进一步地，本实施例中若是感知模块监测到

，则启动执行器模块，以

为目标，基于影响因子环境集合自动化爬取Web of Science数据库中期刊的影响因子。

表2影响因子爬取结果

如表2所示，本实施例爬取了Web of Science数据库中2017-2021共计五年的期刊影响因子数据。

通过表2可知，影响因子爬取失败的比例为0。由此可见应用本实施例进行期刊影响因子爬取，确保了爬取结果的稳定性和全面性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。