CN115827948A - 一种爬取文献数据的单反射性智能体和文献数据爬取方法 - Google Patents

一种爬取文献数据的单反射性智能体和文献数据爬取方法 Download PDF

Info

Publication number
CN115827948A
CN115827948A CN202310086593.7A CN202310086593A CN115827948A CN 115827948 A CN115827948 A CN 115827948A CN 202310086593 A CN202310086593 A CN 202310086593A CN 115827948 A CN115827948 A CN 115827948A
Authority
CN
China
Prior art keywords
crawling
module
data
periodicals
intelligent agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310086593.7A
Other languages
English (en)
Other versions
CN115827948B (zh
Inventor
龙军
陈庭轩
杨柳
王子冬
罗帅
唐自强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310086593.7A priority Critical patent/CN115827948B/zh
Publication of CN115827948A publication Critical patent/CN115827948A/zh
Application granted granted Critical
Publication of CN115827948B publication Critical patent/CN115827948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种爬取文献数据的单反射性智能体和文献数据爬取方法,所述单反射性智能体包括性能模块、环境模块、感知模块和执行器模块;所述性能模块用于构建性能目标函数;所述环境模块构建单反射性智能体的环境集合;所述感知模块监测系统时间以及期刊数量是否变化;所述执行器模块基于所述性能目标函数设定目标,并自动化爬取文献数据。优点是,本发明通过构建用于爬取文献数据的单反射性智能体实现文献数据爬取,所述单反射性智能体通过构建衡量自动化爬取文献数据的性能目标函数,执行器模块基于所述目标性能函数设定目标,实现全面准确的文献数据爬取。

Description

一种爬取文献数据的单反射性智能体和文献数据爬取方法
技术领域
本发明涉及互联网技术领域,具体涉及一种爬取文献数据的单反射性智能体和文献数据爬取方法。
背景技术
科技文献数据不仅体现了一个科研人员的学术修养,更是评估高校办学实力的核心指标。随着时间的推移和互联网技术的发展,科技文献数据呈现爆发式增长,学术期刊的影响因子也会动态变化。因此,如何高效地实时获取科技文献数据,以支撑学科评估、学者画像,成为了一个亟待解决的问题。
传统的网络爬虫旨在模拟用户在浏览器上的操作,从特定网站自动提取对用户有价值的网络数据。由于网络爬虫的数据获取会和真实用户的访问一样带来网站资源的消耗,特别是面向Web of Science这类存储着海量科技文献数据的网站,其资源消耗远远大于真实用户的访问。
传统的应对Web of Science网站的反爬虫策略,主要依靠人工操作,如人工降低网络爬虫工具的访问频率、重新设置网络爬虫的IP地址、手动人机验证等。人工操作不仅需要工作人员具备一定的专业知识和业务素质,而且需要耗费大量的时间,进而影响获取科技文献数据的速度、准确性以及全面性。
综上所述,急需一种爬取文献数据的单反射性智能体和文献数据爬取方法以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种爬取文献数据的单反射性智能体和文献数据爬取方法,具体技术方案如下:
一种爬取文献数据的单反射性智能体,包括性能模块、环境模块、感知模块和执行器模块;
其中,所述性能模块用于构建性能目标函数,所述性能目标函数的构建方式为:以目标数据库中期刊的发文量为基准,构建单反射性智能体的全面性指标;分析目标数据库中文献数据的特征,构建单反射性智能体的准确性指标;根据所述全面性指标和准确性指标建立性能目标函数;
所述环境模块用于分析期刊中文献数据更新的周期性特征,构建单反射性智能体的环境集合;
所述感知模块基于所述环境集合监测系统时间以及期刊数量是否变化;
所述执行器模块基于所述性能目标函数设定目标,并自动化爬取单反射性智能体运行环境中的文献数据。
优选的,所述全面性指标的表达式如下:
Figure SMS_1
其中,
Figure SMS_2
是衡量单反射性智能体自动化爬取文献数据的全面性指标,
Figure SMS_3
表示单反射性智能体自动化爬取期刊
Figure SMS_4
的文献数据数量,
Figure SMS_5
表示二范式距离函数,
Figure SMS_6
为期刊
Figure SMS_7
在时间跨度
Figure SMS_8
内出版的文献数据数量。
优选的,所述准确性指标的表达式如下:
Figure SMS_9
其中,
Figure SMS_10
是衡量单反射性智能体自动化爬取文献数据的准确性指标,
Figure SMS_11
表示单反射性智能体自动化爬取期刊
Figure SMS_12
的第
Figure SMS_13
篇文献数据,
Figure SMS_14
表示文献数据
Figure SMS_15
的数据特征,
Figure SMS_16
表示目标数据库中文献数据的数据特征。
优选的,所述性能目标函数的表达式如下:
Figure SMS_17
其中,
Figure SMS_18
为衡量单反射性智能体自动化爬取文献数据的性能目标函数。
优选的,所述环境集合表达式如下:
Figure SMS_19
其中,
Figure SMS_20
表示环境集合,
Figure SMS_21
为期刊
Figure SMS_22
在目标数据库中更新的时间跨度,
Figure SMS_23
为期刊
Figure SMS_24
在时间跨度
Figure SMS_25
内出版的文献数据数量,
Figure SMS_26
为目标数据库中期刊的数量。
优选的,所述感知模块持续监测环境集合中的系统时间以及期刊数量,表达式如下:
Figure SMS_27
其中,
Figure SMS_28
用于反映系统时间以及期刊数量的变化,
Figure SMS_29
时,表示系统时间以及期刊数量发生变化,
Figure SMS_30
表示感知模块监测到的当前系统时间,
Figure SMS_31
为感知模块监测到目标数据库中最新的期刊数量。
优选的,所述单反射性智能体还包括存储模块,用于存储爬取到的文献数据以及爬取文献数据过程中的日志信息。
另外,本发明还包括一种文献数据爬取方法,应用如上述的单反射性智能体爬取文献数据,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取文献数据。
应用本发明的技术方案,具有以下有益效果:
本发明通过构建用于爬取文献数据的单反射性智能体实现文献数据爬取,所述单反射性智能体通过建立文献数据的全面性指标和准确性指标,并根据全面性指标和准确性指标构建性能目标函数,执行器模块基于所述目标性能函数设定目标,实现全面准确的文献数据爬取。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例1中论文智能体进行论文信息爬取的示意图;
图2是本发明优选实施例1中论文智能体爬取的论文部分字段信息;
图3是本发明优选实施例2中影响因子智能体进行影响因子爬取的示意图。
实施方式
传统的应对Web of Science网站的反爬虫策略,主要依靠人工操作,如人工降低网络爬虫工具的访问频率、重新设置网络爬虫的IP地址、手动人机验证等。人工操作不仅需要工作人员具备一定的专业知识和业务素质,而且需要耗费大量的时间,进而影响获取科技文献数据的速度、准确性以及全面性。
为了克服上述现有技术的不足,本发明提供了一种爬取文献数据的单反射性智能体和文献数据爬取方法,以解决现有网络爬虫爬取科技文献数据需要人工干预、数据爬取不全面、数据爬取准确性低的技术问题。
以下结合附图对本发明的实施例进行详细说明,但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。
实施例1:
如图1所示,本实施例公开了一种爬取文献数据的单反射性智能体,特别是一种用于爬取论文信息的论文智能体,所述论文智能体包括论文爬取性能模块、论文爬取环境模块论文爬取感知模块、论文爬取执行器模块和论文信息存储模块。另外,本实施例爬取的目标数据库为Web of Science数据库。
其中,所述论文爬取性能模块用于构建论文信息爬取性能目标函数,所述论文信息爬取性能目标函数的构建方式为:以Web of Science数据库中期刊的发文量为基准,构建论文智能体的论文信息爬取全面性指标;分析Web of Science数据库中每篇论文包含的字段信息,构建论文智能体的论文信息爬取准确性指标;根据所述全面性指标和准确性指标建立论文信息爬取性能目标函数。
本实施例中论文的字段信息包括文献标题、文献类型、语种、关键词、摘要、参考文献、参考文献数量、数字对象标志符、作者、通讯作者地址、Research ID、出版物名称、出版商、出版日期等。
所述论文爬取环境模块用于分析期刊出版论文的发文量及Web of Science数据库更新的周期性特征,构建论文智能体的论文信息环境集合;
所述论文爬取感知模块持续监测论文智能体运行环境的系统时间及期刊数量是否变化;
所述论文爬取执行器模块用于自动化爬取论文智能体运行环境中的论文信息。
所述论文信息存储模块用于存储爬取到的论文信息以及爬取过程中的日志信息。
进一步地,所述论文信息爬取全面性指标的表达式如下:
Figure SMS_32
其中,
Figure SMS_34
是衡量论文智能体自动化爬取论文信息的论文信息爬取全面性指标,
Figure SMS_37
表示论文智能体自动化爬取期刊
Figure SMS_38
的论文数量,
Figure SMS_41
为期刊
Figure SMS_42
在时间跨度
Figure SMS_43
内出版的论文数量,
Figure SMS_44
表示二范式距离函数。
Figure SMS_33
Figure SMS_35
的值越接近,表明论文智能体自动化爬取期刊
Figure SMS_36
的论文数量越接近Web of Science数据库中期刊
Figure SMS_39
的发文量。
Figure SMS_40
的值越小,表明论文智能体自动化爬取的论文信息越全面。
进一步地,所述论文信息爬取准确性指标的表达式如下:
Figure SMS_45
其中,
Figure SMS_47
是衡量论文智能体自动化爬取论文信息的论文信息爬取准确性指标,
Figure SMS_48
表示单反射性智能体自动化爬取期刊
Figure SMS_49
的第
Figure SMS_50
篇文献数据,
Figure SMS_51
表示文献数据
Figure SMS_52
所包含的字段数量,
Figure SMS_53
表示Web of Science数据库中文献数据的字段数量。例如,参见图2,在2021年,Web of Science数据库中每篇论文包含文献标题、文献类型、语种、关键词等70个字段信息,即
Figure SMS_46
进一步地,所述论文信息爬取性能目标函数的表达式如下:
Figure SMS_54
其中,
Figure SMS_55
为衡量论文智能体自动化爬取论文信息的论文信息爬取性能目标函数。
Figure SMS_56
值越低,表明论文智能体自动化爬取的论文信息更加全面和准确。
进一步地,所述论文信息环境集合表达式如下:
Figure SMS_57
其中,
Figure SMS_60
表示论文信息环境集合,
Figure SMS_61
为期刊
Figure SMS_62
论文信息在Web of Science数据库中更新的时间跨度,
Figure SMS_63
为期刊
Figure SMS_64
在时间跨度
Figure SMS_65
内出版的论文数量,
Figure SMS_66
为Web of Science数据库中期刊的数量。例如,在2021年,
Figure SMS_58
的值为12424,即Web of Science数据库共计存储了12424个期刊。其中,第23个期刊PRL(Pattern Recognition Letters)在2021年内共记出版373篇论文,即
Figure SMS_59
Figure SMS_67
进一步地,所述感知模块持续监测环境集合中的系统时间以及期刊数量变化,表达式如下:
Figure SMS_68
其中,
Figure SMS_69
用于反映系统时间以及期刊数量的变化,
Figure SMS_70
表示感知模块监测到的当前系统时间,
Figure SMS_71
为感知模块监测到Web of Science数据库中最新的期刊数量。当感知模块检测到的当前系统时间大于期刊更新的时间跨度,或者Web of Science数据库中增加了新的期刊,则
Figure SMS_72
。当
Figure SMS_73
时,表示系统时间以及期刊数量发生变化。
另外,本实施例还公开了一种文献数据爬取方法,特别是一种论文爬取方法,应用如上述的论文智能体爬取论文信息,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取论文智能体运行环境中的论文信息。
本实施例公开的论文爬取方法通过论文信息爬取准确性指标和论文信息爬取全面性指标构建论文爬取性能目标函数,确保论文信息爬取的准确性和全面性,减少人工干预,增加了论文信息爬取效率。
进一步地,本实施例采用上述的论文智能体爬取了Web of Science数据库中2017-2021共计五年的论文信息数据。
表1论文信息爬取结果
Figure SMS_74
详见表1,该爬取结果中执行器模块设定目标为
Figure SMS_75
,其中爬取失败的比例均不超过0.02。
实施例2:
如图3所示,本实施例公开了一种爬取文献数据的单反射性智能体,特别是一种用于爬取期刊影响因子的影响因子智能体,所述影响因子智能体包括影响因子爬取性能模块、影响因子爬取环境模块、影响因子爬取感知模块、影响因子爬取执行器模块和影响因子存储模块。另外,本实施例爬取的目标数据库为Web of Science数据库。
其中,所述影响因子爬取性能模块用于构建影响因子爬取性能目标函数,所述影响因子爬取性能目标函数的构建方式为:以Web of Science数据库中期刊的数量为基准,构建影响因子智能体的影响因子爬取全面性指标;分析Web of Science数据库中期刊的影响因子变化,构建影响因子智能体的影响因子爬取准确性指标;根据所述全面性指标和准确性指标建立影响因子爬取性能目标函数。
所述影响因子爬取环境模块用于分析期刊的影响因子大小及其更新频率,构建影响因子智能体的影响因子环境集合;
所述影响因子爬取感知模块持续监测影响因子智能体运行环境的系统时间及期刊数量是否变化;
所述影响因子爬取执行器模块用于自动化爬取影响因子智能体运行环境中的影响因子。
所述影响因子存储模块用于存储爬取到的影响因子以及爬取过程中的日志信息。
进一步地,所述影响因子爬取全面性指标的表达式如下:
Figure SMS_76
其中,
Figure SMS_77
是衡量影响因子智能体自动化爬取论文信息的全面性指标,
Figure SMS_78
表示影响因子智能体自动化爬取期刊影响因子的数量,
Figure SMS_79
表示二范式距离函数。
Figure SMS_80
Figure SMS_81
的值越接近,表明影响因子智能体自动化爬取期刊影响因子的数量越接近Web of Science数据库中期刊影响因子的数量。
Figure SMS_82
的值越小,表明影响因子智能体自动化爬取的期刊影响因子越全面。
进一步地,所述影响因子爬取准确性指标的表达式如下:
Figure SMS_83
其中,
Figure SMS_84
是衡量影响因子智能体自动化爬取期刊影响因子的准确性指标,
Figure SMS_85
表示影响因子智能体自动化爬取期刊的影响因子数值。
Figure SMS_86
Figure SMS_87
越接近,表明影响因子智能体自动化爬取期刊的影响因子越准确。
Figure SMS_88
的值越小,表明影响因子智能体自动化爬取的期刊影响影子越准确。
进一步地,所述影响因子爬取性能目标函数的表达式如下:
Figure SMS_89
其中,
Figure SMS_90
为衡量影响因子智能体自动化爬取影响因子的影响因子爬取性能目标函数。
Figure SMS_91
值越低,表明影响因子智能体自动化爬取的期刊影响因子更加全面和准确。
进一步地,所述影响因子环境集合表达式如下:
Figure SMS_92
其中,
Figure SMS_94
表示影响因子智能体运行的外部环境集合,
Figure SMS_96
为期刊
Figure SMS_97
影响因子在Webof Science数据库中更新的时间跨度,
Figure SMS_98
为期刊
Figure SMS_99
在时间跨度
Figure SMS_100
内的影响因子数值,
Figure SMS_101
为Web of Science数据库中期刊的数量。例如,在2021年,N的值为12424,即Web of Science数据库共计存储了12424个期刊。其中,第23个期刊PRL(Pattern Recognition Letters)每12个月更新一次影响因子,且在2021年的影响因子为4.757,即
Figure SMS_93
Figure SMS_95
进一步地,所述感知模块持续监测环境集合中的系统时间以及期刊数量变化,表达式如下:
Figure SMS_102
其中,
Figure SMS_103
用于反映系统时间以及期刊数量的变化,
Figure SMS_104
时,表示系统时间以及期刊数量发生变化。
另外,本实施例还公开了一种文献数据爬取方法,特别是一种影响因子爬取方法,应用如上述的影响因子智能体爬取影响因子,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取影响因子。
进一步地,本实施例中若是感知模块监测到
Figure SMS_105
,则启动执行器模块,以
Figure SMS_106
为目标,基于影响因子环境集合自动化爬取Web of Science数据库中期刊的影响因子。
表2影响因子爬取结果
Figure SMS_107
如表2所示,本实施例爬取了Web of Science数据库中2017-2021共计五年的期刊影响因子数据。
通过表2可知,影响因子爬取失败的比例为0。由此可见应用本实施例进行期刊影响因子爬取,确保了爬取结果的稳定性和全面性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种爬取文献数据的单反射性智能体,其特征在于,包括性能模块、环境模块、感知模块和执行器模块;
其中,所述性能模块用于构建性能目标函数,所述性能目标函数的构建方式为:以目标数据库中期刊的发文量为基准,构建单反射性智能体的全面性指标;分析目标数据库中文献数据的特征,构建单反射性智能体的准确性指标;根据所述全面性指标和准确性指标建立性能目标函数;
所述环境模块用于分析期刊中文献数据更新的周期性特征,构建单反射性智能体的环境集合;
所述感知模块基于所述环境集合监测系统时间以及期刊数量是否变化;
所述执行器模块基于所述性能目标函数设定目标,并自动化爬取单反射性智能体运行环境中的文献数据。
2.根据权利要求1所述的单反射性智能体,其特征在于,所述全面性指标的表达式如下:
Figure QLYQS_1
其中,
Figure QLYQS_3
是衡量单反射性智能体自动化爬取文献数据的全面性指标,
Figure QLYQS_4
表示单反射性智能体自动化爬取期刊
Figure QLYQS_5
的文献数据数量,
Figure QLYQS_6
表示二范式距离函数,
Figure QLYQS_7
为期刊
Figure QLYQS_8
在时间跨度
Figure QLYQS_9
内出版的文献数据数量,
Figure QLYQS_2
表示环境集合。
3.根据权利要求2所述的单反射性智能体,其特征在于,所述准确性指标的表达式如下:
Figure QLYQS_10
其中,
Figure QLYQS_11
是衡量单反射性智能体自动化爬取文献数据的准确性指标,
Figure QLYQS_12
表示单反射性智能体自动化爬取期刊
Figure QLYQS_13
的第
Figure QLYQS_14
篇文献数据,
Figure QLYQS_15
表示文献数据
Figure QLYQS_16
的数据特征,
Figure QLYQS_17
表示目标数据库中文献数据的数据特征。
4.根据权利要求3所述的单反射性智能体,其特征在于,所述性能目标函数的表达式如下:
Figure QLYQS_18
其中,
Figure QLYQS_19
为衡量单反射性智能体自动化爬取文献数据的性能目标函数。
5.根据权利要求4所述的单反射性智能体,其特征在于,所述环境集合表达式如下:
Figure QLYQS_20
其中,
Figure QLYQS_21
表示环境集合,
Figure QLYQS_22
为期刊
Figure QLYQS_23
在目标数据库中更新的时间跨度,
Figure QLYQS_24
为期刊
Figure QLYQS_25
在时间跨度
Figure QLYQS_26
内出版的文献数据数量,
Figure QLYQS_27
为目标数据库中期刊的数量。
6.根据权利要求5所述的单反射性智能体,其特征在于,所述感知模块持续监测环境集合中的系统时间以及期刊数量,表达式如下:
Figure QLYQS_28
其中,
Figure QLYQS_29
用于反映系统时间以及期刊数量的变化,
Figure QLYQS_30
时,表示系统时间以及期刊数量发生变化,
Figure QLYQS_31
表示感知模块监测到的当前系统时间,
Figure QLYQS_32
为感知模块监测到目标数据库中最新的期刊数量。
7.根据权利要求1所述的单反射性智能体,其特征在于,还包括存储模块,用于存储爬取到的文献数据以及爬取文献数据过程中的日志信息。
8.一种文献数据爬取方法,其特征在于,应用如权利要求1-7任意一项所述的单反射性智能体爬取文献数据,当所述感知模块监测到系统时间及期刊数量发生变化时,所述执行器模块基于性能模块构建的性能目标函数设定目标,并自动化爬取文献数据。
CN202310086593.7A 2023-02-09 2023-02-09 一种爬取文献数据的单反射性智能体和文献数据爬取方法 Active CN115827948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310086593.7A CN115827948B (zh) 2023-02-09 2023-02-09 一种爬取文献数据的单反射性智能体和文献数据爬取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310086593.7A CN115827948B (zh) 2023-02-09 2023-02-09 一种爬取文献数据的单反射性智能体和文献数据爬取方法

Publications (2)

Publication Number Publication Date
CN115827948A true CN115827948A (zh) 2023-03-21
CN115827948B CN115827948B (zh) 2023-05-02

Family

ID=85520938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310086593.7A Active CN115827948B (zh) 2023-02-09 2023-02-09 一种爬取文献数据的单反射性智能体和文献数据爬取方法

Country Status (1)

Country Link
CN (1) CN115827948B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
US20200050637A1 (en) * 2018-08-07 2020-02-13 Marlabs Innovations Private Limited System and method to analyse and predict impact of textual data
CN111368167A (zh) * 2020-03-06 2020-07-03 北京师范大学 基于网络爬虫技术的中文文献数据自动化获取方法
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及系统
CN115238163A (zh) * 2021-04-23 2022-10-25 上海市教育人才交流服务中心 基于文献数据的信息推送方法及装置、存储介质、终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
US20200050637A1 (en) * 2018-08-07 2020-02-13 Marlabs Innovations Private Limited System and method to analyse and predict impact of textual data
CN111368167A (zh) * 2020-03-06 2020-07-03 北京师范大学 基于网络爬虫技术的中文文献数据自动化获取方法
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及系统
CN115238163A (zh) * 2021-04-23 2022-10-25 上海市教育人才交流服务中心 基于文献数据的信息推送方法及装置、存储介质、终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
虞哲英;关贝;昝道广;吕荫润;毕丽阳;王永吉;: "一种不依赖用户行为数据的科研文献推送系统" *

Also Published As

Publication number Publication date
CN115827948B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
Adar et al. Implicit+ Structure+ and+ the+ Dynamics+ of+ Blogspace
US7401076B2 (en) RDL search engine
US9811604B2 (en) Method and system for defining an extension taxonomy
US7099872B2 (en) Method for providing access to online employment information
AU2018282276A1 (en) Method and system for information retrieval and processing
Wang et al. Ranking user's relevance to a topic through link analysis on web logs
US20080071739A1 (en) Using anchor text to provide context
Lim et al. An automated approach for retrieving hierarchical data from HTML tables
WO2003007118A2 (en) Defining external parameters in spreadsheets
Krotov et al. Research note: Scraping financial data from the web using the R language
US7389289B2 (en) Filtering search results by grade level readability
Spertus et al. Squeal: a structured query language for the Web
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
EP1683049A1 (en) Sytems and methods for searching and displaying reports
US20110145005A1 (en) Method and system for automatic business content discovery
CN112084452A (zh) 时态一致性约束判断的网页时效获取方法
US8775443B2 (en) Ranking of business objects for search engines
CA2327196C (en) System and method for detecting dirty data fields
CN103944935A (zh) 一种网址信息投放方法和装置
US20040015483A1 (en) Document tracking system and method
CN115827948A (zh) 一种爬取文献数据的单反射性智能体和文献数据爬取方法
US7895529B1 (en) System and method for processing featured content
Stenmark A method for intranet search engine evaluations
Payne et al. Schema. org for research data managers: a primer
Biletskiy et al. Focused crawling for downloading learning objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant