CN110781368A - 一种针对指定专家的信息爬取系统及方法 - Google Patents
一种针对指定专家的信息爬取系统及方法 Download PDFInfo
- Publication number
- CN110781368A CN110781368A CN201911008059.4A CN201911008059A CN110781368A CN 110781368 A CN110781368 A CN 110781368A CN 201911008059 A CN201911008059 A CN 201911008059A CN 110781368 A CN110781368 A CN 110781368A
- Authority
- CN
- China
- Prior art keywords
- expert
- data
- module
- user
- crawling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网技术技术领域,尤其为一种针对指定专家的信息爬取系统及方法,包括用户交互模块、候选列表爬取模块、专家信息爬取模块、数据清洗模块、数据结构化模块和专家画像模块,本发明通过设计解决现有的网络爬虫技术中,将网络上的专家数据集中爬取后存在数据库和云端中,但是这种方法需要占用较多的存储空间和服务器资源,也需要在数据的全面性和维护成本之间进行取舍,从而能准确的返回用户指定的专家信息,无需在搜索引擎中进行搜索和确认,节省了用户的时间成本,能整合多个数据源的专家数据,避免了在单一数据源中搜索不到对应专家的问题同时将大量专家数据存储在数据库和云端的方式,能够节省大量的数据库空间和维护成本。
Description
技术领域
本发明涉及互联网技术技术领域,具体为一种针对指定专家的信息爬取系统及方法。
背景技术
互联网,又称网际网路,根据音译也被叫做因特网、英特网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一且巨大的全球化网络,在这个网络中有交换机、路由器等网络设备、各种不同的连接链路、种类繁多的服务器和数不尽的计算机、终端。使用互联网可以将信息瞬间发送到千里之外的人手中,它是信息社会的基础,随着互联网的兴起和发展,网络的信息量不断增加,在学术界,专家和学者的资料数量也变得越来越庞大,人们查找专家数据主要通过搜索引擎实现,但是通过通用搜索引擎很难直接找到自己感兴趣的专家的所有信息,此外一些学术专用搜索引擎也存在专家库不全的问题,在现有的网络爬虫技术中,一般方法是将网络上的专家数据集中爬取后存在数据库和云端中,但是这种方法需要占用较多的存储空间和服务器资源,也需要在数据的全面性和维护成本之间进行取舍。
综上所述,本发明提供一种针对指定专家的信息爬取系统及方法来解决存在的问题。
发明内容
本发明的目的在于提供一种针对指定专家的信息爬取系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种针对指定专家的信息爬取系统及方法,包括用户交互模块、候选列表爬取模块、专家信息爬取模块、数据清洗模块、数据结构化模块和专家画像模块。
优选的,包括以下步骤:
S1,用户输入想要搜索的专家姓名,选择添加专家所在机构提升数据的特异性,候选列表爬取模块读取用户的该输入,并分别通过学术专家网站进行候选专家列表爬取,将一定数量的候选列表返回给用户交互模块,并由用户最终确认指定的专家;
S2,专家信息爬取模块接收用户指定的专家数据作为输入,利用相关关键字在搜索引擎、学术搜索网站进行爬取,爬取到的数据流直接传递给数据清洗模块和数据结构化模块中;
S3,数据清洗模块接收专家信息爬取模块的数据流,通过正则表达式、strip函数、replace函数等进行数据降噪和清洗,数据结构化模块将数据流解析,根据来源网站和页面类型的不同,制定对应的解析方法,将解析好的数据存储在数据库中;
S4,专家画像模块接收到结构化数据后,按照预先准备好的画布模板对专家画像进行填充,将填充好的用户画像返回给用户交互模块,供用户确认,确认后则本流程结束。
优选的,所述S1中的学术专家网站包括谷歌学术、百度学术、Research Gate等网站。
优选的,所述S2中爬取采用Python的开源框架Scrapy,并使用代理池和User-Agent池。
优选的,所述S3中清洗包括清洗无意义的转义字符、标记符号、空行、回车等数据。
优选的,所述S3中解析的数据包括:专家姓名、专家机构、来源网站、专家ID、研究领域、论文、被引总数、成果数量、h-index指数、g-index指数等。
与现有技术相比,本发明的有益效果是:
1、本发明中,通过设计解决了网络爬虫技术中,一般方法是将网络上的专家数据集中爬取后存在数据库和云端中,但是这种方法需要占用较多的存储空间和服务器资源,也需要在数据的全面性和维护成本之间进行取舍的问题,能准确的返回用户指定的专家信息,无需在搜索引擎中进行搜索和确认,节省了用户的时间成本。
2、本发明中,通过设计能整合多个数据源的专家数据,避免了在单一数据源中搜索不到对应专家的问题。
3、本发明中,通过设计将大量专家数据存储在数据库和云端的方式,可以节省大量的数据库空间和维护成本。
附图说明
图1为本发明系统方框结构示意图;
图2为本发明系统流程结构示意图。
图中:1-用户交互模块、2-候选列表爬取模块、3-专家信息爬取模块、4-数据清洗模块、5-数据结构化模块、6-专家画像模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:
一种针对指定专家的信息爬取系统及方法,包括用户交互模块1、候选列表爬取模块2、专家信息爬取模块3、数据清洗模块4、数据结构化模块5和专家画像模块6,用户交互模块1起作用在于,用于对用户的输入进行处理,对后台的处理结果进行输出展示给用户,候选列表爬取模块2起作用在,用于根据用户输入的专家信息,在不同的网络专家数据网站中爬取符合要求的专家,并返回给用户交互模块供用户进一步选择,专家信息爬取模块3起作用在于,用于根据用户选择好的指定专家信息,在多个学术专家网站中进行数据爬取,数据清洗模块4起作用在于,用于对专家信息爬取模块3获取的数据进行降噪处理,对原网页无意义的转义字符、标记符号、空行、回车等数据进行清洗,数据结构化模块5起作用在于,用于将专家信息爬取模块3获得的网页进行解析,得到格式化的数据,针对不同的数据源网站,匹配不同的结构化方法,专家画像模块6起作用在于,用于将结构化的数据的不同类型数据填充导画像的画布中,最终形成专家的画像,将结果返回给用户。
本发明工作流程:
步骤1,用户输入想要搜索的专家姓名,可以选择添加专家所在机构提升数据的特异性,候选列表爬取模块2负责读取用户的该输入,并分别在谷歌学术、百度学术、ResearchGate等网站进行候选专家列表爬取,将一定数量的候选列表返回给用户交互模块1,并由用户最终确认指定的专家;
步骤2,专家信息爬取模块3接收用户指定的专家数据作为输入,利用相关关键字在搜索引擎、学术搜索网站进行爬取,爬取采用Python的开源框架Scrapy,并使用代理池和User-Agent池,爬取到的数据流直接传递给数据清洗模块3和数据结构化模块4中;
步骤3,数据清洗模块4接收专家信息爬取模块3的数据流,通过正则表达式、strip函数、replace函数等进行数据降噪和清洗,主要清洗无意义的转义字符、标记符号、空行、回车等数据,数据结构化模块5将数据流解析,根据来源网站和页面类型的不同,制定对应的解析方法,将解析好的数据存储在数据库中,解析的数据包括:专家姓名、专家机构、来源网站、专家ID、研究领域、论文、被引总数、成果数量、h-index指数、g-index指数等;
步骤4,专家画像模块6接收到结构化数据后,按照预先准备好的画布模板对专家画像进行填充,将填充好的用户画像返回给用户交互模块1,供用户确认,确认后则本流程结束,此过程通过设计解决现有的网络爬虫技术中,将网络上的专家数据集中爬取后存在数据库和云端中,但是这种方法需要占用较多的存储空间和服务器资源,也需要在数据的全面性和维护成本之间进行取舍,从而能准确的返回用户指定的专家信息,无需在搜索引擎中进行搜索和确认,节省了用户的时间成本,能整合多个数据源的专家数据,避免了在单一数据源中搜索不到对应专家的问题同时将大量专家数据存储在数据库和云端的方式,能够节省大量的数据库空间和维护成本。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种针对指定专家的信息爬取系统及方法,其特征在于,包括用户交互模块(1)、候选列表爬取模块(2)、专家信息爬取模块(3)、数据清洗模块(4)、数据结构化模块(5)和专家画像模块(6)。
2.根据权利要求1所述的一种针对指定专家的信息爬取系统及方法,其特征在于,包括以下步骤:
S1,用户输入想要搜索的专家姓名,选择添加专家所在机构提升数据的特异性,候选列表爬取模块(2)读取用户的该输入,并分别通过学术专家网站进行候选专家列表爬取,将一定数量的候选列表返回给用户交互模块(1),并由用户最终确认指定的专家;
S2,专家信息爬取模块(3)接收用户指定的专家数据作为输入,利用相关关键字在搜索引擎、学术搜索网站进行爬取,爬取到的数据流直接传递给数据清洗模块(3)和数据结构化模块(4)中;
S3,数据清洗模块(4)接收专家信息爬取模块(3)的数据流,通过正则表达式、strip函数、replace函数等进行数据降噪和清洗,数据结构化模块(5)将数据流解析,根据来源网站和页面类型的不同,制定对应的解析方法,将解析好的数据存储在数据库中;
S4,专家画像模块(6)接收到结构化数据后,按照预先准备好的画布模板对专家画像进行填充,将填充好的用户画像返回给用户交互模块(1),供用户确认,确认后则本流程结束。
3.根据权利要求2所述的一种针对指定专家的信息爬取系统及方法,其特征在于:所述S1中的学术专家网站包括谷歌学术、百度学术、ResearchGate等网站。
4.根据权利要求1所述的一种针对指定专家的信息爬取系统及方法,其特征在于:所述S2中爬取采用Python的开源框架Scrapy,并使用代理池和User-Agent池。
5.根据权利要求2所述的一种针对指定专家的信息爬取系统及方法,其特征在于:所述S3中清洗包括清洗无意义的转义字符、标记符号、空行、回车等数据。
6.根据权利要求1所述的一种针对指定专家的信息爬取系统及方法,其特征在于:所述S3中解析的数据包括:专家姓名、专家机构、来源网站、专家ID、研究领域、论文、被引总数、成果数量、h-index指数、g-index指数等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008059.4A CN110781368A (zh) | 2019-10-22 | 2019-10-22 | 一种针对指定专家的信息爬取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008059.4A CN110781368A (zh) | 2019-10-22 | 2019-10-22 | 一种针对指定专家的信息爬取系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781368A true CN110781368A (zh) | 2020-02-11 |
Family
ID=69386302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911008059.4A Pending CN110781368A (zh) | 2019-10-22 | 2019-10-22 | 一种针对指定专家的信息爬取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781368A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460250A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 用于画像的数据的清洗方法、装置、介质及电子设备 |
CN112417251A (zh) * | 2020-11-30 | 2021-02-26 | 华能大理风力发电有限公司 | 一种基于风电竞价的交易信息检索方法及装置 |
CN112861010A (zh) * | 2021-03-02 | 2021-05-28 | 北京赛时科技有限公司 | 一种领域专家精准匹配推荐系统及方法 |
CN114897281A (zh) * | 2022-01-04 | 2022-08-12 | 北京航空航天大学 | 一种专家画像计算方法 |
CN116244486A (zh) * | 2023-03-06 | 2023-06-09 | 深圳开源互联网安全技术有限公司 | 基于数据流的爬取数据处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8204902B1 (en) * | 2009-02-27 | 2012-06-19 | Emergent Systems Corporation | Dynamic ranking of experts in a knowledge management system |
CN108090223A (zh) * | 2018-01-05 | 2018-05-29 | 牛海波 | 一种基于互联网信息的开放学者画像方法 |
CN108363748A (zh) * | 2018-01-26 | 2018-08-03 | 南京邮电大学 | 基于知乎的话题画像系统及话题画像方法 |
CN108960686A (zh) * | 2018-08-20 | 2018-12-07 | 杜林蔚 | 影响力评估方法及系统 |
CN109933711A (zh) * | 2019-03-04 | 2019-06-25 | 上海会米策信息科技有限公司 | 专家库系统、检索推送方法以及计算机可读存储介质 |
-
2019
- 2019-10-22 CN CN201911008059.4A patent/CN110781368A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8204902B1 (en) * | 2009-02-27 | 2012-06-19 | Emergent Systems Corporation | Dynamic ranking of experts in a knowledge management system |
CN108090223A (zh) * | 2018-01-05 | 2018-05-29 | 牛海波 | 一种基于互联网信息的开放学者画像方法 |
CN108363748A (zh) * | 2018-01-26 | 2018-08-03 | 南京邮电大学 | 基于知乎的话题画像系统及话题画像方法 |
CN108960686A (zh) * | 2018-08-20 | 2018-12-07 | 杜林蔚 | 影响力评估方法及系统 |
CN109933711A (zh) * | 2019-03-04 | 2019-06-25 | 上海会米策信息科技有限公司 | 专家库系统、检索推送方法以及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
陈奕男: "I138-1138", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460250A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 用于画像的数据的清洗方法、装置、介质及电子设备 |
WO2021174812A1 (zh) * | 2020-03-02 | 2021-09-10 | 平安科技(深圳)有限公司 | 用于画像的数据的清洗方法、装置、介质及电子设备 |
CN111460250B (zh) * | 2020-03-02 | 2022-07-08 | 平安科技(深圳)有限公司 | 用于画像的数据的清洗方法、装置、介质及电子设备 |
CN112417251A (zh) * | 2020-11-30 | 2021-02-26 | 华能大理风力发电有限公司 | 一种基于风电竞价的交易信息检索方法及装置 |
CN112861010A (zh) * | 2021-03-02 | 2021-05-28 | 北京赛时科技有限公司 | 一种领域专家精准匹配推荐系统及方法 |
CN114897281A (zh) * | 2022-01-04 | 2022-08-12 | 北京航空航天大学 | 一种专家画像计算方法 |
CN116244486A (zh) * | 2023-03-06 | 2023-06-09 | 深圳开源互联网安全技术有限公司 | 基于数据流的爬取数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781368A (zh) | 一种针对指定专家的信息爬取系统及方法 | |
CN110147437B (zh) | 一种基于知识图谱的搜索方法及装置 | |
Ferrara et al. | Web data extraction, applications and techniques: A survey | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
US11379670B1 (en) | Automatically populating responses using artificial intelligence | |
CN102760151B (zh) | 开源软件获取与搜索系统的实现方法 | |
EP3671526B1 (en) | Dependency graph based natural language processing | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测系统及方法 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
Han et al. | Study on web mining algorithm based on usage mining | |
Dong | Exploration on web usage mining and its application | |
US20130013638A1 (en) | Intelligent Search | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
CN117033654A (zh) | 一种面向科技迷雾识别的科技事件图谱构建方法 | |
CN116595139A (zh) | 一种基于多模态知识图谱的智能问答方法 | |
CN115080636A (zh) | 一种基于网络服务的大数据分析系统 | |
Scifo | Hands-On Graph Analytics with Neo4j: Perform graph processing and visualization techniques using connected data across your enterprise | |
Sun et al. | Multi-level news recommendation via modeling candidate interactions | |
Hoxha | Cross-domain recommendations based on semantically-enhanced User Web Behavior | |
Diamantini et al. | An integrated system for social information discovery | |
CN114661973B (zh) | 一种基于神经网络的网页数据智能爬取方法 | |
De et al. | Research contributions published on betweenness centrality algorithm: modelling to analysis in the context of social networking | |
CN116089740B (zh) | 一种基于社交网络的团购信息检索方法和系统 | |
Wu et al. | A graph-based optimization algorithm for Website topology using interesting association rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200211 |
|
RJ01 | Rejection of invention patent application after publication |