CN112632361B - 迭代式数据获取方法 - Google Patents

迭代式数据获取方法 Download PDF

Info

Publication number
CN112632361B
CN112632361B CN202011642867.9A CN202011642867A CN112632361B CN 112632361 B CN112632361 B CN 112632361B CN 202011642867 A CN202011642867 A CN 202011642867A CN 112632361 B CN112632361 B CN 112632361B
Authority
CN
China
Prior art keywords
twitter
account
organization
person
wikipedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011642867.9A
Other languages
English (en)
Other versions
CN112632361A (zh
Inventor
刘玉茹
王元卓
程伯群
陈中正
雍胜凯
张宸硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Original Assignee
Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN202011642867.9A priority Critical patent/CN112632361B/zh
Publication of CN112632361A publication Critical patent/CN112632361A/zh
Application granted granted Critical
Publication of CN112632361B publication Critical patent/CN112632361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种迭代式数据获取方法,首先获取种子人物和组织名称,然后通过爬取网页获取人物、组织的社交账号,再通过Twitter爬取程序,获取社交账号的基本信息,以及社交账号的粉丝和关注。从Twitter信息表中筛选Twitter用户粉丝数大于nk的用户,存入重点账号库表。重点账号库表字段包括:重点账号ID,重点账号Twitter ID。通过爬取网页,获取Twitter账号对应人物、组织的Wikipedia页面URL,再根据获取的URL,爬取wikipedia页面,得到人物、组织的详细信息,以及循环迭代以上步骤,直至重点账号库中无新增的社交账号。本发明将“由人找社交账号”和“由社交账号找人”两种方式结合,提高了收集速度,减少了人力,可以在较短时间内收集大量的数据,满足构建知识图谱的数据需要。

Description

迭代式数据获取方法
技术领域
本发明属于数据处理技术领域,具体涉及一种迭代式数据获取方法。
背景技术
构建以人物、组织、社交账号为核心的知识图谱需要收集大量的人物/组织基本信息、人物/组织对应的社交账号以及这些社交账号之间的关系数据。目前这项工作主要靠人工找到一批人名/组织名,然后以”人名/组织名+Twitter”为关键字,输入搜索引擎搜索框中,找到人物/组织对应的Twitter账号,再使用爬虫技术获取Twitter账号的基本信息以及Twitter账号的粉丝与关注。同时,以“人名/组织名+Wikipedia”为关键字,输入搜索引擎搜索框中,找到人物/组织对应的Wikipedia页面链接,通过爬虫获取Wikipedia页面信息,再对Wikipedia页面的Infobox信息进行解析,得到人物/组织基本信息。整体流程如图1所示:
面向人物/组织以及社交账号信息的收集,现有技术方案主要利用人物/组织名来检索Twitter账号以及人物基本信息。而构建以人物、组织、社交账号为核心的知识图谱,需要百万级别的人物、组织,这就需要人工搜集大量人名/组织名。现有方案不仅耗费人工且收集的速度较慢。
发明内容
针对面向人物/组织以及社交账号信息的收集过程存在的耗费人工且收集的速度较慢问题,本发明提供一种“由人找社交账号”和“由社交账号找人”两种方式结合,迭代式收集人物、组织、社交账号信息的方法。
本发明解决其技术问题所采用的方案是:一种迭代式数据获取方法,该方法包括以下步骤:
第一步:获取种子人物、组织。
从官方网站,人工收集一些人物姓名、组织名称等,作为种子数据,存入种子数据库表。种子数据库表字段包括:人物/组织ID,人物/组织名称。
第二步:通过爬取网页获取人物、组织的社交账号。
通过Senlenium调用谷歌搜索引擎驱动,模拟谷歌搜索。以种子数据库表中的人名姓名/组织名称+“Twitter”为搜索词,爬取搜索页面。由于Google已经对搜索的结果进行排序,搜索结果靠前的匹配的可能性较大,为保障正确率,只取第一条结果进行匹配。使用正则表达式匹配爬取数据的第一条信息,获取到人物/组织的Twitter账号。若匹配到结果,则存入人物组织社交账号表,没有匹配到则爬取下一个人物/组织。人物组织社交账号表包含字段:ID、人物/组织名称、社交账号ID、社交账号名称。
第三步:通过Twitter爬取程序,获取社交账号的基本信息,以及社交账号的粉丝和关注。
调用Twitter开放的爬取API,获取Twitter账号的基本信息,存入Twitter信息表。Twitter信息表的字段包括:Twitter ID,Twitter昵称,Twitter用户名称,Twitter用户注册时间,Twitter用户简介,Twitter用户位置,Twitter用户发文数,Twitter用户关注数,Twitter用户粉丝数。
通过Twitter开放的爬取API,获取Twitter账号的关注与粉丝,存入Twitter关系表。Twitter关系表的字段包括:Twitter用户ID,Twitter用户关注ID。
第四步:从Twitter信息表中筛选Twitter用户粉丝数大于nk的用户,存入重点账号库表。重点账号库表字段包括:重点账号ID,重点账号Twitter ID。
第五步:通过爬取网页,获取人物、组织的Wikipedia页面URL。
从重点账号库表,获取一条数据。以人物/组织Twitter账号名称+“Wikipedia”为搜索词,爬取搜索页面。通过正则表达式匹配爬取页面的第一条信息,获取人物组织或者账号对应的人物组织的Wikipedia页面链接。若匹配结果不为空,则将结果存入人物/组织Wikipedia链接库表,否则爬取下一个。Wikipedia链接库表字段包括:人物/组织/账号ID,人物/组织/账号名称,Wikipedia链接URL。
同时,若匹配到Twitter账号对应的Wikipedia页面链接,则继续爬取该Twitter账号对应的粉丝与关注,存入Twitter账号基本信息库以及Twitter账号关系库。
第六步:从Wikipedia链接库中读取Wikipedia链接URL。再根据获取的URL,爬取wikipedia页面,得到人物、组织的详细信息。
根据Wikipedia页面链接爬取该人物/组织的Wikipedia页面,解析Wikipedia页面Infobox里面的信息,得到该人物组织的详细信息。存入人物组织基本信息库。人物/组织基本信息库字段包括:人物/组织ID、英文名称、中文名称、人物简介、住址、学历、职位、国籍、邮箱、官方网站。
循环迭代以上步骤,直至重点账号库中无新增的社交账号。
本发明的有益效果:
本发明提出的迭代式的信息收集方法,首先人工收集少量的人名/组织名,找到这些人物/组织的基本信息、Twitter账号以及Twitter账号的粉丝与关注,再将爬取到的Twitter账号中粉丝数较多的用户,通过社交账号来的检索人的基本信息,迭代以上步骤。本发明迭代式数据获取方法通过将“由人找社交账号”和“由社交账号找人”两种方式结合,迭代式收集人物、组织、社交账号信息,提高了收集速度,减少了人力,该方法可以在较短时间内收集大量的数据,满足构建知识图谱的数据需要。
附图说明
图1现有信息搜集方案。
图2本发明的迭代式信息收集整体流程。
图3以“名称+Twitter”为关键词爬取用户账号页面示例。
图4以“名称+Wikipedia”获取Wikipedia页面URL示例。
具体实施方式
发明技术方案中中涉及的技术词如下。
Selenium:Selenium是一个用于Web应用程序测试的工具。Selenium可以通过程序调用浏览器的驱动,来模拟用户在浏览器的操作操作。
Wikipedia:维基百科,是一种用多种语言编写的网络百科全书。
Wikipedia infobox:维基百科页面中的信息框,内含丰富的结构化信息。
实施例1:本实施例的整体流程如图2所示,包括以下过程。
首先,获取种子人物、组织名称。
从官方网站如企业官网、学校官网,人工收集一些人物姓名、组织名称等,作为种子数据,存入种子数据库表。种子数据库表字段包括:人物/组织ID,人物/组织名称。例如,进入苹果官网https://www.apple.com.cn/leadership/,可看到管理层简介界面,即人工搜集种子人物名称。将这些管理层的人名,存入种子数据库表。
其次:通过爬取网页获取人物、组织的社交账号。
通过Senlenium调用谷歌搜索引擎驱动,模拟谷歌搜索。以种子数据库表重中的人名姓名/组织名称+“Twitter”为搜索词,如“Tim Cook Twitter”,爬取搜索页面。由于Google已经对搜索的结果进行排序,搜索结果靠前的匹配的可能性较大,为保障正确率,只取第一条结果进行匹配。使用正则表达式(re=<a.*href=.*twitter.com/([\s\S]*?))匹配爬取数据的第一条信息,获取到人物/组织的Twitter账号。若匹配到结果,则存入人物组织社交账号表,没有匹配到则爬取下一个人物/组织。人物组织社交账号表包含字段:ID、人物/组织名称、社交账号ID、社交账号名称。例如,以“Kobe Bryant Twitter”为关键词,搜索出的结果如图2。
然后:通过Twitter爬取程序,获取社交账号的基本信息,以及社交账号的粉丝和关注。
调用Twitter开放的爬取API,获取Twitter账号的基本信息,存入Twitter信息表。Twitter信息表的字段包括:Twitter ID,Twitter昵称,Twitter用户名称,Twitter用户注册时间,Twitter用户简介,Twitter用户位置,Twitter用户发文数,Twitter用户关注数,Twitter用户粉丝数。
通过Twitter开放的爬取API,获取Twitter账号的关注与粉丝,存入Twitter关系表。Twitter关系表的字段包括:Twitter用户ID,Twitter用户关注ID。
继续:从Twitter信息表中筛选Twitter用户粉丝数大于2000的用户,存入重点账号库表。重点账号库表字段包括:重点账号ID,重点账号Twitter ID。
然后,通过爬取网页,获取人物、组织的Wikipedia页面URL。
从重点账号库表,获取一条数据。以人物/组织Twitter账号名称+“Wikipedia”为搜索词,如“Kobe Bryant Wikipedia”,爬取搜索页面。通过正则表达式(re=(<div class=“BNeawevvjwJbAP7Wnd”>([\s\S]*?)-.*?</div></h3>))匹配爬取页面的第一条信息,获取人物组织或者账号对应的人物组织的Wikipedia页面链接。若匹配结果不为空,则将结果存入人物/组织Wikipedia链接库表,否则爬取下一个。Wikipedia链接库表字段包括:人物/组织/账号ID,人物/组织/账号名称,Wikipedia链接URL。
同时,若匹配到Twitter账号对应的Wikipedia页面链接,则继续爬取该Twitter账号对应的粉丝与关注,存入Twitter账号基本信息库以及Twitter账号关系库。
然后,从Wikipedia链接库中读取Wikipedia链接URL。
根据Wikipedia页面链接爬取该人物/组织的Wikipedia页面,解析Wikipedia页面Infobox里面的信息,得到该人物组织的详细信息。存入人物组织基本信息库。人物/组织基本信息库字段包括:人物/组织ID、英文名称、中文名称、人物简介、住址、学历、职位、国籍、邮箱、官方网站。
循环迭代以上步骤,直至重点账号库中无新增的社交账号。从而将“由人找社交账号”和“由社交账号找人”两种方式结合,迭代式收集人物、组织、社交账号信息,提高收集速度,减少人力。
实施例2:迭代式数据获取方法,首先建立种子数据库,并读取种子数据名称,根据读取的种子数据名称通过爬取谷歌:名称+“”+Twitter,使用正则表达式匹配爬取数据的第一条信息,获取到人物/组织的Twitter账号。若没匹配到结果,重复爬取谷歌至到匹配到结果后存入人物组织社交账号库,多次匹配后若始终没有匹配到结果,则爬取下一个人物/组织。
读取已经存入人物/组织账号库的人物/组织账号,并爬取账号基本信息、粉丝和关注。存入Twitter基本信息库,Twitter关系库,若账号粉丝数大于2000,同时存入Twitter重点账号库。
基于以上过程,若重点账号库有新增数据时,则读取重点账号名称,然后爬取谷歌:名称+“”+wikipedia,使用正则表达式匹配爬取数据的第一条信息,获取人物组织或者账号对应的人物组织的Wikipedia页面链接。若没匹配到结果,重复爬取谷歌至到匹配到结果后存入wikipedia链接库,多次匹配后若始终没有匹配到结果则爬取下一个人物组织的Wikipedia页面链接。
然后从Wikipedia链接库中读取Wikipedia链接URL,爬取wikipedia页面,进而解析wikipedia infobox内信息,存入人物/组织基本信息库。
上述使用正则表达式匹配爬取数据的第一条信息,获取人物组织或者账号对应的人物组织的Wikipedia页面链接后,爬取账号基本信息、粉丝和关注。存入Twitter基本信息库,Twitter关系库,若账号粉丝数大于2000,同时存入Twitter重点账号库。

Claims (6)

1.一种迭代式数据获取方法,其特征在于,包括以下步骤:
第一步:从官方网站,人工收集一些人物姓名和组织名称,作为种子数据,存入种子数据库表;种子数据库表字段包括:人物/组织ID和人物/组织名称;
第二步:通过Senlenium调用谷歌搜索引擎驱动,模拟谷歌搜索,以种子数据库表中的人名姓名/组织名称+“Twitter”为搜索词,爬取搜索页面,使用正则表达式匹配爬取数据的第一条信息,获取到人物/组织的Twitter账号,若匹配到结果,则存入人物组织社交账号表,没有匹配到则爬取下一个人物/组织,人物组织社交账号表包含字段:ID、人物/组织名称、社交账号ID和社交账号名称;
第三步:调用Twitter开放的爬取API,获取Twitter账号的基本信息,存入Twitter信息表,通过Twitter开放的爬取API,获取Twitter账号的关注与粉丝,存入Twitter关系表;
第四步:从Twitter信息表中筛选Twitter用户粉丝数大于nk的用户,存入重点账号库表,重点账号库表字段包括:重点账号ID和重点账号Twitter ID;
第五步:从重点账号库表,获取一条数据,以人物/组织Twitter账号名称+“Wikipedia”为搜索词,爬取搜索页面,通过正则表达式匹配爬取页面的第一条信息,获取人物组织或者账号对应的人物组织的Wikipedia链接URL,若匹配结果不为空,则将结果存入人物/组织Wikipedia链接库表,否则爬取下一个Wikipedia链接URL;同时,若匹配到Twitter账号对应的Wikipedia链接URL,则继续爬取该Twitter账号对应的粉丝与关注,存入Twitter账号基本信息库以及Twitter账号关系库;
第六步:从Wikipedia链接库表中读取Wikipedia链接URL,根据Wikipedia链接URL爬取该人物/组织的Wikipedia页面,解析Wikipedia页面Infobox里面的信息,得到该人物组织的详细信息,存入人物组织基本信息库;
循环迭代以上步骤,直至重点账号库表中无新增的社交账号。
2.根据权利要求1所述的迭代式数据获取方法,其特征在于,步骤二中,由于谷歌已经对搜索的结果进行排序,搜索结果靠前的匹配的可能性较大,为保障正确率,只取第一条结果进行匹配。
3.根据权利要求1所述的迭代式数据获取方法,其特征在于,步骤三中,Twitter信息表的字段包括:Twitter ID,Twitter 昵称,Twitter 用户名称,Twitter 用户注册时间,Twitter 用户简介,Twitter用户位置,Twitter 用户发文数,Twitter用户关注数,Twitter用户粉丝数。
4.根据权利要求1所述的迭代式数据获取方法,其特征在于,步骤三中,Twitter关系表的字段包括:Twitter用户ID和Twitter用户关注ID。
5.根据权利要求1所述的迭代式数据获取方法,其特征在于,步骤五中,Wikipedia链接库表表字段包括:人物/组织/账号ID,人物/组织/账号名称。
6.根据权利要求1所述的迭代式数据获取方法,其特征在于,步骤六中,人物组织基本信息库字段包括:人物/组织ID、英文名称、中文名称、人物简介、住址、学历、职位、国籍、邮箱和官方网站。
CN202011642867.9A 2020-12-29 2020-12-29 迭代式数据获取方法 Active CN112632361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011642867.9A CN112632361B (zh) 2020-12-29 2020-12-29 迭代式数据获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011642867.9A CN112632361B (zh) 2020-12-29 2020-12-29 迭代式数据获取方法

Publications (2)

Publication Number Publication Date
CN112632361A CN112632361A (zh) 2021-04-09
CN112632361B true CN112632361B (zh) 2021-10-29

Family

ID=75290523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011642867.9A Active CN112632361B (zh) 2020-12-29 2020-12-29 迭代式数据获取方法

Country Status (1)

Country Link
CN (1) CN112632361B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810283A (zh) * 2014-02-20 2014-05-21 东莞中国科学院云计算产业技术创新与育成中心 一种基于用户关联关系的微博数据采集方法
CN103838814A (zh) * 2013-11-22 2014-06-04 南京欣网视讯信息技术有限公司 一种动态展示人脉图谱关系的方法
CN107360087A (zh) * 2017-08-30 2017-11-17 杭州安恒信息技术有限公司 一种社交图谱构建方法
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN109002470A (zh) * 2018-06-12 2018-12-14 东方银谷(北京)投资管理有限公司 知识图谱构建方法及装置、客户端
CN109241380A (zh) * 2018-08-24 2019-01-18 北京信息科技大学 一种基于网络爬虫和新浪api相结合的微博数据的采集方法
CN110020044A (zh) * 2017-09-22 2019-07-16 北京国双科技有限公司 一种爬虫的爬取方法及装置
CN110390039A (zh) * 2019-07-25 2019-10-29 广州汇智通信技术有限公司 基于知识图谱的社交关系分析方法、装置及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342630B2 (en) * 2011-12-27 2016-05-17 Infosys Limited System and method for monitoring and analyzing social network databases
US9098540B2 (en) * 2012-03-12 2015-08-04 Oracle International Corporation System and method for providing a governance model for use with an enterprise crawl and search framework environment
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
CN104281607A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 微博热点话题分析方法
CN103530402A (zh) * 2013-10-23 2014-01-22 北京航空航天大学 一种基于改进的PageRank的微博关键用户识别方法
CN103544321A (zh) * 2013-11-06 2014-01-29 北京国双科技有限公司 用于微博情感信息的数据处理方法和装置
US9146787B2 (en) * 2013-11-07 2015-09-29 Accenture Global Services Limited Analytics for application programming interfaces

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838814A (zh) * 2013-11-22 2014-06-04 南京欣网视讯信息技术有限公司 一种动态展示人脉图谱关系的方法
CN103810283A (zh) * 2014-02-20 2014-05-21 东莞中国科学院云计算产业技术创新与育成中心 一种基于用户关联关系的微博数据采集方法
CN107360087A (zh) * 2017-08-30 2017-11-17 杭州安恒信息技术有限公司 一种社交图谱构建方法
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN110020044A (zh) * 2017-09-22 2019-07-16 北京国双科技有限公司 一种爬虫的爬取方法及装置
CN109002470A (zh) * 2018-06-12 2018-12-14 东方银谷(北京)投资管理有限公司 知识图谱构建方法及装置、客户端
CN109241380A (zh) * 2018-08-24 2019-01-18 北京信息科技大学 一种基于网络爬虫和新浪api相结合的微博数据的采集方法
CN110390039A (zh) * 2019-07-25 2019-10-29 广州汇智通信技术有限公司 基于知识图谱的社交关系分析方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Analysing the Usage of Wikipedia on Twitter: Understanding Inter-Language Links;Zangerle, E 等;《PROCEEDINGS OF THE 49TH ANNUAL HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES (HICSS 2016)》;20160108;第1920-1929页 *
基于新浪微博的爬虫程序设计与实现;胡海潮;《无线互联科技》;20180510(第09期);第40-42页 *
微博信息采集系统研究;王文静;《电子制作》;20171115(第22期);第44-46、40页 *
支持动态更新的微博话题用户影响力度量方法;赵迪等;《山西大学学报(自然科学版)》;20200215(第01期);第22-29页 *

Also Published As

Publication number Publication date
CN112632361A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Coppedge et al. Varieties of democracy: Measuring two centuries of political change
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
JP5431727B2 (ja) 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
Pu et al. Subject categorization of query terms for exploring Web users' search interests
JP5607164B2 (ja) セマンティック・トレーディング・フロア
US9026543B2 (en) System and method for generating a relationship network
Jones et al. Geographic intention and modification in web search
US20160041986A1 (en) Smart Search Engine
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN100462969C (zh) 利用互联网为公众提供和查询信息的方法
US9760600B2 (en) Serving recurrent calendar events
CN101320375A (zh) 基于用户点击行为的数字图书搜索方法
US20100293159A1 (en) Systems and methods for extracting phases from text
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
CN105159898A (zh) 一种搜索的方法和装置
CA3063471A1 (en) Automated classification of network-accessible content
KR20050078655A (ko) 동적 키워드 추출과 처리 시스템
CN112632361B (zh) 迭代式数据获取方法
Tabarcea et al. Framework for location-aware search engine
KR101303363B1 (ko) 데이터 처리 시스템 및 방법
CN114077653A (zh) 一种通用文档数据灵活检索系统及方法
CN111625722A (zh) 一种基于深度学习的人才推荐方法、系统及存储介质
CN105159899A (zh) 一种搜索的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant