CN109543045A - 一种全球产业链的展示方法 - Google Patents
一种全球产业链的展示方法 Download PDFInfo
- Publication number
- CN109543045A CN109543045A CN201811360686.XA CN201811360686A CN109543045A CN 109543045 A CN109543045 A CN 109543045A CN 201811360686 A CN201811360686 A CN 201811360686A CN 109543045 A CN109543045 A CN 109543045A
- Authority
- CN
- China
- Prior art keywords
- company
- web page
- city
- keyword
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种全球产业链的展示方法,其包括步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息;步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据;步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱;步骤4、根据相应的图数据库的查询语言,通过特定国家城市的关键词进行查询,获取对应城市的产业分布情况,并进行可视化展示。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种全球产业链的展示方法。
背景技术
一个城市的产业分布情况可能会影响该城市的产业发展布局,也有可能决定着一个公司在该城市的规划与发展。然而,目前还没有一种全球产业链展示方法能够直观地获知一个地区或一个城市的产业分布情况。
发明内容
本发明的目的在于提供一种全球产业链的展示方法,其通过对全球网页数据采集,挖掘网页内公司信息,从而构建全球产业链的知识图谱进行展示。
为实现上述目的,本发明采用的技术方案是:
一种全球产业链的展示方法,其包括以下步骤:
步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息; 步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据,该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址;当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时,丢弃该公司数据;
步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱;
首先,根据步骤2所获得的公司数据,按照国家、城市两个层级对公司进行归类,归类完成后,统计每个城市的公司的关键词,从而得到每个城市的关键词词典;根据每个城市的每个关键词,统计每个关键词对应的公司数量,并按照关键词所包含的公司数对关键词进行排序,获得全球企业知识;
然后,利用图数据库存储上述全球企业知识,得到全球企业知识图谱;具体存储过程为:以大洲、国家、城市、关键词、公司名为实体,并以大洲、国家、城市、关键词、公司名之间的关系为图数据库的边,建立连接进行存储,其中,图数据库的边的定义分为:国家,partof,大洲;城市,part of,国家;城市,has industry,关键词;关键词,include company,公司名。
步骤4、根据相应的图数据库的查询语言,通过特定国家城市的关键词进行查询,获取对应城市的产业分布情况,并进行可视化展示。
所述展示方法还包括一数据更新机制,其具体如下:
全球企业知识图谱构建完成后,以时间T为周期,重复对网址库中的公司网址进行数据采集,获取相应的网页文本信息,然后重复步骤2和步骤3,构建新的全球企业知识图谱,并将该新的全球企业知识图谱进行单独存储。
所述步骤1中,网页文本信息的获取具体如下:
首先,通过人工整理,获取第一批公司网址,并将其存入网址库中,然后由网址库中的网址出发,通过爬虫技术爬取相应的公司网页,获取公司网页中的网页文本信息,以及包含在公司网页中的链接网址;当网址库中没有该链接网址时,将该链接网址存入网址库中,以更新网址库,然后采用爬虫技术爬取与该链接网址对应的公司网页,获取相应的网页文本信息;若该链接网址对应的公司网页中还包含链接网址,则继续爬取,循环往复获取网页文本信息。
采用上述方案后,本发明通过对公司网页进行数据采集,挖掘网页中的公司数据,从而构建全球企业知识图谱,根据该全球企业知识图谱可获取特定国家城市产业的公司分布情况,并对该城市产业的公司分布情况进行可视化展示。
此外,本发明引入数据更新机制,对网址库中的公司网址对应的公司网页进行定期的数据采集,重复抓取网页文本信息,获取网页文本信息中的公司数据,构建新的全球企业知识图谱。因为不同周期的全球企业知识图谱为分开存储,这样在进行特定国家城市产业分布情况查询时,可以获取对应城市动态变化的产业分布情况,从而看出该城市的产业链变化趋势。
附图说明
图1为本发明实施例的流程图。
具体实施方式
如图1所示,本发明揭示了一种全球产业链的展示方法,其包括以下步骤:
步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息,为全球企业知识图谱的构建提供语料库。
首先,通过人工整理,获取第一批公司网址,并将其存入网址库中;然后由网址库中的网址出发,通过爬虫技术爬取相应的公司网页,获取公司网页中的网页文本信息,以及包含在公司网页中的链接网址。当网址库中没有该链接网址时,将该链接网址存入网址库中,以更新网址库,然后采用爬虫技术爬取与该链接网址对应的公司网页,获取相应的网页文本信息。若该链接网址对应的公司网页中还包含链接网址,则继续爬取,循环往复,得到亿级别的公司网站。
步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据,该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址;当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时,丢弃该公司数据。
其中,公司名是通过开源自然语言处理工具提供的命名实体识别功能从网页文本信息中抽取得到,如斯坦福大学提供的coreNLP可从网页文本信息中提取出公司名。公司主题关键词通过TF-IDF算法从网页文本信息中提取得到,该公司主题关键词代表了公司的产品服务。公司联系电话通过正则表达式进行提取。公司地址则通过网页标签解析得到,如从<addr> 厦门市思明区前埔路国金广场602</addr>的网页文本信息,提取出公司所在地址。
步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱。
首先,根据步骤2所获得的公司数据,按照国家、城市两个层级对公司进行归类。归类完成后,统计每个城市的公司的关键词,从而得到每个城市的关键词词典。最后根据每个城市的每个关键词,统计每个关键词对应的公司数量,由此完成“国家-城市-关键词-公司”四个层级的内容,按照关键词所包含的公司数进行排序,获得全球企业知识。例如,中国厦门市,软件(800家公司),金融服务(700家公司)汽车制造(600家公司)等,由此可以看出某地区的产业分布状况。
然后,利用图数据库存储上述全球企业知识,得到全球企业知识图谱。具体存储过程为:以大洲、国家、城市、关键词、公司名为实体,以大洲、国家、城市、关键词、公司名之间的关系为边,建立连接进行存储,其中图数据库的边的定义分为:国家,part of,大洲;城市,part of,国家;城市,has industry,关键词;关键词,include company,公司名。
全球企业知识图谱构建完成后,定期对数据进行更新,即以时间T为周期,重复对网址库中的公司网址进行数据采集,获取相应的网页文本信息,然后重复步骤2和步骤3,构建新的全球企业知识图谱,并将该新的全球企业知识图谱进行单独存储,也就是说每个周期得到的全球企业知识图谱是分开存储的。该实施例中时间T为30天。
步骤4、根据相应的图数据库的查询语言如SPARSQL,通过特定国家城市的关键词进行查询,可以获取对应城市的不同周期内产业分布情况,并进行可视化展示。在进行显示时,不同的关键词可以用不同的颜色展示,从而看出该城市的产业链变化趋势。
本发明的关键在于,本发明通过对公司网页进行数据采集,挖掘网页中的公司数据,从而构建全球企业知识图谱,根据该全球企业知识图谱可获取特定国家城市产业的公司分布情况,并对该城市产业的公司分布情况进行可视化展示。
此外,本发明引入数据更新机制,对网址库中的公司网址对应的公司网页进行定期的数据采集,重复抓取网页文本信息,获取网页文本信息中的公司数据,构建新的全球企业知识图谱。因为不同周期的全球企业知识图谱为分开存储,这样在进行特定国家城市产业分布情况查询时,可以获取对应城市动态变化的产业分布情况,从而看出该城市的产业链变化趋势。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (3)
1.一种全球产业链的展示方法,其特征在于:所述展示方法包括以下步骤:
步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息; 步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据,该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址;当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时,丢弃该公司数据;
步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱;
首先,根据步骤2所获得的公司数据,按照国家、城市两个层级对公司进行归类,归类完成后,统计每个城市的公司的关键词,从而得到每个城市的关键词词典;根据每个城市的每个关键词,统计每个关键词对应的公司数量,并按照关键词所包含的公司数对关键词进行排序,获得全球企业知识;
然后,利用图数据库存储上述全球企业知识,得到全球企业知识图谱;具体存储过程为:以大洲、国家、城市、关键词、公司名为实体,并以大洲、国家、城市、关键词、公司名之间的关系为图数据库的边,建立连接进行存储,其中,图数据库的边的定义分为:国家,partof,大洲;城市,part of,国家;城市,has industry,关键词;关键词,include company,公司名;
步骤4、根据相应的图数据库的查询语言,通过特定国家城市的关键词进行查询,获取对应城市的产业分布情况,并进行可视化展示。
2.根据权利要求1所述的一种全球产业链的展示方法,其特征在于:所述展示方法还包括一数据更新机制,其具体如下:
全球企业知识图谱构建完成后,以时间T为周期,重复对网址库中的公司网址进行数据采集,获取相应的网页文本信息,然后重复步骤2和步骤3,构建新的全球企业知识图谱,并将该新的全球企业知识图谱进行单独存储。
3.根据权利要求1所述的一种全球产业链的展示方法,其特征在于:所述步骤1中,网页文本信息的获取具体如下:
首先,通过人工整理,获取第一批公司网址,并将其存入网址库中;然后由网址库中的网址出发,通过爬虫技术爬取相应的公司网页,获取公司网页中的网页文本信息,以及包含在公司网页中的链接网址;当网址库中没有该链接网址时,将该链接网址存入网址库中,以更新网址库,然后采用爬虫技术爬取与该链接网址对应的公司网页,获取相应的网页文本信息;若该链接网址对应的公司网页中还包含链接网址,则继续爬取,循环往复获取网页文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811360686.XA CN109543045A (zh) | 2018-11-15 | 2018-11-15 | 一种全球产业链的展示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811360686.XA CN109543045A (zh) | 2018-11-15 | 2018-11-15 | 一种全球产业链的展示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543045A true CN109543045A (zh) | 2019-03-29 |
Family
ID=65847684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811360686.XA Pending CN109543045A (zh) | 2018-11-15 | 2018-11-15 | 一种全球产业链的展示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543045A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104519A (zh) * | 2019-10-29 | 2020-05-05 | 北京海致星图科技有限公司 | 一种构建全量行政区域知识库的方法 |
CN113032496A (zh) * | 2021-04-19 | 2021-06-25 | 北京华数云网科技有限公司 | 一种基于产业知识图谱的产业大脑数据分析系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180107917A1 (en) * | 2016-10-19 | 2018-04-19 | Ebay Inc. | Applying a quantitative range for qualitative terms |
CN108038136A (zh) * | 2017-11-23 | 2018-05-15 | 上海斯睿德信息技术有限公司 | 基于图模型的企业知识图谱的建立方法和图形化查询方法 |
CN108229810A (zh) * | 2017-12-29 | 2018-06-29 | 中国科学院自动化研究所 | 基于网络信息资源的行业分析系统及方法 |
CN108460083A (zh) * | 2018-01-16 | 2018-08-28 | 浙江大学 | 一种知识图谱可视化查询工具 |
-
2018
- 2018-11-15 CN CN201811360686.XA patent/CN109543045A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180107917A1 (en) * | 2016-10-19 | 2018-04-19 | Ebay Inc. | Applying a quantitative range for qualitative terms |
CN108038136A (zh) * | 2017-11-23 | 2018-05-15 | 上海斯睿德信息技术有限公司 | 基于图模型的企业知识图谱的建立方法和图形化查询方法 |
CN108229810A (zh) * | 2017-12-29 | 2018-06-29 | 中国科学院自动化研究所 | 基于网络信息资源的行业分析系统及方法 |
CN108460083A (zh) * | 2018-01-16 | 2018-08-28 | 浙江大学 | 一种知识图谱可视化查询工具 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104519A (zh) * | 2019-10-29 | 2020-05-05 | 北京海致星图科技有限公司 | 一种构建全量行政区域知识库的方法 |
CN113032496A (zh) * | 2021-04-19 | 2021-06-25 | 北京华数云网科技有限公司 | 一种基于产业知识图谱的产业大脑数据分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580104B2 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
CN105183869B (zh) | 楼宇知识图谱数据库及其构建方法 | |
US8868621B2 (en) | Data extraction from HTML documents into tables for user comparison | |
CN103116657B (zh) | 一种网络教学资源的个性化搜索方法 | |
CN103491205B (zh) | 一种基于视频搜索的关联资源地址的推送方法和装置 | |
CN101996247B (zh) | 地址数据库的建构方法及装置 | |
Pezzoni et al. | How to kill inventors: testing the Massacrator© algorithm for inventor disambiguation | |
CN101118554A (zh) | 智能交互式问答系统及其处理方法 | |
CN103955463B (zh) | 一种政府的政策解构方法及系统 | |
CN103823893A (zh) | 一种基于用户评论的产品检索方法及产品检索系统 | |
CN100354865C (zh) | 仿人工细粒度网页信息采集方法 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN104615687A (zh) | 一种面向知识库更新的实体细粒度分类方法与系统 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
US20090222440A1 (en) | Search engine for carrying out a location-dependent search | |
CN106354844B (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
CN110442728A (zh) | 基于word2vec汽车产品领域的情感词典构建方法 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN109783484A (zh) | 基于知识图谱的数据服务平台的构建方法及系统 | |
CN107301166A (zh) | 面向跨领域进行信息抽取的多层次特征模型和特征评价方法 | |
CN101984432A (zh) | 地址数据库建构方法及装置 | |
CN104346331A (zh) | Xml数据库的检索方法及系统 | |
CN109543045A (zh) | 一种全球产业链的展示方法 | |
CN117151659B (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190329 |