CN109543045A

CN109543045A - 一种全球产业链的展示方法

Info

Publication number: CN109543045A
Application number: CN201811360686.XA
Authority: CN
Inventors: 陈志杰; 孙锦彬; 王凯锋
Original assignee: Xiamen Benniao Agel Ecommerce Ltd
Current assignee: Xiamen Benniao Agel Ecommerce Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-03-29

Abstract

本发明涉及一种全球产业链的展示方法，其包括步骤1、根据网址库中的公司网址对公司网页进行数据采集，获取相应的网页文本信息；步骤2、进行数据清洗，保留信息完整的公司信息，即通过自然语言处理，从步骤1获取的网页文本信息中抽取公司数据；步骤3、根据步骤2所获得的公司数据，并结合相应公司的地理位置信息，构建出全球企业知识图谱；步骤4、根据相应的图数据库的查询语言，通过特定国家城市的关键词进行查询，获取对应城市的产业分布情况，并进行可视化展示。

Description

一种全球产业链的展示方法

技术领域

本发明涉及数据处理领域，具体涉及一种全球产业链的展示方法。

背景技术

一个城市的产业分布情况可能会影响该城市的产业发展布局，也有可能决定着一个公司在该城市的规划与发展。然而，目前还没有一种全球产业链展示方法能够直观地获知一个地区或一个城市的产业分布情况。

发明内容

本发明的目的在于提供一种全球产业链的展示方法，其通过对全球网页数据采集，挖掘网页内公司信息，从而构建全球产业链的知识图谱进行展示。

为实现上述目的，本发明采用的技术方案是：

一种全球产业链的展示方法，其包括以下步骤：

步骤1、根据网址库中的公司网址对公司网页进行数据采集，获取相应的网页文本信息；步骤2、进行数据清洗，保留信息完整的公司信息，即通过自然语言处理，从步骤1获取的网页文本信息中抽取公司数据，该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址；当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时，丢弃该公司数据；

步骤3、根据步骤2所获得的公司数据，并结合相应公司的地理位置信息，构建出全球企业知识图谱；

首先，根据步骤2所获得的公司数据，按照国家、城市两个层级对公司进行归类，归类完成后，统计每个城市的公司的关键词，从而得到每个城市的关键词词典；根据每个城市的每个关键词，统计每个关键词对应的公司数量，并按照关键词所包含的公司数对关键词进行排序，获得全球企业知识；

然后，利用图数据库存储上述全球企业知识，得到全球企业知识图谱；具体存储过程为：以大洲、国家、城市、关键词、公司名为实体，并以大洲、国家、城市、关键词、公司名之间的关系为图数据库的边，建立连接进行存储，其中，图数据库的边的定义分为：国家，partof，大洲；城市，part of，国家；城市，has industry，关键词；关键词，include company，公司名。

步骤4、根据相应的图数据库的查询语言，通过特定国家城市的关键词进行查询，获取对应城市的产业分布情况，并进行可视化展示。

所述展示方法还包括一数据更新机制，其具体如下：

全球企业知识图谱构建完成后，以时间T为周期，重复对网址库中的公司网址进行数据采集，获取相应的网页文本信息，然后重复步骤2和步骤3，构建新的全球企业知识图谱，并将该新的全球企业知识图谱进行单独存储。

所述步骤1中，网页文本信息的获取具体如下：

首先，通过人工整理，获取第一批公司网址，并将其存入网址库中，然后由网址库中的网址出发，通过爬虫技术爬取相应的公司网页，获取公司网页中的网页文本信息，以及包含在公司网页中的链接网址；当网址库中没有该链接网址时，将该链接网址存入网址库中，以更新网址库，然后采用爬虫技术爬取与该链接网址对应的公司网页，获取相应的网页文本信息；若该链接网址对应的公司网页中还包含链接网址，则继续爬取，循环往复获取网页文本信息。

采用上述方案后，本发明通过对公司网页进行数据采集，挖掘网页中的公司数据，从而构建全球企业知识图谱，根据该全球企业知识图谱可获取特定国家城市产业的公司分布情况，并对该城市产业的公司分布情况进行可视化展示。

此外，本发明引入数据更新机制，对网址库中的公司网址对应的公司网页进行定期的数据采集，重复抓取网页文本信息，获取网页文本信息中的公司数据，构建新的全球企业知识图谱。因为不同周期的全球企业知识图谱为分开存储，这样在进行特定国家城市产业分布情况查询时，可以获取对应城市动态变化的产业分布情况，从而看出该城市的产业链变化趋势。

附图说明

图1为本发明实施例的流程图。

具体实施方式

如图1所示，本发明揭示了一种全球产业链的展示方法，其包括以下步骤：

步骤1、根据网址库中的公司网址对公司网页进行数据采集，获取相应的网页文本信息，为全球企业知识图谱的构建提供语料库。

首先，通过人工整理，获取第一批公司网址，并将其存入网址库中；然后由网址库中的网址出发，通过爬虫技术爬取相应的公司网页，获取公司网页中的网页文本信息，以及包含在公司网页中的链接网址。当网址库中没有该链接网址时，将该链接网址存入网址库中，以更新网址库，然后采用爬虫技术爬取与该链接网址对应的公司网页，获取相应的网页文本信息。若该链接网址对应的公司网页中还包含链接网址，则继续爬取，循环往复，得到亿级别的公司网站。

步骤2、进行数据清洗，保留信息完整的公司信息，即通过自然语言处理，从步骤1获取的网页文本信息中抽取公司数据，该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址；当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时，丢弃该公司数据。

其中，公司名是通过开源自然语言处理工具提供的命名实体识别功能从网页文本信息中抽取得到，如斯坦福大学提供的coreNLP可从网页文本信息中提取出公司名。公司主题关键词通过TF-IDF算法从网页文本信息中提取得到，该公司主题关键词代表了公司的产品服务。公司联系电话通过正则表达式进行提取。公司地址则通过网页标签解析得到，如从<addr> 厦门市思明区前埔路国金广场602</addr>的网页文本信息，提取出公司所在地址。

步骤3、根据步骤2所获得的公司数据，并结合相应公司的地理位置信息，构建出全球企业知识图谱。

首先，根据步骤2所获得的公司数据，按照国家、城市两个层级对公司进行归类。归类完成后，统计每个城市的公司的关键词，从而得到每个城市的关键词词典。最后根据每个城市的每个关键词，统计每个关键词对应的公司数量，由此完成“国家-城市-关键词-公司”四个层级的内容，按照关键词所包含的公司数进行排序，获得全球企业知识。例如，中国厦门市，软件（800家公司），金融服务（700家公司）汽车制造（600家公司）等，由此可以看出某地区的产业分布状况。

然后，利用图数据库存储上述全球企业知识，得到全球企业知识图谱。具体存储过程为：以大洲、国家、城市、关键词、公司名为实体，以大洲、国家、城市、关键词、公司名之间的关系为边，建立连接进行存储，其中图数据库的边的定义分为：国家，part of，大洲；城市，part of，国家；城市，has industry，关键词；关键词，include company，公司名。

全球企业知识图谱构建完成后，定期对数据进行更新，即以时间T为周期，重复对网址库中的公司网址进行数据采集，获取相应的网页文本信息，然后重复步骤2和步骤3，构建新的全球企业知识图谱，并将该新的全球企业知识图谱进行单独存储，也就是说每个周期得到的全球企业知识图谱是分开存储的。该实施例中时间T为30天。

步骤4、根据相应的图数据库的查询语言如SPARSQL，通过特定国家城市的关键词进行查询，可以获取对应城市的不同周期内产业分布情况，并进行可视化展示。在进行显示时，不同的关键词可以用不同的颜色展示，从而看出该城市的产业链变化趋势。

本发明的关键在于，本发明通过对公司网页进行数据采集，挖掘网页中的公司数据，从而构建全球企业知识图谱，根据该全球企业知识图谱可获取特定国家城市产业的公司分布情况，并对该城市产业的公司分布情况进行可视化展示。

以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种全球产业链的展示方法，其特征在于：所述展示方法包括以下步骤：

然后，利用图数据库存储上述全球企业知识，得到全球企业知识图谱；具体存储过程为：以大洲、国家、城市、关键词、公司名为实体，并以大洲、国家、城市、关键词、公司名之间的关系为图数据库的边，建立连接进行存储，其中，图数据库的边的定义分为：国家，partof，大洲；城市，part of，国家；城市，has industry，关键词；关键词，include company，公司名；

2.根据权利要求1所述的一种全球产业链的展示方法，其特征在于：所述展示方法还包括一数据更新机制，其具体如下：

3.根据权利要求1所述的一种全球产业链的展示方法，其特征在于：所述步骤1中，网页文本信息的获取具体如下：

首先，通过人工整理，获取第一批公司网址，并将其存入网址库中；然后由网址库中的网址出发，通过爬虫技术爬取相应的公司网页，获取公司网页中的网页文本信息，以及包含在公司网页中的链接网址；当网址库中没有该链接网址时，将该链接网址存入网址库中，以更新网址库，然后采用爬虫技术爬取与该链接网址对应的公司网页，获取相应的网页文本信息；若该链接网址对应的公司网页中还包含链接网址，则继续爬取，循环往复获取网页文本信息。