CN105183767B

CN105183767B - 一种基于企业网络的企业业务相似度计算方法与系统

Info

Publication number: CN105183767B
Application number: CN201510464248.8A
Authority: CN
Inventors: 刘士军; 潘丽; 武蕾
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2018-07-20
Anticipated expiration: 2035-07-31
Also published as: CN105183767A

Abstract

本发明公开了一种基于企业网络的企业业务相似度计算方法与系统，将数据集中的每个企业作为节点加入到图数据库中，根据每条企业关系，在图数据库中查询到表示相关企业的节点，在节点间建立一条类型为供应关系的边，从而构造出企业网络；通过已经构造出来的企业网络，计算任意两个制造商之间的共用供应商在总的供应商中所占的比例，从而得到企业业务相似度；建立一条从一个企业指向另一个企业的边，其关系类型为Similar；构造出一个新的图S，任意两个有共用供应商的制造商，有一条Similar类型的边相连，边的属性SIM即为业务相似度。基于企业网络，依据制造商共用供应商数目，进行企业业务相似度计算的方法能够得到更可靠的结果。

Description

一种基于企业网络的企业业务相似度计算方法与系统

技术领域

本发明涉及一种基于企业网络的企业业务相似度计算方法与系统。

背景技术

社交网络的迅速发展，为人们解决问题提供了一种新的视角和工具。当前社交网络主要限制在人与人之间交际的网络，涉及到的实体和关系类型比较少，实体主要是人，而关系类型主要是人之间的社会关系。将社交网络的思想应用于企业网络，可以让我们以一个全新的视角来研究传统企业商业网络中存在的问题。企业网络中的实体涉及企业、产品和员工等，并且存在供应、分销、代理、投资和OEM等多种关系类型。实体种类多和关系复杂为挖掘有价值信息提供了丰富的原材料。当前，企业网络研究的目标也主要是对增值信息的挖掘。

在企业发展过程中，往往需要时刻关注竞争对手，并与自身相比较，从而向竞争对手学习，最终获得更好的发展。而其中很重要的一方面是，业务相似的企业构成了较强的竞争关系，这些企业也就成为了同行业相互关注的焦点。所以如何找到与自己业务最相似的企业成为了一个很有价值的问题。

现在找业务相似企业的一般方法是通过企业业务描述，寻找同行业企业，或者与自身行业领域地位相近的企业。存在的技术缺点如下：

1.在互联网上直接搜索相似企业，掌握的数据会比较局限，不够全面；而关键词选取精确度的差别，也不利于找到真正所需的数据。

2.现有的信息搜索，只是单纯的将结果罗列，不能形成良好的数据可视化展示，因此，分析同行业的企业时，需要人工不断重复地比较和分析，数据处理效率低。

3.现有的相似企业寻找方法，仅仅是通过主营业务的描述进行比较，由于文字描述的多样性，结果不够精确，误差较大；另外，业务的描述只能反映企业属于同一个行业，并不能真正反映企业业务的相似程度。

因此，亟需一种操作简便，数据精确，便于展示的基于企业网络的企业业务相似度计算方法与系统。

发明内容

为解决现有技术存在的不足，本发明公开了一种基于企业网络的企业业务相似度计算方法与系统，本发明基于企业网络，企业网络是一张有向图，企业是图中的节点，企业和企业之间的供应关系是节点之间的边，边是从供应商指向制造商。通过企业网络，我们可以找到一个制造商的所有供应商，以及一个供应商的所有制造商。制造商之间共用的供应商可以反映企业业务的相似度。制造商之间共用的供应商数目越多，可以认为这两个制造商在业务上越相似，反之，认为业务相似度较低。通过计算制造商之间共用供应商的数目，并经过归一化处理，即可得到制造商之间的业务相似度。

为实现上述目的，本发明的具体方案如下：

一种基于企业网络的企业业务相似度计算方法，包括以下步骤：

步骤一：数据集爬取和构建：通过爬虫将网站页面上的企业信息爬取下来，对爬取下来的配套信息进行分词匹配，并为企业信息对应的供应商和匹配出来的制造商建立供应关系；

步骤二：构建企业网络：企业网络的数据结构为有向图，采用的数据集主要包括企业信息和企业之间的供应关系信息，因此可以将数据集转换成有向图结构，并导入到图数据库中，将数据集中的每个企业作为节点加入到图数据库中，根据数据集中每条企业的供应关系在图数据库中查询到表示相关企业的节点，在节点间建立一条类型为供应关系的边；

步骤三：企业业务相似度计算：根据已经构造出来的企业网络，通过计算任意两个制造商之间的共用供应商在总的供应商中所占的比例进行企业业务相似度计算；建立一条从一个企业指向另一个企业的边，其关系类型为Similar；

步骤四：构造出一个新的图S，任意两个有共用供应商的制造商，有一条Similar类型的边相连，边的属性SIM即为业务相似度，基于新的图S进行企业业务相似度查询。

企业信息包括企业名称、主营产品、配套客户、厂家地址等信息。网站页面指的是B2B电子商务网站页面，对配套信息进行分词匹配采用的是现有的字典分词算法。

将数据集中的每个企业(包含企业名称，为方便检索，其他信息可选择性加入)作为节点加入到图数据库中。根据数据集中每条企业的供应关系(包含供应商名称和制造商名称，供应关系的其他信息选择性加入)，在图数据库中查询到表示相关企业的节点。

所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过程，主要步骤如下：

1)通过爬虫技术(标准爬虫技术，此处不做讨论)将B2B网站的相关信息爬取下来，主要包括企业名称、主营产品、配套客户、厂家地址等信息。

2)将所有爬取到的企业名称保存为分词字典，用于下一步的企业匹配。

3)针对爬取下来的每个供应商的配套客户信息，利用现有的分词算法(已有的利用字典的分词算法，此处不做讨论)将配套客户信息中的企业名称匹配出来，在一条记录中保存供应商名称和制造商名称，从而建立供应商到制造商的供应关系。

所述企业网络构建采用图数据库Neo4j保存和处理图数据，企业网络的构建工作主要用于在图数据库中建立企业节点和企业之间的关系边。

所述企业业务相似度计算，定义P(ENT_i)为制造商i的供应商集合，P(ENT_j)为制造商j的供应商集合，SHARE即为制造商i和j所共用的供应商数目，定义SIM_ij为制造商i和j的业务相似度，计算公式为：

SHARE＝|P(ENT_i)∩P(ENT_j)|

在图数据库中计算企业业务相似度主要步骤如下：

1)去除供应商数目过少制造商，由于数据集是从网络爬取的，存在一些噪音数据，将供应商数目少于设定量的作为噪音数据去掉，并将符合要求的制造商标签设为“OK”；

2)针对每一个标签为“OK”的企业，获取其id，进行3)-6)；

3)取制造商P，其编号为pid，计算其拥有的供应商数目pnum；

4)根据制造商P，取与其有共用供应商的其他每一制造商Q，并获得共用供应商数目SHARE，针对每一制造商Q，进行5)-6)；

5)根据制造商Q的qid，计算该制造商的拥有的供应商数目qnum；

6)计算企业P和企业Q的业务相似度SIM_pq，并建立一条从企业P指向企业Q的边，其关系类型为Similar，其相似度属性名为SIM，值为SIM_pq；

7)最终构造出来一个新的图S：任意两个有共用供应商的制造商，有一条Similar类型的边相连，边的属性SIM即为业务相似度。

一种基于企业网络的企业业务相似度计算系统，包括数据集爬取和构建模块，企业网络构建模块、企业业务相似度计算模块和查询模块。

数据集爬取和构建模块，通过爬虫，将B2B电子商务网站页面上的企业信息爬取下来，并使用字典分词算法对配套信息进行分词匹配，并为供应商和匹配出来的制造商建立供应关系；

企业网络构建模块，根据经过爬取来的企业关系数据，将企业网络构建出来，采用图数据库存储和处理企业网络数据；

企业业务相似度计算模块，在企业网络之上，对任意两个有共用供应商的制造商计算其业务相似度，并在两点之间建立一条边，其相似度作为边的一个属性，最终构造成新的图S；

业务相似度查询模块，在图S上，根据用户的需求进行相似度排序、企业相似度查询操作。

所述企业网络构建采用图数据库Neo4j保存和处理图数据，企业网络的构建工作主要为在图数据库中建立企业节点和企业之间的关系边。

SHARE＝|P(ENT_i)∩P(ENT_j)|

在图数据库中计算企业业务相似度主要步骤如下：

2)针对每一个标签为“OK”的企业，获取其id，进行3)-6)；

3)取制造商P，其编号为pid，计算其拥有的供应商数目pnum；

5)根据制造商Q的qid，计算该制造商的拥有的供应商数目qnum；

本发明通过爬虫将B2B网站上的企业信息爬取下来，并通过已有分词算法匹配企业关系；将数据集中的每个企业作为节点加入到图数据库中，根据每条企业关系，在图数据库中查询到表示相关企业的节点，在节点间建立一条类型为供应关系的边，从而构造出企业网络；通过已经构造出来的企业网络，计算任意两个制造商之间的共用供应商在总的供应商中所占的比例，从而得到企业业务相似度；建立一条从一个企业指向另一个企业的边，其关系类型为Similar；构造出一个新的图S，任意两个有共用供应商的制造商，有一条Similar类型的边相连，边的属性SIM即为业务相似度。基于企业网络，依据制造商共用供应商数目，进行企业业务相似度计算的方法能够得到更可靠的结果。

本发明的有益效果：

本发明在企业网络的基础上，以一个全新的方法进行企业业务相似度计算，最终可以根据用户需求寻找业务相似的企业或者按照业务相似度进行排名。与传统的仅仅以主营业务为相似度判断依据的方法相比，基于企业网络的企业业务相似度计算方法具有以下优势：

基于企业网络，依据制造商共用供应商数目，进行企业业务相似度计算的方法能够得到更可靠的结果。企业间的共用供应商数目可以较好的反映企业之间业务的相似程度，与仅仅以主营业务描述为判断依据的方法相比，可以为企业提供更精确、更有实用价值的企业相似度数据。

用户查询更加方便。采用图数据库对企业网络进行存储和处理，提高了处理速度。将生成的业务相似度结果构建成新的图S，可以让用户根据自己的需求进行快速的查询。

附图说明

图1为企业关系网络构建算法。

具体实施方式：

下面结合附图对本发明进行详细说明：

本发明的目的就是为了解决传统企业业务相似度计算方法仅仅依赖企业主营业务描述，造成查找到的相似企业不准确等问题，提出一个全新的方法来计算企业业务相似度，它是基于企业网络的。首先利用从网络上爬取的企业数据匹配企业关系，构建企业网络；然后在企业网络之上，利用制造商之间共用的供应商在总的供应商中所占的比例来衡量制造商之间的业务相似度；最后我们在图数据库Neo4j中构造一个新的图S，其中节点为企业，企业之间用Similar类型的边连接，边上有代表企业相似度的属性SIM，在S中可以方便的查询制造商之间的业务相似度。

本计算方法是在企业网络之上进行的，所使用的企业数据是通过互联网进行爬取得到的，并使用分词算法进行企业匹配，具体爬取方法和分词算法不在此进行说明。

一种基于企业网络的企业业务相似度计算方法：

1)数据集爬取和构建

①企业信息爬取。通过爬虫技术将B2B网站的相关信息爬取下来，主要爬取了企业名称、主营产品、配套客户、厂家地址等信息。

②将所有爬取到的企业名称保存为分词字典，例如爬取到中通客车有限公司、上海大众、康明斯发动机、潍柴动力等企业名称，可以将这几个名称保存在字典文档中。另外企业简称可以通过人工筛选与企业全称对应起来，提高简称匹配能力。

③利用现有的分词算法建立供应商到制造商的供应关系。例如，康明斯发动机的配套客户信息中包含“中通客车有限公司、上海大众”及其他一些信息，通过分词算法，使用企业名称字典，可以将中通客车有限公司和上海大众匹配出来，那么就可以建立康明斯发动机分别和中通客车有限公司与上海大众的供应关系。

2)企业关系网络构建

企业网络是一张有向图。图数据库比较适合存储和处理这种图数据结构的数据。Neo4j就是其中一种图数据库，采用图数据库Neo4j保存和处理图数据，从而提高数据处理的速度。采用cypher语言进行数据库查询和操作。用Neo4j存储从网络上爬取的企业信息和企业之间的供应关系。

构造企业网络主要是对点和边的建立。

①企业节点建立。从爬取到的数据中将每个企业取出，然后按如下Cypher语句插入到Neo4j中

Cypher语句：create(n:Enterprise{id:’企业id’,mc:’企业mc’,qt:’其他企业属性’})

②企业之间关系边的建立。从爬取到的数据中将每条关系取出，分别得到供应商gid和制造商zid。按如下Cypher插入到Neo4j中：

Cypher语句：match(n:Enterprise{id:’gid’}),(m:Enterprise{id:’zid’})create n-[:Supply_to]->m

(企业标签为Enterprise，供应关系类型为Supply_to)

3)企业业务相似度计算

企业网络已将企业之间的关系构建出来，在这基础上进行企业业务相似度计算，主要方法就是计算任意两个制造商之间的共用供应商在总的供应商中所占的比例。

在Neo4j中计算企业业务相似度主要步骤如下：

①去除供应商数目过少制造商。我们将供应商数目少于30的作为噪音数据去掉。并将符合要求的制造商标签设为“OK”。

Cypher语句：match(n:Enterprise)<-[:Supply_to]-(m:Enterprise)with count(m)as c，n where c>29set n：OK。

②针对每一个标签为“OK”的企业，获取其id，进行③-⑥。

Cypher语句：match(n:OK)return id(n)。

③取制造商P，其编号为pid，计算其供应商数目pnum。

Cypher语句：start n＝node(pid)match(n)<-[r:Supply_to]-(h:Enterprise)return count(distinct h)。

④根据制造商P，取与其有共用供应商的其他每一制造商Q，并计算共用供应商数目SHARE。针对每一制造商Q，进行⑤-⑥。

Cypher语句：start n＝node(id)match n<-[r:Supply_to]-(h:Enterprise)-[t:Supply_to]->(m:OK)return id(m),count(distinct h)。

⑤根据制造商Q的qid，查找该制造商的供应商数目qnum。

Cypher语句：start n＝node(qid)match(n)<-[r:Supply_to]-(h:Enterprise)return count(distinct h)。

⑥计算企业P和企业Q的业务相似度SIM_pq，并建立一条从企业P指向企业Q的边，其关系类型为Similar，其相似度属性名为SIM，值为SIM_pq。

Cypher语句：start n＝node(pid),m＝node(qid)create n-[:Similar{SIM:’SIM_pq’}]->m。

⑦最终构造出来一个新的图S，任意两个有共用供应商的制造商，有一条Similar类型的边相连，边的属性SIM即为业务相似度。

4)任意两制造商业务相似度查询。

经过上述步骤，我们构造了一个新的图S，在这张图里面我们可以查询任意两制造商之间的业务相似度。这里我们举例列出和某一制造商最相似的前十个制造商。

Cypher语句：match(n:Enterprise)-[r:Similar]-(m:Enterprise)where n.mc＝’某企业’return r.SIM,m.mc order by r.SIM desc limit 10。

经过以上步骤，可以计算两个制造商的业务相似度，如果想要计算供应商的业务相似度只要按上述过程将制造商和供应商互换就可以。与传统企业业务相似度计算相比，以企业网络为基础的企业业务相似度计算方法并不仅仅是以主营业务描述为依据，而是以更深层次的共用供应商为计算依据，从而能够让得到的业务相似度更加精确。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于企业网络的企业业务相似度计算方法，其特征是，包括以下步骤：

步骤二：构建企业网络：企业网络的数据结构为有向图，采用的数据集主要包括企业信息和企业之间的供应关系信息，因此将数据集转换成有向图结构，并导入到图数据库中，将数据集中的每个企业作为节点加入到图数据库中，根据数据集中每条企业的供应关系在图数据库中查询到表示相关企业的节点，在节点间建立一条类型为供应关系的边；

步骤四：构造出一个新的图S，任意两个有共用供应商的制造商，有一条Similar类型的边相连，边的属性SIM即为业务相似度，基于新的图S进行企业业务相似度查询；

1)通过爬虫技术将B2B网站的相关信息爬取下来，主要包括企业名称、主营产品、配套客户、厂家地址信息；

2)将所有爬取到的企业名称保存为分词字典，用于下一步的企业匹配；

3)针对爬取下来的每个供应商的配套客户信息，利用现有的分词算法将配套客户信息中的企业名称匹配出来，在一条记录中保存供应商名称和制造商名称，从而建立供应商到制造商的供应关系；

2.如权利要求1所述的一种基于企业网络的企业业务相似度计算方法，其特征是，所述企业业务相似度计算，定义P(ENT_i)为制造商i的供应商集合，P(ENT_j)为制造商j的供应商集合，SHARE即为制造商i和j所共用的供应商数目，定义SIM_ij为制造商i和j的业务相似度，计算公式为：

SHARE＝|P(ENT_i)∩P(ENT_j)|

3.如权利要求1所述的一种基于企业网络的企业业务相似度计算方法，其特征是，在图数据库中计算企业业务相似度主要步骤如下：

(1)去除供应商数目过少制造商，由于数据集是从网络爬取的，存在一些噪音数据，将供应商数目少于设定量的作为噪音数据去掉，并将符合要求的制造商标签设为“OK”；

(2)针对每一个标签为“OK”的企业，获取其id，进行(3)-(6)；

(3)取制造商P，其编号为pid，计算其拥有的供应商数目pnum；

(4)根据制造商P，取与其有共用供应商的其他每一制造商Q，并获得共用供应商数目SHARE，针对每一制造商Q，进行(5)-(6)；

(5)根据制造商Q的编号qid，计算该制造商的拥有的供应商数目qnum；

(6)计算企业P和企业Q的业务相似度SIM_pq，并建立一条从企业P指向企业Q的边，其关系类型为Similar，其相似度属性名为SIM，值为SIM_pq；

4.一种基于企业网络的企业业务相似度计算系统，其特征是，包括数据集爬取和构建模块，企业网络构建模块、企业业务相似度计算模块和查询模块；

业务相似度查询模块，在图S上，根据用户的需求进行相似度排序、企业相似度查询操作；

a通过爬虫技术将B2B网站的相关信息爬取下来，主要包括企业名称、主营产品、配套客户、厂家地址信息；

b将所有爬取到的企业名称保存为分词字典，用于下一步的企业匹配；

c针对爬取下来的每个供应商的配套客户信息，利用现有的分词算法将配套客户信息中的企业名称匹配出来，在一条记录中保存供应商名称和制造商名称，从而建立供应商到制造商的供应关系；

5.如权利要求4所述的一种基于企业网络的企业业务相似度计算系统，其特征是，所述企业业务相似度计算，定义P(ENT_i)为制造商i的供应商集合，P(ENT_j)为制造商j的供应商集合，SHARE即为制造商i和j所共用的供应商数目，定义SIM_ij为制造商i和j的业务相似度，计算公式为：

SHARE＝|P(ENT_i)∩P(ENT_j)|

6.如权利要求4所述的一种基于企业网络的企业业务相似度计算系统，其特征是，在图数据库中计算企业业务相似度主要步骤如下：

①去除供应商数目过少制造商，由于数据集是从网络爬取的，存在一些噪音数据，将供应商数目少于设定量的作为噪音数据去掉，并将符合要求的制造商标签设为“OK”；

②针对每一个标签为“OK”的企业，获取其id，进行③-⑥；

③取制造商P，其编号为pid，计算其拥有的供应商数目pnum；

④根据制造商P，取与其有共用供应商的其他每一制造商Q，并获得共用供应商数目SHARE，针对每一制造商Q，进行⑤-⑥；

⑤根据制造商Q的编号qid，计算该制造商的拥有的供应商数目qnum；

⑥计算企业P和企业Q的业务相似度SIM_pq，并建立一条从企业P指向企业Q的边，其关系类型为Similar，其相似度属性名为SIM，值为SIM_pq；

⑦最终构造出来一个新的图S：任意两个有共用供应商的制造商，有一条Similar类型的边相连，边的属性SIM即为业务相似度。