CN105183767B - 一种基于企业网络的企业业务相似度计算方法与系统 - Google Patents

一种基于企业网络的企业业务相似度计算方法与系统 Download PDF

Info

Publication number
CN105183767B
CN105183767B CN201510464248.8A CN201510464248A CN105183767B CN 105183767 B CN105183767 B CN 105183767B CN 201510464248 A CN201510464248 A CN 201510464248A CN 105183767 B CN105183767 B CN 105183767B
Authority
CN
China
Prior art keywords
enterprise
manufacturer
business
similarity
supplier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510464248.8A
Other languages
English (en)
Other versions
CN105183767A (zh
Inventor
刘士军
潘丽
武蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201510464248.8A priority Critical patent/CN105183767B/zh
Publication of CN105183767A publication Critical patent/CN105183767A/zh
Application granted granted Critical
Publication of CN105183767B publication Critical patent/CN105183767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于企业网络的企业业务相似度计算方法与系统,将数据集中的每个企业作为节点加入到图数据库中,根据每条企业关系,在图数据库中查询到表示相关企业的节点,在节点间建立一条类型为供应关系的边,从而构造出企业网络;通过已经构造出来的企业网络,计算任意两个制造商之间的共用供应商在总的供应商中所占的比例,从而得到企业业务相似度;建立一条从一个企业指向另一个企业的边,其关系类型为Similar;构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。基于企业网络,依据制造商共用供应商数目,进行企业业务相似度计算的方法能够得到更可靠的结果。

Description

一种基于企业网络的企业业务相似度计算方法与系统
技术领域
本发明涉及一种基于企业网络的企业业务相似度计算方法与系统。
背景技术
社交网络的迅速发展,为人们解决问题提供了一种新的视角和工具。当前社交网络主要限制在人与人之间交际的网络,涉及到的实体和关系类型比较少,实体主要是人,而关系类型主要是人之间的社会关系。将社交网络的思想应用于企业网络,可以让我们以一个全新的视角来研究传统企业商业网络中存在的问题。企业网络中的实体涉及企业、产品和员工等,并且存在供应、分销、代理、投资和OEM等多种关系类型。实体种类多和关系复杂为挖掘有价值信息提供了丰富的原材料。当前,企业网络研究的目标也主要是对增值信息的挖掘。
在企业发展过程中,往往需要时刻关注竞争对手,并与自身相比较,从而向竞争对手学习,最终获得更好的发展。而其中很重要的一方面是,业务相似的企业构成了较强的竞争关系,这些企业也就成为了同行业相互关注的焦点。所以如何找到与自己业务最相似的企业成为了一个很有价值的问题。
现在找业务相似企业的一般方法是通过企业业务描述,寻找同行业企业,或者与自身行业领域地位相近的企业。存在的技术缺点如下:
1.在互联网上直接搜索相似企业,掌握的数据会比较局限,不够全面;而关键词选取精确度的差别,也不利于找到真正所需的数据。
2.现有的信息搜索,只是单纯的将结果罗列,不能形成良好的数据可视化展示,因此,分析同行业的企业时,需要人工不断重复地比较和分析,数据处理效率低。
3.现有的相似企业寻找方法,仅仅是通过主营业务的描述进行比较,由于文字描述的多样性,结果不够精确,误差较大;另外,业务的描述只能反映企业属于同一个行业,并不能真正反映企业业务的相似程度。
因此,亟需一种操作简便,数据精确,便于展示的基于企业网络的企业业务相似度计算方法与系统。
发明内容
为解决现有技术存在的不足,本发明公开了一种基于企业网络的企业业务相似度计算方法与系统,本发明基于企业网络,企业网络是一张有向图,企业是图中的节点,企业和企业之间的供应关系是节点之间的边,边是从供应商指向制造商。通过企业网络,我们可以找到一个制造商的所有供应商,以及一个供应商的所有制造商。制造商之间共用的供应商可以反映企业业务的相似度。制造商之间共用的供应商数目越多,可以认为这两个制造商在业务上越相似,反之,认为业务相似度较低。通过计算制造商之间共用供应商的数目,并经过归一化处理,即可得到制造商之间的业务相似度。
为实现上述目的,本发明的具体方案如下:
一种基于企业网络的企业业务相似度计算方法,包括以下步骤:
步骤一:数据集爬取和构建:通过爬虫将网站页面上的企业信息爬取下来,对爬取下来的配套信息进行分词匹配,并为企业信息对应的供应商和匹配出来的制造商建立供应关系;
步骤二:构建企业网络:企业网络的数据结构为有向图,采用的数据集主要包括企业信息和企业之间的供应关系信息,因此可以将数据集转换成有向图结构,并导入到图数据库中,将数据集中的每个企业作为节点加入到图数据库中,根据数据集中每条企业的供应关系在图数据库中查询到表示相关企业的节点,在节点间建立一条类型为供应关系的边;
步骤三:企业业务相似度计算:根据已经构造出来的企业网络,通过计算任意两个制造商之间的共用供应商在总的供应商中所占的比例进行企业业务相似度计算;建立一条从一个企业指向另一个企业的边,其关系类型为Similar;
步骤四:构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度,基于新的图S进行企业业务相似度查询。
企业信息包括企业名称、主营产品、配套客户、厂家地址等信息。网站页面指的是B2B电子商务网站页面,对配套信息进行分词匹配采用的是现有的字典分词算法。
将数据集中的每个企业(包含企业名称,为方便检索,其他信息可选择性加入)作为节点加入到图数据库中。根据数据集中每条企业的供应关系(包含供应商名称和制造商名称,供应关系的其他信息选择性加入),在图数据库中查询到表示相关企业的节点。
所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过程,主要步骤如下:
1)通过爬虫技术(标准爬虫技术,此处不做讨论)将B2B网站的相关信息爬取下来,主要包括企业名称、主营产品、配套客户、厂家地址等信息。
2)将所有爬取到的企业名称保存为分词字典,用于下一步的企业匹配。
3)针对爬取下来的每个供应商的配套客户信息,利用现有的分词算法(已有的利用字典的分词算法,此处不做讨论)将配套客户信息中的企业名称匹配出来,在一条记录中保存供应商名称和制造商名称,从而建立供应商到制造商的供应关系。
所述企业网络构建采用图数据库Neo4j保存和处理图数据,企业网络的构建工作主要用于在图数据库中建立企业节点和企业之间的关系边。
所述企业业务相似度计算,定义P(ENTi)为制造商i的供应商集合,P(ENTj)为制造商j的供应商集合,SHARE即为制造商i和j所共用的供应商数目,定义SIMij为制造商i和j的业务相似度,计算公式为:
SHARE=|P(ENTi)∩P(ENTj)|
在图数据库中计算企业业务相似度主要步骤如下:
1)去除供应商数目过少制造商,由于数据集是从网络爬取的,存在一些噪音数据,将供应商数目少于设定量的作为噪音数据去掉,并将符合要求的制造商标签设为“OK”;
2)针对每一个标签为“OK”的企业,获取其id,进行3)-6);
3)取制造商P,其编号为pid,计算其拥有的供应商数目pnum;
4)根据制造商P,取与其有共用供应商的其他每一制造商Q,并获得共用供应商数目SHARE,针对每一制造商Q,进行5)-6);
5)根据制造商Q的qid,计算该制造商的拥有的供应商数目qnum;
6)计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关系类型为Similar,其相似度属性名为SIM,值为SIMpq
7)最终构造出来一个新的图S:任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。
一种基于企业网络的企业业务相似度计算系统,包括数据集爬取和构建模块,企业网络构建模块、企业业务相似度计算模块和查询模块。
数据集爬取和构建模块,通过爬虫,将B2B电子商务网站页面上的企业信息爬取下来,并使用字典分词算法对配套信息进行分词匹配,并为供应商和匹配出来的制造商建立供应关系;
企业网络构建模块,根据经过爬取来的企业关系数据,将企业网络构建出来,采用图数据库存储和处理企业网络数据;
企业业务相似度计算模块,在企业网络之上,对任意两个有共用供应商的制造商计算其业务相似度,并在两点之间建立一条边,其相似度作为边的一个属性,最终构造成新的图S;
业务相似度查询模块,在图S上,根据用户的需求进行相似度排序、企业相似度查询操作。
所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过程,主要步骤如下:
1)通过爬虫技术(标准爬虫技术,此处不做讨论)将B2B网站的相关信息爬取下来,主要包括企业名称、主营产品、配套客户、厂家地址等信息。
2)将所有爬取到的企业名称保存为分词字典,用于下一步的企业匹配。
3)针对爬取下来的每个供应商的配套客户信息,利用现有的分词算法(已有的利用字典的分词算法,此处不做讨论)将配套客户信息中的企业名称匹配出来,在一条记录中保存供应商名称和制造商名称,从而建立供应商到制造商的供应关系。
所述企业网络构建采用图数据库Neo4j保存和处理图数据,企业网络的构建工作主要为在图数据库中建立企业节点和企业之间的关系边。
所述企业业务相似度计算,定义P(ENTi)为制造商i的供应商集合,P(ENTj)为制造商j的供应商集合,SHARE即为制造商i和j所共用的供应商数目,定义SIMij为制造商i和j的业务相似度,计算公式为:
SHARE=|P(ENTi)∩P(ENTj)|
在图数据库中计算企业业务相似度主要步骤如下:
1)去除供应商数目过少制造商,由于数据集是从网络爬取的,存在一些噪音数据,将供应商数目少于设定量的作为噪音数据去掉,并将符合要求的制造商标签设为“OK”;
2)针对每一个标签为“OK”的企业,获取其id,进行3)-6);
3)取制造商P,其编号为pid,计算其拥有的供应商数目pnum;
4)根据制造商P,取与其有共用供应商的其他每一制造商Q,并获得共用供应商数目SHARE,针对每一制造商Q,进行5)-6);
5)根据制造商Q的qid,计算该制造商的拥有的供应商数目qnum;
6)计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关系类型为Similar,其相似度属性名为SIM,值为SIMpq
7)最终构造出来一个新的图S:任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。
本发明通过爬虫将B2B网站上的企业信息爬取下来,并通过已有分词算法匹配企业关系;将数据集中的每个企业作为节点加入到图数据库中,根据每条企业关系,在图数据库中查询到表示相关企业的节点,在节点间建立一条类型为供应关系的边,从而构造出企业网络;通过已经构造出来的企业网络,计算任意两个制造商之间的共用供应商在总的供应商中所占的比例,从而得到企业业务相似度;建立一条从一个企业指向另一个企业的边,其关系类型为Similar;构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。基于企业网络,依据制造商共用供应商数目,进行企业业务相似度计算的方法能够得到更可靠的结果。
本发明的有益效果:
本发明在企业网络的基础上,以一个全新的方法进行企业业务相似度计算,最终可以根据用户需求寻找业务相似的企业或者按照业务相似度进行排名。与传统的仅仅以主营业务为相似度判断依据的方法相比,基于企业网络的企业业务相似度计算方法具有以下优势:
基于企业网络,依据制造商共用供应商数目,进行企业业务相似度计算的方法能够得到更可靠的结果。企业间的共用供应商数目可以较好的反映企业之间业务的相似程度,与仅仅以主营业务描述为判断依据的方法相比,可以为企业提供更精确、更有实用价值的企业相似度数据。
用户查询更加方便。采用图数据库对企业网络进行存储和处理,提高了处理速度。将生成的业务相似度结果构建成新的图S,可以让用户根据自己的需求进行快速的查询。
附图说明
图1为企业关系网络构建算法。
具体实施方式:
下面结合附图对本发明进行详细说明:
本发明的目的就是为了解决传统企业业务相似度计算方法仅仅依赖企业主营业务描述,造成查找到的相似企业不准确等问题,提出一个全新的方法来计算企业业务相似度,它是基于企业网络的。首先利用从网络上爬取的企业数据匹配企业关系,构建企业网络;然后在企业网络之上,利用制造商之间共用的供应商在总的供应商中所占的比例来衡量制造商之间的业务相似度;最后我们在图数据库Neo4j中构造一个新的图S,其中节点为企业,企业之间用Similar类型的边连接,边上有代表企业相似度的属性SIM,在S中可以方便的查询制造商之间的业务相似度。
本计算方法是在企业网络之上进行的,所使用的企业数据是通过互联网进行爬取得到的,并使用分词算法进行企业匹配,具体爬取方法和分词算法不在此进行说明。
一种基于企业网络的企业业务相似度计算方法:
1)数据集爬取和构建
①企业信息爬取。通过爬虫技术将B2B网站的相关信息爬取下来,主要爬取了企业名称、主营产品、配套客户、厂家地址等信息。
②将所有爬取到的企业名称保存为分词字典,例如爬取到中通客车有限公司、上海大众、康明斯发动机、潍柴动力等企业名称,可以将这几个名称保存在字典文档中。另外企业简称可以通过人工筛选与企业全称对应起来,提高简称匹配能力。
③利用现有的分词算法建立供应商到制造商的供应关系。例如,康明斯发动机的配套客户信息中包含“中通客车有限公司、上海大众”及其他一些信息,通过分词算法,使用企业名称字典,可以将中通客车有限公司和上海大众匹配出来,那么就可以建立康明斯发动机分别和中通客车有限公司与上海大众的供应关系。
2)企业关系网络构建
企业网络是一张有向图。图数据库比较适合存储和处理这种图数据结构的数据。Neo4j就是其中一种图数据库,采用图数据库Neo4j保存和处理图数据,从而提高数据处理的速度。采用cypher语言进行数据库查询和操作。用Neo4j存储从网络上爬取的企业信息和企业之间的供应关系。
构造企业网络主要是对点和边的建立。
①企业节点建立。从爬取到的数据中将每个企业取出,然后按如下Cypher语句插入到Neo4j中
Cypher语句:create(n:Enterprise{id:’企业id’,mc:’企业mc’,qt:’其他企业属性’})
②企业之间关系边的建立。从爬取到的数据中将每条关系取出,分别得到供应商gid和制造商zid。按如下Cypher插入到Neo4j中:
Cypher语句:match(n:Enterprise{id:’gid’}),(m:Enterprise{id:’zid’})create n-[:Supply_to]->m
(企业标签为Enterprise,供应关系类型为Supply_to)
3)企业业务相似度计算
企业网络已将企业之间的关系构建出来,在这基础上进行企业业务相似度计算,主要方法就是计算任意两个制造商之间的共用供应商在总的供应商中所占的比例。
在Neo4j中计算企业业务相似度主要步骤如下:
①去除供应商数目过少制造商。我们将供应商数目少于30的作为噪音数据去掉。并将符合要求的制造商标签设为“OK”。
Cypher语句:match(n:Enterprise)<-[:Supply_to]-(m:Enterprise)with count(m)as c,n where c>29set n:OK。
②针对每一个标签为“OK”的企业,获取其id,进行③-⑥。
Cypher语句:match(n:OK)return id(n)。
③取制造商P,其编号为pid,计算其供应商数目pnum。
Cypher语句:start n=node(pid)match(n)<-[r:Supply_to]-(h:Enterprise)return count(distinct h)。
④根据制造商P,取与其有共用供应商的其他每一制造商Q,并计算共用供应商数目SHARE。针对每一制造商Q,进行⑤-⑥。
Cypher语句:start n=node(id)match n<-[r:Supply_to]-(h:Enterprise)-[t:Supply_to]->(m:OK)return id(m),count(distinct h)。
⑤根据制造商Q的qid,查找该制造商的供应商数目qnum。
Cypher语句:start n=node(qid)match(n)<-[r:Supply_to]-(h:Enterprise)return count(distinct h)。
⑥计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关系类型为Similar,其相似度属性名为SIM,值为SIMpq
Cypher语句:start n=node(pid),m=node(qid)create n-[:Similar{SIM:’SIMpq’}]->m。
⑦最终构造出来一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。
4)任意两制造商业务相似度查询。
经过上述步骤,我们构造了一个新的图S,在这张图里面我们可以查询任意两制造商之间的业务相似度。这里我们举例列出和某一制造商最相似的前十个制造商。
Cypher语句:match(n:Enterprise)-[r:Similar]-(m:Enterprise)where n.mc=’某企业’return r.SIM,m.mc order by r.SIM desc limit 10。
经过以上步骤,可以计算两个制造商的业务相似度,如果想要计算供应商的业务相似度只要按上述过程将制造商和供应商互换就可以。与传统企业业务相似度计算相比,以企业网络为基础的企业业务相似度计算方法并不仅仅是以主营业务描述为依据,而是以更深层次的共用供应商为计算依据,从而能够让得到的业务相似度更加精确。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (6)

1.一种基于企业网络的企业业务相似度计算方法,其特征是,包括以下步骤:
步骤一:数据集爬取和构建:通过爬虫将网站页面上的企业信息爬取下来,对爬取下来的配套信息进行分词匹配,并为企业信息对应的供应商和匹配出来的制造商建立供应关系;
步骤二:构建企业网络:企业网络的数据结构为有向图,采用的数据集主要包括企业信息和企业之间的供应关系信息,因此将数据集转换成有向图结构,并导入到图数据库中,将数据集中的每个企业作为节点加入到图数据库中,根据数据集中每条企业的供应关系在图数据库中查询到表示相关企业的节点,在节点间建立一条类型为供应关系的边;
步骤三:企业业务相似度计算:根据已经构造出来的企业网络,通过计算任意两个制造商之间的共用供应商在总的供应商中所占的比例进行企业业务相似度计算;建立一条从一个企业指向另一个企业的边,其关系类型为Similar;
步骤四:构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度,基于新的图S进行企业业务相似度查询;
所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过程,主要步骤如下:
1)通过爬虫技术将B2B网站的相关信息爬取下来,主要包括企业名称、主营产品、配套客户、厂家地址信息;
2)将所有爬取到的企业名称保存为分词字典,用于下一步的企业匹配;
3)针对爬取下来的每个供应商的配套客户信息,利用现有的分词算法将配套客户信息中的企业名称匹配出来,在一条记录中保存供应商名称和制造商名称,从而建立供应商到制造商的供应关系;
所述企业网络构建采用图数据库Neo4j保存和处理图数据,企业网络的构建工作主要为在图数据库中建立企业节点和企业之间的关系边。
2.如权利要求1所述的一种基于企业网络的企业业务相似度计算方法,其特征是,所述企业业务相似度计算,定义P(ENTi)为制造商i的供应商集合,P(ENTj)为制造商j的供应商集合,SHARE即为制造商i和j所共用的供应商数目,定义SIMij为制造商i和j的业务相似度,计算公式为:
SHARE=|P(ENTi)∩P(ENTj)|
3.如权利要求1所述的一种基于企业网络的企业业务相似度计算方法,其特征是,在图数据库中计算企业业务相似度主要步骤如下:
(1)去除供应商数目过少制造商,由于数据集是从网络爬取的,存在一些噪音数据,将供应商数目少于设定量的作为噪音数据去掉,并将符合要求的制造商标签设为“OK”;
(2)针对每一个标签为“OK”的企业,获取其id,进行(3)-(6);
(3)取制造商P,其编号为pid,计算其拥有的供应商数目pnum;
(4)根据制造商P,取与其有共用供应商的其他每一制造商Q,并获得共用供应商数目SHARE,针对每一制造商Q,进行(5)-(6);
(5)根据制造商Q的编号qid,计算该制造商的拥有的供应商数目qnum;
(6)计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关系类型为Similar,其相似度属性名为SIM,值为SIMpq
7)最终构造出来一个新的图S:任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。
4.一种基于企业网络的企业业务相似度计算系统,其特征是,包括数据集爬取和构建模块,企业网络构建模块、企业业务相似度计算模块和查询模块;
数据集爬取和构建模块,通过爬虫,将B2B电子商务网站页面上的企业信息爬取下来,并使用字典分词算法对配套信息进行分词匹配,并为供应商和匹配出来的制造商建立供应关系;
企业网络构建模块,根据经过爬取来的企业关系数据,将企业网络构建出来,采用图数据库存储和处理企业网络数据;
企业业务相似度计算模块,在企业网络之上,对任意两个有共用供应商的制造商计算其业务相似度,并在两点之间建立一条边,其相似度作为边的一个属性,最终构造成新的图S;
业务相似度查询模块,在图S上,根据用户的需求进行相似度排序、企业相似度查询操作;
所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过程,主要步骤如下:
a通过爬虫技术将B2B网站的相关信息爬取下来,主要包括企业名称、主营产品、配套客户、厂家地址信息;
b将所有爬取到的企业名称保存为分词字典,用于下一步的企业匹配;
c针对爬取下来的每个供应商的配套客户信息,利用现有的分词算法将配套客户信息中的企业名称匹配出来,在一条记录中保存供应商名称和制造商名称,从而建立供应商到制造商的供应关系;
所述企业网络构建采用图数据库Neo4j保存和处理图数据,企业网络的构建工作主要为在图数据库中建立企业节点和企业之间的关系边。
5.如权利要求4所述的一种基于企业网络的企业业务相似度计算系统,其特征是,所述企业业务相似度计算,定义P(ENTi)为制造商i的供应商集合,P(ENTj)为制造商j的供应商集合,SHARE即为制造商i和j所共用的供应商数目,定义SIMij为制造商i和j的业务相似度,计算公式为:
SHARE=|P(ENTi)∩P(ENTj)|
6.如权利要求4所述的一种基于企业网络的企业业务相似度计算系统,其特征是,在图数据库中计算企业业务相似度主要步骤如下:
①去除供应商数目过少制造商,由于数据集是从网络爬取的,存在一些噪音数据,将供应商数目少于设定量的作为噪音数据去掉,并将符合要求的制造商标签设为“OK”;
②针对每一个标签为“OK”的企业,获取其id,进行③-⑥;
③取制造商P,其编号为pid,计算其拥有的供应商数目pnum;
④根据制造商P,取与其有共用供应商的其他每一制造商Q,并获得共用供应商数目SHARE,针对每一制造商Q,进行⑤-⑥;
⑤根据制造商Q的编号qid,计算该制造商的拥有的供应商数目qnum;
⑥计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关系类型为Similar,其相似度属性名为SIM,值为SIMpq
⑦最终构造出来一个新的图S:任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。
CN201510464248.8A 2015-07-31 2015-07-31 一种基于企业网络的企业业务相似度计算方法与系统 Active CN105183767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510464248.8A CN105183767B (zh) 2015-07-31 2015-07-31 一种基于企业网络的企业业务相似度计算方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510464248.8A CN105183767B (zh) 2015-07-31 2015-07-31 一种基于企业网络的企业业务相似度计算方法与系统

Publications (2)

Publication Number Publication Date
CN105183767A CN105183767A (zh) 2015-12-23
CN105183767B true CN105183767B (zh) 2018-07-20

Family

ID=54905851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510464248.8A Active CN105183767B (zh) 2015-07-31 2015-07-31 一种基于企业网络的企业业务相似度计算方法与系统

Country Status (1)

Country Link
CN (1) CN105183767B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761122B (zh) * 2016-04-29 2020-09-08 山东大学 一种融合制造商相似度的产品推荐方法及装置
CN106022595B (zh) * 2016-05-16 2019-10-01 山东大学 基于采购数据的企业自我网络关系圈划分方法及服务器
CN107402927A (zh) * 2016-05-19 2017-11-28 上海斯睿德信息技术有限公司 一种基于图模型的企业关联关系拓扑建立方法及查询方法
CN108121712B (zh) * 2016-11-28 2020-10-30 北京国双科技有限公司 一种关键词存储方法及装置
CN107908626A (zh) * 2016-12-30 2018-04-13 上海壹账通金融科技有限公司 公司相似度的计算方法及装置
CN108038136A (zh) * 2017-11-23 2018-05-15 上海斯睿德信息技术有限公司 基于图模型的企业知识图谱的建立方法和图形化查询方法
CN108897833B (zh) * 2018-06-22 2019-05-03 龙马智芯(珠海横琴)科技有限公司 企业间相关性的分析方法、装置和存储介质
CN108960986A (zh) * 2018-06-26 2018-12-07 西安交通大学 一种基于网络爬虫的供应商推荐方法
CN108965410B (zh) * 2018-07-02 2021-03-09 成都来肯信息技术有限公司 一种企业间无缝业务数据交互erp系统及其使用方法
CN108985606A (zh) * 2018-07-05 2018-12-11 龙马智芯(珠海横琴)科技有限公司 企业相似性比较方法及系统
CN109189828A (zh) * 2018-08-16 2019-01-11 国云科技股份有限公司 一种基于复杂网络的业务部门间数据价值评估的方法
CN109299362B (zh) * 2018-09-21 2023-04-14 平安科技(深圳)有限公司 相似企业推荐方法、装置、计算机设备及存储介质
CN109376273B (zh) * 2018-09-21 2024-02-27 平安科技(深圳)有限公司 企业信息图谱构建方法、装置、计算机设备及存储介质
CN109726203A (zh) * 2018-12-20 2019-05-07 四川新网银行股份有限公司 一种重构图的数据存储方法
CN109656924B (zh) * 2018-12-20 2023-06-27 四川新网银行股份有限公司 一种基于存储的重构图进行数据查询的方法
CN112328839B (zh) * 2020-11-05 2024-02-27 航天信息股份有限公司 一种基于企业进销关系图谱的企业风险识别方法与系统
CN113836362A (zh) * 2021-09-30 2021-12-24 浙江创邻科技有限公司 一种基于图技术的供应链管理系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087730A (zh) * 2009-12-08 2011-06-08 深圳市腾讯计算机系统有限公司 一种产品用户网络构建方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182618A1 (en) * 2008-01-16 2009-07-16 Yahoo! Inc. System and Method for Word-of-Mouth Advertising

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087730A (zh) * 2009-12-08 2011-06-08 深圳市腾讯计算机系统有限公司 一种产品用户网络构建方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
企业关系网络中基于相似度的弱关系分析;曹杨毅 等;《广西大学学报: 自然科学版》;20141231;第39卷(第6期);第1300-1308页 *

Also Published As

Publication number Publication date
CN105183767A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105183767B (zh) 一种基于企业网络的企业业务相似度计算方法与系统
US20070174304A1 (en) Querying social networks
Lee et al. Using patent information for designing new product and technology: keyword based technology roadmapping
CN103092911B (zh) 一种融合社会标签相似度基于k近邻的协同过滤推荐系统
CN104700190B (zh) 一种用于项目与专业人员匹配的方法和装置
CN108038136A (zh) 基于图模型的企业知识图谱的建立方法和图形化查询方法
CN101286151A (zh) 建立多维模型和数据仓库模式的映射的方法及相关系统
Feng et al. Patent text mining and informetric-based patent technology morphological analysis: an empirical study
CN103377190A (zh) 一种基于交易平台的供应商信息搜索方法和装置
CN103198136B (zh) 一种基于时序关联的个人电脑文件查询方法
Ruiz et al. Facilitating document annotation using content and querying value
Wang et al. A quantitative exploration on reasons for citing articles from the perspective of cited authors
CN116361367A (zh) 一种高效发布招聘信息的内容识别系统及方法
US11010675B1 (en) Machine learning integration for a dynamically scaling matching and prioritization engine
CN112765490A (zh) 一种基于知识图谱和图卷积网络的信息推荐方法及系统
CN104240026B (zh) 产品设计知识管理服务匹配方法
CN102982035B (zh) 一种社区用户的搜索排序方法及系统
CN102129457A (zh) 大规模语义数据路径查询的方法
Yang et al. K-truss community most favorites query based on top-t
Wen et al. Heterogeneous Information Network‐Based Scientific Workflow Recommendation for Complex Applications
CN110196849A (zh) 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN104820713A (zh) 一种基于用户历史数据获得工业产品名称同义词的方法
Gelman et al. Combining structured and unstructured information sources for a study of data quality: a case study of Zillow. com
CN115934969A (zh) 一种不可移动文物风险评估知识图谱构建方法
Okangba et al. Indicators for construction projects supply chain adaptability using blockchain technology: A review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant