CN117217634B

CN117217634B - 一种基于复杂网络的企业合作社区发现方法

Info

Publication number: CN117217634B
Application number: CN202311464747.8A
Authority: CN
Inventors: 王建; 吕孝忠; 王佐成; 张晞曈; 李�浩; 孙昕; 张文婷; 王淑莹; 汪鹏; 朱江
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-02-02
Anticipated expiration: 2043-11-07
Also published as: CN117217634A

Abstract

本发明涉及数据处理技术领域，具体是一种基于复杂网络的企业合作社区发现方法，包括以下步骤：获取企业合作原始数据；抽取企业合作原始数据中的企业实体和企业合作关系，根据企业合作关系构建企业合作复杂网络；利用企业合作复杂网络中的网络特征指标、科研成果指标、经营性指标和征信指标构建企业影响力模型，并通过企业影响力模型计算企业的影响力；基于企业合作复杂网络和企业影响力模型构建企业合作社区图谱；本发明通过构建覆盖多个方面的企业影响力模型，提高企业影响力的计算精度，进而提高发现企业合作关系的准确性。

Description

一种基于复杂网络的企业合作社区发现方法

技术领域

本发明涉及数据处理技术领域，具体是一种基于复杂网络的企业合作社区发现方法。

背景技术

企业合作社区是指由合作关系紧密的企业组成的小群体，通过企业之间各种合作关系而构建的企业合作复杂网络。在企业合作社区的构建过程中通常会根据科研人员进行构建，基于科研人员合作关系网络及科研人员的影响力，生成科研人员合作社区。在专利CN111428056A中公开了一种科研人员合作社区的构建方法及装置，用以解决现有社区发现方法用于技术领域合作社区的构建中计算量大、生成的社区图谱可读性差以及图谱中合作社区的信息存在偏差影响用户体验的问题。

在上述现有技术的使用过程中存在以下问题：

1、在合作关系发现时，只考虑了结构化数据，没有考虑非结构化数据，导致很多合作关系的数据丢失，社区构建也就不全，最后对应的产业链也就会出现缺少和断层。

2、网络节点的影响力评分模型中只考虑了科研成果数据，没有考虑到各网络节点在复杂网络中的特征信息，导致影响力评分计算不够客观，从而使在数据筛选阶段会过滤掉一些虽然影响力评分低，但是在网络中起到重要作用的高影响力网络节点。

3、通过影响力对网络节点进行筛选，只留下了影响力高的网络节点，而将影响力低的网络节点去除；这样的网络节点筛选方式并不能展示网络的全貌，会因为某些节点的缺失，导致一些合作链路中断，从而使企业合作社区不能被挖掘出来。

4、在可视化方面只通过灰度展示了一个社区，并不能直观的区分不同的合作社区，且没有展示合作社区中网络节点以及边的相关特征信息。

由此可见，上述现有技术在社区发现方面还有很大的进步空间。

发明内容

为了避免和克服现有技术中存在的技术问题，本发明提供了一种基于复杂网络的企业合作社区发现方法。本发明通过构建覆盖多个方面的企业影响力模型，提高企业影响力的计算精度，进而提高发现企业合作关系的准确性。

为实现上述目的，本发明提供如下技术方案：

一种基于复杂网络的企业合作社区发现方法，包括以下操作步骤：

S1、获取企业合作原始数据；

S2、抽取企业合作原始数据中的企业实体和企业合作关系，根据企业合作关系构建企业合作复杂网络；

S3、利用企业合作复杂网络中的网络特征指标、科研成果指标、经营性指标和征信指标构建企业影响力模型，并通过企业影响力模型计算企业的影响力；

S4、基于企业合作复杂网络和企业影响力模型构建企业合作社区图谱。

作为本发明再进一步的方案：企业影响力模型的计算表达式如下：

其中，P _n表示第n个企业的综合影响力；

A _n表示第n个企业的总经营影响力；θ _n表示A _n的权重；I表示A _n分量的总数，即第n个企业的经营指标的总数；a _ni表示A _n的第i个分量，即第n个企业的经营指标中第i种指标的值；w _ni表示a _ni的权重；

B _n表示第n个企业的总科研成果影响力；β _n表示B _n的权重；J表示B _n分量的总数，即第n个企业的科研成果指标的总数；b _nj表示B _n的第j个分量，即第n个企业的科研成果指标中第j种指标的值；u _nj表示b _nj的权重；

C _n表示第n个企业的在企业合作复杂网络中的总网络影响力；γ _n表示C _n的权重；K表示C _n分量的总数，即第n个企业的网络特征指标的总数；c_nk表示C _n的第k个分量，即第n个企业的网络特征指标中第k种指标的值；v _nk表示c _nk的权重；

D _n表示第n个企业的总征信影响力；δ _n表示D _n的权重；L表示D _n分量的总数，即第n个企业的征信指标的总数；d _nl表示D _n的第l个分量，即第n个企业的征信特征指标中第l种指标的值；m _nl表示d _nl的权重。

作为本发明再进一步的方案：企业合作原始数据的获取步骤如下：

S11、首先获取有关目标合作企业的网页新闻、合同公告、招投标数据、合作项目以及科研成果，科研成果包括专利、论文、著作和标准；

S12、将网页新闻和合同公告中的非结构化文本数据输入BERT模型中，从中获取各个企业之间对应的合作关系；进行各个企业之间合作次数的统计，将统计的结果作为企业合作原始数据存入数据库中；

S13、分析招投标数据中的招标企业和中标企业，从而获取各个企业对应的合作关系；进行各个企业之间合作次数的统计，将统计的结果作为企业合作原始数据存入数据库中；

S14、通过分析专利、论文、著作和标准的发表企业，以及合作项目中的共同研发企业，从中获取各个企业之间的合作关系；进行各个企业之间合作次数的统计，将统计的结果作为企业合作原始数据存入数据库中。

作为本发明再进一步的方案：步骤S2的具体步骤如下：

S21、从企业合作原始数据中获取各个企业实体，以及各个企业实体之间对应的企业合作关系；

S22、以企业实体为节点，企业实体之间的合作关系为连线，构建表征企业合作关系的企业合作复杂网络。

作为本发明再进一步的方案：步骤S3的具体步骤如下：

S31、获取企业的网络特征指标，网络特征指标包括度中心性、接近中心性和中介中心性；

S32、获取企业的科研成果指标，科研成果指标包括论文、专利、标准和著作的数量，以及论文、专利、标准和著作的被引用量；

S33、获取企业的经营性指标，经营性指标包括企业规模和企业年利润；

S34、获取企业的征信指标，征信指标包括信用认证、企业信用记录、商业履约、费用解缴和招投标信用记录；

S35、通过专家打分法、层次分析法和博弈-DEA法确定各种指标的值，并将值输入到企业影响力模型的计算公式中，通过梯度迭代更新各个权重的值，进而完成企业影响力模型的训练；

S36、最后将需要计算影响力的企业对应的数据输入到训练完成的企业影响力模型中，计算该企业的影响力。

作为本发明再进一步的方案：步骤S4的具体步骤如下：

S41、使用企业影响力模型计算各个企业的影响力；

S42、统计各个企业之间的合作次数，并以合作次数表征合作强度；

S43、在企业合作复杂网络的基础之上，结合各个企业的影响力，采用社区发现算法构建企业合作社区图谱；以企业复杂网络中的随机网络节点为起始点，不断迭代遍历企业复杂网络中的网络节点，并计算企业合作社区划分的模块度，直到企业合作社区划分的模块度不再变大，此时一个社区划分完成；重复进行，直到企业复杂网络中所有的网络节点都被划分到对应的企业合作社区中，此时，企业合作社区图谱构建完成；

企业合作社区图谱中的节点表示企业，节点间的边表示企业之间存在合作；使用企业影响力表征节点的大小，使用企业之间的合作强度表征连线的粗细。

作为本发明再进一步的方案：度中心性的计算公式如下：

DC _n表示企业合作社区图谱中第n个节点的度中心性，M _n表示企业合作社区图谱中与第n个节点相连的边的数量；N表示企业合作社区图谱中与第n个节点相连的节点的数量；

接近中心性的计算公式如下：

其中，CC _n表示企业合作社区图谱中第n个节点的接近中心性，t _nf表示企业合作社区图谱中第n个节点和第f个节点之间的距离；

中介中心性的计算公式如下：

其中，BC _n表示企业合作社区图谱中第n个节点的中介中心性，g _sz表示企业合作社区图谱中连接第s个节点和第z个节点的最短路径的数量；表示g _sz中经过第n个节点的最短路径的数量。

作为本发明再进一步的方案：所述社区发现算法采用louvain算法，louvain算法评估企业合作社区划分的标准模块的计算公式如下：

其中，Q表示企业合作社区划分的模块度；e表示企业合作社区图谱中总边数；T_n,j表示企业合作社区图谱中第n个节点和第j个节点之间边的权重；r_n,j表示企业合作社区图谱中第n个节点和第j个节点之间边的数量；P_n,norm表示第n个企业影响力的归一化值；P_j,norm表示第j个企业影响力的归一化值；x_n表示企业合作社区图谱中第n个节点度中心性、接近中心性和中介中心性求和之后的平均值；x_j表示企业合作社区图谱中第j个节点度中心性、接近中心性和中介中心性求和之后的平均值；y_n表示企业合作社区图谱中第n个节点所属的企业合作社区；y_j表示企业合作社区图谱中第j个节点所属的企业合作社区；η(y_n,y_j)表示y_n和y_j是否属于同一企业合作社区；当两则属于同一企业合作社区时，η(y_n,y_j)取值为1，反之为0。

作为本发明再进一步的方案：在企业社区合作图谱构建完成后，通过Bert模型为合作社区标注产业主题标签。

与现有技术相比，本发明的有益效果是：

1、本发明使用Bert模型从非结构化数据中发现企业合作关系，增加了企业合作网络的数据维度，使企业合作复杂网络更加全面。

2、本发明首次在影响力模型中加入了网络特征指标，使企业影响力评价模型更加客观，同时使用大量的网络节点用于社区发现，并将企业影响力引入到社区发现算法中，使企业合作社区的发现结果更加可信。

3、本发明使用预训练大模型为社区添加产业链主题标签，增加了企业合作社区图谱的可读性，同时对企业合作社区进行分类，为产业链治理提供支持。

附图说明

图1为本发明的主要操作步骤流程图。

图2为本发明中企业复杂网络图。

图3为本发明中指标构成示意图。

图4为本发明实施例中的企业合作社区图谱。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于复杂网络的企业合作社区发现方法，包括以下操作步骤：

S1、获取企业合作原始数据。

企业合作原始数据的获取步骤如下：

S11、首先获取有关目标合作企业的网页新闻、合同公告、招投标数据、合作项目以及科研成果，科研成果包括专利、论文、著作和标准。

S12、将网页新闻和合同公告中的非结构化文本数据输入BERT模型中，从而获取各个企业之间对应的合作关系；进行各个企业之间合作次数的统计，将统计的结果作为企业合作原始数据存入数据库中。

S13、分析招投标数据中的招标企业和中标企业，从而获取各个企业对应合作关系；进行各个企业之间合作次数的统计，将统计的结果作为企业合作原始数据存入数据库中。

S14、通过分析专利、论文、著作和标准的发表企业，以及合作项目中的共同研发企业，从而获取各个企业之间的合作关系；进行各个企业之间合作次数的统计，将统计的结果作为企业合作原始数据存入数据库中。

S2、抽取企业合作原始数据中的企业实体和企业合作关系，根据企业合作关系构建企业合作复杂网络。

步骤S2的具体步骤如下：

S21、从企业合作原始数据中获取各个企业实体，以及各个企业实体之间对应的企业合作关系。

S22、以企业实体为节点，企业实体之间的合作关系为连线，构建表征企业合作关系的企业合作复杂网络，如图2所示。

S3、利用企业合作复杂网络中的网络特征指标、科研成果指标、经营性指标和征信指标构建企业影响力模型，并通过企业影响力模型计算企业的影响力。各种指标如图3所示。

步骤S3的具体步骤如下：

S31、获取企业的网络特征指标，网络特征指标包括度中心性、接近中心性和中介中心性。

S32、获取企业的科研成果指标，科研成果指标包括论文、专利、标准和著作的数量，以及论文、专利、标准和著作的被引用量。

S34、获取企业的征信指标，征信指标包括信用认证、企业信用记录、商业履约、费用解缴和招投标信用记录。

S35、通过专家打分法、层次分析法和博弈-DEA法确定各种指标的值，并将值输入到企业影响力模型的计算公式中，通过梯度迭代更新各个权重的值，进而完成企业影响力模型的训练。

步骤S4的具体步骤如下：

S41、使用企业影响力模型计算各个企业的影响力。

S42、统计各个企业之间的合作次数，并以合作次数表征合作强度。

S43、在企业合作复杂网络的基础之上，结合各个企业的影响力，采用社区发现算法构建企业合作社区图谱；以企业复杂网络中的随机网络节点为起始点，不断迭代遍历企业复杂网络中的网络节点，并计算企业合作社区划分的模块度，直到企业合作社区划分的模块度不再变大，此时一个社区划分完成；重复进行，直到企业复杂网络所有的网络节点都被划分到对应的企业合作社区中；此时，企业合作社区图谱构建完成；企业合作社区图谱中的节点表示企业，节点间的边表示企业之间存在合作；使用企业影响力表征节点的大小，使用企业之间的合作强度表征连线的粗细。在企业社区合作图谱构建完成后，通过Bert模型为合作社区标注产业主题标签。使用了Bert模型从非结构化数据中抽取企业实体和合作关系，提高了企业间合作关系发现的覆盖面，使产业链更加完善。

企业影响力模型的计算表达式如下：

其中，P _n表示第n个企业的综合影响力。

A _n表示第n个企业的总经营影响力；θ _n表示A _n的权重；I表示A _n分量的总数，即第n个企业的经营指标的总数；a _ni表示A _n的第i个分量，即第n个企业的经营指标中第i种指标的值；w _ni表示a _ni的权重。

B _n表示第n个企业的总科研成果影响力；β _n表示B _n的权重；J表示B _n分量的总数，即第n个企业的科研成果指标的总数；b _nj表示B _n的第j个分量，即第n个企业的科研成果指标中第j种指标的值；u _nj表示b _nj的权重。

C _n表示第n个企业的在企业合作复杂网络中的总网络影响力；γ _n表示C _n的权重；K表示C _n分量的总数，即第n个企业的网络特征指标的总数；c_nk表示C _n的第k个分量，即第n个企业的网络特征指标中第k种指标的值；v _nk表示c _nk的权重。

度中心性的计算公式如下：

DC _n表示企业合作社区图谱中第n个节点的度中心性，M _n表示企业合作社区图谱中与第n个节点相连的边的数量；N表示企业合作社区图谱中与第n个节点相连的节点的数量。

接近中心性的计算公式如下：

其中，CC _n表示企业合作社区图谱中第n个节点的接近中心性，t _nf表示企业合作社区图谱中第n个节点和第f个节点之间的距离。

中介中心性的计算公式如下：

所述社区发现算法采用louvain算法，louvain算法评估企业合作社区划分的标准模块的计算公式如下：

对离子注入机领域进行研究，共检索到10家企业，对其中四家企业的数据进行分析。首先通过NLP技术从检索到的10家企业所有的数据中抽取合作关系，发现企业一与企业二、企业三以及企业四均有合作，但是企业二、企业三和企业四之间没有合作关系。因此，这四家企业就构成了以企业一为中心节点的企业合作复杂网络。

根据相关指标的计算方法得到这四家企业的指标值如表1所示。

表1 企业各项指标值

通过求解的各个指标的权重，进而计算各个企业的影响力。此处设定各个企业的各个指标的权重值均采用同一套计算值，其计算结果如表2所示，其中超大型取值为1，中型取值为0.6，小型取值为0.3，未公示取值为0。

表2 企业影响力计算结果

按照上述方式计算剩余6家企业之间的合作关系和对应的企业影响力，并构建如图4所示的企业合作社区图谱。其中节点的大小代表企业影响力强弱，边的粗细代表合作的强度，不同形状的节点代表不同的社区。图4清晰的显示了这10家企业之间的合作关系，其中，企业一、企业二、企业三和企业四构成第一个企业合作复杂网络；企业五、企业六、企业八、企业九和企业十构成第二个企业合作复杂网络；企业七没有合作的企业，近似的可以看成第三个企业合作复杂网络。这三个企业合作复杂网络构成了离子注入机领域中完整的企业合作社区图谱。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于复杂网络的企业合作社区发现方法，其特征在于，包括以下操作步骤：

S1、获取企业合作原始数据；

S4、基于企业合作复杂网络和企业影响力模型构建企业合作社区图谱；

企业影响力模型的计算表达式如下：

其中，P _n表示第n个企业的综合影响力；A _n表示第n个企业的总经营影响力；θ _n表示A _n的权重；I表示A _n分量的总数，即第n个企业的经营指标的总数；a _ni表示A _n的第i个分量，即第n个企业的经营指标中第i种指标的值；w _ni表示a _ni的权重；

2.根据权利要求1所述的一种基于复杂网络的企业合作社区发现方法，其特征在于，企业合作原始数据的获取步骤如下：

3.根据权利要求2所述的一种基于复杂网络的企业合作社区发现方法，其特征在于，步骤S2的具体步骤如下：

4.根据权利要求3所述的一种基于复杂网络的企业合作社区发现方法，其特征在于，步骤S3的具体步骤如下：

5.根据权利要求4所述的一种基于复杂网络的企业合作社区发现方法，其特征在于，步骤S4的具体步骤如下：

S41、使用企业影响力模型计算各个企业的影响力；

6.根据权利要求5所述的一种基于复杂网络的企业合作社区发现方法，其特征在于，度中心性的计算公式如下：

其中，DC _n表示企业合作社区图谱中第n个节点的度中心性，M _n表示企业合作社区图谱中与第n个节点相连的边的数量；N表示企业合作社区图谱中与第n个节点相连的节点的数量；

接近中心性的计算公式如下：

中介中心性的计算公式如下：

其中，BC _n表示企业合作社区图谱中第n个节点的中介中心性，g _sz表示企业合作社区图谱中连接第s个节点和第z个节点的最短路径的数量；/>表示g _sz中经过第n个节点的最短路径的数量。

7.根据权利要求6所述的一种基于复杂网络的企业合作社区发现方法，其特征在于，所述社区发现算法采用louvain算法，louvain算法评估企业合作社区划分的标准模块的计算公式如下：

其中，Q表示企业合作社区划分的模块度；e表示企业合作社区图谱中总边数；T_nj表示企业合作社区图谱中第n个节点和第j个节点之间边的权重；r_nj表示企业合作社区图谱中第n个节点和第j个节点之间边的数量；P_n,norm表示第n个企业影响力的归一化值；P_j,norm表示第j个企业影响力的归一化值；x_n表示企业合作社区图谱中第n个节点度中心性、接近中心性和中介中心性求和之后的平均值；x_j表示企业合作社区图谱中第j个节点度中心性、接近中心性和中介中心性求和之后的平均值；y_n表示企业合作社区图谱中第n个节点所属的企业合作社区；y_j表示企业合作社区图谱中第j个节点所属的企业合作社区；η(y_n,y_j)表示y_n和y_j是否属于同一企业合作社区，当两者属于同一企业合作社区时，η(y_n,y_j)取值为1，反之为0。

8.根据权利要求7所述的一种基于复杂网络的企业合作社区发现方法，其特征在于，在企业社区合作图谱构建完成后，通过Bert模型为合作社区标注产业主题标签。