CN116204653A

CN116204653A - 一种基于知识图谱的产业链网络关系构建方法

Info

Publication number: CN116204653A
Application number: CN202211707519.4A
Authority: CN
Inventors: 刘�东; 曹丽霄; 秦伟林; 曹琳; 陈冀华; 陈冬; 李悦; 郝云曼; 王哲; 李秀伟; 张金库; 冀燕鹏; 金林珠; 孙雪; 于帅; 刘祎; 殷丽媛
Original assignee: Beijing Aerospace Intelligent Technology Development Co ltd
Current assignee: Beijing Aerospace Intelligent Technology Development Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-02

Abstract

本发明提供一种基于知识图谱的产业链网络关系构建方法；该方法包括：S1、获取产业对应的所有企业信息、企业数据和行业信息；S2、根据企业信息在空的图数据库中建立节点；S3、对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系；S4、根据企业名称建立企业名称与行业名称的实体关系；S5、根据企业信息和企业数据建立企业名称与企业名称之间的实体关系；S6、根据生成的所有三元组建立基于知识图谱的产业链网络关系。本发明提供的本产业链网络关系具有规范、统一的特点，在分析产业链结构、防范产业链风险、优化产业链布局等工作时，能够快速清晰的了解目前的产业链信息。

Description

一种基于知识图谱的产业链网络关系构建方法

技术领域

本发明涉及数据处理领域，更具体的说，它涉及本发明涉及一种基于知识图谱的产业链网络关系构建方法。

背景技术

错综复杂的产业链结构对分析带来了挑战，而知识图谱是一项非常适于解决这种错综复杂结构的新技术。

人们习惯性的将围绕某一类产品形成的各环节企业、技术、零部件等信息绘制成一个产业地图，称之为产业链或产业图谱，这种绘制方法具有非常大的随意性，不具有统一的表示方法。

发明内容

本发明提供提出一种基于知识图谱的规范、统一的网络关系构建方法，在分析产业链结构、防范产业链风险、优化产业链布局等工作时，快速清晰的了解目前的产业链信息，借助模型的定义，可视化的了解问题所处位置，从而达到快速识别、精准施策的目的。

一种基于知识图谱的产业链网络关系构建方法，包括如下步骤：

S1：获取产业对应的所有企业信息、企业数据和行业信息，企业信息包括企业名称和企业主营产品名称；企业数据包括订单数据、资金转账记录数据和合同文本数据，其中订单数据和资金转账记录数据为结构化数据，合同文本数据为非结构化数据；行业信息包括行业名称；

S2：根据企业信息在空的图数据库中建立节点，节点形式为{name}、{label}和{industry}，其中name为企业名称，label为企业主营产品名称，industry为行业名称，行业名称包括原料行业、研发行业、产品制造行业和服务行业；

S3：对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系，并在图数据库中生成三元组，三元组的形式为{name，att，label}，其中att为实体关系；

S4：根据企业名称建立企业名称与行业名称的实体关系，并在图数据库中生成三元组，三元组的形式为{name，att，industry}，其中att为实体关系；

S5：根据企业信息和企业数据建立企业名称与企业名称之间的实体关系，并在图数据库中生成三元组，三元组的形式为{name，att，name}，其中att为实体关系；

S6：根据生成的所有三元组建立基于知识图谱的产业链网络关系。

作为本发明的一个优选，所述步骤S4中，根据企业名称建立企业名称与行业名称的实体关系，并在图数据库中生成三元组包括如下步骤：根据行业名称建立多个行业关键词词典，行业关键词词典内部设定了行业关键词与行业名称的从属关系；获取企业名称对应的所有企业主营产品名称，并将所有企业主营产品名称依次与不同行业关键词词典内部的行业关键词进行匹配，输出匹配成功的行业关键词数量，选择不同行业关键词词典输出的匹配成功的行业关键词数量中数量最大的行业关键词数量，计算数量最大的行业关键词数量与企业主营产品名称总数的关键词比值，将关键词比值与预设比值阈值进行大小比较，若是关键词比值大于等于预设比值阈值，建立所有企业主营产品名称对应的企业名称与输出数量最大的行业关键词数量对应行业关键词词典对应的行业名称的实体关系，实体关系为“从属”，三元组的形式为{name，从属，name}；若是关键词比值小于预设比值阈值，选择下一个企业名称。

作为本发明的一个优选，所述步骤S4中，根据企业名称建立企业名称与行业名称的实体关系，并在图数据库中生成三元组，还包括如下步骤：根据企业名称获取对应企业的资金总支出金额和研发支出金额，计算该企业研发支出金额与资金总支出金额的研发资金占比，将研发资金占比与预设研发资金占比进行大小比较，若是研发资金占比大于等于预设研发资金占比，建立该企业名称与研发行业的实体关系，实体关系为“从属”，三元组的形式为{name，从属，研发行业}；若是研发资金占比小于预设研发资金占比，选择下一个企业名称。

作为本发明的一个优选，所述步骤S5中，根据企业信息中的企业主营产品名称建立企业名称与企业名称之间的实体关系包括如下步骤：

T1：对所有企业信息分别分配企业编码X_i，i＝1,2,3······I，其中I为企业信息总数；

T2：依次选择企业编码X_i，根据企业编码X_i获取对应所有的企业主营产品名称，存储为集合δ_i＝{u_i1，u_i2，u_i······u_ij}，其中j＝1,2,3······J，J为企业主营产品名称总个数；

T3：令k＝1；

T4：选择集合δ_k，获取集合δ_k对应的企业主营产品名称总个数J；

T5：令x＝1；

T6：选择集合δ_k+x，将集合δ_k和δ_k+x进行并集计算，生成并集集合ε，计算并集集合ε内的元素总个数Q，计算重合度

判断“Q≤P”是否成立，若是“Q≤P”成立，不进行操作，进入T8；若是“Q≤P”不成立，进入T7；

T7：建立集合δ_k对应企业编码X_k的企业名称和集合δ_k+x对应企业编码X_k+x的企业名称之间的实体关系，实体关系为“竞争”，三元组的形式为{name，竞争，name}。

作为本发明的一个优选，所述步骤S5中，根据企业数据中的订单数据和资金转账记录数据建立企业名称与行业名称的实体关系包括如下步骤：建立原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典；获取订单数据和资金转账记录数据，根据订单数据获取企业之间流通的产品名称和流通方向，将产业名称依次与原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典进行匹配，当产业名称依次与原料关键词词典内部原料关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“供应”，三元组的形式为{name，供应，name}，根据流通方向，前一个name为供应方，后一个name为被供应方；当产业名称依次与技术服务关键词词典和服务关键词词典内部技术服务关键词和服务关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“提供”，三元组的形式为{name，提供，name}，根据流通方向，前一个name为提供方，后一个name为被提供方；当产业名称依次与中间件关键词词典内部中间件关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“制备”，三元组的形式为{name，制备，name}，根据流通方向，前一个name为制备方，后一个name为被制备产品获取方。

作为本发明的一个优选，所述步骤S5中，根据企业数据中的合同文本数据建立企业名称与企业名称之间的实体关系包括如下步骤：将合同文本数据输入深度学习模型，生成企业名称与企业名称之间的实体关系和三元组。

作为本发明的一个优选，所述步骤S1中，在建立完节点之后，遍历所有{label}节点，并将重复的{label}节点进行删除。

作为本发明的一个优选，所述行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典的建立包括如下步骤：获取用户标注好类别的行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集，并分别对行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集进行无监督的聚类分析，提取出关键词，存入对应行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典中。

本发明具有以下优点：

1、本发明通过获取企业信息、企业数据和行业信息，并根据实体关系“从属”、“竞争”、“供应”、“提供”和“制备”匹配企业主营产品名称与企业名称、企业名称与企业名称和企业名称与行业名称的实体关系，生成三元组，再根据所有三元组生成对应的知识图谱，由于实体关系较少，且获取的数据全面，本产业链网络关系具有规范、统一的特点，在分析产业链结构、防范产业链风险、优化产业链布局等工作时，能够快速清晰的了解目前的产业链信息，借助模型的定义，可视化的了解问题所处位置，从而达到快速识别、精准施策的目的。

附图说明

图1为本发明实施例所采用基于大数据处理的网络安全数据处理方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例1

一种基于知识图谱的产业链网络关系构建方法，如图1所示，包括如下步骤：

S1：获取产业对应的所有企业信息、企业数据和行业信息，企业信息、企业数据和行业信息皆有企业自助上传和网络数据爬取获得，一般的数据来源渠道有企业官网、企查查和天眼查等网站，企业信息包括企业名称和企业主营产品名称；企业数据包括订单数据、资金转账记录数据和合同文本数据，其中订单数据和资金转账记录数据为结构化数据，合同文本数据为非结构化数据；行业信息包括行业名称。

S2：根据企业信息在空的图数据库中建立节点，节点形式为{name}、{label}和{industry}，在建立完节点之后，遍历所有{label}节点，并将重复的{label}节点进行删除，其中name为企业名称，label为企业主营产品名称，industry为行业名称，行业名称包括原料行业、研发行业、产品制造行业和服务行业，原料行业制得是在产业链中提供基础材料的行业，例如汽车制造领域里面提供钢材和铝材等的行业；研发行业是指产业链里面主营技术研发的行业，例如汽车制造领域里面对动力电池组的性能优化研究；产品制造行业指的是产业链里面制造产品发的行业，例如汽车制造领域里面制造汽车零部件或者整车拼装等；服务行业指的是产业链里面进行产品销售和产品推广等的行业，例如汽车制造领域中对于汽车进行销售的行业。

S3：对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系，并在图数据库中生成三元组，三元组的形式为{name，att，label}，其中att为实体关系，默认为“从属”，用户可以自己输入名称对此实体关系进行命名；

所述步骤S4中，根据企业名称建立企业名称与行业名称的实体关系，并在图数据库中生成三元组包括如下步骤：根据行业名称建立多个行业关键词词典，行业关键词词典建立包括如下步骤：获取用户标注好类别的行业关键词数据集，并分别对行业关键词数据集进行无监督的聚类分析，提取出原料行业、研发行业、产品制造行业和服务行业对应的关键词，存入对应行业关键词词典中；行业关键词词典内部设定了行业关键词与行业名称的从属关系。

获取企业名称对应的所有企业主营产品名称，并将所有企业主营产品名称依次与不同行业关键词词典内部的行业关键词进行匹配，输出匹配成功的行业关键词数量，选择不同行业关键词词典输出的匹配成功的行业关键词数量中数量最大的行业关键词数量，这时候说明对应企业与数量最大的行业关键词数量对应的行业具有极高的相关性，计算数量最大的行业关键词数量与企业主营产品名称总数的关键词比值，将关键词比值与预设比值阈值进行大小比较，其中预设比值阈值由用户进行设定，若是关键词比值大于等于预设比值阈值，建立所有企业主营产品名称对应的企业名称与输出数量最大的行业关键词数量对应行业关键词词典对应的行业名称的实体关系，实体关系为“从属”，三元组的形式为{name，从属，name}；若是关键词比值小于预设比值阈值，选择下一个企业名称。

所述步骤S4中，根据企业名称建立企业名称与行业名称的实体关系，并在图数据库中生成三元组，还包括如下步骤：根据企业名称获取对应企业的资金总支出金额和研发支出金额，计算该企业研发支出金额与资金总支出金额的研发资金占比，将研发资金占比与预设研发资金占比进行大小比较，预设研发资金占比由用户进行设定，若是研发资金占比大于等于预设研发资金占比，说明该企业投入的研发资金占主要部分，所以认定该企业所属研发行业，建立该企业名称与研发行业的实体关系，实体关系为“从属”，三元组的形式为{name，从属，研发行业}；若是研发资金占比小于预设研发资金占比，选择下一个企业名称。

S5：根据企业信息和企业数据建立企业名称与企业名称之间的实体关系，并在图数据库中生成三元组，三元组的形式为{name，att，name}，其中att为实体关系。

根据企业信息中的企业主营产品名称建立企业名称与企业名称之间的实体关系包括如下步骤：

T1：对所有企业信息分别分配企业编码X_i，通过企业编码X_i可以方便查找对应企业，i＝1,2,3······I，其中I为企业信息总数。

T2：依次选择企业编码X_i，根据企业编码X_i获取对应所有的企业主营产品名称，存储为集合δ_i＝{u_i1，u_i2，u_i······u_ij}，其中j＝1,2,3······J，J为企业主营产品名称总个数。

T3：令k＝1。

T4：选择集合δ_k，获取集合δ_k对应的企业主营产品名称总个数J。

T5：令x＝1。

判断“Q≤P”是否成立，若是“Q≤P”成立，不进行操作，进入T8；若是“Q≤P”不成立，进入T7。

通过判断两个企业之间企业主营产品名称的重合度，实现对不同企业之间竞争关系的判断。

T7：建立集合ε_k对应企业编码X_k的企业名称和集合ε_k+x对应企业编码X_k+x的企业名称之间的实体关系，实体关系为“竞争”，三元组的形式为{name，竞争，name}。

所述步骤S5中，根据企业数据中的订单数据和资金转账记录数据建立企业名称与行业名称的实体关系包括如下步骤：建立原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典；所述原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典的建立包括如下步骤：获取用户标注好类别的原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集，并分别对原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集进行无监督的聚类分析，提取出关键词，存入对应原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典中。

获取订单数据和资金转账记录数据，根据订单数据获取企业之间流通的产品名称和流通方向，将产业名称依次与原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典进行匹配，当产业名称依次与原料关键词词典内部原料关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“供应”，三元组的形式为{name，供应，name}，根据流通方向，前一个name为供应方，后一个name为被供应方；当产业名称依次与技术服务关键词词典和服务关键词词典内部技术服务关键词和服务关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“提供”，三元组的形式为{name，提供，name}，根据流通方向，前一个name为提供方，后一个name为被提供方；当产业名称依次与中间件关键词词典内部中间件关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“制备”，三元组的形式为{name，制备，name}，根据流通方向，前一个name为制备方，后一个name为被制备产品获取方。

作为本发明的一个优选，所述步骤S5中，根据企业数据中的合同文本数据建立企业名称与企业名称之间的实体关系包括如下步骤：将合同文本数据输入深度学习模型，深度学习模型采用TPlinkerPLUS模型，生成企业名称与企业名称之间的实体关系和三元组，例如合同里面“甲公司向乙公司提供一吨的铁矿石”，那么提取出实体甲公司和乙公司，实体关系为“提供”，通过设置同义词库，可以同时提取“提供”的同义词。

本发明通过获取企业信息、企业数据和行业信息，并根据实体关系“从属”、“竞争”、“供应”、“提供”和“制备”匹配企业主营产品名称与企业名称、企业名称与企业名称和企业名称与行业名称的实体关系，生成三元组，再根据所有三元组生成对应的知识图谱，由于实体关系较少，且获取的数据全面，本产业链网络关系具有规范、统一的特点，在分析产业链结构、防范产业链风险、优化产业链布局等工作时，能够快速清晰的了解目前的产业链信息，借助模型的定义，可视化的了解问题所处位置，从而达到快速识别、精准施策的目的。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于知识图谱的产业链网络关系构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于知识图谱的产业链网络关系构建方法，其特征在于，所述步骤S4中，根据企业名称建立企业名称与行业名称的实体关系，并在图数据库中生成三元组包括如下步骤：根据行业名称建立多个行业关键词词典，行业关键词词典内部设定了行业关键词与行业名称的从属关系；获取企业名称对应的所有企业主营产品名称，并将所有企业主营产品名称依次与不同行业关键词词典内部的行业关键词进行匹配，输出匹配成功的行业关键词数量，选择不同行业关键词词典输出的匹配成功的行业关键词数量中数量最大的行业关键词数量，计算数量最大的行业关键词数量与企业主营产品名称总数的关键词比值，将关键词比值与预设比值阈值进行大小比较，若是关键词比值大于等于预设比值阈值，建立所有企业主营产品名称对应的企业名称与输出数量最大的行业关键词数量对应行业关键词词典对应的行业名称的实体关系，实体关系为“从属”，三元组的形式为{name，从属，name}；若是关键词比值小于预设比值阈值，选择下一个企业名称。

3.根据权利要求2所述的一种基于知识图谱的产业链网络关系构建方法，其特征在于，所述步骤S4中，根据企业名称建立企业名称与行业名称的实体关系，并在图数据库中生成三元组，还包括如下步骤：根据企业名称获取对应企业的资金总支出金额和研发支出金额，计算该企业研发支出金额与资金总支出金额的研发资金占比，将研发资金占比与预设研发资金占比进行大小比较，若是研发资金占比大于等于预设研发资金占比，建立该企业名称与研发行业的实体关系，实体关系为“从属”，三元组的形式为{name，从属，研发行业}；若是研发资金占比小于预设研发资金占比，选择下一个企业名称。

4.根据权利要求3所述的一种基于知识图谱的产业链网络关系构建方法，其特征在于，所述步骤S5中，根据企业信息中的企业主营产品名称建立企业名称与企业名称之间的实体关系包括如下步骤：

T1：对所有企业信息分别分配企业编码X_i，i＝1，2，3......I，其中I为企业信息总数；

T2：依次选择企业编码X_i，根据企业编码X_i获取对应所有的企业主营产品名称，存储为集合δ_i＝{u_i1，u_i2，u_i......u_ij}，其中j＝1，2，3......J，J为企业主营产品名称总个数；

T3：令k＝1；

T5：令x＝1；

5.根据权利要求4所述的一种基于知识图谱的产业链网络关系构建方法，其特征在于，所述步骤S5中，根据企业数据中的订单数据和资金转账记录数据建立企业名称与行业名称的实体关系包括如下步骤：建立原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典；获取订单数据和资金转账记录数据，根据订单数据获取企业之间流通的产品名称和流通方向，将产业名称依次与原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典进行匹配，当产业名称依次与原料关键词词典内部原料关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“供应”，三元组的形式为{name，供应，name}，根据流通方向，前一个name为供应方，后一个name为被供应方；当产业名称依次与技术服务关键词词典和服务关键词词典内部技术服务关键词和服务关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“提供”，三元组的形式为{name，提供，name}，根据流通方向，前一个name为提供方，后一个name为被提供方；当产业名称依次与中间件关键词词典内部中间件关键词匹配成功时，建立订单数据对应两个企业对应的企业名称之间的实体关系，实体关系为“制备”，三元组的形式为{name，制备，name}，根据流通方向，前一个name为制备方，后一个name为被制备产品获取方。

6.根据权利要求5所述的一种基于知识图谱的产业链网络关系构建方法，其特征在于，所述步骤S5中，根据企业数据中的合同文本数据建立企业名称与企业名称之间的实体关系包括如下步骤：将合同文本数据输入深度学习模型，生成企业名称与企业名称之间的实体关系和三元组。

7.根据权利要求1所述的一种基于知识图谱的产业链网络关系构建方法，其特征在于，所述步骤S1中，在建立完节点之后，遍历所有{label}节点，并将重复的{label}节点进行删除。

8.根据权利要求1-6任一项所述的一种基于知识图谱的产业链网络关系构建方法，其特征在于，所述行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典的建立包括如下步骤：获取用户标注好类别的行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集，并分别对行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集进行无监督的聚类分析，提取出关键词，存入对应行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典中。