CN116204653A - 一种基于知识图谱的产业链网络关系构建方法 - Google Patents

一种基于知识图谱的产业链网络关系构建方法 Download PDF

Info

Publication number
CN116204653A
CN116204653A CN202211707519.4A CN202211707519A CN116204653A CN 116204653 A CN116204653 A CN 116204653A CN 202211707519 A CN202211707519 A CN 202211707519A CN 116204653 A CN116204653 A CN 116204653A
Authority
CN
China
Prior art keywords
enterprise
name
industry
names
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211707519.4A
Other languages
English (en)
Inventor
刘�东
曹丽霄
秦伟林
曹琳
陈冀华
陈冬
李悦
郝云曼
王哲
李秀伟
张金库
冀燕鹏
金林珠
孙雪
于帅
刘祎
殷丽媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Intelligent Technology Development Co ltd
Original Assignee
Beijing Aerospace Intelligent Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Intelligent Technology Development Co ltd filed Critical Beijing Aerospace Intelligent Technology Development Co ltd
Priority to CN202211707519.4A priority Critical patent/CN116204653A/zh
Publication of CN116204653A publication Critical patent/CN116204653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于知识图谱的产业链网络关系构建方法;该方法包括:S1、获取产业对应的所有企业信息、企业数据和行业信息;S2、根据企业信息在空的图数据库中建立节点;S3、对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系;S4、根据企业名称建立企业名称与行业名称的实体关系;S5、根据企业信息和企业数据建立企业名称与企业名称之间的实体关系;S6、根据生成的所有三元组建立基于知识图谱的产业链网络关系。本发明提供的本产业链网络关系具有规范、统一的特点,在分析产业链结构、防范产业链风险、优化产业链布局等工作时,能够快速清晰的了解目前的产业链信息。

Description

一种基于知识图谱的产业链网络关系构建方法
技术领域
本发明涉及数据处理领域,更具体的说,它涉及本发明涉及一种基于知识图谱的产业链网络关系构建方法。
背景技术
错综复杂的产业链结构对分析带来了挑战,而知识图谱是一项非常适于解决这种错综复杂结构的新技术。
人们习惯性的将围绕某一类产品形成的各环节企业、技术、零部件等信息绘制成一个产业地图,称之为产业链或产业图谱,这种绘制方法具有非常大的随意性,不具有统一的表示方法。
发明内容
本发明提供提出一种基于知识图谱的规范、统一的网络关系构建方法,在分析产业链结构、防范产业链风险、优化产业链布局等工作时,快速清晰的了解目前的产业链信息,借助模型的定义,可视化的了解问题所处位置,从而达到快速识别、精准施策的目的。
一种基于知识图谱的产业链网络关系构建方法,包括如下步骤:
S1:获取产业对应的所有企业信息、企业数据和行业信息,企业信息包括企业名称和企业主营产品名称;企业数据包括订单数据、资金转账记录数据和合同文本数据,其中订单数据和资金转账记录数据为结构化数据,合同文本数据为非结构化数据;行业信息包括行业名称;
S2:根据企业信息在空的图数据库中建立节点,节点形式为{name}、{label}和{industry},其中name为企业名称,label为企业主营产品名称,industry为行业名称,行业名称包括原料行业、研发行业、产品制造行业和服务行业;
S3:对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,label},其中att为实体关系;
S4:根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,industry},其中att为实体关系;
S5:根据企业信息和企业数据建立企业名称与企业名称之间的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,name},其中att为实体关系;
S6:根据生成的所有三元组建立基于知识图谱的产业链网络关系。
作为本发明的一个优选,所述步骤S4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组包括如下步骤:根据行业名称建立多个行业关键词词典,行业关键词词典内部设定了行业关键词与行业名称的从属关系;获取企业名称对应的所有企业主营产品名称,并将所有企业主营产品名称依次与不同行业关键词词典内部的行业关键词进行匹配,输出匹配成功的行业关键词数量,选择不同行业关键词词典输出的匹配成功的行业关键词数量中数量最大的行业关键词数量,计算数量最大的行业关键词数量与企业主营产品名称总数的关键词比值,将关键词比值与预设比值阈值进行大小比较,若是关键词比值大于等于预设比值阈值,建立所有企业主营产品名称对应的企业名称与输出数量最大的行业关键词数量对应行业关键词词典对应的行业名称的实体关系,实体关系为“从属”,三元组的形式为{name,从属,name};若是关键词比值小于预设比值阈值,选择下一个企业名称。
作为本发明的一个优选,所述步骤S4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,还包括如下步骤:根据企业名称获取对应企业的资金总支出金额和研发支出金额,计算该企业研发支出金额与资金总支出金额的研发资金占比,将研发资金占比与预设研发资金占比进行大小比较,若是研发资金占比大于等于预设研发资金占比,建立该企业名称与研发行业的实体关系,实体关系为“从属”,三元组的形式为{name,从属,研发行业};若是研发资金占比小于预设研发资金占比,选择下一个企业名称。
作为本发明的一个优选,所述步骤S5中,根据企业信息中的企业主营产品名称建立企业名称与企业名称之间的实体关系包括如下步骤:
T1:对所有企业信息分别分配企业编码Xi,i=1,2,3······I,其中I为企业信息总数;
T2:依次选择企业编码Xi,根据企业编码Xi获取对应所有的企业主营产品名称,存储为集合δi={ui1,ui2,ui······uij},其中j=1,2,3······J,J为企业主营产品名称总个数;
T3:令k=1;
T4:选择集合δk,获取集合δk对应的企业主营产品名称总个数J;
T5:令x=1;
T6:选择集合δk+x,将集合δk和δk+x进行并集计算,生成并集集合ε,计算并集集合ε内的元素总个数Q,计算重合度
Figure SMS_1
判断“Q≤P”是否成立,若是“Q≤P”成立,不进行操作,进入T8;若是“Q≤P”不成立,进入T7;
T7:建立集合δk对应企业编码Xk的企业名称和集合δk+x对应企业编码Xk+x的企业名称之间的实体关系,实体关系为“竞争”,三元组的形式为{name,竞争,name}。
作为本发明的一个优选,所述步骤S5中,根据企业数据中的订单数据和资金转账记录数据建立企业名称与行业名称的实体关系包括如下步骤:建立原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典;获取订单数据和资金转账记录数据,根据订单数据获取企业之间流通的产品名称和流通方向,将产业名称依次与原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典进行匹配,当产业名称依次与原料关键词词典内部原料关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“供应”,三元组的形式为{name,供应,name},根据流通方向,前一个name为供应方,后一个name为被供应方;当产业名称依次与技术服务关键词词典和服务关键词词典内部技术服务关键词和服务关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“提供”,三元组的形式为{name,提供,name},根据流通方向,前一个name为提供方,后一个name为被提供方;当产业名称依次与中间件关键词词典内部中间件关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“制备”,三元组的形式为{name,制备,name},根据流通方向,前一个name为制备方,后一个name为被制备产品获取方。
作为本发明的一个优选,所述步骤S5中,根据企业数据中的合同文本数据建立企业名称与企业名称之间的实体关系包括如下步骤:将合同文本数据输入深度学习模型,生成企业名称与企业名称之间的实体关系和三元组。
作为本发明的一个优选,所述步骤S1中,在建立完节点之后,遍历所有{label}节点,并将重复的{label}节点进行删除。
作为本发明的一个优选,所述行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典的建立包括如下步骤:获取用户标注好类别的行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集,并分别对行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集进行无监督的聚类分析,提取出关键词,存入对应行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典中。
本发明具有以下优点:
1、本发明通过获取企业信息、企业数据和行业信息,并根据实体关系“从属”、“竞争”、“供应”、“提供”和“制备”匹配企业主营产品名称与企业名称、企业名称与企业名称和企业名称与行业名称的实体关系,生成三元组,再根据所有三元组生成对应的知识图谱,由于实体关系较少,且获取的数据全面,本产业链网络关系具有规范、统一的特点,在分析产业链结构、防范产业链风险、优化产业链布局等工作时,能够快速清晰的了解目前的产业链信息,借助模型的定义,可视化的了解问题所处位置,从而达到快速识别、精准施策的目的。
附图说明
图1为本发明实施例所采用基于大数据处理的网络安全数据处理方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1
一种基于知识图谱的产业链网络关系构建方法,如图1所示,包括如下步骤:
S1:获取产业对应的所有企业信息、企业数据和行业信息,企业信息、企业数据和行业信息皆有企业自助上传和网络数据爬取获得,一般的数据来源渠道有企业官网、企查查和天眼查等网站,企业信息包括企业名称和企业主营产品名称;企业数据包括订单数据、资金转账记录数据和合同文本数据,其中订单数据和资金转账记录数据为结构化数据,合同文本数据为非结构化数据;行业信息包括行业名称。
S2:根据企业信息在空的图数据库中建立节点,节点形式为{name}、{label}和{industry},在建立完节点之后,遍历所有{label}节点,并将重复的{label}节点进行删除,其中name为企业名称,label为企业主营产品名称,industry为行业名称,行业名称包括原料行业、研发行业、产品制造行业和服务行业,原料行业制得是在产业链中提供基础材料的行业,例如汽车制造领域里面提供钢材和铝材等的行业;研发行业是指产业链里面主营技术研发的行业,例如汽车制造领域里面对动力电池组的性能优化研究;产品制造行业指的是产业链里面制造产品发的行业,例如汽车制造领域里面制造汽车零部件或者整车拼装等;服务行业指的是产业链里面进行产品销售和产品推广等的行业,例如汽车制造领域中对于汽车进行销售的行业。
S3:对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,label},其中att为实体关系,默认为“从属”,用户可以自己输入名称对此实体关系进行命名;
S4:根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,industry},其中att为实体关系;
所述步骤S4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组包括如下步骤:根据行业名称建立多个行业关键词词典,行业关键词词典建立包括如下步骤:获取用户标注好类别的行业关键词数据集,并分别对行业关键词数据集进行无监督的聚类分析,提取出原料行业、研发行业、产品制造行业和服务行业对应的关键词,存入对应行业关键词词典中;行业关键词词典内部设定了行业关键词与行业名称的从属关系。
获取企业名称对应的所有企业主营产品名称,并将所有企业主营产品名称依次与不同行业关键词词典内部的行业关键词进行匹配,输出匹配成功的行业关键词数量,选择不同行业关键词词典输出的匹配成功的行业关键词数量中数量最大的行业关键词数量,这时候说明对应企业与数量最大的行业关键词数量对应的行业具有极高的相关性,计算数量最大的行业关键词数量与企业主营产品名称总数的关键词比值,将关键词比值与预设比值阈值进行大小比较,其中预设比值阈值由用户进行设定,若是关键词比值大于等于预设比值阈值,建立所有企业主营产品名称对应的企业名称与输出数量最大的行业关键词数量对应行业关键词词典对应的行业名称的实体关系,实体关系为“从属”,三元组的形式为{name,从属,name};若是关键词比值小于预设比值阈值,选择下一个企业名称。
所述步骤S4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,还包括如下步骤:根据企业名称获取对应企业的资金总支出金额和研发支出金额,计算该企业研发支出金额与资金总支出金额的研发资金占比,将研发资金占比与预设研发资金占比进行大小比较,预设研发资金占比由用户进行设定,若是研发资金占比大于等于预设研发资金占比,说明该企业投入的研发资金占主要部分,所以认定该企业所属研发行业,建立该企业名称与研发行业的实体关系,实体关系为“从属”,三元组的形式为{name,从属,研发行业};若是研发资金占比小于预设研发资金占比,选择下一个企业名称。
S5:根据企业信息和企业数据建立企业名称与企业名称之间的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,name},其中att为实体关系。
根据企业信息中的企业主营产品名称建立企业名称与企业名称之间的实体关系包括如下步骤:
T1:对所有企业信息分别分配企业编码Xi,通过企业编码Xi可以方便查找对应企业,i=1,2,3······I,其中I为企业信息总数。
T2:依次选择企业编码Xi,根据企业编码Xi获取对应所有的企业主营产品名称,存储为集合δi={ui1,ui2,ui······uij},其中j=1,2,3······J,J为企业主营产品名称总个数。
T3:令k=1。
T4:选择集合δk,获取集合δk对应的企业主营产品名称总个数J。
T5:令x=1。
T6:选择集合δk+x,将集合δk和δk+x进行并集计算,生成并集集合ε,计算并集集合ε内的元素总个数Q,计算重合度
Figure SMS_2
判断“Q≤P”是否成立,若是“Q≤P”成立,不进行操作,进入T8;若是“Q≤P”不成立,进入T7。
通过判断两个企业之间企业主营产品名称的重合度,实现对不同企业之间竞争关系的判断。
T7:建立集合εk对应企业编码Xk的企业名称和集合εk+x对应企业编码Xk+x的企业名称之间的实体关系,实体关系为“竞争”,三元组的形式为{name,竞争,name}。
所述步骤S5中,根据企业数据中的订单数据和资金转账记录数据建立企业名称与行业名称的实体关系包括如下步骤:建立原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典;所述原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典的建立包括如下步骤:获取用户标注好类别的原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集,并分别对原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集进行无监督的聚类分析,提取出关键词,存入对应原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典中。
获取订单数据和资金转账记录数据,根据订单数据获取企业之间流通的产品名称和流通方向,将产业名称依次与原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典进行匹配,当产业名称依次与原料关键词词典内部原料关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“供应”,三元组的形式为{name,供应,name},根据流通方向,前一个name为供应方,后一个name为被供应方;当产业名称依次与技术服务关键词词典和服务关键词词典内部技术服务关键词和服务关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“提供”,三元组的形式为{name,提供,name},根据流通方向,前一个name为提供方,后一个name为被提供方;当产业名称依次与中间件关键词词典内部中间件关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“制备”,三元组的形式为{name,制备,name},根据流通方向,前一个name为制备方,后一个name为被制备产品获取方。
作为本发明的一个优选,所述步骤S5中,根据企业数据中的合同文本数据建立企业名称与企业名称之间的实体关系包括如下步骤:将合同文本数据输入深度学习模型,深度学习模型采用TPlinkerPLUS模型,生成企业名称与企业名称之间的实体关系和三元组,例如合同里面“甲公司向乙公司提供一吨的铁矿石”,那么提取出实体甲公司和乙公司,实体关系为“提供”,通过设置同义词库,可以同时提取“提供”的同义词。
S6:根据生成的所有三元组建立基于知识图谱的产业链网络关系。
本发明通过获取企业信息、企业数据和行业信息,并根据实体关系“从属”、“竞争”、“供应”、“提供”和“制备”匹配企业主营产品名称与企业名称、企业名称与企业名称和企业名称与行业名称的实体关系,生成三元组,再根据所有三元组生成对应的知识图谱,由于实体关系较少,且获取的数据全面,本产业链网络关系具有规范、统一的特点,在分析产业链结构、防范产业链风险、优化产业链布局等工作时,能够快速清晰的了解目前的产业链信息,借助模型的定义,可视化的了解问题所处位置,从而达到快速识别、精准施策的目的。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种基于知识图谱的产业链网络关系构建方法,其特征在于,包括如下步骤:
S1:获取产业对应的所有企业信息、企业数据和行业信息,企业信息包括企业名称和企业主营产品名称;企业数据包括订单数据、资金转账记录数据和合同文本数据,其中订单数据和资金转账记录数据为结构化数据,合同文本数据为非结构化数据;行业信息包括行业名称;
S2:根据企业信息在空的图数据库中建立节点,节点形式为{name}、{label}和{industry},其中name为企业名称,label为企业主营产品名称,industry为行业名称,行业名称包括原料行业、研发行业、产品制造行业和服务行业;
S3:对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,label},其中att为实体关系;
S4:根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,industry},其中att为实体关系;
S5:根据企业信息和企业数据建立企业名称与企业名称之间的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,name},其中att为实体关系;
S6:根据生成的所有三元组建立基于知识图谱的产业链网络关系。
2.根据权利要求1所述的一种基于知识图谱的产业链网络关系构建方法,其特征在于,所述步骤S4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组包括如下步骤:根据行业名称建立多个行业关键词词典,行业关键词词典内部设定了行业关键词与行业名称的从属关系;获取企业名称对应的所有企业主营产品名称,并将所有企业主营产品名称依次与不同行业关键词词典内部的行业关键词进行匹配,输出匹配成功的行业关键词数量,选择不同行业关键词词典输出的匹配成功的行业关键词数量中数量最大的行业关键词数量,计算数量最大的行业关键词数量与企业主营产品名称总数的关键词比值,将关键词比值与预设比值阈值进行大小比较,若是关键词比值大于等于预设比值阈值,建立所有企业主营产品名称对应的企业名称与输出数量最大的行业关键词数量对应行业关键词词典对应的行业名称的实体关系,实体关系为“从属”,三元组的形式为{name,从属,name};若是关键词比值小于预设比值阈值,选择下一个企业名称。
3.根据权利要求2所述的一种基于知识图谱的产业链网络关系构建方法,其特征在于,所述步骤S4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,还包括如下步骤:根据企业名称获取对应企业的资金总支出金额和研发支出金额,计算该企业研发支出金额与资金总支出金额的研发资金占比,将研发资金占比与预设研发资金占比进行大小比较,若是研发资金占比大于等于预设研发资金占比,建立该企业名称与研发行业的实体关系,实体关系为“从属”,三元组的形式为{name,从属,研发行业};若是研发资金占比小于预设研发资金占比,选择下一个企业名称。
4.根据权利要求3所述的一种基于知识图谱的产业链网络关系构建方法,其特征在于,所述步骤S5中,根据企业信息中的企业主营产品名称建立企业名称与企业名称之间的实体关系包括如下步骤:
T1:对所有企业信息分别分配企业编码Xi,i=1,2,3......I,其中I为企业信息总数;
T2:依次选择企业编码Xi,根据企业编码Xi获取对应所有的企业主营产品名称,存储为集合δi={ui1,ui2,ui......uij},其中j=1,2,3......J,J为企业主营产品名称总个数;
T3:令k=1;
T4:选择集合δk,获取集合δk对应的企业主营产品名称总个数J;
T5:令x=1;
T6:选择集合δk+x,将集合δk和δk+x进行并集计算,生成并集集合ε,计算并集集合ε内的元素总个数Q,计算重合度
Figure FDA0004025270270000021
判断“Q≤P”是否成立,若是“Q≤P”成立,不进行操作,进入T8;若是“Q≤P”不成立,进入T7;
T7:建立集合δk对应企业编码Xk的企业名称和集合δk+x对应企业编码Xk+x的企业名称之间的实体关系,实体关系为“竞争”,三元组的形式为{name,竞争,name}。
5.根据权利要求4所述的一种基于知识图谱的产业链网络关系构建方法,其特征在于,所述步骤S5中,根据企业数据中的订单数据和资金转账记录数据建立企业名称与行业名称的实体关系包括如下步骤:建立原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典;获取订单数据和资金转账记录数据,根据订单数据获取企业之间流通的产品名称和流通方向,将产业名称依次与原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典进行匹配,当产业名称依次与原料关键词词典内部原料关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“供应”,三元组的形式为{name,供应,name},根据流通方向,前一个name为供应方,后一个name为被供应方;当产业名称依次与技术服务关键词词典和服务关键词词典内部技术服务关键词和服务关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“提供”,三元组的形式为{name,提供,name},根据流通方向,前一个name为提供方,后一个name为被提供方;当产业名称依次与中间件关键词词典内部中间件关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“制备”,三元组的形式为{name,制备,name},根据流通方向,前一个name为制备方,后一个name为被制备产品获取方。
6.根据权利要求5所述的一种基于知识图谱的产业链网络关系构建方法,其特征在于,所述步骤S5中,根据企业数据中的合同文本数据建立企业名称与企业名称之间的实体关系包括如下步骤:将合同文本数据输入深度学习模型,生成企业名称与企业名称之间的实体关系和三元组。
7.根据权利要求1所述的一种基于知识图谱的产业链网络关系构建方法,其特征在于,所述步骤S1中,在建立完节点之后,遍历所有{label}节点,并将重复的{label}节点进行删除。
8.根据权利要求1-6任一项所述的一种基于知识图谱的产业链网络关系构建方法,其特征在于,所述行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典的建立包括如下步骤:获取用户标注好类别的行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集,并分别对行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集进行无监督的聚类分析,提取出关键词,存入对应行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典中。
CN202211707519.4A 2022-12-29 2022-12-29 一种基于知识图谱的产业链网络关系构建方法 Pending CN116204653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211707519.4A CN116204653A (zh) 2022-12-29 2022-12-29 一种基于知识图谱的产业链网络关系构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211707519.4A CN116204653A (zh) 2022-12-29 2022-12-29 一种基于知识图谱的产业链网络关系构建方法

Publications (1)

Publication Number Publication Date
CN116204653A true CN116204653A (zh) 2023-06-02

Family

ID=86508632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211707519.4A Pending CN116204653A (zh) 2022-12-29 2022-12-29 一种基于知识图谱的产业链网络关系构建方法

Country Status (1)

Country Link
CN (1) CN116204653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663751A (zh) * 2023-07-31 2023-08-29 北京市科学技术研究院 一种基于未来产业企业的三网产业图谱构建方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663751A (zh) * 2023-07-31 2023-08-29 北京市科学技术研究院 一种基于未来产业企业的三网产业图谱构建方法及系统

Similar Documents

Publication Publication Date Title
CN112035453B (zh) 基于gbdt高阶特征组合的推荐方法、装置及存储介质
Shekhovtsov et al. Towards Reliable Decision-Making in the green urban transport domain
CN105210058A (zh) 使用多个引擎来进行图查询处理
CN112989059A (zh) 潜在客户识别方法及装置、设备及可读计算机存储介质
CN116204653A (zh) 一种基于知识图谱的产业链网络关系构建方法
CN110609870B (zh) 分布式数据处理方法、装置、电子设备及存储介质
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
CN113190651B (zh) 基于定额知识图谱技术的电力数据全局知识图谱补全方法
CN116628228B (zh) 一种rpa流程推荐方法以及计算机可读存储介质
CN113535818A (zh) 一种构建审计综合知识库的方法、设备
CN116244484B (zh) 一种面向不平衡数据的联邦跨模态检索方法及系统
CN115858622A (zh) 一种业务数据核对脚本的自动化生成方法
Salmam et al. Prediction in OLAP data cubes
Liu et al. Inventory Management of Automobile After-sales Parts Based on Data Mining
CN117078441B (zh) 理赔欺诈识别方法、装置、计算机设备和存储介质
CN113505600B (zh) 一种基于语义概念空间的工业产业链的分布式索引方法
EP4339845A1 (en) Method, apparatus and electronic device for detecting data anomalies, and readable storage medium
CN117556118B (zh) 基于科研大数据预测的可视化推荐系统及方法
Mealy Know what? New lenses on productive knowledge shed light on long run development, structural change, job switching and the transition to the green economy
CN117453576B (zh) 基于DXM模型的SaaS软件测试用例构建方法
Choi et al. Comparison of graph clustering methods for analyzing the mathematical subject classification codes
Shree Autonomous development of theoretical framework for intelligence automation system using decision tree algorithm
Poorsoltani et al. Enabling Link Prediction Optimization on Social Networks
Bhatia et al. A Literature Review on Quality Prediction in Data Warehouse
Li et al. Mining resource service sequences based on similarity for collaborative tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination