CN112990575A - 基于知识图谱的产业发展路径预测方法及其装置 - Google Patents
基于知识图谱的产业发展路径预测方法及其装置 Download PDFInfo
- Publication number
- CN112990575A CN112990575A CN202110278763.2A CN202110278763A CN112990575A CN 112990575 A CN112990575 A CN 112990575A CN 202110278763 A CN202110278763 A CN 202110278763A CN 112990575 A CN112990575 A CN 112990575A
- Authority
- CN
- China
- Prior art keywords
- industry
- development
- area
- knowledge graph
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011161 development Methods 0.000 title claims abstract description 187
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000004519 manufacturing process Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 22
- 239000000126 substance Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000005065 mining Methods 0.000 description 43
- 238000007670 refining Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 239000004576 sand Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开一种基于知识图谱的产业发展路径预测方法及其装置。该实施例通过采集产业和区域信息数量,基于大数据构建区域产业融合知识图谱,并根据所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点,采用最短路径算法预测得到任一区域的最优产业发展路径。本申请实施例可以快速、科学地预测出区域产业发展的最优路径,可以满足智慧城市建设对智能决策支持系统的要求。
Description
技术领域
本申请涉及知识图谱与数据挖掘技术领域,具体涉及一种基于知识图谱的产业发展路径预测方法及其装置。
背景技术
政府决策支持系统为政府提供各种决策信息以及问題的解决方案,将决策者从低层次的信息分析处理工作中解放出来,从而专注于重要决策智慧和经验的工作,从而提高决策的质量和效率。它建立在大量的数据基础上,综合利用各种算法模型技术对产业、经济数据进行定性和定量分析,为决策者提供及时、准确、科学的决策信息。
随着互联网、大数据计算和物联网等技术的发展,使用海量的大数据智能分析来解决政府决策支持系统中舆情跟踪监测、指标预测推演、区域经济诊断分析等领域问题,打造智慧城市,已经成为一项重要的研究课题。其中,产业发展路径研究是政府决策支持系统中的重要研究对象之一,其基于产业经济数据的分析和挖掘来实施产业发展路径预测和规划。
然而,传统的产业发展路径预测和规划方法采用人工调研结合专家经验,缺少从海量数据中预测区域最优产业发展路径的技术方案,无法满足智慧城市建设中对决策支持系统的要求。
发明内容
有鉴于此,本申请的目的是提供一种基于知识图谱的产业发展路径预测方法及其装置,用于从海量数据中快速、科学地预测出区域产业发展的最优路径,满足智慧城市建设对决策支持系统的。
第一方面,本申请实施例提供一种基于知识图谱的产业发展路径预测方法,包括以下步骤:
从本地资源和互联网资源采集海量的产业和区域信息数据,构建产业和区域信息数据库;
基于所述产业和区域信息数据库,构建产业知识图谱,其中所述产业知识图谱中的节点表示产业节点,两个产业节点之间的边表示两个产业之间的完全消耗系数;
基于所述产业和区域信息数据库,构建区域知识图谱,其中所述区域知识图谱的节点表示区域节点,两个区域节点之间的边表示两个区域之间地理上的相邻关系;
根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点,根据所述每个区域节点所对应的主要产业节点对所述产业知识图谱和区域知识图谱进行融合,构建区域产业融合知识图谱,其中所述区域产业融合知识图谱中区域节点和主要产业节点之间的边表示主要产业在区域中的产值占比;
计算所有产业的发展规模指数和发展质量指数,根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点;
以所述区域产业融合知识图谱中任一区域的任一主要产业节点为起点,以该任一区域的目标发展产业节点为终点,计算至少一条最短路径,以所述至少一条最短路径中具有最大完全消耗系数的路径作为该任一区域的最优产业发展路径的预测。
在优选的实施方式中,所述根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点包括:
依次判断每个产业在各区域中的产值占比是否大于预定阈值;
如果某个产业在某个区域中的产值占比大于预定阈值,则将该产业对应的产业节点作为该区域对应的区域节点的主要产业节点。
在优选的实施方式中,所述产业和区域信息数据包括经济指标数据,所述计算所有产业的发展规模指数和发展质量指数包括:
使用最大最小值归一化将每个区域的第一组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第一组经济指标数据归一化后的均值来计算该区域产业的发展规模指数;
使用最大最小值归一化将每个区域的第二组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第二组经济指标数据归一化后的均值来计算该区域产业的发展质量指数。
在优选的实施方式中,所述根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点包括:
计算该任一区域的主要产业在同一产业链上的下游产业对该主要产业的产业发展规模和质量的提升程度;
选择对该主要产业的产业发展规模和质量的提升程度最大的下游产业作为该任一区域的目标发展产业节点。
在优选的实施方式中,所述计算所有产业的发展规模指数和发展质量指数包括:
对所述经济指标数据进行模型学习训练和预测,从而得到所述经济指标数据的预测数据;
根据所述经济指标数据的预测数据计算所有产业的发展规模指数和发展质量指数。
在优选的实施方式中,所述对所述经济指标数据进行模型学习训练和预测包括:
将所述经济指标数据中至少一部分用于训练最优的混频数据抽样模型MIDAS,并利用所述最优混合数据抽样模型对所述经济指标数据进行预测。
第二方面,本申请实施例提供一种基于知识图谱的产业发展路径预测装置,包括:
数据采集模块,用于从本地资源和互联网资源采集海量的产业和区域信息数据,构建产业和区域信息数据库;
第一知识图谱构建模块,用于基于所述产业和区域信息数据库,构建产业知识图谱,其中所述产业知识图谱中的节点表示产业节点,两个产业节点之间的边表示两个产业之间的完全消耗系数;
第二知识图谱构建模块,用于基于所述产业和区域信息数据库,构建区域知识图谱,其中所述区域知识图谱的节点表示区域节点,两个区域节点之间的边表示两个区域之间地理上的相邻关系;
知识图谱融合模块,用于根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点,根据所述每个区域节点所对应的主要产业节点对所述产业知识图谱和区域知识图谱进行融合,构建区域产业融合知识图谱,其中所述区域产业融合知识图谱中区域节点和主要产业节点之间的边表示主要产业在区域中的产值占比;
目标节点确定模块,用于计算所有产业的发展规模指数和发展质量指数,根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点;
最优路径预测模块,用于以所述区域产业融合知识图谱中任一区域的任一主要产业节点为起点,以该任一区域的目标发展产业节点为终点,计算至少一条最短路径,以所述至少一条最短路径中具有最大完全消耗系数的路径作为该任一区域的最优产业发展路径的预测。
在优选的实施方式中,所述知识图谱融合模块根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点包括:
依次判断每个产业在各区域中的产值占比是否大于预定阈值;
如果某个产业在某个区域中的产值占比大于预定阈值,则将该产业对应的产业节点作为该区域对应的区域节点的主要产业节点。
在优选的实施方式中,所述产业和区域信息数据包括经济指标数据,所述目标节点确定模块计算所有产业的发展规模指数和发展质量指数包括:
使用最大最小值归一化将每个区域的第一组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第一组经济指标数据归一化后的均值来计算该区域产业的发展规模指数;
使用最大最小值归一化将每个区域的第二组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第二组经济指标数据归一化后的均值来计算该区域产业的发展质量指数。
在优选的实施方式中,所述目标节点确定模块根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点包括:
计算该任一区域的主要产业在同一产业链上的下游产业对该主要产业的产业发展规模和质量的提升程度;
选择对该主要产业的产业发展规模和质量的提升程度最大的下游产业作为该任一区域的目标发展产业节点。
在优选的实施方式中,所述目标节点确定模块计算所有产业的发展规模指数和发展质量指数包括:
对所述经济指标数据进行模型学习训练和预测,从而得到所述经济指标数据的预测数据;
根据所述经济指标数据的预测数据计算所有产业的发展规模指数和发展质量指数。
在优选的实施方式中,所述目标节点确定模块对所述经济指标数据进行模型学习训练和预测包括:
将所述经济指标数据中至少一部分用于训练最优的混频数据抽样模型MIDAS,并利用所述最优混合数据抽样模型对所述经济指标数据进行预测。
第三方面,本申请实施例还提供一种计算设备,包括存储器和处理器;其中,所述存储器用于存储至少一个计算机程序,其中,所述程序被所述处理器执行以实现前述任一实施方式所述方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行以实现前述任一实施方式所述方法的步骤。
相对于现有技术,本申请实施例的技术方案从经济指标大数据中挖掘数据之间的客观联系,借助知识图谱的语义处理,可以快速、科学地预测出区域产业发展的最优路径,可以满足智慧城市建设对智能决策支持系统的要求。
附图说明
通过以下详细的描述并结合附图将更充分地理解本发明,其中相似的元件以相似的方式编号,其中:
图1是根据本申请一实施例的基于知识图谱的产业发展路径预测方法的流程示意图;
图2是根据本申请一实施例的区域产业融合知识图谱的结构示意图;
图3是根据本申请一实施例的基于知识图谱的产业发展路径预测装置的结构示意图。
具体实施方式
下面通过实施例,并结合附图,对本申请的技术方案进行清楚、完整地说明,但是本申请不限于以下所描述的实施例。基于以下实施例,本领域普通技术人员在没有创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
应理解,本申请中诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件或其组合的存在,并不排除一个或多个其它特征、数字、步骤、行为、部件或其组合存在或被添加的可能性。
如前所述,现有技术中缺少从海量数据中预测区域最优产业发展路径的技术方案,无法满足智慧城市建设中对决策支持系统的要求。知识图谱(Knowledge Graph)用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱本质上是一种揭示实体之间关系的语义网络,以其强大的语义处理能力和开放组织能力,可以应用于智能搜索、智能问答、个性化推荐、内容分发等多种技术领域。本申请基于产业和区域信息数据库构建产业和区域知识图谱,从而借助知识图谱的语义处理能力实现最优区域产业发展路径的预测。
图1是根据本申请一实施例的基于知识图谱的产业发展路径预测方法的流程示意图。如图1所示,本申请实施例的基于知识图谱的产业发展路径预测方法,包括以下步骤:
步骤S110,从本地资源和互联网资源采集海量的产业和区域信息数据,构建产业和区域信息数据库。
本步骤中,可以通过智能数据采集引擎,从各区域内政府部门自有数据资源和互联网资源采集产业和区域大数据,通过资料爬取、内容甄别、数据识别、属性匹配、数据入库等的数据处理流程,而后精简为结构化数据,构建为产业和区域信息数据库。
其中,产业数据可以包括按照常规产业分类标准和产业链信息而得到的各产业分类。作为一个示例,产业分类例如可以包括林业、采矿业、精炼业、土砂石开采业、土砂石加工业、化工业、化工品制造业、开采辅助业、硅加工业、电工仪器仪表、计算机服务业、通信服务业、软件服务业、软件集成服务、零售业等。区域数据可以包括全国省市地区。
其中,产业和区域大数据还可以包括各区域内各产业的经济运行统计数据、经济指标数据等。例如,营业收入、营业税金、资产总计、就业人数、单位数量、平均从业人数、平均营业收入、平均税金及附加、平均资产等。
步骤S120,基于所述产业和区域信息数据库,构建产业知识图谱,其中所述产业知识图谱中的节点表示产业节点,两个产业节点之间的边表示两个产业之间的完全消耗系数。
本步骤中,完全消耗系数是指某个产业部门单位产品的生产对另一个产业部门产品的直接消耗量和间接消耗量的消总和,反映了产业之间的直接和间接的技术经济联系。
完全消耗系数的计算公式如下:
式中的第一项aij表示第j产品部门对第i产品部门的直接消耗量;式中的第二项表示第j产品部门对第i产品部门的第一轮间接消耗量;式中的第三项为第二轮间接消耗量;式中的第四项为第三轮间接消耗量;依此类推,第n+1项为第n轮间接消耗量。按照公式所示,将直接消耗量和各轮间接消耗量相加所得就是完全消耗系数。
本实施例中,产业知识图谱基于RDF资源描述框架来描述产业数据。RDF资源描述框架是一个数据模型(Data Model),提供了一个统一的标准,用于描述实体/资源。RDF形式上表示为SPO三元组,也称为知识图谱中的一条知识。
在一些实施方式中,可以通过图数据库来构建和存储产业知识图谱。例如,常用的图数据库Neo4j、OritentDB、InfoGrid、HyperGraphDB、infiniteGraph等均可用于本实施例。
图数据库通过节点、边和属性对数据进行表示和存储。具体来说,图数据库基于有向图,其中,节点、边、属性是图数据库的核心概念。节点用于表示实体、事件等对象,可以类比于关系型数据库中的记录或者数据表中的行数据;边是指图中连接节点的有向线条,用于表示不同节点之间的关系;属性用于描述节点或者边的特性。
图数据库的标准查询语言是SPARQL。SPARQL是由W3C为RDF数据开发的一种查询语言和数据获取协议,是被图数据库广泛支持的查询语言,用于对数据的获取与管理,主要包括数据的插入、删除和查询操作。
步骤S130,基于所述产业和区域信息数据库,构建区域知识图谱,其中所述区域知识图谱的节点表示区域节点,两个区域节点之间的边表示两个区域之间地理上的相邻关系。
本步骤中,同样可以通过图数据库来构建和存储区域知识图谱,具体实施方式在此不再赘述。
步骤S140,根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点,根据所述每个区域节点所对应的主要产业节点对所述产业知识图谱和区域知识图谱进行融合,构建区域产业融合知识图谱,其中所述区域产业融合知识图谱中区域节点和主要产业节点之间的边表示产业在区域中的产值占比。
本步骤中,首先根据各产业在各区域中的产值占比来确定区域节点与产业节点之间对应的关联关系。
然后,可以根据预设阈值判断区域中对应的主要产业,具体方法是,如果一个产业在该区域中的产值占该区域总GDP的比重大于预设阈值,则将该产业标记为主要产业,区域对应的主要产业在区域产业融合知识图谱中即为该区域节点对应的主要产业节点。区域节点与主要产业节点之间的边表征该主要产业在区域中的产值占比。
图2是根据本申请一实施例的区域产业融合知识图谱的结构示意图。如图2所示,以山西省节点200为例,设定产业产值占比大于3%的产业为主要产业,则山西省的主要产业按照产值从大到小排序依次是采矿业(GDP产值占比为0.09)、土砂石开采业(GDP产值占比为0.07)、精炼业(GDP产值占比为0.06)、林业(GDP产值占比为0.04)。因此,与山西省节点200相连的主要产业节点包括采矿业201、土砂石开采业202、精炼业203、林业204。
本步骤中,同样可以通过图数据库来构建和存储区域产业融合知识图谱,具体实施方式在此不再赘述。
步骤S150,计算所有产业的发展规模指数和发展质量指数,根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点。
本步骤中,根据步骤S110中采集的各区域各产业的经济运行统计数据、经济指标数据计算所有产业的发展规模指数和发展质量指数,将各产业的经济指标转化为产业发展规模和产业发展质量两个维度指标来衡量区域的产业发展水平。作为示例,以各区域各产业的以下经济指标:营业收入、营业税金、资产总计、就业人数、单位数量、平均从业人数、平均营业收入、平均税金及附加、平均资产等为例进行计算说明。
在一些实施方式中,首先,使用最大最小值归一化将每个区域的所有经济指标归一化缩放到0-1的数值范围内,然后求得每个区域的经济指标归一化后的均值来计算该区域产业的发展规模指数。对经济指标进行归一化计算的公式如下:
式中,x为区域内某产业的经济指标值;max和min分别表示某产业的经济指标值的最大值和最小值;x′表示区域内某产业的经济指标值的归一化值。
作为示例,产业发展规模指数的计算方法例如可以是营业收入、营业税金、资产总计的归一化后的均值。
下表呈现的是北京市、天津市、河北省、山西等省市区域的采矿业的营业收入、营业税金、资产总计的统计值:
省市区域 | 营业收入(亿元) | 营业税金(亿元) | 资产总计(亿元) |
北京市 | 1389.56 | 22.59 | 2883.39 |
天津市 | 3123.77 | 242.69 | 3063.66 |
河北省 | 5219.08 | 290.10 | 4616.86 |
山西省 | 7642.92 | 488.71 | 14331 |
… | … | … | … |
对表中各列进行归一化,以对天津市的营业收入进行归一化举例,先找到营业收入列最大值和最小值max=7642.92,min=1389.56,计算归一化值(3123.77-1389.56)/(7642.92-1389.56)=0.28。
表中所有的指标数据归一化后的结果如下表所示:
省市区域 | 营业收入 | 营业税金 | 资产总计 |
北京市 | 0.00 | 0.00 | 0.00 |
天津市 | 0.28 | 0.47 | 0.02 |
河北省 | 0.61 | 0.57 | 0.15 |
山西省 | 1.00 | 1.00 | 1.00 |
… | … | … | … |
以天津市为例,对归一化之后的指标求均值,得到该市的产业发展规模指数为(0.28+0.47+0.02)/3=0.26。
由此,对各地区的经济指标依次进行同样的计算,得到采矿业各区域的产业发展规模指数得到下表所示:
省市区域 | 产业发展规模指数 |
北京市 | 0.00 |
天津市 | 0.26 |
河北省 | 0.45 |
山西省 | 1.00 |
… | … |
其次,使用一个产业在各地区的产业发展规模指数的均值作为该产业的全国产业发展规模指数,例如,按照上述计算结果(总共34个省市区域,其中部分省市区域的数值未示出),采矿业的全国产业发展规模指数是(0.0+0.26+0.45+1.0+…)/34=0.42,用Z表示。
相应地,计算产业发展质量指数与产业发展规模指数的计算方式基本相同,也是对选取的经济指标进行归一化后,然后求均值,不同的是选取的经济指标可以不同。例如,计算产业发展质量指数使用的指标数据可以是平均从业人数、平均营业收入、平均税金及附加、平均资产。
使用一个产业在各地区的产业发展质量指数的均值作为该产业的全国产业发展质量指数,用G表示。最终得到采矿业各区域的产业发展质量指数和产业发展规模指数如下所示:
省市区域 | 产业发展规模指数 | 产业发展质量指数 |
北京市 | 0.00 | 0.15 |
天津市 | 0.26 | 0.23 |
河北省 | 0.45 | 0.61 |
山西省 | 1.00 | 0.73 |
… | … | … |
根据同样的方法,依次计算所有产业的上述产业发展规模指数和产业发展质量指数。
然后,根据预置的产业链信息,找到与区域的主要产业在同一产业链上的下游产业,计算下游产业对该主要产业的产业发展规模和质量的提升程度。以山西省为例,山西省的主要产业之一是采矿业,采矿业的产业链是:采矿业->精炼业–>化工业–>零售业,计算采矿业产业链的下游产业对采矿业的产业发展规模和质量的提升程度,计算公式如下:
T=(Z-A)+(G-B)
其中,T是下游产业对主要产业的产业发展规模和质量的提升程度;Z是该下游产业的全国产业发展规模指数;A是该下游产业的区域产业发展规模指数;G是该下游产业的全国产业发展质量指数;B是该下游产业的区域产业发展质量指数。
例如,精炼业的全国产业发展规模指数为0.5,山西省精炼业的产业发展规模指数为0.4,精炼业的全国产业发展质量指数是0.8,山西省精炼业的产业发展质量指数为0.6,则精炼业对采矿业的产业发展规模和质量的提升程度是:(0.5-0.4)+(0.8-0.6)=0.3。
最后,根据上述计算方法,依次计算所有下游产业对采矿业的产业发展规模和质量的提升程度,选择提升程度最大的产业作为该区域的目标发展产业节点。例如,如果计算得到采矿业产业链各下游产业对采矿业的产业发展规模和质量的提升程度分别是:精炼业0.3,化工业0.2,零售业0.4,则确定零售业节点205作为该区域的目标发展产业节点。
步骤S160,以所述区域产业融合知识图谱中任一区域的任一主要产业节点为起点,以该任一区域的目标发展产业节点为终点,计算至少一条最短路径,以所述至少一条最短路径中具有最大完全消耗系数的路径作为该任一区域的最优产业发展路径的预测。
本步骤中,首先以任一区域的主要产业节点为起点,以目标发展产业节点为终点,计算最短路径。
如图2所示,以知识图谱中山西省节点200为例,则分别以山西省的四个主要产业节点采矿业201、土砂石开采业202、精炼业203、林业204为起点,以步骤S150中确定的目标发展产业节点零售业205为终点。
对于每一组(起点、终点)组合,采用Dijkstra最短路径算法遍历从起点到终点的所有边,找到最短路径。其中,确定遍历节点和边的两个限制条件:1)每个节点只能经过一次;2)不能经过区域节点。
以(采矿业201、零售业205)这个组合为例。首先,从采矿业节点201出发,遵循上述限制条件,走一步可以到达的节点包括开采辅助业、化工业、精炼业,则生成以下路径:
路径1:(采矿业->开采辅助业)
路径2:(采矿业->化工业)
路径3:(采矿业->精炼业)
接下来,针对每条路径继续尝试所有可以走一步到达的节点。其中,路径1已经走到了最后一个节点(一个节点只能经过一次),但是没有到达零售业节点205,因此路径1无效。
路径2接下来可以走一条边到达零售业节点205,路径扩充为(采矿业->化工业->零售业)。
由于限制了不能经过区域节点,路径3接下来只能经过化工品制造业节点,因此路径3可以扩充为(采矿业->精炼业->化工品制造业),继续遍历尝试所有可以一步到达的节点,则路径3最终可以到达零售业节点205,路径扩充为(采矿业->精炼业->化工品制造业->零售业)。
至此,从采矿业节点201出发到零售业节点205,可以得到了两条路径,即路径2和路径3:
路径2:(采矿业->化工业->零售业)
路径3:(采矿业->精炼业->化工品制造业->零售业)
计算每条路径中经过边的数量,路径2经过了两条边,因此路径长度为2,路径3经过了三条边,路径长度为3,即路径2的长度比路径3短,所以路径2(采矿业->化工业->零售业)是(采矿业、零售业)这个起点终点组合的最短路径。
类似地,可以计算得到所有起点终点组合的最短路径如下:
(采矿业、零售业)组合的最短路径是(采矿业->化工业->零售业),长度是2;
(精炼业、零售业)组合的最短路径是(精炼业->化工品制造业->零售业),长度是2;
(林业、零售业)组合没有最短路径,因为尝试了所有路径均无法到达终点;
(土砂石开采业、零售业)组合的最短路径是(土砂石开采业->计算机制造业->软件服务业->零售业),长度是3;
比较所有起点终点组合的最短路径长度,得到对应该区域的最短路径如下:(采矿业、零售业)组合的最短路径L1(采矿业->化工业->零售业)和(精炼业、零售业)组合的最短路径L2(精炼业->化工品制造业->零售业)的长度都是2。
随后,计算每条最短路径的边的完全消耗系数的和。
其中,路径L1(采矿业->化工业->零售业)经过了两条边,每条边的完全消耗系数分别是17和6,所以完全消耗系数的和为17+6=23。
路径L2(精炼业->化工品制造业->零售业)经过了两条边,每条边的完全消耗系数分别是35和10,所以完全消耗系数的和为35+10=45。
比较两个最短路径L1和L2,确定完全消耗系数最大的路径L2作为该区域的最优产业发展路径的预测。因为最短路径表示起始产业和目标产业之间发展经过了最少的边,所以能够通过发展最少的产业达到带动目标产业发展的目的,而路径上的边的完全消耗系数的和最大,则表示产业发展路径上经过的各产业相关性最高,所以可以作为产业发展的最优路径。
本申请实施例所提出的基于知识图谱的产业发展路径预测方法通过采集经济指标大数量,基于大数据构建区域产业融合知识图谱,并根据所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点,采用最短路径算法预测得到任一区域的最优产业发展路径。本申请的技术方案从经济指标大数据中挖掘数据之间的客观联系,借助知识图谱的语义处理,从而快速、科学地预测出区域产业发展的最优路径,可以满足智慧城市建设对智能决策支持系统的要求。
在一些实施方式中,步骤S110中,还可以基于采集的经济指标大数据进行模型学习训练和预测,从而得到经济指标数据的预测数据。具体而言,可以将所述采集的经济指标大数据中至少一部分用于训练最优的混频数据抽样模型MIDAS,并利用所述最优混合数据抽样模型对采集的经济指标大数据进行经济指标预测。
在一些实施方式中,步骤S150可以包括根据所述经济指标数据的预测数据计算所有产业的发展规模指数和发展质量指数。本实施例使用预测的经济指标数据来计算产业的发展规模指数和发展质量指数,从而基于产业的发展规模指数和发展质量指数来生成区域的最优产业发展路径的预测,相比传统的使用历史统计数据的方式,更具有实时性,能够解决滞后反馈的问题。
图3是根据本申请一实施例的基于知识图谱的产业发展路径预测装置的结构示意图。如图3所示,本申请实施例的基于知识图谱的产业发展路径预测装置,包括以下组件:
数据采集模块310,用于从本地资源和互联网资源采集海量的产业和区域信息数据,构建产业和区域信息数据库。
第一知识图谱构建模块320,用于基于所述产业和区域信息数据库,构建产业知识图谱,其中所述产业知识图谱中的节点表示产业节点,两个产业节点之间的边表示两个产业之间的完全消耗系数。
第二知识图谱构建模块330,用于基于所述产业和区域信息数据库,构建区域知识图谱,其中所述区域知识图谱的节点表示区域节点,两个区域节点之间的边表示两个区域之间地理上的相邻关系。
知识图谱融合模块340,用于根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点,根据所述每个区域节点所对应的主要产业节点对所述产业知识图谱和区域知识图谱进行融合,构建区域产业融合知识图谱,其中所述区域产业融合知识图谱中区域节点和主要产业节点之间的边表示主要产业在区域中的产值占比。
目标节点确定模块350,用于计算所有产业的发展规模指数和发展质量指数,根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点。
最优路径预测模块360,用于以所述区域产业融合知识图谱中任一区域的任一主要产业节点为起点,以该任一区域的目标发展产业节点为终点,计算至少一条最短路径,以所述至少一条最短路径中具有最大完全消耗系数的路径作为该任一区域的最优产业发展路径的预测。
本申请实施例所提出的基于知识图谱的产业发展路径预测装置通过采集经济指标大数量,基于大数据构建区域产业融合知识图谱,并根据所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点,采用最短路径算法预测得到任一区域的最优产业发展路径。本申请的技术方案从经济指标大数据中挖掘数据之间的客观联系,借助知识图谱的语义处理,从而快速、科学地预测出区域产业发展的最优路径,可以满足智慧城市建设对智能决策支持系统的要求。
本申请实施例中所涉及到的步骤、单元或模块可以通过软件、硬件或其结合的方式实现。所描述的步骤、单元或模块也可以设置在计算设备的处理器中,其中单元或模块的名称并不构成对该单元或模块本身的限定。
本申请实施例描述的产业发展路径预测方法可以被实现为计算机软件程序。例如,本申请实施例可以包括一种计算机程序产品,其包括存储有一个或一个以上计算机程序的可读存储介质,所述计算机程序包含用于执行本申请所述描述的方法的程序代码。另一方面,本申请实施例也可以包括一种计算机可读存储介质,该计算机可读存储介质存储有一个或一个以上的计算机程序,所述一个或一个以上的计算机程序被一个或一个以上的处理器执行时,可以实现本申请所描述的产业发展路径预测方法。
本申请所描述的产业发展路径预测方法、装置可以借助个人电脑、服务器等计算设备实现,该计算设备通常包括执行各种计算机程序的处理器,以及用于存储计算机程序的存储器,其中所述计算机程序加载到处理器中运行时可以实现本申请所描述的产业发展路径预测方法。
本申请的实施方式并不限于上述实施例所述,在不偏离本申请的精神和范围的情况下,本领域普通技术人员可以在形式和细节上对本申请做出各种改变和改进,这些均被认为落入了本申请的保护范围。
Claims (14)
1.一种基于知识图谱的产业发展路径预测方法,其特征在于,包括:
从本地资源和互联网资源采集海量的产业和区域信息数据,构建产业和区域信息数据库;
基于所述产业和区域信息数据库,构建产业知识图谱,其中所述产业知识图谱中的节点表示产业节点,两个产业节点之间的边表示两个产业之间的完全消耗系数;
基于所述产业和区域信息数据库,构建区域知识图谱,其中所述区域知识图谱的节点表示区域节点,两个区域节点之间的边表示两个区域之间地理上的相邻关系;
根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点,根据所述每个区域节点所对应的主要产业节点对所述产业知识图谱和区域知识图谱进行融合,构建区域产业融合知识图谱,其中所述区域产业融合知识图谱中区域节点和主要产业节点之间的边表示主要产业在区域中的产值占比;
计算所有产业的发展规模指数和发展质量指数,根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点;
以所述区域产业融合知识图谱中任一区域的任一主要产业节点为起点,以该任一区域的目标发展产业节点为终点,计算至少一条最短路径,以所述至少一条最短路径中具有最大完全消耗系数的路径作为该任一区域的最优产业发展路径的预测。
2.根据权利要求1所述的基于知识图谱的产业发展路径预测方法,其特征在于,所述根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点包括:
依次判断每个产业在各区域中的产值占比是否大于预定阈值;
如果某个产业在某个区域中的产值占比大于预定阈值,则将该产业对应的产业节点作为该区域对应的区域节点的主要产业节点。
3.根据权利要求2所述的基于知识图谱的产业发展路径预测方法,其特征在于,所述产业和区域信息数据包括经济指标数据,所述计算所有产业的发展规模指数和发展质量指数包括:
使用最大最小值归一化将每个区域的第一组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第一组经济指标数据归一化后的均值来计算该区域产业的发展规模指数;
使用最大最小值归一化将每个区域的第二组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第二组经济指标数据归一化后的均值来计算该区域产业的发展质量指数。
4.根据权利要求3所述的基于知识图谱的产业发展路径预测方法,其特征在于,所述根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点包括:
计算该任一区域的主要产业在同一产业链上的下游产业对该主要产业的产业发展规模和质量的提升程度;
选择对该主要产业的产业发展规模和质量的提升程度最大的下游产业作为该任一区域的目标发展产业节点。
5.根据权利要求3所述的基于知识图谱的产业发展路径预测方法,其特征在于,所述计算所有产业的发展规模指数和发展质量指数包括:
对所述经济指标数据进行模型学习训练和预测,从而得到所述经济指标数据的预测数据;
根据所述经济指标数据的预测数据计算所有产业的发展规模指数和发展质量指数。
6.根据权利要求5所述的基于知识图谱的产业发展路径预测方法,其特征在于,所述对所述经济指标数据进行模型学习训练和预测包括:
将所述经济指标数据中至少一部分用于训练最优的混频数据抽样模型MIDAS,并利用所述最优混合数据抽样模型对所述经济指标数据进行预测。
7.一种基于知识图谱的产业发展路径预测装置,其特征在于,包括:
数据采集模块,用于从本地资源和互联网资源采集海量的产业和区域信息数据,构建产业和区域信息数据库;
第一知识图谱构建模块,用于基于所述产业和区域信息数据库,构建产业知识图谱,其中所述产业知识图谱中的节点表示产业节点,两个产业节点之间的边表示两个产业之间的完全消耗系数;
第二知识图谱构建模块,用于基于所述产业和区域信息数据库,构建区域知识图谱,其中所述区域知识图谱的节点表示区域节点,两个区域节点之间的边表示两个区域之间地理上的相邻关系;
知识图谱融合模块,用于根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点,根据所述每个区域节点所对应的主要产业节点对所述产业知识图谱和区域知识图谱进行融合,构建区域产业融合知识图谱,其中所述区域产业融合知识图谱中区域节点和主要产业节点之间的边表示主要产业在区域中的产值占比;
目标节点确定模块,用于计算所有产业的发展规模指数和发展质量指数,根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点;
最优路径预测模块,用于以所述区域产业融合知识图谱中任一区域的任一主要产业节点为起点,以该任一区域的目标发展产业节点为终点,计算至少一条最短路径,以所述至少一条最短路径中具有最大完全消耗系数的路径作为该任一区域的最优产业发展路径的预测。
8.根据权利要求7所述的基于知识图谱的产业发展路径预测装置,其特征在于,所述知识图谱融合模块根据产业在区域中的产值占比确定每个区域节点所对应的主要产业节点包括:
依次判断每个产业在各区域中的产值占比是否大于预定阈值;
如果某个产业在某个区域中的产值占比大于预定阈值,则将该产业对应的产业节点作为该区域对应的区域节点的主要产业节点。
9.根据权利要求8所述的基于知识图谱的产业发展路径预测装置,其特征在于,所述产业和区域信息数据包括经济指标数据,所述目标节点确定模块计算所有产业的发展规模指数和发展质量指数包括:
使用最大最小值归一化将每个区域的第一组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第一组经济指标数据归一化后的均值来计算该区域产业的发展规模指数;
使用最大最小值归一化将每个区域的第二组经济指标数据归一化缩放到0-1的数值范围内,然后通过计算每个区域的第二组经济指标数据归一化后的均值来计算该区域产业的发展质量指数。
10.根据权利要求9所述的基于知识图谱的产业发展路径预测装置,其特征在于,所述目标节点确定模块根据所述所有产业的发展规模指数和发展质量指数确定所述区域产业融合知识图谱中任一区域的目标发展产业节点包括:
计算该任一区域的主要产业在同一产业链上的下游产业对该主要产业的产业发展规模和质量的提升程度;
选择对该主要产业的产业发展规模和质量的提升程度最大的下游产业作为该任一区域的目标发展产业节点。
11.根据权利要求9所述的基于知识图谱的产业发展路径预测装置,其特征在于,所述目标节点确定模块计算所有产业的发展规模指数和发展质量指数包括:
对所述经济指标数据进行模型学习训练和预测,从而得到所述经济指标数据的预测数据;
根据所述经济指标数据的预测数据计算所有产业的发展规模指数和发展质量指数。
12.根据权利要求11所述的基于知识图谱的产业发展路径预测装置,其特征在于,所述目标节点确定模块对所述经济指标数据进行模型学习训练和预测包括:
将所述经济指标数据中至少一部分用于训练最优的混频数据抽样模型MIDAS,并利用所述最优混合数据抽样模型对所述经济指标数据进行预测。
13.一种计算设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储至少一个计算机程序,其中,所述计算机程序被所述处理器执行以实现权利要求1-6任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行以实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110278763.2A CN112990575A (zh) | 2021-03-17 | 2021-03-17 | 基于知识图谱的产业发展路径预测方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110278763.2A CN112990575A (zh) | 2021-03-17 | 2021-03-17 | 基于知识图谱的产业发展路径预测方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112990575A true CN112990575A (zh) | 2021-06-18 |
Family
ID=76335685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110278763.2A Pending CN112990575A (zh) | 2021-03-17 | 2021-03-17 | 基于知识图谱的产业发展路径预测方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990575A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468340A (zh) * | 2021-06-28 | 2021-10-01 | 北京众标智能科技有限公司 | 一种产业知识图谱的构建系统及构建方法 |
CN113836293A (zh) * | 2021-09-23 | 2021-12-24 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
-
2021
- 2021-03-17 CN CN202110278763.2A patent/CN112990575A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468340A (zh) * | 2021-06-28 | 2021-10-01 | 北京众标智能科技有限公司 | 一种产业知识图谱的构建系统及构建方法 |
CN113468340B (zh) * | 2021-06-28 | 2024-05-07 | 北京众标智能科技有限公司 | 一种产业知识图谱的构建系统及构建方法 |
CN113836293A (zh) * | 2021-09-23 | 2021-12-24 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
CN113836293B (zh) * | 2021-09-23 | 2024-04-16 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Athawale et al. | Decision making for facility location selection using PROMETHEE II method | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
US10074079B2 (en) | Systems and methods for automated analysis, screening and reporting of group performance | |
Foroozesh et al. | A novel group decision model based on mean–variance–skewness concepts and interval-valued fuzzy sets for a selection problem of the sustainable warehouse location under uncertainty | |
Tian et al. | A fuzzy TOPSIS model via chi-square test for information source selection | |
Bashir et al. | Modeling and analyzing factors affecting project delays using an integrated social network-fuzzy MICMAC approach | |
CN112990575A (zh) | 基于知识图谱的产业发展路径预测方法及其装置 | |
Aydın et al. | How efficient airways act as role models and in what dimensions? A superefficiency DEA model enhanced by social network analysis | |
Fung et al. | A fuzzy expected value-based goal programing model for product planning using quality function deployment | |
De Tré et al. | Handling veracity in multi-criteria decision-making: a multi-dimensional approach | |
CN111709714A (zh) | 基于人工智能的流失人员预测方法和装置 | |
Vollet et al. | Use of meta-analysis for the comparison and transfer of economic base multipliers | |
Merigo et al. | Aggregation operators in economic growth analysis and entrepreneurial group decision-making | |
Shiri Daryani et al. | Inverse DEA in two-stage systems based on allocative efficiency | |
Hatefi | A typology scheme for the criteria weighting methods in MADM | |
Aydın et al. | Investment analysis using neutrosophic present and future worth techniques | |
Cao et al. | Simulation-informed revenue extrapolation with confidence estimate for scaleup companies using scarce time-series data | |
Hassan et al. | Sampling technique selection framework for knowledge discovery | |
WO2002059808A1 (en) | System and method of estimating travel times | |
Elkholosy et al. | Data mining for forecasting labor resource requirements: a case study of project management staffing requirements | |
Qiao et al. | Constructing a data warehouse based decision support platform for China tourism industry | |
Çakır et al. | Intuitionistic fuzzy selected element reduction approach (IF-SERA) on service quality evaluation of digital suppliers | |
Wang et al. | Using denoised LSTM network for tourist arrivals prediction | |
Mohapatra et al. | Multi-criteria decision-making methods for large scale DataBase | |
TWI419071B (zh) | Active knowledge management system, method and computer program product for problem solving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |