CN109255034A - 一种基于产业链的行业知识图谱构建方法 - Google Patents

一种基于产业链的行业知识图谱构建方法 Download PDF

Info

Publication number
CN109255034A
CN109255034A CN201810897415.1A CN201810897415A CN109255034A CN 109255034 A CN109255034 A CN 109255034A CN 201810897415 A CN201810897415 A CN 201810897415A CN 109255034 A CN109255034 A CN 109255034A
Authority
CN
China
Prior art keywords
industrial chain
knowledge
industry
domain knowledge
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810897415.1A
Other languages
English (en)
Inventor
刘鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Horizon (guangzhou) Technology Co Ltd
Original Assignee
Data Horizon (guangzhou) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Horizon (guangzhou) Technology Co Ltd filed Critical Data Horizon (guangzhou) Technology Co Ltd
Priority to CN201810897415.1A priority Critical patent/CN109255034A/zh
Publication of CN109255034A publication Critical patent/CN109255034A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于产业链的行业知识图谱构建方法,涉及人工智能中知识图谱技术领域,先对产业链进行建模,再根据所构建的产业链模型构建行业知识图谱;采用本发明实施例的技术方案建立的基于产业链的行业知识图谱可以清晰的反映产业链间以及产业链内部“实体‑关系‑实体”、“实体‑属性‑属性值”,可以方便金融研究人员进一步利用知识图谱研究产业链传导和事件驱动、发现重要性事件、分析资讯情感等;基于产业链构建行业知识图谱可以有效减少行业知识提取过程中噪声过大的问题,同时使用特征词库的方式构建实体关系可以避免知识提取的冷启动问题;采用此实施例方案可以实现增量知识学习,有效降低对专业研究人员的依赖。

Description

一种基于产业链的行业知识图谱构建方法
技术领域
本发明涉及人工智能中知识图谱技术领域,尤其涉及一种基于产业链的行业知识图谱构建方法。
背景技术
宏观、行业和公司研究是金融投资的基石。但是随着互联网的发展,海量的宏观、行业、公司信息和数据爆炸式增长,理解大数据的手段有限,限制了对这些数据的精准与精细分析,大大降低了大数据的潜在价值。因此对大数据进行智能分析是金融领域亟待实现的技术难题。
知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为经济、金融研究提供了强大的背景知识支撑,可以有效赋能舆情分析、商业洞察、商业情报分析等基于大数据的精准分析。例如,光伏行业研究员最关心的是行业核心驱动因素,以此判断行业发展会否发生大的趋势性变化。知识图谱可以构建关于光伏行业的背景知识,如光伏行业最新政策走向、行业整体投资情况、产品的种类及产销情况,原料及产品的进出口情况、行业内企业经营情况等,研究人员以此为据可以推倒出光伏行业核心驱动因素是否发生变化的重要结论。知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。按照知识图谱的覆盖面可分为通用知识图谱与行业知识图谱。其中,行业知识图谱注重知识的层次结构,通常需要在特定行业的知识和数据基础上预先构建模式图。基于行业知识图谱的研究,起步较晚,目前还处于探索阶段。
产业链概念源于产业经济学,是指各个产业部门之间基于一定的技术经济关联,并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态。产业链中大量存在着上中下游关系和相互价值的交换,上游环节向下游环节输送产品或服务,下游环节向上游环节反馈信息。由于产业链可以作为宏观,行业、甚至个股信息和数据的重要载体,基于产业链的研究框架是研究员进行宏观、行业、公司研究的重要工具和手段。基于产业链的研究,起步较早,形成了大量丰富的研究成果。
具体的,一方面,金融研究人员更关注的是产业链上中下游之间的勾连关系,而现有的行业知识图谱大多是行业知识简单提取和聚合,实体关系往往呈现复杂网络特征,不能满足金融研究人员的研究需求。通过产业链思想构建行业知识图谱,可以利用知识图谱研究产业链传导和事件驱动、发现重要性事件、分析资讯情感等。另一方面,构建行业知识图谱需要大量行业先验知识,很难通过半监督甚至无监督机器学习实现自动化构建,工作量巨大,对行业研究人员依赖大。以产业链为基础构建行业知识图谱可以提高知识图谱的构建效率。
综上所述,产业链和行业知识图谱在内涵、外延等方面存在天然的内在联系,如何将他们有机的结合,将产业链间、产业链节点间、节点内的结构和关系映射到知识图谱中,使知识图谱能够充分利用到产业链研究的各类成果,并提升构建知识图谱的效率,是急需集中聚焦的问题。
发明内容
本发明专利基于产业链思想,提供一种基于产业链的行业知识图谱构建方法,构建后的知识图谱具有产业链结构特征,可以充分反映了产业链内部各行业节点以及节点内部企业、产品等实体间的勾连关系,能用于行业舆情分析、产业链传导分析、行业资讯重要性分析等。
为了实现上述目的,本发明提出一种基于产业链的行业知识图谱构建方法,包括如下步骤:
S10、对产业链进行建模,具体包括如下步骤:
S101、根据第一预设属性和第二预设属性对目标企业进行划分,构建产业链框架;
所述第一预设属性用于表征产业链的类别;所述第二预设属性用于表征产业链内的行业节点类别,以及各行业节点在产业链中所处的位置;
S102、根据所构建的产业链框架,将目标企业根据主营业务按照第三预设属性挂载于一个或多个行业节点之下的公司节点上;所述公司节点是产业链下行业节点的二级节点(产业链-行业节点-公司节点);
所述第三预设属性用于根据目标企业的财务信息中有关的主营业务信息,确定行业节点与所述企业的对应关系;
S103、根据公开的资料数据提取企业特征词,构建企业初始特征词库;
S104、根据公开的资料数据构建行业节点的产品/服务节点;所述产品/服务节点是产业链下行业节点下的二级节点(产业链-行业节点-产品/服务节点),与公司节点为同级关系,共同构成产业链下的树状结构;
S105、根据公开的资料数据构建产品/服务节点的初始特征词库;
S20、根据所构建的产业链模型,构建行业知识图谱。
优选地,步骤S20所述的根据所构建的产业链模型,构建行业知识图谱,具体包括如下步骤:
S201、种子知识获取;
S202、增量知识获取;
S203、知识融合;
S204、知识存储与知识计算。
优选地,所述的第一预设属性是在金融行业公认的公司行业分类标准基础上,对分类标准中的一级行业节点按相关性进行合并和补充,最终获得能够反映目标公司行业分工并符合经济、金融认知的产业链分类。
优选地,所述的第二预设属性是在投资领域常用的公司行业分类标准基础上,根据行业间的分工关系、投入产出关系、物流、信息流关系、产品、服务的传递路径,成本利润的分布关系,对行业分类标准中的第三级分类进行合并、增补,相互连接,并挂载到相应的产业链中,形成行业节点相互勾连的有向图。
优选地,所述的第三预设属性是根据目标公司最新财务报告中有关主营业务的数据,确定目标企业所属的目标产业链、目标行业、目标企业主营业务所属的业务类别、业务类别位于目标产业链的上中下游的位置。
优选地,所述的公开的资料数据,包括:政府网站、百科站点、垂直行业站点、公司官网、公司公告、财务报告、行业资料、行业标准、行业数据库、行业研究报告、公司财务报告及公告。
优选地,步骤S201所述的种子知识获取,具体为:
在目标产业链中,根据企业特征词库和产品/服务特征词库,在公开的资料数据中抽取同义词关系、“实体-实体”关系、“属性-值”关系,将抽取的知识作为初始知识加入种子集中。
本发明所述企业特征词库和行业产品/服务特征词库是构建知识图谱中各类行业关系的基础,可以有效减少知识提取过程中噪声过大的问题,同时使用初始特征词库的方式构建实体关系可以避免行业知识图谱构建中知识提取的冷启动问题。
优选地,步骤S202所述的增量知识获取,具体为:
利用种子集中的已有的实体关系进行建模迭代更新种子集。
优选地,步骤S203所述的知识融合,具体为:
将抽取出的实体、属性和关系集成到知识图谱中,对数据进行实体匹配和模式对齐。
优选地,步骤S204所述的知识存储与知识计算,具体为:
将学习到的三元组知识、事件信息、时态信息、结构化的知识图谱组织数据进行存储,并通过计算获取其中显式的或隐含的知识、模式或规则。
步骤S204所述的知识存储的目的除了可以满足图谱数据存储的基本功能,也为上层的知识推理、知识快速查询、图实时计算等应用做存储支撑。所述知识计算的范畴非常大,包括通过使用图论的相关算法,实现对图谱的探索和挖掘。
与现有技术相比,本发明至少具有以下优点:
1、采用本发明实施例的技术方案建立的基于产业链的行业知识图谱可以清晰的反映产业链间以及产业链内部“实体-关系-实体”、“实体-属性-属性值”,可以方便金融研究人员进一步利用知识图谱研究产业链传导和事件驱动、发现重要性事件、分析资讯情感等。
2、基于产业链构建行业知识图谱可以有效减少行业知识提取过程中噪声过大的问题,同时使用特征词库的方式构建实体关系可以避免知识提取的冷启动问题。
3、采用此实施例方案可以实现增量知识学习,有效降低对专业研究人员的依赖。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明一种实施例中基于产业链的行业知识图谱构建方法流程图;
图2为本发明一种实施例中产业链进行建模流程图;
图3位本发明一种实施例中产业链模型结构示意图;
图4位本发明一种实施例中构建行业知识图谱流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明中所构建的行业知识图谱在构建过程中是以特定的领域或行业为导向的,但不局限于单个行业。所构建的行业知识图谱实现了将与一个或多个行业相关的实体和事件、实体和事件的属性以及实体与实体、实体与事件、事件与事件之间的关系整合联接成为一个知识的图谱。
用于构建行业知识图谱的数据来源可以是多种多样的。举例而言,数据来源可以是开放式的百科类数据源(例如,百度百科、维基百科等),也可以是结构化的数据库(例如,维基数据、DBpedia、垂直网站或特定行业的专业数据库等),还可以是任何相关的第三方半结构化或非结构化数据源(例如,专业网站、在互联网媒体中发布的内容,包括新闻、公司年报、企业公告等)。
发明人经过研究发现,一方面,金融研究人员更关注的是产业链上中下游之间的勾连关系,从而利用知识图谱研究产业链传导和事件驱动、发现重要性事件、分析资讯情感等。而现有的行业知识图谱大多是行业知识简单提取和聚合,实体关系往往呈现复杂网络特征,不能满足金融研究人员的研究需求。例如,2017年9月1日,研究人员希望在第一时间知道当天的发生任何事件对螺纹钢期货价格可能产生显著影响,影响的方向是怎样的?传统方式构建的行业知识图谱只能推理得到可能影响的钢铁价格的实体,但很难将各类影响因素进一步量化,从而得到对当日价格影响最大的事件到底是什么?
为了解决上述问题,在本发明实施例分两部分解决:
第一部分,依据经济学、金融学、以及行业知识和经验对产业链进行建模。首先依据预设属性和公认的行业研究框架建立产业链框架。其次,依据预设属性,将A股上市企业根据主营业务挂载于一个或多个行业节点之下的公司节点上。然后,构建所述企业的初始特征词库。再次,利用,结合各类信息源,结合行业研究人员对所述产业链的专业知识和常识性理解,构建所述行业节点的产品/服务节点。最后,构建所述产品/服务节点的初始特征词库。
第二部分,在产业链框架的基础上构建行业知识图谱,包括知识获取、知识融合、知识存储、知识计算4个步骤。
由此可见,本发明实施例从构建产业链结构出发,根据目标产业链所包含的行业,公司、产品、服务完善产业链上下游的结构,在此基础上构建公司、产品/服务特征词库,对行业知识图谱进行定义,从而完成知识建模过程。
采取以产业链为基础的自顶向下的知识建模方法的好处是:一方面,可以充分利用有关产业链的研究框架、研究路径、研究成果,使所建立的行业知识图谱凝聚行业专家的智慧,所蕴含的行业知识更具深度、完备性,准确性也更高。另一方面,行业数据多源异构的特点决定了行业知识融合难度较大,加之传统信息抽取、实体链接相关的技术在行业知识的提取中的效果不佳。使用特征词库的方式构建实体关系可以避免知识提取的冷启动问题,提高知识图谱的构建效率。此外,该方法可以实现增量知识学习,有效降低对专业研究人员的依赖。通过上述方法建立知识图谱后,便可以实现行业用户的诸多需求,例如,系统抓取到2017年9月1日本钢高炉发生爆炸,通过钢铁产业链知识图谱推倒得到:(本钢-发生-爆炸-影响-产量),本钢是国内特种钢材生产的龙头企业(本钢-生产-特种钢,本钢-是-龙头),从而推导出螺纹钢期货将受到较大负面影响(产量-负相关-产品价格),从而实现重要事件的实时发现与预警。
一般的,从行业知识图谱的全生命周期看,可以分为知识建模,知识获取,知识融合,知识存储,知识计算和知识应用6个部分。实际上,实施例中产业链建模过程是自顶向下的构建行业知识图谱的模式图的过程,也可以看作是知识建模过程。
本发明一种优选实施例中,基于产业链的行业知识图谱构建方法流程如图1所示,包括如下步骤:
S10、依据经济学、金融学、以及行业知识和经验对产业链进行建模,流程如图2所示,具体包括如下步骤:
S101、根据第一预设属性和第二预设属性对所有中国A股市场上市企业进行划分,构建产业链框架;所述第一预设属性用于表征产业链的类别;所述第二预设属性用于表征产业链内的行业节点类别,以及各行业节点在产业链中所处的位置;
本发明一种优选实施例中,建立产业链框架,所述产业链框架根据第一预设属性和第二预设属性,以及公认的行业研究框架进行划分和建立,对所有中国A股市场上市企业实现全覆盖。研究人员参考《申银万国行业分类标准》,对一级行业分类按相关性进行合并、补充,得到能反映中国A股所有上市公司行业分工,并符合经济、金融认知常识的11个产业链分类,分别为:金融、房地产、钢铁、有色、石化、电力、机械、汽车、医药、食品饮料、电子产业链。在此基础上,针对《申银万国行业分类标准》中二、三级行业分类,根据中国A股上市公司主营业务构成,以及各公司在产业链中的分工情况、投入产出关系,价值、信息、产品、服务的传递路径进行合并、增补,形成240个行业,再将各行业以产业链为组织单元进行连接,形成行业之间相互勾连的复杂有向图,其中行业是产业链的子节点(产业链-行业)。步骤101应用于钢铁产业链,U1~U5行业是产业链的上游,M1~M4行业是产业链中游,D1~D8行业是产业链下游,详细结构图如图3所示。
S102、根据所构建的产业链框架,将A股上市企业根据主营业务按照第三预设属性挂载于一个或多个行业节点之下的公司节点上;所述第三预设属性用于根据目标企业的财务报告信息中有关的主营业务信息,确定行业节点与所述企业的对应关系;
本发明一种优选实施例中,根据上市公司最新财务报告中有关主营业务数据披露,结合研究人员对所述产业链框架和结构的理解,确定所述目标企业所属的目标产业链、行业,目标企业主营业务所属的业务类别和业务类别位于目标产业链的上中下游的位置。步骤102应用于钢铁产业链,以C1公司为例,C1的主营业务包括B1、B2、B3,其中,B1业务属于M3行业,因此将C1定位于M3节点下的公司节点上。需要说明的是,一个公司所属的行业不一定只有一个,有可能一个公司同属几个行业。例如,C1公司的B2业务属于M1行业,可将C1定位于M1节点下的公司节点上。
S103、根据政府网站、百科站点、垂直行业站点、公司官网、公司公告、财务报告提取企业特征词,构建企业初始特征词库;
本发明一种优选实施例中,通过目标企业证券基本资料、企业基本资料、董监高信息、主营业务信息、所属领域、经营范围、产品/服务介绍等确定其公司层面的特征词库。所述公司节点是产业链下行业节点的二级节点(产业链-行业节点-公司节点)。步骤103应用于钢铁产业链,以C1公司为例,从百科站点、垂直行业站点、C1公司官网、C1公司公告、C1公司财务报告中提取有关C1公司的实体词,用于表征C1公司的特征,共计得到含有2300个特征词的字典。
S104、根据行业资料、行业标准、百科站点、垂直行业站点、行业数据库、行业研究报告、公司财务报告和公告,结合行业研究人员对所述产业链的专业知识和常识性理解,构建行业节点的产品/服务节点;
本发明一种优选实施例中,所述产品/服务节点是产业链下行业节点下的二级节点(产业链-行业节点-产品/服务节点),与公司节点为同级关系,共同构成产业链下的树状结构;在步骤104中构建所述产品/服务节点是指目标行业提供的产品和服务的类别,由研究人员根据行业专业知识和经验总结得到。在步骤102与步骤104中构建的公司节点与产品/服务节点与步骤101构建的行业节点是子-父结构关系,由其共同构成了所述产业链的框架结构。步骤104应用于钢铁产业链,以M3行业为例,根据投入产出关系,M3行业的常见的产品和包括P1、P2、P3,服务包括S1、S2,将上述商品和服务定位于M3节点下的产品/服务节点上。
S105、根据行业资料、行业标准、百科站点、垂直行业站点、行业数据库、行业研究报告、公司财务报告和公告构建产品/服务节点的初始特征词库;
本发明一种优选实施例中,产品/服务特征词是指与目标行业所提供产品或服务有关的实体概念,由研究人员根据行业专业知识和经验总结得到。步骤105应用于钢铁产业链,以M3行业下P1产品为例,从百科站点、垂直行业站点,以及其他行业资料中提取有关P1产品的特征词,用于表征P1产品的特征,共计得到含有120个特征词的字典。
S20、根据所构建的产业链模型,构建行业知识图谱。
本发明实施例中,产业链构建完成意味着行业知识图谱的知识建模过程完成;利用构建好的产业链完成行业知识图谱的构建,如图4所示是构建行业知识图谱的流程示意图,具体包括如下步骤:
S201、种子知识获取;在所述目标产业链,使用在产业链构建过程中得到的企业特征词库和产品/服务特征词库,在门户网站、财经网站、政府网站、垂直行业站点、行业资料与标准、百科站点、行业数据库、行业研究报告、公司财务报告和公告等获取同义词关系、“实体-实体”关系、“属性-值”关系。将抽取出的上述知识作为初始知识加入种子集中。
本发明一种优选实施例中,在步骤201中所述企业特征词库和行业产品/服务特征词库是构建知识图谱中各类行业关系的基础,可以有效减少知识提取过程中噪声过大的问题,同时使用初始特征词库的方式构建实体关系可以避免行业知识图谱构建中知识提取的冷启动问题。通过“抽取-转换-加载(ETL)”操作,可以对所获得的行业数据进行转换,然后从转换后的数据中提取实体、实体属性和实体关系并将其加载至种子知识集中。例如,在基于本体的数据整合方法中,以预定的方式定义不同数据库中的各个字段与各种实体信息之间的映射关系,从而根据所述字段及其内容提取实体、实体属性及实体关系,完成构建基本行业知识图谱数据库。
S202、增量知识获取;基于模式的方法实现增量迭代知识抽取。利用种子集中的已有实体关系对文本数据进行自动标注,然后根据标注结果自动地生成高质量的“三元组”知识模式。利用这些模式到文本中学习新的知识,并加入到种子集中。这一过程不断迭代,直至没有新的知识被学习出来。
本发明一种优选实施例中,种子集中的实体、属性特征词有限,通过这些特征词学习到知识也是有限的,随着各类行业数据的不断积累,需要通过一些手段不断获取新知识。本发明为了避免后续对人工的较大依赖,使用了以下方法实现增量知识的学习:
(1)实体抽取。根据种子实体实例进行特征建模,利用该模型对处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库。
(2)关系抽取。以种子知识库中的关系模式作为训练集的标注,基于特征向量构建有监督学习方法。
S203、知识融合;将抽取出的实体、属性和关系集成到知识图谱中;知识融合阶段主要对数据进行实体匹配和模式对齐。
本发明一种优选实施例中,通过知识获取,实现了从非结构化和半结构化数据中获取“实体-关系”以及“实体-属性”信息,但是,这些结果中含有大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,需进行清理和整合。本实施例的知识融合主要指实体链接。其步骤为:对已抽取到的实体进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
S204、知识存储与知识计算。将学习到的三元组知识、事件信息、时态信息、结构化的知识图谱组织数据进行存储。知识图谱中知识和数据的基础上,通过各种算法,发现其中显式的或隐含的知识、模式或规则。
本发明一种优选实施例中,知识存储的目的除了可以满足图谱数据存储的基本功能,也为上层的知识推理、知识快速查询、图实时计算等应用做存储支撑。知识计算的范畴非常大,包括通过使用图论的相关算法,实现对图谱的探索和挖掘;基于规则的知识推理,辅助业务决策。例如,钢铁行业知识图谱构建完成后,通过复杂网络方法,自动发现实体社团;基于规则方法的行业、产品、公司等实体的情感分析;使用本体推理进行行业新知识发现或重要性事件检测。
在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种基于产业链的行业知识图谱构建方法,其特征在于,包括如下步骤:
S10、对产业链进行建模,具体包括如下步骤:
S101、根据第一预设属性和第二预设属性对目标企业进行划分,构建产业链框架;
所述第一预设属性用于表征产业链的类别;所述第二预设属性用于表征产业链内的行业节点类别,以及各行业节点在产业链中所处的位置;
S102、根据所构建的产业链框架,将目标企业根据主营业务按照第三预设属性挂载于一个或多个行业节点之下的公司节点上;
所述第三预设属性用于根据目标企业的财务信息中有关的主营业务信息,确定行业节点与所述企业的对应关系;
S103、根据公开的资料数据提取企业特征词,构建企业初始特征词库;
S104、根据公开的资料数据构建行业节点的产品/服务节点;
S105、根据公开的资料数据构建产品/服务节点的初始特征词库;
S20、根据所构建的产业链模型,构建行业知识图谱。
2.根据权利要求1所述的基于产业链的行业知识图谱构建方法,其特征在于,步骤S20所述的根据所构建的产业链模型,构建行业知识图谱,具体包括如下步骤:
S201、种子知识获取;
S202、增量知识获取;
S203、知识融合;
S204、知识存储与知识计算。
3.根据权利要求1所述的基于产业链的行业知识图谱构建方法,其特征在于,所述的第一预设属性是在金融行业公认的公司行业分类标准基础上,对分类标准中的一级行业节点按相关性进行合并和补充,最终获得能够反映目标公司行业分工并符合经济、金融认知的产业链分类。
4.根据权利要求1所述的基于产业链的行业知识图谱构建方法,其特征在于,所述的第二预设属性是在投资领域常用的公司行业分类标准基础上,根据行业间的分工关系、投入产出关系、物流、信息流关系、产品、服务的传递路径、成本利润的分布关系,对行业分类标准中的第三级分类进行合并、增补、相互连接,并挂载到相应的产业链中,形成行业节点相互勾连的有向图。
5.根据权利要求1所述的基于产业链的行业知识图谱构建方法,其特征在于,所述的第三预设属性是根据目标公司最新财务报告中有关主营业务的数据,确定目标企业所属的目标产业链、目标行业、目标企业主营业务所属的业务类别、业务类别位于目标产业链的上中下游的位置。
6.根据权利要求1所述的基于产业链的行业知识图谱构建方法,其特征在于,所述的公开的资料数据,包括:政府网站、百科站点、垂直行业站点、公司官网、公司公告、财务报告、行业资料、行业标准、行业数据库、行业研究报告、公司财务报告及公告。
7.根据权利要求2所述的基于产业链的行业知识图谱构建方法,其特征在于,步骤S201所述的种子知识获取,具体为:
在目标产业链中,根据企业特征词库和产品/服务特征词库,在公开的资料数据中抽取同义词关系、“实体-实体”关系和“属性-值”关系,将抽取的知识作为初始知识加入种子集中。
8.根据权利要求2所述的基于产业链的行业知识图谱构建方法,其特征在于,步骤S202所述的增量知识获取,具体为:
利用种子集中的已有的实体关系进行建模迭代更新种子集。
9.根据权利要求2所述的基于产业链的行业知识图谱构建方法,其特征在于,步骤S203所述的知识融合,具体为:
将抽取出的实体、属性和关系集成到知识图谱中,对数据进行实体匹配和模式对齐。
10.根据权利要求2所述的基于产业链的行业知识图谱构建方法,其特征在于,步骤S204所述的知识存储与知识计算,具体为:
将学习到的三元组知识、事件信息、时态信息、结构化的知识图谱组织数据进行存储,并通过计算获取其中显式的或隐含的知识、模式或规则。
CN201810897415.1A 2018-08-08 2018-08-08 一种基于产业链的行业知识图谱构建方法 Pending CN109255034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810897415.1A CN109255034A (zh) 2018-08-08 2018-08-08 一种基于产业链的行业知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810897415.1A CN109255034A (zh) 2018-08-08 2018-08-08 一种基于产业链的行业知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN109255034A true CN109255034A (zh) 2019-01-22

Family

ID=65050075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810897415.1A Pending CN109255034A (zh) 2018-08-08 2018-08-08 一种基于产业链的行业知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN109255034A (zh)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008346A (zh) * 2019-01-24 2019-07-12 平安科技(深圳)有限公司 黑名单传导图谱构建方法、装置、计算机设备和存储介质
CN110175239A (zh) * 2019-04-23 2019-08-27 成都数联铭品科技有限公司 一种知识图谱的构建方法及系统
CN110187678A (zh) * 2019-04-19 2019-08-30 广东省智能制造研究所 一种制造业加工设备信息存储和数字化应用系统
CN110196887A (zh) * 2019-04-19 2019-09-03 广东省智能制造研究所 一种对制造业加工设备模型的管理方法
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110275922A (zh) * 2019-03-01 2019-09-24 广州金越软件技术有限公司 一种基于图数据库实现的家族图谱分析技术
CN110297904A (zh) * 2019-06-17 2019-10-01 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN110781311A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业一致行动人运算系统及方法
CN110825817A (zh) * 2019-09-18 2020-02-21 上海生腾数据科技有限公司 一种企业疑似关联关系判定方法及系统
CN111177335A (zh) * 2019-11-29 2020-05-19 广东轩辕网络科技股份有限公司 一种基于知识图谱的智能助理的信息处理方法及装置
CN111475655A (zh) * 2020-03-05 2020-07-31 国网浙江省电力有限公司 一种基于配电网知识图谱的电力调度文本实体链接方法
CN111581398A (zh) * 2020-05-13 2020-08-25 河南八六三软件股份有限公司 一种构建知识图谱的方法
CN111667324A (zh) * 2020-07-08 2020-09-15 云南唯恒基业科技有限公司 一种基于知识图谱的中药材产业供应链分析系统
CN111915191A (zh) * 2020-08-03 2020-11-10 支付宝(杭州)信息技术有限公司 一种产业链识别方法及装置
CN111966793A (zh) * 2019-05-20 2020-11-20 云号(北京)科技有限公司 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
CN112115277A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 一种基于知识图谱的集成电路产业链识别方法及系统
CN112199513A (zh) * 2020-10-19 2021-01-08 支付宝(杭州)信息技术有限公司 企业供求关系的确定方法、装置和电子设备
CN112507691A (zh) * 2020-12-07 2021-03-16 数地科技(北京)有限公司 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置
CN112579753A (zh) * 2020-12-17 2021-03-30 京东数字科技控股股份有限公司 信息获取方法、装置、设备、介质及产品
CN112632975A (zh) * 2020-12-29 2021-04-09 北京明略软件系统有限公司 上下游关系的抽取方法、装置、电子设备及存储介质
CN112650898A (zh) * 2020-12-28 2021-04-13 武汉烽火信息集成技术有限公司 一种产业链可视化分析方法、装置及设备
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112767114A (zh) * 2021-02-26 2021-05-07 科大讯飞股份有限公司 企业多元化决策方法、装置、电子设备及存储介质
CN112995332A (zh) * 2021-03-26 2021-06-18 成都海地云信息技术有限公司 基于云计算和大数据技术的企业资源云管理方法及系统
CN113032496A (zh) * 2021-04-19 2021-06-25 北京华数云网科技有限公司 一种基于产业知识图谱的产业大脑数据分析系统
CN113051365A (zh) * 2020-12-10 2021-06-29 深圳证券信息有限公司 一种产业链图谱构建方法及相关设备
CN113094515A (zh) * 2021-04-13 2021-07-09 国网北京市电力公司 基于电力营销数据的知识图谱实体及链接提取方法
CN113139066A (zh) * 2021-04-28 2021-07-20 安徽智侒信信息技术有限公司 一种基于自然语言处理技术的公司产业链节点匹配方法
CN113392229A (zh) * 2021-08-13 2021-09-14 四川新龟科技有限公司 供应链关系构建和预测方法、装置、设备、存储介质
CN113449116A (zh) * 2021-06-22 2021-09-28 青岛海信网络科技股份有限公司 一种图谱构建、预警方法、设备及介质
CN113762795A (zh) * 2021-09-13 2021-12-07 浙江万维空间信息技术有限公司 一种基于层次分析的产业链诊断方法及系统
CN114064922A (zh) * 2021-11-18 2022-02-18 西南交通大学 一种基于第三方云平台的服务价值链多链知识图谱构建方法
CN114154829A (zh) * 2021-11-25 2022-03-08 上海帜讯信息技术股份有限公司 企业的产业链节点确定方法、装置、终端及存储介质
CN114417020A (zh) * 2022-03-29 2022-04-29 浙江省标准化研究院(金砖国家标准化(浙江)研究中心 浙江省物品编码中心) 一种产业链图谱构建系统及方法
CN114428864A (zh) * 2022-04-01 2022-05-03 杭州未名信科科技有限公司 知识图谱的构建方法、装置、电子设备及介质
CN115292523A (zh) * 2022-08-04 2022-11-04 中国科学院空天信息创新研究院 一种基于图表示学习的时空信息推理方法
CN115391569A (zh) * 2022-10-27 2022-11-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备
CN115934968A (zh) * 2023-01-06 2023-04-07 广州探迹科技有限公司 一种产业链信息构建方法、装置以及存储介质
CN116502807A (zh) * 2023-06-27 2023-07-28 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置
CN116578724A (zh) * 2023-07-14 2023-08-11 杭州朗目达信息科技有限公司 知识库知识结构构建方法及装置、存储介质和终端
CN116663751A (zh) * 2023-07-31 2023-08-29 北京市科学技术研究院 一种基于未来产业企业的三网产业图谱构建方法及系统
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备
CN117236521A (zh) * 2023-11-10 2023-12-15 中国联合网络通信集团有限公司 产业风险等级预测方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229810A (zh) * 2017-12-29 2018-06-29 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229810A (zh) * 2017-12-29 2018-06-29 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008346A (zh) * 2019-01-24 2019-07-12 平安科技(深圳)有限公司 黑名单传导图谱构建方法、装置、计算机设备和存储介质
CN110008346B (zh) * 2019-01-24 2024-05-03 平安科技(深圳)有限公司 黑名单传导图谱构建方法、装置、计算机设备和存储介质
CN110275922A (zh) * 2019-03-01 2019-09-24 广州金越软件技术有限公司 一种基于图数据库实现的家族图谱分析技术
CN110187678A (zh) * 2019-04-19 2019-08-30 广东省智能制造研究所 一种制造业加工设备信息存储和数字化应用系统
CN110196887A (zh) * 2019-04-19 2019-09-03 广东省智能制造研究所 一种对制造业加工设备模型的管理方法
CN110175239A (zh) * 2019-04-23 2019-08-27 成都数联铭品科技有限公司 一种知识图谱的构建方法及系统
CN111966793B (zh) * 2019-05-20 2024-03-15 云号(北京)科技有限公司 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN111966793A (zh) * 2019-05-20 2020-11-20 云号(北京)科技有限公司 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
CN110197280B (zh) * 2019-05-20 2021-08-06 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110297904B (zh) * 2019-06-17 2022-10-04 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN110297904A (zh) * 2019-06-17 2019-10-01 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN110781311A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业一致行动人运算系统及方法
CN110825817A (zh) * 2019-09-18 2020-02-21 上海生腾数据科技有限公司 一种企业疑似关联关系判定方法及系统
CN110825817B (zh) * 2019-09-18 2023-11-10 上海合合信息科技股份有限公司 一种企业疑似关联关系判定方法及系统
CN110781311B (zh) * 2019-09-18 2024-02-27 上海合合信息科技股份有限公司 一种企业一致行动人运算系统及方法
CN111177335A (zh) * 2019-11-29 2020-05-19 广东轩辕网络科技股份有限公司 一种基于知识图谱的智能助理的信息处理方法及装置
CN111177335B (zh) * 2019-11-29 2023-11-21 广东轩辕网络科技股份有限公司 一种基于知识图谱的智能助理的信息处理方法及装置
CN111475655B (zh) * 2020-03-05 2022-09-20 国网浙江省电力有限公司 一种基于配电网知识图谱的电力调度文本实体链接方法
CN111475655A (zh) * 2020-03-05 2020-07-31 国网浙江省电力有限公司 一种基于配电网知识图谱的电力调度文本实体链接方法
CN111581398A (zh) * 2020-05-13 2020-08-25 河南八六三软件股份有限公司 一种构建知识图谱的方法
CN111667324A (zh) * 2020-07-08 2020-09-15 云南唯恒基业科技有限公司 一种基于知识图谱的中药材产业供应链分析系统
CN111915191A (zh) * 2020-08-03 2020-11-10 支付宝(杭州)信息技术有限公司 一种产业链识别方法及装置
CN112115277A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 一种基于知识图谱的集成电路产业链识别方法及系统
CN112199513A (zh) * 2020-10-19 2021-01-08 支付宝(杭州)信息技术有限公司 企业供求关系的确定方法、装置和电子设备
CN112507691A (zh) * 2020-12-07 2021-03-16 数地科技(北京)有限公司 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN113051365A (zh) * 2020-12-10 2021-06-29 深圳证券信息有限公司 一种产业链图谱构建方法及相关设备
CN112579753B (zh) * 2020-12-17 2024-04-12 京东科技控股股份有限公司 信息获取方法、装置、设备、介质及产品
CN112579753A (zh) * 2020-12-17 2021-03-30 京东数字科技控股股份有限公司 信息获取方法、装置、设备、介质及产品
CN112650898A (zh) * 2020-12-28 2021-04-13 武汉烽火信息集成技术有限公司 一种产业链可视化分析方法、装置及设备
CN112632975B (zh) * 2020-12-29 2024-06-07 北京明略软件系统有限公司 上下游关系的抽取方法、装置、电子设备及存储介质
CN112632975A (zh) * 2020-12-29 2021-04-09 北京明略软件系统有限公司 上下游关系的抽取方法、装置、电子设备及存储介质
CN112767114A (zh) * 2021-02-26 2021-05-07 科大讯飞股份有限公司 企业多元化决策方法、装置、电子设备及存储介质
CN112995332A (zh) * 2021-03-26 2021-06-18 成都海地云信息技术有限公司 基于云计算和大数据技术的企业资源云管理方法及系统
CN113094515A (zh) * 2021-04-13 2021-07-09 国网北京市电力公司 基于电力营销数据的知识图谱实体及链接提取方法
CN113032496A (zh) * 2021-04-19 2021-06-25 北京华数云网科技有限公司 一种基于产业知识图谱的产业大脑数据分析系统
CN113139066A (zh) * 2021-04-28 2021-07-20 安徽智侒信信息技术有限公司 一种基于自然语言处理技术的公司产业链节点匹配方法
CN113449116A (zh) * 2021-06-22 2021-09-28 青岛海信网络科技股份有限公司 一种图谱构建、预警方法、设备及介质
CN113392229A (zh) * 2021-08-13 2021-09-14 四川新龟科技有限公司 供应链关系构建和预测方法、装置、设备、存储介质
CN113762795A (zh) * 2021-09-13 2021-12-07 浙江万维空间信息技术有限公司 一种基于层次分析的产业链诊断方法及系统
CN114064922A (zh) * 2021-11-18 2022-02-18 西南交通大学 一种基于第三方云平台的服务价值链多链知识图谱构建方法
CN114064922B (zh) * 2021-11-18 2023-07-14 西南交通大学 一种基于第三方云平台的服务价值链多链知识图谱构建方法
CN114154829A (zh) * 2021-11-25 2022-03-08 上海帜讯信息技术股份有限公司 企业的产业链节点确定方法、装置、终端及存储介质
CN114417020A (zh) * 2022-03-29 2022-04-29 浙江省标准化研究院(金砖国家标准化(浙江)研究中心 浙江省物品编码中心) 一种产业链图谱构建系统及方法
CN114417020B (zh) * 2022-03-29 2022-09-09 浙江省标准化研究院(金砖国家标准化(浙江)研究中心浙江省物品编码中心) 一种产业链图谱构建系统及方法
CN114428864A (zh) * 2022-04-01 2022-05-03 杭州未名信科科技有限公司 知识图谱的构建方法、装置、电子设备及介质
CN115292523B (zh) * 2022-08-04 2023-09-22 中国科学院空天信息创新研究院 一种基于图表示学习的时空信息推理方法
CN115292523A (zh) * 2022-08-04 2022-11-04 中国科学院空天信息创新研究院 一种基于图表示学习的时空信息推理方法
CN115391569A (zh) * 2022-10-27 2022-11-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备
CN115934968A (zh) * 2023-01-06 2023-04-07 广州探迹科技有限公司 一种产业链信息构建方法、装置以及存储介质
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备
CN116502807A (zh) * 2023-06-27 2023-07-28 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置
CN116502807B (zh) * 2023-06-27 2023-09-12 北京中企慧云科技有限公司 基于科技知识图谱的产业链分析应用方法和装置
CN116578724B (zh) * 2023-07-14 2023-09-29 杭州朗目达信息科技有限公司 知识库知识结构构建方法及装置、存储介质和终端
CN116578724A (zh) * 2023-07-14 2023-08-11 杭州朗目达信息科技有限公司 知识库知识结构构建方法及装置、存储介质和终端
CN116663751A (zh) * 2023-07-31 2023-08-29 北京市科学技术研究院 一种基于未来产业企业的三网产业图谱构建方法及系统
CN117236521A (zh) * 2023-11-10 2023-12-15 中国联合网络通信集团有限公司 产业风险等级预测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109255034A (zh) 一种基于产业链的行业知识图谱构建方法
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
Xia et al. Graph learning: A survey
Guo et al. The internet of things-based decision support system for information processing in intelligent manufacturing using data mining technology
Yang et al. Research on enterprise risk knowledge graph based on multi-source data fusion
Shen et al. Dynamic knowledge modeling and fusion method for custom apparel production process based on knowledge graph
Koutsomitropoulos et al. A standards-based ontology and support for Big Data Analytics in the insurance industry
CN112330183A (zh) 一种构建农业企业大数据画像的方法和系统
CN111598648A (zh) 一种基于快消行业商品的全链路线上营销方法
CN112163160A (zh) 基于知识图谱的敏感识别方法
Liu et al. A metrics-based meta-learning model with meta-pretraining for industrial knowledge graph construction
CN117172725A (zh) 一种基于知识图谱的产业链多协同智能决策的方法
Hu et al. A question answering system for assembly process of wind turbines based on multi-modal knowledge graph and large language model
Zhang et al. Text-attributed graph representation learning: Methods, applications, and challenges
Yu et al. Using news to predict Chinese medicinal material price index movements
CN117033654A (zh) 一种面向科技迷雾识别的科技事件图谱构建方法
Kanaan et al. An Evaluation and Annotation Methodology for Product Category Matching in E-Commerce Using GPT
Wang et al. The application of data mining technology to big data
Ye et al. An interpretable mechanism for personalized recommendation based on cross feature
Su et al. [Retracted] Design and Application of Intelligent Management Platform Based on Big Data
Ni et al. Research on the Evolution Path of Sentiment Analysis Technology Based on Bibliometrics
Wang et al. User portrait technology and its application scenario analysis
Kämpgen Flexible integration and efficient analysis of multidimensional datasets from the web
Qiu et al. BusinessDetect: an advanced business information mining application for intelligent marketing
Quan Visualization and Analysis Model of Industrial Economy Status and Development Based on Knowledge Graph and Deep Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122