CN114064939A - 一种知识图谱生成方法、装置、电子设备及存储介质 - Google Patents

一种知识图谱生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114064939A
CN114064939A CN202210046125.2A CN202210046125A CN114064939A CN 114064939 A CN114064939 A CN 114064939A CN 202210046125 A CN202210046125 A CN 202210046125A CN 114064939 A CN114064939 A CN 114064939A
Authority
CN
China
Prior art keywords
knowledge graph
data
node
graph
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210046125.2A
Other languages
English (en)
Inventor
范曌
陈洲
付朋辉
张国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Certification Information Technology Service Co ltd
Original Assignee
China Certification Information Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Certification Information Technology Service Co ltd filed Critical China Certification Information Technology Service Co ltd
Priority to CN202210046125.2A priority Critical patent/CN114064939A/zh
Publication of CN114064939A publication Critical patent/CN114064939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请实施例提供了一种知识图谱生成方法、装置、电子设备及存储介质。方案如下:获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据;利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息;根据三元组信息,生成私募基金业务的第一知识图谱。通过本申请实施例提供的技术方案,实现了对私募基金行业数据的标准化和规范化整理,从而为私募基金的管理分析提供数据依据。

Description

一种知识图谱生成方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网应用技术领域,特别是涉及一种知识图谱生成方法、装置、电子设备及存储介质。
背景技术
随着私募基金行业的发展,私募基金的产品种类与投资策略愈加丰富。伴随着私募基金规模的逐步增大、以及各行业实体间关联关系愈加复杂,私募基金的行业数据愈加杂乱,这将严重影响对私募基金业务的监管和分析。
发明内容
本申请实施例的目的在于提供一种知识图谱生成方法、装置、电子设备及存储介质,以实现对私募基金行业数据的标准化和规范化整理,从而为私募基金业务的监管和分析提供数据依据。具体技术方案如下:
本申请实施例提供了一种知识图谱生成方法,所述方法包括:
获取待处理数据,所述待处理数据至少包括工商企业的工商数据以及私募基金的行业数据;
利用预设数据处理图算法,从所述工商数据和所述行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息;
根据所述三元组信息,生成私募基金业务的第一知识图谱。
可选的,所述实体节点至少包括自然人节点、公司节点、基金管理人节点和私募基金节点;
所述关系边的类型至少包括投资关系、管理关系、实际控制人关系、法人关系和董监高关系;
所述属性信息包括所述实体节点的属性信息,所述关系边的属性信息,以及所述实体节点与所述关系边的属性信息。
可选的,所述方法还包括:
针对所述第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,所述目标节点为基金管理人节点;
丢弃所述第一知识图谱中未标记有所述预设标识的实体节点,得到第二知识图谱。
可选的,所述方法还包括:
将所述第二知识图谱导入预设图形数据库;
在接收到针对所述第二知识图谱的查询请求时,从所述预设图形数据库中获取查询结果;
输出所述查询结果。
可选的,所述方法还包括:
根据私募基金业务的风险结构特征,生成私募基金业务的风险结构模型;
针对所述第二知识图谱中的每一目标节点,以该目标节点为起点,获取所述第二知识图谱中结构与所述风险结构模型匹配的子图,作为第三知识图谱;
基于所述第三知识图谱进行风险提示。
本申请实施例还提供了一种知识图谱生成装置,所述装置包括:
第一获取模块,用于获取待处理数据,所述待处理数据至少包括工商企业的工商数据以及私募基金的行业数据;
抽取模块,用于利用预设数据处理图算法,从所述工商数据和所述行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息;
第一生成模块,用于根据所述三元组信息,生成私募基金业务的第一知识图谱。
可选的,所述实体节点至少包括自然人节点、公司节点、基金管理人节点和私募基金节点;
所述关系边的类型至少包括投资关系、管理关系、实际控制人关系、法人关系和董监高关系;
所述属性信息包括所述实体节点的属性信息,所述关系边的属性信息,以及所述实体节点与所述关系边的属性信息。
可选的,所述装置还包括:
标记模块,用于针对所述第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,所述目标节点为基金管理人节点;
丢弃模块,用于丢弃所述第一知识图谱中未标记有所述预设标识的实体节点,得到第二知识图谱。
可选的,所述装置还包括:
导入模块,用于将所述第二知识图谱导入预设图形数据库;
第二获取模块,用于在接收到针对所述第二知识图谱的查询请求时,从所述预设图形数据库中获取查询结果;
输出模块,用于输出所述查询结果。
可选的,所述装置还包括:
第二生成模块,用于根据私募基金业务的风险结构特征,生成私募基金业务的风险结构模型;
第三获取模块,用于针对所述第二知识图谱中的每一目标节点,以该目标节点为起点,获取所述第二知识图谱中结构与所述风险结构模型匹配的子图,作为第三知识图谱;
通知模块,用于基于所述第三知识图谱进行风险提示。
本申请实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的知识图谱生成方法步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的知识图谱生成方法步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的知识图谱生成方法。
本申请实施例有益效果:
本申请实施例提供的技术方案,可以从工商企业的工商数据以及私募基金的行业数据中提取三元组信息,即提取生成知识图谱所需的实体节点、关系边以及实体节点与关系边间的属性信息,从而根据该三元组信息生成私募基金业务的知识图谱。通过生成知识图谱的方式,实现了对私募基金的行业数据的标准化和规范化整理,从而为私募基金业务的监管和分析提供数据依据。
再者,通过生成私募基金业务的知识图谱,可以使得各私募基金的结构更加清晰,方便基于该知识图谱对复杂风险结构的挖掘,从而实现对各私募基金业务的监管,提高私募基金业务的安全性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本申请实施例提供的知识图谱生成方法的第一种流程示意图;
图2为本申请实施例提供的第一知识图谱的一种结构示意图;
图3为本申请实施例提供的知识图谱生成方法的第二种流程示意图;
图4-a为本申请实施例提供的私募基金知识图谱的一种结构示意图;
图4-b为图4-a所示的私募基金知识图谱剪切后的知识图谱的一种结构示意图;
图4-c为某一第一知识图谱进行剪切处理前后的数据量的一种示意图;
图5为本申请实施例提供的知识图谱生成方法的第三种流程示意图;
图6为本申请实施例提供的知识图谱生成方法的第四种流程示意图;
图7为本申请实施例提供的风险结构模型的一种结构示意图;
图8为本申请实施例提供的知识图谱生成装置的一种结构示意图;
图9为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。
为了解决相关技术中的技术问题,本申请实施例提供了一种知识图谱生成方法。如图1所示,图1为本申请实施例提供的知识图谱生成方法的第一种流程示意图。该方法可以应用于任一电子设备。图1所示的方法具体包括以下步骤。
步骤S101,获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据。
步骤S102,利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息。
步骤S103,根据三元组信息,生成私募基金业务的第一知识图谱。
通过图1所示的方法,可以从工商企业的工商数据以及私募基金的行业数据中提取三元组信息,即提取生成知识图谱所需的实体节点、关系边以及实体节点与关系边间的属性信息,从而根据该三元组信息生成私募基金业务的知识图谱。通过生成知识图谱的方式,实现了对私募基金行业数据的标准化和规范化整理,从而为私募基金业务的监管和分析提供数据依据。
再者,通过生成私募基金业务的知识图谱,可以使得各私募基金的结构更加清晰,方便基于该知识图谱对复杂风险结构的挖掘,从而实现对各私募基金的监管,提高私募基金业务的安全性。
下面通过具体的实施例,对本申请实施例进行说明。
针对上述步骤S101,即获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据。
在本步骤中,电子设备中包括数据采集单元,电子设备可以利用该数据采集单元获取工商企业的工商数据以及私募基金的行业数据,得到待处理数据。
上述工商数据可以包括工商企业的基本数据、投资数据、股东数据、企业人员数据等。其中,基本数据可以为工商企业的名称、成立时间、主营业务等;投资数据可以包括工商企业的投资项目、投资金额等;股东数据可以包括工商企业的股东成员、股东的占股比例等;企业人员可以包括企业员工的组成架构、人员等。
上述行业数据可以包括私募基金的基金管理人数据、私募基金基础数据、投资数据和投资者季报数据等。其中,基金管理人数据可以包括基金管理人的姓名、投资、投资经历等;私募基金基础数据可以包括私募基金的基金代码、基金类型、交易币种等;投资数据可以包括私募基金的投资标的、投资者姓名和投资金额、时间等。
在本申请实施例中,对上述工商数据和行业数据中包括的数据不作具体限定。
在本申请实施例中,上述工商数据和行业数据可以通过多种方式获取得到。以上述工商企业的工商数据为例进行说明。电子设备可以从工商部门公开的数据中,获取各工商企业的工商数据。电子设备还可以从各工商企业所公开的数据中,获取各工商企业的工商数据。在此,对上述工商数据和行业数据的获取方式不作具体限定。
上述待处理数据除了包括上述工商数据和行业数据以外,还可以包括其他数据,如工商企业或基金管理人的处罚数据、或者上市公司的披露公告中的数据等。在此,对上述待处理数据所包括的数据不作具体限定。
一个可选的实施例中,电子设备在获取到上述待处理数据后,可以将该待处理数据存储至数据仓库的贴源层(Operational Data Store,ODS)。
针对上述步骤S102,即利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息。
在本步骤中,电子设备可以将上述工商数据和行业数据以数据表的形式导入数据仓库工具(hive),根据预设数据处理图算法,通过大数据平台,如hadoop、spark等,对hive中存储的数据进行分布式计算,得到私募基金知识图谱的三元组信息,即私募基金知识图谱中的实体节点、关系边以及属性信息。其中,hadoop、spark均可用于对大数据的分布式计算。
为便于理解,上述从工商数据和行业数据中抽取到的数据可以如表1和表2所示。
表1
Figure 312725DEST_PATH_IMAGE001
表2
Figure 26603DEST_PATH_IMAGE002
上述实体节点至少包括自然人节点、公司节点、基金管理人节点和私募基金节点。例如,表1所示的自然人、公司、基金管理人,以及表2所示的C1、C2和C3均为抽取到的实体节点。
上述关系边的类型至少包括投资关系、管理关系、实际控制人关系、法人关系和董监高关系。例如,表2所示的C1与C3、C2与C3、以及C1与C3之间的关系边均属于投资关系。
上述属性信息包括实体节点的属性信息,关系边的属性信息,以及实体节点与关系边的属性信息。例如,表1中的属性信息(即名称、标题和地址)为表1中各实体节点对应的属性信息。表2中的属性信息(即来源、时间、比例)为表2中各关系边对应的属性信息。表2中起始节点与终点可以用于表示为各实体节点与关系边的属性信息(即实体节点与关系边的连接关系)。
在本申请实施例中,对上述实体节点、关系边以及属性信息不作限定。
一个可选的实施例中,电子设备在抽取得到上述三元组信息后,可以将该三元组信息存储至Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)。
针对上述步骤S103,即根据三元组信息,生成私募基金业务的第一知识图谱。
为便于理解,结合图2对上述第一知识图谱的生成进示例性的说明。图2为本申请实施例提供的第一知识图谱的一种结构示意图。
现假设通过上述步骤S102得到的三元组信息如表3和表4所示。
表3
Figure 337499DEST_PATH_IMAGE003
表4
Figure 529446DEST_PATH_IMAGE004
根据表3和表4所示的三元组信息,电子设备可以生成如图2所示的知识图谱。
在图2所示的知识图谱中,不同属性的实体节点所对应的颜色、大小等可以不同。例如,在表3中,基金管理人节点、基金节点(即图2所示的基金1与基金2)以及公司节点(即图2所示的公司1-公司5)所对应的属性是不同的,在图2所示的知识图谱中各类型图节点所对应的颜色可以有所不同。在此,对生成得到的知识图谱中各实体节点的颜色和大小等参数不作具体限定。
在本申请实施例中,对上述第一知识图谱的生成方式不作具体说明。
一个可选的实施例中,电子设备在生成得到上述第一知识图谱后,可以对该第一知识图谱进行推送处理,或者对该第一知识图谱进行监管。
例如,电子设备在生成得到上述第一知识图谱后,可以将该第一知识图谱推送至用户终端,便于用户查看各私募基金。
再例如,电子设备在生成得到上述第一知识图谱后,当某一私募基金所对应的管理人发生变更时,电子设备可以及时对第一知识图谱进行更新。
在此,对上述第一知识图谱的推送方式以及监管方式不作具体说明。
一个可选的实施例中,根据上述图1所示的方法,本申请实施例还提供了一种知识图谱生成方法。如图3所示,图3为本申请实施例提供的知识图谱生成方法的第二种流程示意图。该方法包括以下步骤。
步骤S301,获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据。
步骤S302,利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息。
步骤S303,根据三元组信息,生成私募基金业务的第一知识图谱。
上述步骤S301-步骤S303与上述步骤S101-步骤S103相同。
步骤S304,针对第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,目标节点为基金管理人节点。
在本申请实施例中,由于上述第一知识图谱是根据从待处理数据中抽取到的全部三元组信息生成的,因此,上述第一知识图谱的数据量相对较大,并且包含与每一私募基金关联性较低的边缘数据。
从私募基金业务角度考虑,丢弃上述第一知识图谱中的边缘数据,从而降低第一知识图谱的数据量,这将有利于提高第一知识图谱中各实体节点与对应私募基金管理人间的关联性。因此,电子设备可以对上述第一知识图谱进行剪切操作,也就是丢弃第一知识图谱中部分关联性较低的边缘实体节点。
在本申请实施例中,电子设备可以将上述第一知识图谱中的每一基金管理人节点作为目标节点,针对每一目标节点,电子设备可以以该目标节点为起点,确定在该目标节点的预设有效距离内的所有实体节点,并利用预设标识对确定出的每一实体节点进行标记。
为便于理解,结合图4-a为例进行说明。图4-a为本申请实施例提供的私募基金知识图谱的一种结构示意图。
在图4-a的所示的私募基金知识图谱中,基金管理人节点的数量只有一个,即图4-a所示的管理人节点。因此,上述目标节点即为图4-a所示的管理人节点。
现假设上述预设有效距离为1度,电子设备在对图4-a所示的私募基金知识图谱中的实体节点进行标记时,将对管理人节点1度范围内的实体节点进行标记。此时,图4-a所示的私募基金知识图谱中,被预设标识标记的实体节点包括基金1节点、基金2节点、公司1节点、公司2节点和公司3节点。
一个可选的实施例中,上述预设标识可以表示为实体节点的状态标识。例如,当某一实体节点在上述目标节点的预设有效距离内,电子设备可以将该实体节点的状态标识标记为活跃(Active)状态。
在本申请实施例中,上述预设标识可以根据用户需求进行设置,在此,对上述预设标识不作具体限定。
上述预设有效距离可以表示为各实体节点间的连接度数,即知识图谱中某一实体节点到另一实体节点所需经过的关系边的数量。上述预设有效距离可以根据业务需求或用户需求进行设置。在此,对上述预设有效距离的大小不作具体限定。
步骤S305,丢弃第一知识图谱中未标记有预设标识的实体节点,得到第二知识图谱。
在本步骤中,电子设备在对上述第一知识图谱中每一目标节点的预设有效距离内的所有实体节点进行标记后,可以丢弃该第一知识图谱中未标记有预设标识的实体节点,得到第二知识图谱。
在本申请实施例中,电子设备在执行上述步骤S304时,也就是对每一目标节点预设有效距离内的每一实体节点进行标记,被标记的实体节点中可以包括该目标节点,也可以不包括该目标节点。
一个可选的实施例中,当电子设备在执行上述步骤S304时,若未对上述目标节点进行标记,则电子设备所丢弃的实体节点中不包括上述目标节点。也就是电子设备在执行上述步骤S305时,将丢弃第一知识图谱中除目标节点以外的未标记有预设标识的实体节点,得到第二知识图谱。
为便于理解,仍以上述图4-a所示的私募基金知识图谱,以及预设有效距离为1度为例进行说明。通过上述步骤S304,电子设备可以确定图4-a所示的私募基金知识图谱中,公司5-公司8所对应的实体节点未携带有上述预设标记,此时,电子设备可以丢弃图4-a中的公司5节点、公司6节点、公司7节点和公司8节点,得到如图4-b所示的私募基金知识图谱。图4-b为图4-a所示的私募基金知识图谱剪切后的知识图谱的一种结构示意图。
通过上述步骤S304-步骤S305,电子设备可以丢弃上述第一知识图谱中的边缘数据,在有效降低剪切处理得到的第二知识图谱的数据量的同时,丢弃了第一知识图谱中的部分边缘数据,提高了各实体节点与对应私募基金管理人间的关联性,并且,提高了用户对知识图谱中各实体节点间的查询性能。
为便于理解,结合图4-c为例进行说明。图4-c为某一第一知识图谱进行剪切处理前后的数据量的一种示意图。
当上述预设有效距离为4度时,电子设备通过执行上述步骤S304-步骤S305,得到该第一知识图谱对应的第二知识图谱。分别统计第一知识图谱和第二知识图谱中实体节点以及关系边的数量,得到如图4-c所示的柱状图。
在图4-c中,区域401表示该第一知识图谱未剪切处理前的实体节点的数量,即27376.05万,区域402表示该第一知识图谱未剪切处理前的关系边的数量,即36091.4756万,区域403表示该第一知识图谱剪切处理后的实体节点的数量,即1580.2222万,区域404表示该第一知识图谱剪切处理后的关系边的数量,即2347.56万。
对比可知,剪切处理后明显降低了第一知识图谱中实体节点和关系边的数量。
另外,在本申请实施例中,剪切处理是基于第一知识图谱中的目标节点进行的,因此,剪切处理得到的第二知识图谱中,每一实体节点均与对应的目标节点高度相关,这有效的保证了剪切得到的第二知识图谱中每一目标节点与其对应的其他实体节点间的关联性。
一个可选的实施例中,根据图3所示的方法,本申请实施例还提供了一种知识图谱生成方法。如图5所示,图5为本申请实施例提供的知识图谱生成方法的第三种流程示意图。该方法包括以下步骤。
步骤S501,获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据。
步骤S502,利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息。
步骤S503,根据三元组信息,生成私募基金业务的第一知识图谱。
步骤S504,针对第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,目标节点为基金管理人节点。
步骤S505,丢弃第一知识图谱中未标记有预设标识的实体节点,得到第二知识图谱。
上述步骤S501-步骤S505与上述步骤S301-步骤S305相同。
步骤S506,将第二知识图谱导入预设图形数据库。
一个可选的实施例中,考虑到图形数据库,如JanusGraph(一种图形数据库引擎)具有对图数据进行分布式动态扩展处理,以及支持实时图遍历和分析查询的功能,电子设备在得到上述第二知识图谱后,可以将该第二知识图谱导入预设图形数据库。例如,电子设备可以将上述第二知识图谱导入JanusGraph。
在本申请实施例中,对上述预设图形数据库不作具体限定。
步骤S507,在接收到针对第二知识图谱的查询请求时,从预设图形数据库中获取查询结果。
在本步骤中,当上述第二知识图谱被导入上述预设图形数据库后,用户可以触发对上述第二知识图谱的查询请求。此时,电子设备将接收到的该查询请求。当电子设备接收到用户触发的查询请求时,可以基于该查询请求从上述预设图形数据库中获取该查询请求的查询结果。
一个可选的实施例中,上述查询请求中可以包括待查询的实体节点的节点标识信息,如实体节点的名称、ID等。电子设备在接收到该查询请求后,可以从查询请求中获取该节点标识信息,并将该节点标识信息发送给上述预设图形数据库。预设图形数据库在接收到该节点标识信息后,可以对导入的第二知识图谱进行遍历,从而确定出包括该节点标识信息对应的实体节点的子知识图谱,并将该子知识图谱作为查询结果反馈给电子设备。
在本申请实施例中,上述查询请求的数量可以为一个,也可以为多个。当上述查询请求的数量为多个时,不同的查询请求可以是不同的用户触发的。在此,对上述查询请求不作具体限定。
一个可选的实施例中,当上述查询请求的数量为多个时,上述预设图形数据库可以并行获取每一查询请求的查询结果,并将该查询结果反馈至上述电子设备,实现多个查询请求的并行处理,提高查询效率。
步骤S508,输出查询结果。
一个可选的实施例中,电子设备在得到上述查询结果后,可以在电子设备的显示界面中显示该查询结果。
另一个可选的实施例中,电子设备在得到上述查询结果后,可以将该查询结果反馈给上述查询请求所对应的用户设备。
在本申请实施例中,对上述查询结果的输出方式不作具体限定。
通过上述步骤S506-步骤S508,电子设备可以通过将上述第二知识图谱导入预设图形数据库的方式,实现对第二知识图谱的查询,提高查询效率。
一个可选的实施例中,根据上述图3所示的方法,本申请实施例还提供了一种知识图谱生成方法。如图6所示,图6为本申请实施例提供的知识图谱生成方法的第四种流程示意图。该方法包括以下步骤。
步骤S601,获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据。
步骤S602,利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息。
步骤S603,根据三元组信息,生成私募基金业务的第一知识图谱。
步骤S604,针对第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,目标节点为基金管理人节点。
步骤S605,丢弃第一知识图谱中未标记有预设标识的实体节点,得到第二知识图谱。
上述步骤S601-步骤S605与上述步骤S301-步骤S305相同。
步骤S606,根据私募基金业务的风险结构特征,生成私募基金业务的风险结构模型。
在本步骤中,考虑到资本市场过于庞大、工商企业的架构设计较为复杂,以及私募基金业务可能存在较为隐蔽违规操作,如交叉持股或循环投资等,从而导致私募基金存在一定的风险。由于这些违规操作具有特定的风险结构特征,电子设备在得到上述第二知识图谱后,可以根据私募基金业务的风险结构特征,生成私募基金业务的风险结构模型。
一个可选的实施例中,用户可以业务规则和专家经验等,获取私募基金业务中违规操作的风险结构特征的语义表述。电子设备可以基于预设知识图谱查询语言,如gremlin语言(一种图遍历语言),将获取到的风险结构特征的语义表述转换为计算机语言,得到编码后的风险结构模型,也就是私募基金业务的风险结构模型。
一个可选的实施例中,电子设备可以将生成得到的每一风险结构模型存储至预设风险结构模型库中。
在本申请实施例中,不同违规操作所对应的风险结构模型有所不同。在此,对上述风险结构模型的结构以及风险结构模型的数量不作具体限定。
在本申请实施例中,上述步骤S606可以在上述步骤S601-步骤S605中任一步骤之前或之后执行,在此,对上述步骤S606与步骤S601-步骤S605的执行顺序不作具体限定。
步骤S607,针对第二知识图谱中的每一目标节点,以该目标节点为起点,获取第二知识图谱中结构与风险结构模型匹配的子图,作为第三知识图谱。
在本步骤中,电子设备在得到上述第二知识图谱后,可以针对该第二知识图谱中的每一目标节点,以该目标节点为起点,根据上述预设风险结构模型库存储的风险结构模型,检测第二知识图谱中是否存在结构与风险结构模型匹配的子知识图谱。当检测到第二知识图谱中存在结构与风险结构模型匹配的子图(即子知识图谱,记为第三知识图谱)时,电子设备可以确定该第三知识图谱为存在风险的知识图谱,也就是该第三知识图谱满足预设的风险结构模型,该第三知识图谱所涉及的基金管理人存在违规操作。
为便于理解,结合图7为例进行说明。图7为本申请实施例提供的风险结构模型的一种结构示意图。
在图7中,管理人管理的基金A被用于投资项目A,项目A投资了公司A,公司A投资了公司B,公司B又投资了该管理人,这形成了一个闭合的投资回路,属于违规操作中的循环投资回路。
电子设备在得到上述第二知识图谱中,可以检测该第二知识图谱中是否存在如图7所示的循环投资回路,若存在,则电子设备可以确定第二知识图谱包括的循环投资回路的基金管理人存在违规操作。此时,电子设备将从第二知识图谱中获取该违规操作对应的子知识图谱,得到该基金管理人违规操作的循环投资回路。
步骤S608,基于第三知识图谱进行风险提示。
在本步骤中,电子设备在得到上述第三知识图谱后,可以针对该知识图谱进行风险提示。该风险提示可以用于指示第三知识图谱的结构为风险结构,也可以用于指示第三知识图谱中的基金管理人存在违规操作。
上述风险提示的内容可以根据用户需求进行设定,在此,对上述风险提示不作具体限定。
一个可选的实施例中,针对第二知识图谱中的每一目标节点,当上述第二知识图谱中不存在结构与上述风险结构模型匹配的子图时,电子设备可以不对该目标节点进行处理,也就是不进行上述风险提示。
通过上述步骤S606-步骤S608,电子设备可以根据上述风险结构模型准确的检索出第二知识图谱中存在风险的私募基金,从而降低存在违规操作的私募基金的数量,便于对私募基金的监管,提高了私募基金的安全性。
基于同一种发明构思,根据上述本申请实施例提供的知识图谱生成方法,本申请实施例还提供了一种知识图谱生成装置。如图8所示,图8为本申请实施例提供的知识图谱生成装置的一种结构示意图。该装置包括以下模块。
第一获取模块801,用于获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据;
抽取模块802,用于利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息;
第一生成模块803,用于根据三元组信息,生成私募基金业务的第一知识图谱。
可选的,上述实体节点至少包括自然人节点、公司节点、基金管理人节点和私募基金节点;
上述关系边的类型至少包括投资关系、管理关系、实际控制人关系、法人关系和董监高关系;
上述属性信息包括实体节点的属性信息,关系边的属性信息,以及实体节点与关系边的属性信息。
可选的,上述知识图谱生成装置还可以包括:
标记模块,用于针对第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,目标节点为基金管理人节点;
丢弃模块,用于丢弃第一知识图谱中未标记有预设标识的实体节点,得到第二知识图谱。
可选的,上述知识图谱生成装置还可以包括:
导入模块,用于将第二知识图谱导入预设图形数据库;
第二获取模块,用于在接收到针对第二知识图谱的查询请求时,从预设图形数据库中获取查询结果;
输出模块,用于输出查询结果。
可选的,上述知识图谱生成装置还可以包括:
第二生成模块,用于根据私募基金业务的风险结构特征,生成私募基金的风险业务结构模型;
第三获取模块,用于针对第二知识图谱中的每一目标节点,以该目标节点为起点,获取第二知识图谱中结构与风险结构模型匹配的子图,作为第三知识图谱;
通知模块,用于基于第三知识图谱进行风险提示。
通过本申请实施例提供的装置,可以从工商企业的工商数据以及私募基金的行业数据中提取三元组信息,即提取生成知识图谱所需的实体节点、关系边以及实体节点与关系边间的属性信息,从而根据该三元组信息生成私募基金业务的知识图谱。通过生成知识图谱的方式,实现了对私募基金的行业数据的标准化和规范化整理,从而为私募基金业务的监管和分析提供数据依据。
再者,通过生成私募基金业务的知识图谱,可以使得各私募基金的结构更加清晰,方便基于该知识图谱对复杂风险结构的挖掘,从而实现对各私募基金的监管,提高私募基金业务的安全性。
基于同一种发明构思,根据上述本申请实施例提供的知识图谱生成方法,本申请实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
获取待处理数据,待处理数据至少包括工商企业的工商数据以及私募基金的行业数据;
利用预设数据处理图算法,从工商数据和行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息;
根据三元组信息,生成私募基金业务的第一知识图谱。
通过本申请实施例提供的电子设备,可以从工商企业的工商数据以及私募基金的行业数据中提取三元组信息,即提取生成知识图谱所需的实体节点、关系边以及实体节点与关系边间的属性信息,从而根据该三元组信息生成私募基金业务的知识图谱。通过生成知识图谱的方式,实现了对私募基金的行业数据的标准化和规范化整理,从而为私募基金业务的监管和分析提供数据依据。
再者,通过生成私募基金业务的知识图谱,可以使得各私募基金的结构更加清晰,方便基于该知识图谱对复杂风险结构的挖掘,从而实现对各私募基金的监管,提高私募基金业务的安全性。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于同一种发明构思,根据上述本申请实施例提供的知识图谱生成方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一知识图谱生成方法的步骤。
基于同一种发明构思,根据上述本申请实施例提供的知识图谱生成方法,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一知识图谱生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (12)

1.一种知识图谱生成方法,其特征在于,所述方法包括:
获取待处理数据,所述待处理数据至少包括工商企业的工商数据以及私募基金的行业数据;
利用预设数据处理图算法,从所述工商数据和所述行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息;
根据所述三元组信息,生成私募基金业务的第一知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述实体节点至少包括自然人节点、公司节点、基金管理人节点和私募基金节点;
所述关系边的类型至少包括投资关系、管理关系、实际控制人关系、法人关系和董监高关系;
所述属性信息包括所述实体节点的属性信息,所述关系边的属性信息,以及所述实体节点与所述关系边的属性信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,所述目标节点为基金管理人节点;
丢弃所述第一知识图谱中未标记有所述预设标识的实体节点,得到第二知识图谱。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述第二知识图谱导入预设图形数据库;
在接收到针对所述第二知识图谱的查询请求时,从所述预设图形数据库中获取查询结果;
输出所述查询结果。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据私募基金业务的风险结构特征,生成私募基金业务的风险结构模型;
针对所述第二知识图谱中的每一目标节点,以该目标节点为起点,获取所述第二知识图谱中结构与所述风险结构模型匹配的子图,作为第三知识图谱;
基于所述第三知识图谱进行风险提示。
6.一种知识图谱生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理数据,所述待处理数据至少包括工商企业的工商数据以及私募基金的行业数据;
抽取模块,用于利用预设数据处理图算法,从所述工商数据和所述行业数据中抽取实体节点、关系边以及属性信息,得到三元组信息;
第一生成模块,用于根据所述三元组信息,生成私募基金业务的第一知识图谱。
7.根据权利要求6所述的装置,其特征在于,所述实体节点至少包括自然人节点、公司节点、基金管理人节点和私募基金节点;
所述关系边的类型至少包括投资关系、管理关系、实际控制人关系、法人关系和董监高关系;
所述属性信息包括所述实体节点的属性信息,所述关系边的属性信息,以及所述实体节点与所述关系边的属性信息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
标记模块,用于针对所述第一知识图谱中的每一目标节点,利用预设标识对该目标节点预设有效距离内的每一实体节点进行标记;其中,所述目标节点为基金管理人节点;
丢弃模块,用于丢弃所述第一知识图谱中未标记有所述预设标识的实体节点,得到第二知识图谱。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
导入模块,用于将所述第二知识图谱导入预设图形数据库;
第二获取模块,用于在接收到针对所述第二知识图谱的查询请求时,从所述预设图形数据库中获取查询结果;
输出模块,用于输出所述查询结果。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二生成模块,用于根据私募基金业务的风险结构特征,生成私募基金业务的风险结构模型;
第三获取模块,用于针对所述第二知识图谱中的每一目标节点,以该目标节点为起点,获取所述第二知识图谱中结构与所述风险结构模型匹配的子图,作为第三知识图谱;
通知模块,用于基于所述第三知识图谱进行风险提示。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202210046125.2A 2022-01-17 2022-01-17 一种知识图谱生成方法、装置、电子设备及存储介质 Pending CN114064939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210046125.2A CN114064939A (zh) 2022-01-17 2022-01-17 一种知识图谱生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210046125.2A CN114064939A (zh) 2022-01-17 2022-01-17 一种知识图谱生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114064939A true CN114064939A (zh) 2022-02-18

Family

ID=80231424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210046125.2A Pending CN114064939A (zh) 2022-01-17 2022-01-17 一种知识图谱生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114064939A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN110188198A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种基于知识图谱的反欺诈方法及装置
CN111784508A (zh) * 2020-07-01 2020-10-16 北京知因智慧科技有限公司 企业风险评估方法、装置及电子设备
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN110188198A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种基于知识图谱的反欺诈方法及装置
CN111784508A (zh) * 2020-07-01 2020-10-16 北京知因智慧科技有限公司 企业风险评估方法、装置及电子设备
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法

Similar Documents

Publication Publication Date Title
US11281793B2 (en) User permission data query method and apparatus, electronic device and medium
CN110908997B (zh) 数据血缘构建方法、装置、服务器及可读存储介质
US20170206080A1 (en) Attributing authorship to segments of source code
US20160034571A1 (en) Method and system for implementing alerts in semantic analysis technology
US11709878B2 (en) Enterprise knowledge graph
US10671671B2 (en) Supporting tuples in log-based representations of graph databases
CN110196848B (zh) 一种面向公共资源交易数据的清洗去重方法及其系统
WO2021051546A1 (zh) 一种链路异常识别方法、服务器及计算机可读存储介质
WO2019062078A1 (zh) 智能客服方法、电子装置及计算机可读存储介质
CN113435197B (zh) 数据推送方法、装置、推送服务器及存储介质
CN107330079B (zh) 基于人工智能呈现辟谣信息的方法和装置
US20210109952A1 (en) Incremental clustering for enterprise knowledge graph
WO2019200700A1 (zh) 一种公文处理的方法、装置、终端设备及存储介质
CN111913936A (zh) 一种涉及多领域溯源系统
CN112189199B (zh) 隐私保护数据收集和分析
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
US10191942B2 (en) Reducing comparisons for token-based entity resolution
CN115544214B (zh) 一种事件处理方法、设备及计算机可读存储介质
CN112434062A (zh) 准实时数据处理方法、装置、服务器及存储介质
WO2020024824A1 (zh) 一种用户状态标识确定方法及装置
CN114064939A (zh) 一种知识图谱生成方法、装置、电子设备及存储介质
US11392649B2 (en) Binding query scope to directory attributes
JP2019537171A (ja) 警告メッセージを効率的に配信するためのシステム及び方法
CN112818223B (zh) 用户画像的查询处理方法、装置、设备、程序产品及介质
CN114327471A (zh) 基于sql的数据血缘分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220218

RJ01 Rejection of invention patent application after publication