CN109189867B - 基于公司知识图谱的关系发现方法、装置及存储介质 - Google Patents
基于公司知识图谱的关系发现方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109189867B CN109189867B CN201811247703.9A CN201811247703A CN109189867B CN 109189867 B CN109189867 B CN 109189867B CN 201811247703 A CN201811247703 A CN 201811247703A CN 109189867 B CN109189867 B CN 109189867B
- Authority
- CN
- China
- Prior art keywords
- company
- knowledge graph
- node
- target
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于公司知识图谱的关系发现方法,包括:根据从设定的数据源获取的实体的名称和基本关系生成公司知识图谱,根据所述公司知识图谱进行关系发现,包括发现目标公司的实际控制人、发现目标公司之间的路径、发现目标公司股东与其他公司的持股关系、发现目标公司的关联公司和关联自然人等。本发明还公开了一种基于公司知识图谱的关系发现装置和计算机存储介质。本发明通过根据从设定的数据源中获取的实体的名称和所述基本关系生成公司知识图谱,并基于公司知识图谱进行包括公司、分支机构、政府机构、社会组织、行业门类和自然人之间的关系发现,提供了一种深入挖掘实体隐含关系的方法。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于公司知识图谱的关系发现方法、基于公司知识图谱的关系发现装置及计算机存储介质。
背景技术
金融行业利用现代化的数据库和数据仓库系统,存储了大量的高管、股东、持股金额、行业板块等各种信息。但是数据存在着结构与非结构化数据并存的特点,对分析手段提出了新的要求与挑战。
这些数据经常是以关系型数据库进行存储的,无法保存数据之间的层级结构,必须通过添加属性来进行标记和外联,低效率的联动匹配操作难以通过数据找到它们内部潜在的关系。
在对一家公司进行分析的时候,尤其是针对一家上市公司,希望通过了解这家公司的股权关系,股东结构,实际控制人以及对外投资的情况来获得该公司的风险要素。公司背后的实际控制人是谁,公司、高管、股东之间的相互关系,都可以借助知识图谱来进行分析和挖掘,以获得答案。
现有技术中有通过知识图谱来分析公司和组织之间的投资关系,使用的是狄克斯特拉算法(Dijkstra算法)和深度优先算法,功能比较单一,仅展示了公司之间的投资关系,没有考虑到公司和自然人之间的关联,无法深入挖掘潜在的会增加风险的关系。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于公司知识图谱的关系发现方法、基于公司知识图谱的关系发现装置和计算机存储介质,旨在解决现有技术中在通过知识图谱来分析公司和组织之间的投资关系时,没有考虑到公司和自然人之间的关联,无法深入挖掘潜在的会增加风险的关系的技术问题。
为实现上述目的,本发明提供一种基于公司知识图谱的关系发现方法,所述基于公司知识图谱的关系发现方法包括如下步骤:
从设定数据源中获取实体的名称和各个所述实体之间的基本关系,其中,所述实体包括公司、分支机构、政府机构、社会组织、行业门类和自然人,所述基本关系包括持股关系、任职关系、所属行业关系和拥有分支机构关系;
根据所述实体的名称和所述基本关系生成公司知识图谱;
根据所述公司知识图谱进行关系发现,包括发现目标公司的实际控制人、发现目标公司之间的路径、发现目标公司股东与其他公司的持股关系、发现目标公司的关联公司和关联自然人、发现目标自然人的关联公司和关联自然人、发现目标自然人之间的路径和发现目标公司的整体架构。
优选地,所述根据所述公司知识图谱进行关系发现,发现目标公司的实际控制人的步骤包括:
在所述公司知识图谱中确定所述目标公司对应的节点;
生成以所述目标公司对应的节点为中心的子图,其中,所述子图中的节点之间均为持股关系的边;
计算所述子图中各条边的持股比例;
根据所述各条边的持股比例计算所述子图中各个叶子节点对所述目标公司对应的节点的持股比例;
将持股比例最高的叶子节点标记为所述目标公司的实际控制人。
优选地,所述计算所述子图中各条边的持股比例的步骤包括:
确定每条边的持股节点和被持股节点;
判断所述被持股节点对应的公司是否存在有效的注册资本;
当所述被持股节点对应的公司存在有效的注册资本时,将所述持股节点对应的公司或自然人的应缴金额除以所述注册资本,得到所述持股节点对所述被持股节点的持股比例。
优选地,所述根据所述公司知识图谱进行关系发现,发现目标公司之间的路径的步骤包括:
确定第一目标公司对应的第一节点和第二目标公司对应的第二节点;
采用深度优先算法,在所述公司知识图谱中查找以所述第一节点为起点并以所述第二节点为终点的路径,其中所述路径包含任职关系和/或持股关系。
优选地,所述根据所述公司知识图谱进行关系发现,发现目标自然人之间的路径的步骤包括:
确定第一目标自然人对应的第一节点和第二目标自然人对应的第二节点;
采用深度优先算法,在所述公司知识图谱中查找以所述第一节点为起点并以所述第二节点为终点的路径,其中所述路径包含任职关系。
优选地,所述根据所述公司知识图谱进行关系发现,发现目标公司之间的路径的步骤包括:
对所述公司知识图谱进行压缩,得到所述公司知识图谱对应的抽象图和所述抽象图中的超点在所述公司知识图谱中对应的原始节点集合;
在所述抽象图中确定第一目标公司对应的第一超点和第二目标公司对应的第二超点;
采用深度优先算法,在所述抽象图中查找以所述第一超点为起点并以所述第二超点为终点的第一路径,其中所述第一路径仅包含任职关系和/或持股关系;
获取所述第一路径中的超点对应的原始节点集合;
在所述公司知识图谱中确定第一目标公司对应的第一节点和第二目标公司对应的第二节点;
采用深度优先算法,在所述公司知识图谱中根据所述第一路径中的超点对应的原始节点集合查找第二路径,其中,所述第二路径以所述第一节点为起点并以所述第二节点为终点,所述第二路径仅包含任职关系和/或持股关系。
优选地,所述对所述公司知识图谱进行压缩,得到所述公司知识图谱对应的抽象图和所述抽象图中的超点在所述公司知识图谱中对应的原始节点集合的步骤包括:
随机访问所述公司知识图谱中的一个节点;
获取与所述节点的距离在预设距离之内的邻居节点;
将所述邻居节点中属性相似的节点合并成为超点;
将所述属性相似的节点保存为所述超点在所述公司知识图谱中对应的原始节点集合;
返回执行所述随机访问所述公司知识图谱中的一个节点的步骤,直至所述公司知识图谱中的节点都被访问完毕。
优选地,所述属性包括:行业类别、业务范围、注册资本、公司注册所属地。
此外,为实现上述目的,本发明还提供所述基于公司知识图谱的关系发现装置,该装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于公司知识图谱的关系发现处理程序,所述基于公司知识图谱的关系发现处理程序被所述处理器执行时实现如上所述的基于公司知识图谱的关系发现方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机存储介质,其特征在于,所述计算机存储介质上存储有基于公司知识图谱的关系发现的处理程序,所述基于公司知识图谱的关系发现的处理程序被处理器执行时实现如上所述的基于公司知识图谱的关系发现方法的步骤。
本发明实施例提出的基于公司知识图谱的关系发现方法、基于公司知识图谱的关系发现装置和计算机存储介质,根据从设定的数据源获取的实体的名称和基本关系生成公司知识图谱,根据所述公司知识图谱进行关系发现,包括发现目标公司的实际控制人、发现目标公司之间的路径、发现目标公司股东与其他公司的持股关系、发现目标公司的关联公司和关联自然人等。本发明通过根据从设定的数据源中获取的实体的名称和所述基本关系生成公司知识图谱,并基于公司知识图谱进行包括公司、分支机构、政府机构、社会组织、行业门类和自然人之间的关系发现,提供了一种深入挖掘实体隐含关系的方法。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明基于公司知识图谱的关系发现方法第一实施例的流程示意图;
图3为本发明基于公司知识图谱的关系发现方法第一实施例的持股比例计算示意图;
图4为本发明基于公司知识图谱的关系发现方法第二实施例的流程示意图;
图5为本发明基于公司知识图谱的关系发现方法第二实施例的在原始公司知识图谱二次搜索路径示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于公司知识图谱的关系发现应用程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于公司知识图谱的关系发现处理程序,并执行以下操作:
从设定数据源中获取实体的名称和各个所述实体之间的基本关系,其中,所述实体包括公司、分支机构、政府机构、社会组织、行业门类和自然人,所述基本关系包括持股关系、任职关系、所属行业关系和拥有分支机构关系;
根据所述实体的名称和所述基本关系生成公司知识图谱;
根据所述公司知识图谱进行关系发现,包括发现目标公司的实际控制人、发现目标公司之间的路径、发现目标公司股东与其他公司的持股关系、发现目标公司的关联公司和关联自然人、发现目标自然人的关联公司和关联自然人、发现目标自然人之间的路径和发现目标公司的整体架构。
进一步地,处理器1001可以调用存储器1005中存储的基于公司知识图谱的关系发现处理程序,还执行以下操作:
在所述公司知识图谱中确定所述目标公司对应的节点;
生成以所述目标公司对应的节点为中心的子图,其中,所述子图中的节点之间均为持股关系的边;
计算所述子图中各条边的持股比例;
根据所述各条边的持股比例计算所述子图中各个叶子节点对所述目标公司对应的节点的持股比例;
将持股比例最高的叶子节点标记为所述目标公司的实际控制人。
进一步地,处理器1001可以调用存储器1005中存储的基于公司知识图谱的关系发现处理程序,还执行以下操作:
确定每条边的持股节点和被持股节点;
判断所述被持股节点对应的公司是否存在有效的注册资本;
当所述被持股节点对应的公司存在有效的注册资本时,将所述持股节点对应的公司或自然人的应缴金额除以所述注册资本,得到所述持股节点对所述被持股节点的持股比例。
进一步地,处理器1001可以调用存储器1005中存储的基于公司知识图谱的关系发现处理程序,还执行以下操作:
确定第一目标公司对应的第一节点和第二目标公司对应的第二节点;
采用深度优先算法,在所述公司知识图谱中查找以所述第一节点为起点并以所述第二节点为终点的路径,其中所述路径包含任职关系和/或持股关系。
进一步地,处理器1001可以调用存储器1005中存储的基于公司知识图谱的关系发现处理程序,还执行以下操作:
确定第一目标自然人对应的第一节点和第二目标自然人对应的第二节点;
采用深度优先算法,在所述公司知识图谱中查找以所述第一节点为起点并以所述第二节点为终点的路径,其中所述路径包含任职关系。
进一步地,处理器1001可以调用存储器1005中存储的基于公司知识图谱的关系发现处理程序,还执行以下操作:
对所述公司知识图谱进行压缩,得到所述公司知识图谱对应的抽象图和所述抽象图中的超点在所述公司知识图谱中对应的原始节点集合;
在所述抽象图中确定第一目标公司对应的第一超点和第二目标公司对应的第二超点;
采用深度优先算法,在所述抽象图中查找以所述第一超点为起点并以所述第二超点为终点的第一路径,其中所述第一路径仅包含任职关系和/或持股关系;
获取所述第一路径中的超点对应的原始节点集合;
在所述公司知识图谱中确定第一目标公司对应的第一节点和第二目标公司对应的第二节点;
采用深度优先算法,在所述公司知识图谱中根据所述第一路径中的超点对应的原始节点集合查找第二路径,其中,所述第二路径以所述第一节点为起点并以所述第二节点为终点,所述第二路径仅包含任职关系和/或持股关系。
进一步地,处理器1001可以调用存储器1005中存储的基于公司知识图谱的关系发现处理程序,还执行以下操作:
随机访问所述公司知识图谱中的一个节点;
获取与所述节点的距离在预设距离之内的邻居节点;
将所述邻居节点中属性相似的节点合并成为超点;
将所述属性相似的节点保存为所述超点在所述公司知识图谱中对应的原始节点集合;
返回执行所述随机访问所述公司知识图谱中的一个节点的步骤,直至所述公司知识图谱中的节点都被访问完毕。
进一步地,所述属性包括:行业类别、业务范围、注册资本、公司注册所属地。
参照图2,本发明第一实施例提供一种基于公司知识图谱的关系发现的方法,所述方法包括:
步骤S10,从设定数据源中获取实体的名称和各个所述实体之间的基本关系,其中,所述实体包括公司、分支机构、政府机构、社会组织、行业门类和自然人,所述基本关系包括持股关系、任职关系、所属行业关系和拥有分支机构关系。
设定数据源可以来自网上公开数据、公司内部数据库或者外购第三方数据库。如果设定数据源来自完整的公司内部数据库或外购第三方数据库,可以根据构建图谱的需求导出相应的数据。如果没有上述数据库,可以采取爬虫的方式,从网上爬取所需数据。
如果设定数据源来自完整的公司内部数据库或外购第三方数据库,由于不同的实体在数据库中分属不同的表,比如公司表、自然人表、机构表,并且数据库中的表包含有持股关系表、任职关系表、拥有分支机构关系和所述行业关键词,所以可以直接从数据源中获取实体的名称和各个所述实体之间的持股关系、任职关系、所属行业关系和拥有分支机构关系。如果设定数据源来自网上公开数据,可以利用关系抽取的方法来识别并抽取出实体之间的持股关系、任职关系、所属行业关系和拥有分支机构关系。
在从设定数据源中识别实体的名称以及实体之间的基本关系之后,还需要进行去重、缺失值填充、异常值处理等操作,以将数据转换成具有统一格式的数据。
步骤S20,根据所述实体的名称和所述基本关系生成公司知识图谱。
实体的定义包括标签和属性,其中,标签用于标识实体,属性用于描述实体的特征。在本实施例中,实体包括上市公司、非上市公司、新三板公司、个人、分支机构、社会组织、政府机构、行业门类,它们对应的实体定义如下所示。
1、上市公司,标签为Listed Companies,属性值包括:公司标识、公司中文名称、统一社会信用代码、行业门类、注册资本、注册资本币种、法人名称。
2、非上市公司,标签为Non—listed Companies,属性值包括:公司标识、公司中文名称、统一社会信用代码、行业门类、注册资本,注册资本币种、法人名称。
3、新三板公司,标签为New—otc,属性值包括:公司标识、公司中文名称、统一社会信用代码、行业门类、注册资本,注册资本币种、法人名称。
4、个人,标签为Person,属性值包括个人标识和人名。
5、分支机构,标签为Branch—offices,属性值包括分支机构标识、机构名称、上级机构标识。
6、社会组织,标签为Social—organization,属性值包括社会组织标识和社会组织名称。
7、政府机构,标签为Government,属性值包括政府机构标识和政府机构名称。
8、行业门类,标签为Industryphy,属性值包括行业门类中文字段和行业代码中文字段。
基本关系中的持股关系可以存在于上述除分支机构外的任何两个实体之间,例如非上市公司持股上市公司、新三板公司持股上市公司、政府机构持股上市公司、个人持股非上市公司、社会组织持股新三板公司等。进一步地,持股关系可有自己的属性,属性可包括时间、应缴金额、实缴金额、币种等。
基本关系中的任职关系存在于个人和公司之间,公司包括非上市公司、上市公司和新三板公司,其中,任职关系可以包括担任董事长、担任监事和担任高管,例如个人担任上市公司的董事长。进一步的,任职关系的属性可以包括职务和时间。
基本关系中的所属行业关系存在于公司和行业门类之间,公司包括非上市公司、上市公司和新三板公司,例如上市公司属于钢铁行业。
基本关系中的拥有分支机构关系存在于公司和分支机构中,公司包括非上市公司、上市公司和新三板公司。
使用图数据库Neo4j作为支撑,将数据导入Neo4j中,构建公司知识图谱。先创建节点,然后建立节点之间的关系。
每个实体对应着知识图谱中的一个节点,实体之间的每一种关系对应着知识图谱中的一条边,当实体之间有多种关系时,实体对应的节点之间存在多条边。
步骤S30,根据所述公司知识图谱进行关系发现,包括发现目标公司的实际控制人、发现目标公司之间的路径、发现目标公司股东与其他公司的持股关系、发现目标公司的关联公司和关联自然人、发现目标自然人的关联公司和关联自然人、发现目标自然人之间的路径和发现目标公司的整体架构。
基于公司知识图谱,发现目标公司的实际控制人的过程为:先在公司知识图谱中确定目标公司对应的节点,然后在公司知识图找到以目标公司对应的节点为中心的子图,其中,子图中的节点之间的边均为任职关系和/或持股关系的边,再计算子图中各条边的持股比例,接着根据各条边的持股比例计算子图中各个叶子节点对目标公司对应的节点的持股比例,最后将持股比例最高的叶子节点标记为目标公司的实际控制人。其中,在计算叶子节点对目标公司对应的节点的持股比例时,由于叶子节点和目标公司对应的节点之间可能存在N条边,需要获得N条边中每一条边的持股比例,将N条边的持股比例依次相乘得到叶子节点对目标公司对应的节点的持股比例。
举例进行说明,如图3所示,对于目标公司B,若存在叶子节点C—持股—>D—持股—>B,那么首先就计算C—持股—>D和D—持股—>B这两条边上的持股比例,如果计算出C—持股—>D上的持股比例为17%,D—持股—>B上的持股比例为40%,那么C—持股—>D—持股—>B上的持股比例就为17%*40%=6.8%,通过计算出所有叶子节点对于B的持股比例,最后进行排序,可以找到持股最高的实际控制人。
需要说明的是,初始数据中持股关系中不包含持股比例,即生成的公司知识图谱中具有持股关系的边的持股比例需要进行计算,其计算流程如下:
1、根据输入的公司的中文名称或公司标识从图谱中匹配到公司节点;
2、检查公司是否存在注册资本这个属性,并且不为空;
3、若公司不存在注册资本这一属性或者值为空的话,就从图谱中找到所有持股该公司的持股人,将他们的持股应缴金额总和作为该公司的注册资本额赋值给该公司;
4、若公司存在注册资本这一属性且值不为空的话,就按照注册资本的币种将其统一转换为人民币作为公司注册资本,再通过公式“持股人持股比例=应缴金融/公司注册资本”计算出每个持股人的持股比例。
基于公司知识图谱,发现公司之间的路径的过程为:设置路径过滤条件,从第一目标公司出发,采用深度优先算法遍历节点,找到包含第一目标公司和第二目标公司的路径作为目标路径,其中,目标路径中所包含的边所具有的关系为路径过滤条件所限定的关系,路径过滤条件根据需要可以设置为下述多种关系中的一种或者多种组合:持股关系、任职关系、拥有分支机构关系。
基于公司知识图谱,发现公司每位股东所控股的其他公司的过程为:从目标公司节点出发,运用深度优先算法,路径过滤条件设为持股关系,目标节点标签设为股东,找到公司的股东,再通过股东找到持股的其他公司节点。
基于公司知识图谱,发现自然人之间路径的过程为:从目标自然人节点出发,运用深度优先算法,返回两个自然人节点之间存在的路径,如果过滤器条件设为持股关系,那返回的就是一条他们持股公司从而产生关联的路径;如果过滤条件设为任职关系,那返回的就是一条他们任职公司从而产生关联的路径。
基于公司知识图谱,发现公司1度(或2度以及2度以上)以内相关联的公司或人的过程为:从目标公司节点出发,通过深度优先算法,设置相应的过滤条件,返回与目标节点存在1度或2度以上关系的节点。这个可以应用于负面预警、风险管控等方面。
基于公司知识图谱,发现人1度(或2度以及2度以上)以内相关联的公司或人的过程为:从目标自然人节点出发,通过深度优先算法,返回与目标节点存在1度或2度以上关系的节点。
进一步地,基于公司知识图谱,还可以通过运用K—means等聚类算法,对所属同一行业的公司进行聚类,找到同一行业板块的公司,或者对有共同股东的公司进行聚类,利用社区发现算法来找出图中的社区聚类,发现它们是否存在一致行动关系。
在本实施例中,通过根据从设定的数据源中获取的实体的名称和所述基本关系生成公司知识图谱,并基于公司知识图谱进行包括公司、分支机构、政府机构、社会组织、行业门类和自然人之间的关系发现,提供了一种深入挖掘实体隐含关系的方法。
进一步的,参照图4,本发明第二实施例基于第一实施例提供一种基于公司知识图谱的关系发现方法,本实施例在步骤S30包括:
步骤S40,对所述公司知识图谱进行压缩,得到所述公司知识图谱对应的抽象图和所述抽象图中的超点在所述公司知识图谱中对应的原始节点集合。
当得到的公司知识图谱中的节点的数量和边的数量都比较大时,为了提高关系发现的效率,需要对公司知识图谱进行压缩,以减少节点的数量和边的数量。
对公司知识图谱的压缩过程为:随机访问公司知识图谱中的一个节点,获取与该节点的距离在预设距离之内的邻居节点,将邻居节点中属性相似的节点合并成为超点,将属性相似的节点保存为该超点在公司知识图谱中对应的原始节点集合,返回执行随机访问公司知识图谱中的一个节点的步骤,直至公司知识图谱中的节点都被访问完毕。
公司知识图谱中的每个节点都包含多种属性,例如行业类别、业务范围、注册资本、公司注册所属地等,可以为每一种属性定义一个相似性度量函数SM(u,v)。SM(u,v)可以以不同的方式来计算两个公司节点之间的属性的相似性,比如将属性转换成向量,计算不同节点的属性对应的向量的余弦相似度。将函数的输出值归一化到0和1之间,即每个函数的最大值是1,最小值是0。
如下式所示,最终以总的相似性指数SI来衡量两个公司节点之间属性的相似性,即将每个属性相似度度量的加权平均值作为总的相似性指数SI,其中,权重可以通过人工观察和专家意见来分配:
SI(u,v)=ΣwAiSM(u,v)
在获取到与节点的距离在预设距离之内的多个邻居节点时,可以按照下述方式实现对属性相似的节点的合并:先计算邻居节点中两两之间的总的相似性指数SI,即得到多个节点对的SI,再筛选出SI高于预设的相似度阈值的节点对,然后将这些节点对进行合并,接着计算合并后的节点的两两之间的SI,继续重复执行根据相似度阈值进行筛选、合并的步骤,直至没有可以合并的节点对。
进一步地,在节点对之间的相似性时,除了考虑节点对的总相似性指数SI,还可以同时考虑节点对的削减成本,例如由成本削减CR和相似性指数SI的加权平均值得到的合并指数MI,如下面的公式所示,公司中的u和v分别代表不同的节点:
MI(u,v)=w1*CR(u,v)+w2*SI(u,v)
优选地,根据实验结果将上式中的权值配置为w1=0.6,w2=0.4。
需要说明的是,如下式所示,成本削减CR被定义为合并节点对形成新的超级节点所降低的成本与合并前节点对的成本的比率,公式中u和v代表合并前的节点对,w代表合并形成新的超级节点,Cu、Cv和Cw均代表节点的成本,其中,节点的成本是指存储其的成本,主要根据节点所关联的边的信息计算得到。
CR(u,v)=(Cu+Cv-Cw)/(Cu+Cv)
步骤S50,在所述抽象图中确定第一目标公司对应的第一超点和第二目标公司对应的第二超点。
步骤S60,采用深度优先算法,在所述抽象图中查找以所述第一超点为起点并以所述第二超点为终点的第一路径,其中所述第一路径仅包含任职关系和/或持股关系。
步骤S70,获取所述第一路径中的超点对应的原始节点集合。
当要发现第一目标公司和第二目标公司之间的路径时,首先在抽象图上根据深度优先算法进行路径的搜索,搜索时使用的过滤条件为任职关系和/或持股关系,分别找到第一目标公司对应的第一超点和第二目标公司对应的第二超点,采用深度优先算法查找包含第一超点和第二超点的第一路径,从而得到第一路径中包含的超点和超边,并得到超点对应的原始节点集合。
步骤S80,在所述公司知识图谱中确定第一目标公司对应的第一节点和第二目标公司对应的第二节点。
步骤S90,采用深度优先算法,在所述公司知识图谱中根据所述第一路径中的超点对应的原始节点集合查找第二路径,其中,所述第二路径以所述第一节点为起点并以所述第二节点为终点,所述第二路径仅包含任职关系和/或持股关系。
公司知识图谱经压缩后,得到包含超节点和超边的原始图的抽象图。在抽象图进行过首次路径搜索后,接着在原始的公司知识图谱中进行二次路径搜索,即以第一目标公司为起点,设置路径过滤条件为任职关系和/或持股关系,按照深度优先算法遍历访问节点,每访问一个节点,需要判断该节点是否在超点对应的原始集合节点中,如果在就按照深度优先算法的规则继续访问该节点的邻居节点,如果不在则停止访问该节点的邻居节点,返回上次访问的节点,继续沿着其它路径访问其它节点,直至找到以第一目标公司为起点、以第二目标公司为终点的路径。
例如图5中节点按照ABCDEFG的顺序存储,原始点集合为{A,B,E}。当访问完A节点时,根据深度优先算法和存储顺序,接着访问B节点和C节点,当访问到节点C时,判断出C节点不在原始节点集合中,则回退到在访问C节点之前所访问的B节点,重新访问B节点的另一个未被访问过的相邻的节点E,继续判断和访问步骤。
在本实施例中,通过将公司知识图谱压缩成抽象图,通过基于抽象图进行初次路径搜索和基于公司知识图谱和原始点集合进行二次路径搜索,极大减少了需要访问和判断的节点和边,提高了基于公司知识图谱发现关系方法的效率。
本发明还提供一种基于公司知识图谱的关系发现装置,该基于公司知识图谱的关系发现装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于公司知识图谱的关系发现处理程序,所述基于公司知识图谱的关系发现处理程序被所述处理器执行时实现所述的基于公司知识图谱的关系发现的方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于公司知识图谱的关系发现处理程序,所述基于公司知识图谱的关系发现处理程序被处理器执行时实现所述的基于公司知识图谱的关系发现方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于公司知识图谱的关系发现方法,其特征在于,所述基于公司知识图谱的关系发现方法包括以下步骤:
从设定数据源中获取实体的名称和各个所述实体之间的基本关系,其中,所述实体包括公司、分支机构、政府机构、社会组织、行业门类和自然人,所述基本关系包括持股关系、任职关系、所属行业关系和拥有分支机构关系;
根据所述实体的名称和所述基本关系生成公司知识图谱;
根据所述公司知识图谱进行关系发现,包括发现目标公司的实际控制人、发现目标公司之间的路径、发现目标公司股东与其他公司的持股关系、发现目标公司的关联公司和关联自然人、发现目标自然人的关联公司和关联自然人、发现目标自然人之间的路径和发现目标公司的整体架构;
所述根据所述公司知识图谱进行关系发现,发现目标公司之间的路径的步骤包括:
对所述公司知识图谱进行压缩,得到所述公司知识图谱对应的抽象图和所述抽象图中的超点在所述公司知识图谱中对应的原始节点集合;
在所述抽象图中确定第一目标公司对应的第一超点和第二目标公司对应的第二超点;
采用深度优先算法,在所述抽象图中查找以所述第一超点为起点并以所述第二超点为终点的第一路径;
获取所述第一路径中的超点对应的原始节点集合;
在所述公司知识图谱中确定第一目标公司对应的第一节点和第二目标公司对应的第二节点;
采用深度优先算法,在所述公司知识图谱中根据所述第一路径中的超点对应的原始节点集合查找第二路径;
所述第一超点和所述第二超点的获取方式为:
获取邻居节点中两两之间总的相似性指数SI,得到多个节点对的相似性指数MI;
获取相似性指数MI大于预设相似度阈值的节点对,将所述节点对合并为超点。
2.如权利要求1所述的基于公司知识图谱的关系发现方法,其特征在于,所述根据所述公司知识图谱进行关系发现,发现目标公司的实际控制人的步骤包括:
在所述公司知识图谱中确定所述目标公司对应的节点;
生成以所述目标公司对应的节点为中心的子图,其中,所述子图中的节点之间均为持股关系的边;
计算所述子图中各条边的持股比例;
根据所述各条边的持股比例计算所述子图中各个叶子节点对所述目标公司对应的节点的持股比例;
将持股比例最高的叶子节点标记为所述目标公司的实际控制人。
3.如权利要求2所述的基于公司知识图谱的关系发现方法,其特征在于,所述计算所述子图中各条边的持股比例的步骤包括:
确定每条边的持股节点和被持股节点;
判断所述被持股节点对应的公司是否存在有效的注册资本;
当所述被持股节点对应的公司存在有效的注册资本时,将所述持股节点对应的公司或自然人的应缴金额除以所述注册资本,得到所述持股节点对所述被持股节点的持股比例。
4.如权利要求1所述的基于公司知识图谱的关系发现方法,其特征在于,所述根据所述公司知识图谱进行关系发现,发现目标公司之间的路径的步骤包括:
确定第一目标公司对应的第一节点和第二目标公司对应的第二节点;
采用深度优先算法,在所述公司知识图谱中查找以所述第一节点为起点并以所述第二节点为终点的路径,其中所述路径包含任职关系和/或持股关系。
5.如权利要求1所述的基于公司知识图谱的关系发现方法,其特征在于,所述根据所述公司知识图谱进行关系发现,发现目标自然人之间的路径的步骤包括:
确定第一目标自然人对应的第一节点和第二目标自然人对应的第二节点;
采用深度优先算法,在所述公司知识图谱中查找以所述第一节点为起点并以所述第二节点为终点的路径,其中所述路径包含任职关系。
6.如权利要求1所述的基于公司知识图谱的关系发现方法,其特征在于,所述对所述公司知识图谱进行压缩,得到所述公司知识图谱对应的抽象图和所述抽象图中的超点在所述公司知识图谱中对应的原始节点集合的步骤包括:
随机访问所述公司知识图谱中的一个节点;
获取与所述节点的距离在预设距离之内的邻居节点;
将所述邻居节点中属性相似的节点合并成为超点;
将所述属性相似的节点保存为所述超点在所述公司知识图谱中对应的原始节点集合;
返回执行所述随机访问所述公司知识图谱中的一个节点的步骤,直至所述公司知识图谱中的节点都被访问完毕。
7.如权利要求6所述的基于公司知识图谱的关系发现方法,其特征在于,所述属性包括:行业类别、业务范围、注册资本、公司注册所属地。
8.一种基于公司知识图谱的关系发现装置,其特征在于,所述基于公司知识图谱的关系发现装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于公司知识图谱的关系发现处理程序,所述基于公司知识图谱的关系发现处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于公司知识图谱的关系发现方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于公司知识图谱的关系发现处理程序,所述基于公司知识图谱的关系发现处理程序被处理器执行时实现如权利要求1至7中任一项所述的基于公司知识图谱的关系发现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811247703.9A CN109189867B (zh) | 2018-10-23 | 2018-10-23 | 基于公司知识图谱的关系发现方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811247703.9A CN109189867B (zh) | 2018-10-23 | 2018-10-23 | 基于公司知识图谱的关系发现方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189867A CN109189867A (zh) | 2019-01-11 |
CN109189867B true CN109189867B (zh) | 2021-09-17 |
Family
ID=64943212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811247703.9A Active CN109189867B (zh) | 2018-10-23 | 2018-10-23 | 基于公司知识图谱的关系发现方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189867B (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785144A (zh) * | 2019-01-18 | 2019-05-21 | 国家电网有限公司 | 一种资产分类方法、装置、设备及介质 |
CN110020788B (zh) * | 2019-03-15 | 2023-12-29 | 创新先进技术有限公司 | 目标实体资源分布的确定方法和装置 |
CN110147813B (zh) * | 2019-04-04 | 2021-06-15 | 深圳价值在线信息科技股份有限公司 | 一种用户画像构建方法、装置、存储介质和服务器 |
CN110232078B (zh) * | 2019-04-26 | 2021-03-30 | 上海合合信息科技股份有限公司 | 一种企业集团关系获取方法及系统 |
CN110377667B (zh) * | 2019-06-17 | 2023-05-02 | 深圳壹账通智能科技有限公司 | 关联图谱展示方法、装置、计算机设备和存储介质 |
CN110458592B (zh) * | 2019-06-18 | 2023-04-07 | 北京海致星图科技有限公司 | 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 |
CN110443457B (zh) * | 2019-07-05 | 2023-05-16 | 创新先进技术有限公司 | 数据处理方法及装置 |
CN110597870A (zh) * | 2019-08-05 | 2019-12-20 | 长春市万易科技有限公司 | 一种企业关系挖掘方法 |
CN110569415B (zh) * | 2019-08-28 | 2021-06-18 | 浙江工业大学 | 一种基于网络表征学习和邻居合力的微博用户社区发现方法 |
CN110781311B (zh) * | 2019-09-18 | 2024-02-27 | 上海合合信息科技股份有限公司 | 一种企业一致行动人运算系统及方法 |
CN110826976A (zh) * | 2019-09-18 | 2020-02-21 | 上海生腾数据科技有限公司 | 一种企业实际控制人运算系统及方法 |
CN110765215A (zh) * | 2019-09-30 | 2020-02-07 | 深圳云天励飞技术有限公司 | 人员共同关系的查询方法、装置、电子设备及存储介质 |
CN110807697A (zh) * | 2019-10-31 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 股份公司的实际控制人的确定方法、装置及设备 |
CN110909986A (zh) * | 2019-11-04 | 2020-03-24 | 苏宁金融科技(南京)有限公司 | 基于知识图谱的疑似实际控制人的风险识别方法及系统 |
CN110837550B (zh) * | 2019-11-11 | 2023-01-17 | 中山大学 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN111177150A (zh) * | 2019-12-17 | 2020-05-19 | 北京明略软件系统有限公司 | 一种识别集团族谱的方法及系统 |
CN110888930A (zh) * | 2019-12-23 | 2020-03-17 | 武汉大学 | 基于知识图谱的金融知识查询服务接口设计与实现方法 |
CN111209330A (zh) * | 2019-12-31 | 2020-05-29 | 北京明略软件系统有限公司 | 一种识别一致行动人的方法及系统 |
CN111369365A (zh) * | 2020-03-09 | 2020-07-03 | 中金汇安(北京)科技有限公司 | 一种挖掘潜在一致行动人的方法 |
CN111583033A (zh) * | 2020-04-01 | 2020-08-25 | 北京智信度科技有限公司 | 基于上市公司和股东之间联系的关联分析方法及装置 |
CN111401055B (zh) * | 2020-04-07 | 2023-04-18 | 宁波深擎信息科技有限公司 | 从金融资讯提取脉络信息的方法和装置 |
CN111897966A (zh) * | 2020-07-02 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 挖掘知识图谱中隐含信息的方法、系统及电子设备 |
CN111949744A (zh) * | 2020-07-31 | 2020-11-17 | 北京明略昭辉科技有限公司 | 基于知识图谱的关联信息挖掘方法及装置 |
CN112487105A (zh) * | 2020-11-12 | 2021-03-12 | 深圳市中博科创信息技术有限公司 | 一种企业画像的构建方法 |
CN112835992A (zh) * | 2020-11-20 | 2021-05-25 | 武汉烽火众智数字技术有限责任公司 | 一种基于知识图谱的路径发现方法及装置 |
CN112711705B (zh) * | 2020-11-30 | 2023-05-09 | 泰康保险集团股份有限公司 | 舆情数据处理方法、设备及存储介质 |
CN112579892A (zh) * | 2020-12-14 | 2021-03-30 | 成都中科大旗软件股份有限公司 | 一种基于图谱技术的推荐方法 |
CN112732937A (zh) * | 2021-01-12 | 2021-04-30 | 平安资产管理有限责任公司 | 基于知识图谱的隐藏关系获取方法、装置、设备和介质 |
CN113139066A (zh) * | 2021-04-28 | 2021-07-20 | 安徽智侒信信息技术有限公司 | 一种基于自然语言处理技术的公司产业链节点匹配方法 |
CN113129155B (zh) * | 2021-05-11 | 2024-02-27 | 北京海卓飞网络科技有限公司 | 多类型人员信息处理方法、设备及存储介质 |
CN113641879B (zh) * | 2021-08-09 | 2024-05-28 | 平安科技(深圳)有限公司 | 适用于并行链路的控制对象识别方法、装置、设备及介质 |
CN114219329A (zh) * | 2021-12-20 | 2022-03-22 | 中国建设银行股份有限公司 | 一种企业层级的确定方法及装置 |
CN114219328A (zh) * | 2021-12-20 | 2022-03-22 | 中国建设银行股份有限公司 | 一种企业间关系的确定方法及装置 |
CN115391564B (zh) * | 2022-09-01 | 2024-03-26 | 企查查科技股份有限公司 | 一种基于webworker构建关系图谱的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156090A (zh) * | 2015-04-01 | 2016-11-23 | 上海宽文是风软件有限公司 | 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法 |
CN107908633A (zh) * | 2017-07-26 | 2018-04-13 | 北京师范大学珠海分校 | 一种基于知识图谱的财经事件推理方法 |
CN108038136A (zh) * | 2017-11-23 | 2018-05-15 | 上海斯睿德信息技术有限公司 | 基于图模型的企业知识图谱的建立方法和图形化查询方法 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469169A (zh) * | 2015-08-19 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 信息处理方法及装置 |
TW201828236A (zh) * | 2017-01-19 | 2018-08-01 | 阿里巴巴集團服務有限公司 | 資訊處理方法及裝置 |
-
2018
- 2018-10-23 CN CN201811247703.9A patent/CN109189867B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156090A (zh) * | 2015-04-01 | 2016-11-23 | 上海宽文是风软件有限公司 | 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法 |
CN107908633A (zh) * | 2017-07-26 | 2018-04-13 | 北京师范大学珠海分校 | 一种基于知识图谱的财经事件推理方法 |
CN108038136A (zh) * | 2017-11-23 | 2018-05-15 | 上海斯睿德信息技术有限公司 | 基于图模型的企业知识图谱的建立方法和图形化查询方法 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109189867A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189867B (zh) | 基于公司知识图谱的关系发现方法、装置及存储介质 | |
CN109634698B (zh) | 菜单显示方法、装置、计算机设备及存储介质 | |
CN107909466B (zh) | 客户关系网络展示方法、装置、设备及可读存储介质 | |
CN108388642B (zh) | 一种子图查询方法、装置及计算机可读存储介质 | |
CN109949154B (zh) | 客户信息分类方法、装置、计算机设备和存储介质 | |
CN111966866A (zh) | 一种数据资产管理的方法和装置 | |
CN110502692B (zh) | 基于搜索引擎的信息检索方法、装置、设备和存储介质 | |
CN107633022A (zh) | 人员画像分析方法、装置及存储介质 | |
KR20140093772A (ko) | 사용자의 선호도 및 이동 패턴을 이용한 관심지역 추천 방법 | |
CN110888930A (zh) | 基于知识图谱的金融知识查询服务接口设计与实现方法 | |
CN109447103B (zh) | 一种基于硬聚类算法的大数据分类方法、装置及设备 | |
CN112417121A (zh) | 客户意图识别方法、装置、计算机设备及存储介质 | |
CN109753504A (zh) | 数据查询方法及装置 | |
CN112308173A (zh) | 基于多评价因子融合的多目标对象评价方法及其相关设备 | |
CN110825817B (zh) | 一种企业疑似关联关系判定方法及系统 | |
CN115564486A (zh) | 一种数据推送方法、装置、设备和介质 | |
CN108537291A (zh) | 一种样本分类方法和装置 | |
CN112860850B (zh) | 人机交互方法、装置、设备及存储介质 | |
CN112328873A (zh) | 信息推荐方法、装置、设备及存储介质 | |
CN109828984B (zh) | 一种分析处理的方法、装置、计算机存储介质及终端 | |
CN109727056B (zh) | 金融机构推荐方法、设备、存储介质及装置 | |
CN111400663A (zh) | 风险识别方法、装置、设备及计算机可读存储介质 | |
CN111427972A (zh) | 搜索业务数据的方法、装置、业务搜索系统和存储介质 | |
CN110781213A (zh) | 一种以人员为中心的多源海量数据关联搜索方法和系统 | |
CN103473290B (zh) | 兴趣点的属性数据的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220324 Address after: 510030-6, first and second floors, No. 230, Changdi Road, Yuexiu District, Guangzhou, Guangdong Patentee after: Guangzhou folk financial street credit data Technology Co.,Ltd. Address before: 510275 No. 135 West Xingang Road, Guangdong, Guangzhou Patentee before: SUN YAT-SEN University |
|
TR01 | Transfer of patent right |