CN110489599A - 企业关系图谱构建方法、装置、计算机设备以及存储介质 - Google Patents
企业关系图谱构建方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN110489599A CN110489599A CN201910610328.8A CN201910610328A CN110489599A CN 110489599 A CN110489599 A CN 110489599A CN 201910610328 A CN201910610328 A CN 201910610328A CN 110489599 A CN110489599 A CN 110489599A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- entity
- business
- company information
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种企业关系图谱构建方法、装置、计算机设备以及存储介质,所述方法包括:使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业关系图谱。本发明基于知识图谱,提供一种企业关系图谱构建方法,通过建立关系图谱,获取大量企业信息数据,以解决现有技术中存在无法海量对企业信息数据进行提取及分析的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种企业关系图谱构建方法、装置、计算机设备以及存储介质。
背景技术
目前,职场社交平台需要用户注册才能获得用户的企业、职位、联系方式等信息,且信息不完整。另外,在互联网中保存有海量的企业信息数据以供用户进行浏览,然而面对海量的企业信息数据,用户只能浏览网络中静态的企业信息,而无法从网络中提取用户所需的有用企业信息并对企业进行关联分析,从而导致从海量企业信息数据中获取有用企业信息并进行分析的效率较低。因此,现有的技术方法中存在无法高效地对海量企业信息数据进行提取及分析的问题。
发明内容
有鉴于此,本发明实施例提供一种企业关系图谱构建方法、装置、计算机设备以及存储介质,能够建立关系图谱,获取大量企业信息数据,以解决现有技术中存在无法海量对企业信息数据进行提取及分析的问题。
一方面,本发明实施例提供了一种企业关系图谱构建方法,该方法包括:
使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;
基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
根据所述预设图形数据库生成企业关系图谱。
另一方面,本发明实施例提供了一种企业关系图谱构建装置,所述装置包括:
爬取单元,用于使用网络爬虫算法从全国企业信用信息公示系统/企业年报 /中爬取企业信息;
抽取单元,用于基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
确定保存单元,用于确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
生成单元,用于根据所述预设图形数据库生成企业关系图谱。
又一方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的企业关系图谱构建方法。
再一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如上所述的企业关系图谱构建方法。
本发明实施例提供一种企业关系图谱构建方法、装置、计算机设备以及存储介质,其中方法包括:使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业关系图谱。本发明基于知识图谱,提供一种企业关系图谱构建方法,通过建立关系图谱,获取大量企业信息数据,以解决现有技术中存在无法海量对企业信息数据进行提取及分析的问题。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种企业关系图谱构建方法的应用场景示意图;
图2是本发明实施例提供的一种企业关系图谱构建方法的示意流程图;
图3是本发明实施例提供的一种企业关系图谱构建方法的另一示意流程图;
图4是本发明实施例提供的一种企业关系图谱构建方法的另一示意流程图;
图5是本发明另一实施例提供的一种企业关系图谱构建方法的示意流程图;
图6是本发明实施例提供的一种企业关系图谱构建装置的示意性框图;
图7是本发明实施例提供的一种企业关系图谱构建装置的另一示意性框图;
图8是本发明实施例提供的一种企业关系图谱构建装置的另一示意性框图;
图9是本发明实施例提供的一种企业关系图谱构建装置的另一示意性框图;
图10是本发明实施例提供的一种计算机设备的结构组成示意图;
图11是本发明实施例提供的一种企业关系图谱构建方法的演示示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的一种企业关系图谱构建方法的应用场景示意图,所述应用场景包括:
(1)服务器,服务器用于提供数据传输的后端服务。服务器为一种计算机设备,可以为单台服务器或者服务器集群,也可以为云服务器,或者为专门的网页服务器,接收外部终端的访问,通过有线网络或者无线网络与终端连接。
(2)终端,图1所示终端包括终端1、终端2和终端3,所述终端通过访问服务器,从服务器上获取目标数据,在终端上将所获取的目标数据插入终端上的本地数据表中。所述终端可以为智能手机、智能手表、笔记本电脑、平板电脑或者台式电脑等电子设备,终端通过有线网络或者无线网络访问服务器。
请参阅图2,图2为本发明实施例提供的一种企业关系图谱构建方法的示意流程图。如图2所示,该方法包括以下步骤S101~S104。
S101,使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息。
在本发明实施例中,使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息的具体方法为,首先确定所要爬取的全国企业信用信息公示系统/企业年报的URL(Uniform Resource Locator,统一资源定位符),其中,企业信息可能存在于全国企业信用信息公示系统/企业年报中的多个URL地址中,若要爬取这些企业信息,则确定多个URL地址作为爬取对象并爬取多个 URL地址中的企业信息,例如,先确定一个爬取地址(即本实施例的URL地址),然后遍历所确定的URL地址中的所有数据,再获取URL地址中的所有数据。
在本实施例中,所述企业信息可以包括企业名称(包含企业统一社会信用代码、注册编号、组织机构编号)、企业法定代表人、企业股东、企业对外投资的企业名称、企业员工信息等等,其中,企业员工信息包括员工姓名、员工岗位等。
在本实施例中,获取企业信息的方式还可以通过OCR识别技术识别企业名片或者个人名片的方式获取企业信息,例如,在商务场景中,用户交换名片后运用OCR识别技术识别名片上的文字,自动获取名片上的企业信息。
进一步地,如图3所示,所述从所述用户行为数据中用户行为标签,包括以下步骤S201~S202:
S201,确定所要爬取的全国企业信用信息公示系统/企业年报的URL地址。
S202,遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。
S102,基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系。
在本发明实施例中,在爬取到企业信息后,本实施例基于命名实体识别算法从所述企业信息中抽取出企业实体、实体关系,具体的,本实施例通过 BiLSTM-CRF模型识别所述企业信息中的企业实体、实体关系,例如在一则企业信息中存在:张三的公司名称为xxx,公司xxx的第二股东为李四,利用 BiLSTM-CRF模型识别该企业信息中的企业实体和实体关系,得到“张三”,“公司xxx”,“公司xxx的股东”,“李四”。本实施例所述的企业信息中,企业实体包括企业名称、企业法定代表人、企业股东、企业对外投资的企业名称以及企业员工姓名等,实体关系指的是企业实体之间的内在联系,例如企业A、企业的法定代表人B之间的实体关系为“企业法定代表人B为企业A的法定代表人”,再例如企业A、员工C、员工C的岗位D之间的实体关系为“员工C在企业A 中的岗位为岗位D”。
在本实施例中,一般情况下,企业实体指的是自然人或者企业本体,实体关系可以使用以下形式进行表达:“企业实体A-关系1-企业实体B”或者“自然人A-共同投资企业甲-自然人B”等等。
更具体的,若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。
在本实施例中,每个企业实体都具的属性值,例如企业名称的属性值为企业名称A、B或者C等,企业法定代表人的属性值为企业法定代表人A、B或者C等,员工姓名的属性值为员工A、员工B或者员工C等、员工岗位的属性值为员工岗位A、员工岗位B或者员工岗位C等。
S103,确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中。
在本发明实施例中,本实施例使用的预设图形数据库为Neo4J数据库,在将企业实体的属性值、实体关系保存至预设图形数据库之前,还需要预先在图形数据库中建立数据表,本实施例建立的数据表包括表示企业实体的表,表示实体关系的表,其中,在图形数据库中,每个企业实体对应一张实体数据表,每个实体关系对应一张实体关系数据表,每张实体数据表对应的值为企业实体的属性值,每张实体关系数据表对应的值为实体关系的内容。
如图11所示,本实施例以建立企业和企业员工之间的供职关系为例进行说明:表1:表示企业实体数据表,表2:表示企业实体与企业员工实体之间的实体关系表,表3:表示企业员工实体数据表。
S104,根据所述预设图形数据库生成企业关系图谱。
进一步地,如图4所示,所述根据所述预设图形数据库生成企业关系图谱,包括:
S301,从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称。
S302,将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点。
S303,将所述企业实体关系数据中的企业与自然人股东之间的股东关系、企业与企业股东之间的股东企业关系和企业与对外投资公司之间的对外投资关系存储到预设连线数组中。
S304,使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业关系图谱。
在本发明实施例中,从预设图形数据库中提取出企业实体关系数据,提取出企业id和企业名称name,将企业id和企业名称name封装为企业节点,存放在节点数组中,并在节点数组中添加企业股东和企业对外投资企业名称两个辅助节点,所述辅助节点的属性包括id和名称。将企业关系数据中的企业与自然人股东之间的股东关系、企业与企业股东之间的股东企业关系和企业与对外投资公司之间的对外投资关系存储到连线数组中,关系以来源source、目标target 对应节点数组中各节点的id。
在网页内添加画布svg,并设置画布svg的大小,取得画布svg的中心点像素坐标(X,Y);将中心点像素坐标(X,Y)作为企业的坐标;辅助节点股东的坐标为(X-L*10%,Y),辅助节点对外投资的坐标(X+L*10%,Y);L表示画布像素长度;将画布范围、节点数组和连线数组传入力导向布局中,同时指定连线长度和节点之间相互作用力的强度;利用力导向布局计算出节点数组中各个节点的像素坐标,所述力导向布局会将各节点坐标值自动添加到节点数组和连线数组中;循环遍历节点数组,得到各个节点的坐标,在画布的相应坐标位置绘制节点;循环遍历连线数组,获取source和target的坐标,利用数据可视化工具D3的对角线生成器生成贝塞尔曲线,将source和target对应的节点连接起来,并在target坐标位置绘制箭头方向标记,曲线的中点坐标处填充上相应的关系名称,最后生成“企业-企业股东-企业对外投资企业名称”的企业关系图谱,在本实施例中企业的其他关系图谱的生成过程以此类推,在此不作详细赘述。
由以上可见,本发明实施例通过使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;抽取所述企业信息中的企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业关系图谱。本发明基于知识图谱,提供一种企业关系图谱构建方法,通过建立关系图谱,获取大量企业信息数据,以解决现有技术中存在无法海量对企业信息数据进行提取及分析的问题。
请参阅图5,图5为本发明实施例提供的一种企业关系图谱构建方法的示意流程图。如图5所示,该方法包括以下步骤S401~S405。
S401,使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息。
S402,基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系。
S403,确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中。
S404,根据所述预设图形数据库生成企业关系图谱。
S405,若接收到用户的查询请求,根据所述查询请求在当前显示页面中显示与所述查询请求相对应的企业关系图谱。
在本发明实施例中,所述查询请求可以包括企业名称、企业股东、企业法定代表人等企业实体,该查询请求作为获取企业图谱的条件可以在已生成企业图谱的网页中输入,在本实施例中,用户输入的查询请求具体为企业实体的属性值,例如对于企业名称,可以输入企业A,企业股东,可以输入张三等,根据用户输入的查询请求作为查询条件在网页中查询所有相关的企业图谱,若查找到对应的企业图谱,就在当前网页页面中显示所查找到的企业图谱,因此企业图谱中的各个节点实际上是利用企业实体的属性值进行构建的,所以通过输入属性值的查询条件可以找到相对应的企业图谱,所查找到的企业图谱可以为多个,或者只有一个,例如,当查询请求为企业名称时,若对应的企业没有对外投资,只有一个企业图谱,若对应的企业有对外投资,那么查找到的企业图谱就为多个。基于用户输入的查询请示,调用关系图谱向用户进行展示。
请参阅图6,对应上述一种企业关系图谱构建方法,本发明实施例还提出一种企业关系图谱构建装置,该装置100包括:爬取单元101、抽取单元102、确定保存单元103、生成单元104。
其中,爬取单元101,用于使用网络爬虫算法从全国企业信用信息公示系统 /企业年报/中爬取企业信息;
抽取单元102,用于基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
确定保存单元103,用于确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
生成单元104,用于根据所述预设图形数据库生成企业关系图谱。
由以上可见,本发明实施例通过使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;抽取所述企业信息中的企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业关系图谱。本发明基于知识图谱,提供一种企业关系图谱构建方法,通过建立关系图谱,获取大量企业信息数据,以解决现有技术中存在无法海量对企业信息数据进行提取及分析的问题。
请参阅图7,所述爬取单元101,包括:
确定单元101a,用于确定所要爬取的全国企业信用信息公示系统/企业年报的URL地址;
遍历获取单元101b,用于遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。
请继续参阅图6,所述企业关系图谱构建装置还包括:
第一存储单元105,用于若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。
请参阅图8,所述生成单元104,包括:
提取确定单元104a,用于从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称。
封装存放单元104b,用于将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点。
第二存储单元104c,用于将所述企业实体关系数据中的企业与自然人股东之间的股东关系、企业与企业股东之间的股东企业关系和企业与对外投资公司之间的对外投资关系存储到预设连线数组中。
生成子单元104d,用于使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业关系图谱。
请参阅图9,对应上述一种企业关系图谱构建方法,本发明实施例还提出一种企业关系图谱构建装置,该装置200包括:爬取单元201、抽取单元202、确定保存单元203、生成单元204、显示单元205。
爬取单元201,用于使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息。
抽取单元202,用于基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系。
确定保存单元203,用于确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中。
生成单元204,用于根据所述预设图形数据库生成企业关系图谱。
显示单元205,用于若接收到用户的查询请求,根据所述查询请求在当前显示页面中显示与所述查询请求相对应的企业关系图谱。
上述企业关系图谱构建装置与上述企业关系图谱构建方法一一对应,其具体的原理和过程与上述实施例所述方法相同,不再赘述。
上述企业关系图谱构建装置可以实现为一种计算机程序的形式,计算机程序可以在如图10所示的计算机设备上运行。
图10为本发明一种计算机设备的结构组成示意图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式装置等具有通信功能和语音输入功能的电子装置。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。参照图 10,该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种企业关系图谱构建方法。该计算机设备500 的处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序被处理器执行时,可使得处理器502执行一种企业关系图谱构建方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502执行所述计算机程序时实现如下操作:
使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;
基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
根据所述预设图形数据库生成企业关系图谱。
在一个实施例中,所述使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息,包括:
确定所要爬取的全国企业信用信息公示系统/企业年报的URL地址;
遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。
在一个实施例中,所述企业实体包括企业名称、企业法定代表人、企业股东、企业对外投资的企业名称以及企业员工姓名。
在一个实施例中,所述处理器502执行所述计算机程序时还实现如下操作:
若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。
在一个实施例中,所述根据所述预设图形数据库生成企业关系图谱,包括:
从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称;
将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点;
将所述企业实体关系数据中的企业与自然人股东之间的股东关系、企业与企业股东之间的股东企业关系和企业与对外投资公司之间的对外投资关系存储到预设连线数组中;
使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业关系图谱。
在一个实施例中,所述处理器502执行所述计算机程序时还实现如下操作:
若接收到用户的查询请求,根据所述查询请求在当前显示页面中显示与所述查询请求相对应的企业关系图谱。
本领域技术人员可以理解,图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现以下步骤:
使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;
基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
根据所述预设图形数据库生成企业关系图谱。
在一个实施例中,所述使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息,包括:
确定所要爬取的全国企业信用信息公示系统/企业年报的URL地址;
遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。
在一个实施例中,所述企业实体包括企业名称、企业法定代表人、企业股东、企业对外投资的企业名称以及企业员工姓名。
在一个实施例中,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,还实现以下步骤:
若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。
在一个实施例中,所述根据所述预设图形数据库生成企业关系图谱,包括:
从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称;
将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点;
将所述企业实体关系数据中的企业与自然人股东之间的股东关系、企业与企业股东之间的股东企业关系和企业与对外投资公司之间的对外投资关系存储到预设连线数组中;
使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业关系图谱。
在一个实施例中,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,还实现以下步骤:
若接收到用户的查询请求,根据所述查询请求在当前显示页面中显示与所述查询请求相对应的企业关系图谱。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例企业关系图谱构建方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例企业关系图谱构建装置中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种企业关系图谱构建方法,其特征在于,所述方法包括:
使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;
基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
根据所述预设图形数据库生成企业关系图谱。
2.如权利要求1所述的方法,其特征在于,所述使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息,包括:
确定所要爬取的全国企业信用信息公示系统/企业年报的URL地址;
遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。
3.如权利要求1所述的方法,其特征在于,所述企业实体包括企业名称、企业法定代表人、企业股东、企业对外投资的企业名称以及企业员工姓名。
4.如权利要求1所述的方法,其特征在于,所述基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系之后,所述方法还包括:
若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。
5.如权利要求1所述的方法,其特征在于,所述根据所述预设图形数据库生成企业关系图谱,包括:
从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称;
将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点;
将所述企业实体关系数据中的企业与自然人股东之间的股东关系、企业与企业股东之间的股东企业关系和企业与对外投资公司之间的对外投资关系存储到预设连线数组中;
使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业关系图谱。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
若接收到用户的查询请求,根据所述查询请求在当前显示页面中显示与所述查询请求相对应的企业关系图谱。
7.一种企业关系图谱构建装置,其特征在于,所述装置包括:
爬取单元,用于使用网络爬虫算法从全国企业信用信息公示系统/企业年报/中爬取企业信息;
抽取单元,用于基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
确定保存单元,用于确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
生成单元,用于根据所述预设图形数据库生成企业关系图谱。
8.如权利要求7所述的装置,其特征在于,所述爬取单元,包括:
确定单元,用于确定所要爬取的全国企业信用信息公示系统/企业年报的URL地址;
遍历获取单元,用于遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的企业关系图谱构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1-6任一项所述的企业关系图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910610328.8A CN110489599A (zh) | 2019-07-08 | 2019-07-08 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910610328.8A CN110489599A (zh) | 2019-07-08 | 2019-07-08 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110489599A true CN110489599A (zh) | 2019-11-22 |
Family
ID=68546667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910610328.8A Pending CN110489599A (zh) | 2019-07-08 | 2019-07-08 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489599A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807105A (zh) * | 2020-01-07 | 2020-02-18 | 成都数联铭品科技有限公司 | 基于知识图谱的数据保存方法及知识图谱的构建方法 |
CN111274495A (zh) * | 2020-01-20 | 2020-06-12 | 平安科技(深圳)有限公司 | 用户关系强度的数据处理方法、装置、计算机设备及存储介质 |
CN111581464A (zh) * | 2020-04-10 | 2020-08-25 | 北京明略软件系统有限公司 | 一种数据信息的展示方法和装置 |
CN111754199A (zh) * | 2020-06-29 | 2020-10-09 | 金电联行(北京)信息技术有限公司 | 一种业务本体驱动的企业信用关系图粗化方法 |
CN111966821A (zh) * | 2020-08-26 | 2020-11-20 | 南京柯基数据科技有限公司 | 一种基于力学原理的知识图谱可视化方法 |
CN112529401A (zh) * | 2020-12-09 | 2021-03-19 | 国网天津市电力公司 | 企业廉政风险审计模型构建方法 |
CN112598302A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 企业数据的评估方法、装置及服务器 |
CN112632197A (zh) * | 2021-02-01 | 2021-04-09 | 上海冰鉴信息科技有限公司 | 基于知识图谱的业务关系处理方法及装置 |
CN112949309A (zh) * | 2021-02-26 | 2021-06-11 | 中国光大银行股份有限公司 | 企业关联关系抽取方法、装置、存储介质和电子装置 |
CN113010612A (zh) * | 2021-03-02 | 2021-06-22 | 中国工商银行股份有限公司 | 一种图数据可视化构建方法、查询方法及装置 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
CN113674079A (zh) * | 2021-07-30 | 2021-11-19 | 湖南三湘银行股份有限公司 | 一种基于关系图谱和客户画像的金融风险控制系统及方法 |
CN113946769A (zh) * | 2021-12-20 | 2022-01-18 | 北京企名片科技有限公司 | 一种用于检索结果的展现方式 |
CN114201663A (zh) * | 2021-07-23 | 2022-03-18 | 北京恒通慧源大数据技术有限公司 | 一种基于标签传播的集团客户挖掘方法、装置和电子设备 |
CN114547331A (zh) * | 2022-01-29 | 2022-05-27 | 北京金堤科技有限公司 | 一种目标对象多维图谱的生成方法、装置和存储介质 |
CN111966821B (zh) * | 2020-08-26 | 2024-06-04 | 南京柯基数据科技有限公司 | 一种基于力学原理的知识图谱可视化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229756A (zh) * | 2017-06-30 | 2017-10-03 | 山东合天智汇信息技术有限公司 | 一种直观展现企业关系图谱的设计方法及系统 |
CN108614881A (zh) * | 2018-04-28 | 2018-10-02 | 北京京东金融科技控股有限公司 | 呈现企业关联关系图谱的方法及装置、存储介质、电子终端 |
CN109376273A (zh) * | 2018-09-21 | 2019-02-22 | 平安科技(深圳)有限公司 | 企业信息图谱构建方法、装置、计算机设备及存储介质 |
-
2019
- 2019-07-08 CN CN201910610328.8A patent/CN110489599A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229756A (zh) * | 2017-06-30 | 2017-10-03 | 山东合天智汇信息技术有限公司 | 一种直观展现企业关系图谱的设计方法及系统 |
CN108614881A (zh) * | 2018-04-28 | 2018-10-02 | 北京京东金融科技控股有限公司 | 呈现企业关联关系图谱的方法及装置、存储介质、电子终端 |
CN109376273A (zh) * | 2018-09-21 | 2019-02-22 | 平安科技(深圳)有限公司 | 企业信息图谱构建方法、装置、计算机设备及存储介质 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807105A (zh) * | 2020-01-07 | 2020-02-18 | 成都数联铭品科技有限公司 | 基于知识图谱的数据保存方法及知识图谱的构建方法 |
CN110807105B (zh) * | 2020-01-07 | 2020-04-10 | 成都数联铭品科技有限公司 | 基于知识图谱的数据保存方法及知识图谱的构建方法 |
CN111274495A (zh) * | 2020-01-20 | 2020-06-12 | 平安科技(深圳)有限公司 | 用户关系强度的数据处理方法、装置、计算机设备及存储介质 |
CN111274495B (zh) * | 2020-01-20 | 2023-08-25 | 平安科技(深圳)有限公司 | 用户关系强度的数据处理方法、装置、计算机设备及存储介质 |
CN111581464A (zh) * | 2020-04-10 | 2020-08-25 | 北京明略软件系统有限公司 | 一种数据信息的展示方法和装置 |
CN111754199A (zh) * | 2020-06-29 | 2020-10-09 | 金电联行(北京)信息技术有限公司 | 一种业务本体驱动的企业信用关系图粗化方法 |
CN111966821A (zh) * | 2020-08-26 | 2020-11-20 | 南京柯基数据科技有限公司 | 一种基于力学原理的知识图谱可视化方法 |
CN111966821B (zh) * | 2020-08-26 | 2024-06-04 | 南京柯基数据科技有限公司 | 一种基于力学原理的知识图谱可视化方法 |
CN112529401A (zh) * | 2020-12-09 | 2021-03-19 | 国网天津市电力公司 | 企业廉政风险审计模型构建方法 |
CN112598302A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 企业数据的评估方法、装置及服务器 |
CN112598302B (zh) * | 2020-12-25 | 2024-03-26 | 北京知因智慧科技有限公司 | 企业数据的评估方法、装置及服务器 |
CN112632197A (zh) * | 2021-02-01 | 2021-04-09 | 上海冰鉴信息科技有限公司 | 基于知识图谱的业务关系处理方法及装置 |
CN112632197B (zh) * | 2021-02-01 | 2023-08-04 | 上海冰鉴信息科技有限公司 | 基于知识图谱的业务关系处理方法及装置 |
CN112949309A (zh) * | 2021-02-26 | 2021-06-11 | 中国光大银行股份有限公司 | 企业关联关系抽取方法、装置、存储介质和电子装置 |
CN113010612A (zh) * | 2021-03-02 | 2021-06-22 | 中国工商银行股份有限公司 | 一种图数据可视化构建方法、查询方法及装置 |
CN113010612B (zh) * | 2021-03-02 | 2024-04-12 | 中国工商银行股份有限公司 | 一种图数据可视化构建方法、查询方法及装置 |
CN113326377B (zh) * | 2021-06-02 | 2023-10-13 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
CN114201663A (zh) * | 2021-07-23 | 2022-03-18 | 北京恒通慧源大数据技术有限公司 | 一种基于标签传播的集团客户挖掘方法、装置和电子设备 |
CN113674079A (zh) * | 2021-07-30 | 2021-11-19 | 湖南三湘银行股份有限公司 | 一种基于关系图谱和客户画像的金融风险控制系统及方法 |
CN113946769A (zh) * | 2021-12-20 | 2022-01-18 | 北京企名片科技有限公司 | 一种用于检索结果的展现方式 |
CN114547331A (zh) * | 2022-01-29 | 2022-05-27 | 北京金堤科技有限公司 | 一种目标对象多维图谱的生成方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489599A (zh) | 企业关系图谱构建方法、装置、计算机设备以及存储介质 | |
US8335799B2 (en) | Automatic website generator | |
CN104954410A (zh) | 消息推送方法、装置及服务器 | |
CN105868231A (zh) | 缓存数据的更新方法及装置 | |
CN107423085A (zh) | 用于部署应用的方法和装置 | |
CN111538774B (zh) | 数据存储及展示方法、系统、设备及存储介质 | |
CN109993524A (zh) | 卡券管理方法、装置、设备及计算机可读存储介质 | |
CN103559194B (zh) | 一种搜索方法、服务器、系统 | |
CN108259630A (zh) | 未备案网站探测方法、平台和系统 | |
CN107958009A (zh) | 企业信息获取方法、装置以及设备 | |
CN107220259A (zh) | 一种数据库扩展系统、设备和用于扩展数据库的方法 | |
CN108335390A (zh) | 用于处理信息的方法和装置 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
CN113742005A (zh) | 一种平台对接方法和装置 | |
Yusuf et al. | Awareness Of Internet of Things And Its Potential In Enhancing Academic Library Service Delivery In A Developing Country. | |
CN106886594A (zh) | 用于展示信息的方法和装置 | |
CN110502560A (zh) | 一种数据库连接参数封装的方法及服务器 | |
CN106682146A (zh) | 一种根据关键词检索景区评价的方法及系统 | |
KR101664941B1 (ko) | 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법 | |
CN108809896A (zh) | 一种信息校验方法、装置和电子设备 | |
CN110516120A (zh) | 信息处理方法及装置、存储介质、电子装置 | |
CN113918669A (zh) | 一种自然资源国土空间规划一张图系统的实现装置及方法 | |
CN109636329A (zh) | 一种基于热力图的用电客户投诉分析系统及分析方法 | |
CN105139217A (zh) | 用于获取用户信息的方法、装置和系统 | |
CN111966835A (zh) | 基于知识图谱的场景所需功能服务的解析装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |