CN110825817B - 一种企业疑似关联关系判定方法及系统 - Google Patents

一种企业疑似关联关系判定方法及系统 Download PDF

Info

Publication number
CN110825817B
CN110825817B CN201910878698.XA CN201910878698A CN110825817B CN 110825817 B CN110825817 B CN 110825817B CN 201910878698 A CN201910878698 A CN 201910878698A CN 110825817 B CN110825817 B CN 110825817B
Authority
CN
China
Prior art keywords
enterprise
class
nodes
information
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910878698.XA
Other languages
English (en)
Other versions
CN110825817A (zh
Inventor
丁凯
赵欢
龙腾
陈青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Linguan Data Technology Co ltd
Shanghai Shengteng Data Technology Co ltd
Shanghai Yingwuchu Data Technology Co ltd
Shanghai Hehe Information Technology Development Co Ltd
Original Assignee
Shanghai Linguan Data Technology Co ltd
Shanghai Shengteng Data Technology Co ltd
Shanghai Yingwuchu Data Technology Co ltd
Shanghai Hehe Information Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Linguan Data Technology Co ltd, Shanghai Shengteng Data Technology Co ltd, Shanghai Yingwuchu Data Technology Co ltd, Shanghai Hehe Information Technology Development Co Ltd filed Critical Shanghai Linguan Data Technology Co ltd
Priority to CN201910878698.XA priority Critical patent/CN110825817B/zh
Publication of CN110825817A publication Critical patent/CN110825817A/zh
Application granted granted Critical
Publication of CN110825817B publication Critical patent/CN110825817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种一种企业疑似关联关系判定方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S130:在知识图谱中,基于企业工商信息判定企业疑似关联关系。本申请采用图数据库构建和存储知识图谱,基于企业工商信息、企业结构化信息和/或企业非结构化信息通过图计算企业疑似关联关系,具有直观、高效、快速的特点。

Description

一种企业疑似关联关系判定方法及系统
技术领域
本申请涉及一种基于图计算(Graph Computing)的数据存储与运算方法,特别是涉及一种基于图计算的对企业相关数据进行存储、对企业疑似关系进行判定的方法。
背景技术
企业关联关系是指企业的控股股东、实际控制人、董事、监事等高管人员与其直接或者间接控制的企业之间的关系,以及可能导致公司利益转移的其他关系。当今社会,企业之间的关联关系日趋错综复杂,银行及相关单位因关联企业识别不充分所造成的各种风险乃至实际损失屡见不鲜。有效识别关联企业成为防止集团客户多头授信、过度授信、关联担保的关键要素,对保证银行信贷资产安全十分及时与必要。因此,通过合法合规的方式从各种不同来源采集企业和个人客户的数据进行融合、分析和挖掘解析出企业之间的关联关系,有利于实现金融风险防控、金融信息统计与预测等功能。
企业关联关系又分为确定性关系和疑似关系。确定性的关联关系可以通过企业之间的股东关系、对外投资、分支关系、高管任职关系等直接得出。疑似关联关系则需要通过一系列的疑似因素挖掘分析,来发现企业之间的潜在联系。现有的企业疑似关联关系判定方法还局限于相同地址、相同高管人员等简单因素,不够严谨准确。
图论(graph theory)是数学的一个分支,它以图(graph)为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接节点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示两个事物间具有某种关系,用节点和/或边的属性或权重来描述事物和/或关系的特性。
知识图谱(Knowledge Graph)就是图计算的一种应用,它由若干节点和边组成。节点表示知识,节点之间的边表示知识之间的关系。如果两个节点之间存在关系,它们就会被一条边连接在一起。知识图谱通常使用图数据库(Graph Database)来进行存储,常用的有Neo4j等。目前,基于知识图谱的应用主要体现在信息检索上,用知识图谱的相关技术去挖掘企业信息还相对匮乏。
发明内容
本申请所要解决的技术问题是提供一种基于知识图谱的企业疑似关联关系判定方法、以及相应的判定系统。本申请以企业工商信息为基础,同时可选地结合涉及企业的结构化和非结构化数据,对企业各个维度的信息进行挖掘分析,并采用分值的方式统计企业之间的疑似关联度,对企业疑似关联关系进行判定。本申请可以减少对计算资源的要求,同时显著地提高企业信息的数据维度,增强了判定结果的可信度。
为解决上述技术问题,本申请提供了一种企业疑似关联关系判定方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S130:在知识图谱中,基于企业工商信息判定企业疑似关联关系。上述企业疑似关联关系判定方法是本申请的实施例一,基于企业工商信息得到企业疑似关联关系。
进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建知识图谱。这样可以避免无效数据、错误数据等对构建知识图谱带来额外的负担,也能避免对后续运算带来干扰。
进一步地,所述数据清洗包括企业基础属性合法性清洗、股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。这是数据清洗的一种优选实现方式。
进一步地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据标准化处理,再基于标准化后的数据构建知识图谱。这有利于后续进行的图运算,避免由于数据不标准而引起错误或偏差。
进一步地,所述数据标准化包括以下操作的一种或多种;其一,将工商登记的地址信息进行分解和标准化;其二,将企业工商登记的邮箱域名和网址域名进行标准化,删除公共域名;其三,将企业登记的电话信息进行标准化。这是数据标准化的一种优选实现方式。
进一步地,对企业工商信息中的股权数据和高管数据先进行数据清洗,再进行数据标准化处理,再基于清洗后和标准化后的数据构建知识图谱。这是一种优选的顺序安排。
进一步地,所述知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点;直接持股股东节点对企业节点的直接投资关系以第一类边表示;高管人员节点在企业节点的高管任职关系以第二类边表示;同一自然人关系以第三类边表示。这是构建知识图谱的一种优选实现方式。
进一步地,每个节点包含三个属性:实体ID、实体名称、实体类型;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息。节点的属性在后续的图计算中会被用到。
进一步地,所述边都具有类型属性,以区分不同类型的边。这用来区分边的不同类型。
进一步地,所述步骤S120包括以下操作的任意一项或多项。当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增表征具有相同高管人员的第四类边。当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第五类边。当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增表征具有相同邮箱域名的第六类边。当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增表征具有相同网址域名的第七类边。当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第八类边。对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增表征具有相同企业简称的第九类边。这里给出了基于企业工商信息扩展表征企业关联特征的边的优选实现方式。
进一步地,所述步骤S130中,先对任意两个企业节点之间基于企业工商信息中的企业关联特征计算第一疑似度,然后将得到的第一疑似度与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。这里给出了基于企业工商信息判定企业疑似关联关系的优选实现方式。
进一步地,所述第一疑似度是将企业工商信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。这里给出了第一疑似度的一种计算方式。
进一步地,所述步骤S130中,两个企业节点之间的第一疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的边所表征的企业工商信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。这里给出了判定企业疑似关联关系的优选实现方式。
本申请还提供了一种企业疑似关联关系判定方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性。步骤S340:基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。步骤S350:在知识图谱中,基于企业工商信息和企业结构化信息共同判定企业疑似关联关系。上述企业疑似关联关系判定方法是本申请的实施例二,基于企业工商信息和企业结构化信息得到企业疑似关联关系。
进一步地,所述步骤S330中,基于企业的知识产权信息扩展知识图谱中的节点属性。采集企业的知识产权信息,对于每一条知识产权信息查询其所属的企业名称,然后利用该企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性中进行搜索,找到该条知识产权信息对应的企业节点;为对应的企业节点新增一个知识产权属性,并将该条知识产权信息添加到对应的企业节点的知识产权属性中。这里给出了基于企业结构化信息在知识图谱中扩展节点属性的第一种实现方式。
进一步地,所述步骤S330中,基于企业员工的名片信息扩展知识图谱中的节点属性。采集企业员工的名片信息,并将个人隐私信息进行清除,剩余的名片信息就是企业的公开信息;为每张名片信息增加创建时间;为每张名片的公开信息计算hash值,并将具有相同hash值的名片的公开信息聚合到一起,获得企业名片模板信息;企业名片模板信息的创建时间为所有聚合的名片中最早的创建时间;对于每一个企业名片模板信息,利用其企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,找到该条企业名片模板信息对应的企业节点;为对应的企业节点新增一个名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间。这里给出了基于企业结构化信息在知识图谱中扩展节点属性的第二种实现方式。
进一步地,所述步骤S340包括以下操作的任意一项或多项。当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,以知识产权ID为判断依据,则在这两个企业节点之间新增表征具有相同知识产权的第十类边。当任意两个企业节点的工商登记地址属性相同或相近、或者名片模板属性中包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第十一类边。当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同、或者名片模板属性中包含至少一个相同的邮箱域名,则在这两个企业节点之间新增表征具有相同邮箱域名的第十二类边。当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同、或者名片模板属性中包含至少一个相同的网址域名,则在这两个企业节点之间新增表征具有相同网址域名的第十三类边。当任意两个企业节点的工商登记的电话属性中至少有一个电话相同、或者名片模板属性中包含至少一个相同的电话,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第十四类边。这里给出了基于企业结构化信息扩展表征企业关联特征的边的优选实现方式。
进一步地,所述步骤S350中,对任意两个企业节点之间,基于企业工商信息中的企业关联特征计算第一疑似度,基于企业结构化信息中的企业关联特征计算第二疑似度,然后将得到的第一疑似度和第二疑似度综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。这里给出了基于企业工商信息和企业结构化信息判定企业疑似关联关系的优选实现方式。
进一步地,所述第二疑似度是将企业结构化信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。这里给出了第二疑似度的一种计算方法。
进一步地,根据第一疑似度和第二疑似度计算总疑似度;两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的边所表征的企业工商信息中的企业关联特征、企业结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。这里给出了判定企业疑似关联关系的优选实现方式。
进一步地,步骤S120为第一组,步骤S330至S340为第二组,两组执行顺序或者顺序互换,或者同时进行,或者交叉进行。这里给出了实施例二中若干步骤之间的顺序不受限的说明。
本申请还公开了一种企业疑似关系判定方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S430:从企业非结构化信息中抽取出结构化的三元组信息。步骤S440:基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。步骤S450:在知识图谱中,基于企业工商信息和企业非结构化信息共同判定企业疑似关联关系。上述企业疑似关联关系判定方法是本申请的实施例三,基于企业工商信息和企业非结构化信息得到企业疑似关联关系。
进一步地,所述步骤S430中,基于企业的裁判文书抽取出三元组信息;三元组定义为:实体—关系—实体;这里的关系被确定为:共同原告关系,共同被告关系,原告被告关系。这里给出了从企业非结构化信息中抽取三元组的第一种实现方式。
进一步地,所述步骤S430中,基于企业的招投标文件抽取出三元组信息;三元组定义为:实体—关系—实体;这里的关系被确定为:共同招标人关系,共同中标人关系,招标人中标人关系。这里给出了从企业非结构化信息中抽取三元组的第二种实现方式。
进一步地,所述步骤S440中,将三元组信息中的每个实体在知识图谱中的每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,找到该条三元组信息对应的两个企业节点;当任意两个企业节点之间被同一条三元组信息所对应,则在这两个企业节点之间新增表征被非结构化信息关联的第十五类边。这里给出了基于企业非结构化信息在知识图谱中增加表征企业关联特征的边的优选实现方式。
进一步地,所述步骤S450中,对任意两个企业节点之间,基于企业工商信息中的企业关联特征计算第一疑似度,基于企业非结构化信息中的企业关联特征计算第三疑似度,然后将得到的第一疑似度和第三疑似度综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。这里给出了基于企业工商信息和企业非结构化信息判定企业疑似关联关系的优选实现方式。
进一步地,所述第三疑似度是将企业非结构化信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。这里给出了第三疑似度的一种计算方式。
进一步地,根据第一疑似度和第三疑似度计算总疑似度;两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第边所表征的企业工商信息中的企业关联特征、企业非结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。这里给出了判定企业疑似关联关系的优选实现方式。
进一步地,步骤S120为第一组,步骤S430至S440为第三组,两组执行顺序或者顺序互换,或者同时进行,或者交叉进行。这里给出了实施例三中若干步骤之间的顺序不受限的说明。
本申请还公开了一种企业疑似关系判定方法,包括如下步骤。步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性。步骤S340:基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。步骤S430:从企业非结构化信息中抽取出结构化的三元组信息。步骤S440:基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。步骤S550:在知识图谱中,基于企业工商信息、企业结构化信息和企业非结构化信息共同判定企业疑似关联关系。上述企业疑似关联关系判定方法是本申请的实施例四,基于企业工商信息、企业结构化信息和企业非结构化信息得到企业疑似关联关系。
进一步地,所述步骤S550中,对任意两个企业节点之间,基于企业工商信息中的企业关联特征计算第一疑似度,基于企业结构化信息中的企业关联特征计算第二疑似度,基于企业非结构化信息中的企业关联特征计算第三疑似度,然后将得到的第一疑似度、第二疑似度和第三疑似度综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。这里给出了基于企业工商信息、企业结构化信息和企业非结构化信息判定企业疑似关联关系的优选实现方式。
进一步地,根据第一疑似度、第二疑似度和第三疑似度计算总疑似度;两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第边所表征的企业工商信息中的企业关联特征、企业结构化信息中的企业关联特征、企业非结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。这里给出了判定企业疑似关联关系的优选实现方式。
进一步地,步骤S120为第一组,步骤S330至S340为第二组,步骤S430至S440为第三组,三组执行顺序或者顺序互换,或者同时进行,或者交叉进行。这里给出了实施例四中若干步骤之间的顺序不受限的说明。
本申请还公开了一种企业疑似关联关系判定系统,包括图谱构建模块、第一扩展模块、第一判定模块。所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。所述第一扩展模块用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。所述第一判定模块用来基于企业工商信息判定企业疑似关联关系。上述企业疑似关联关系判定系统是本申请的实施例一,基于企业工商信息得到企业疑似关联关系。
本申请还公开了一种企业疑似关联关系判定系统,包括图谱构建模块、第一扩展模块、第二扩展模块、第三扩展模块、第二判定模块。所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。所述第一扩展模块用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。所述第二扩展模块用来基于企业结构化信息在知识图谱中扩展增加企业节点的属性。所述第三扩展模块用来基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。所述第二判定模块用来基于企业工商信息和企业结构化信息共同判定企业疑似关联关系。上述企业疑似关联关系判定系统是本申请的实施例二,基于企业工商信息和企业结构化信息得到企业疑似关联关系。
本申请还公开了一种企业疑似关联关系判定系统,包括图谱构建模块、第一扩展模块、信息抽取模块、第四扩展模块、第三判定模块。所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。所述第一扩展模块用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。所述信息抽取模块用来从企业非结构化信息中抽取出结构化的三元组信息。所述第四扩展模块用来基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。所述第三判定模块用来基于企业工商信息和企业非结构化信息共同判定企业疑似关联关系。上述企业疑似关联关系判定系统是本申请的实施例三,基于企业工商信息和企业非结构化信息得到企业疑似关联关系。
本申请还公开了一种企业疑似关联关系判定系统,包括图谱构建模块、第一扩展模块、第二扩展模块、第三扩展模块、信息抽取模块、第四扩展模块、第四判定模块。所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。所述第一扩展模块用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。所述第二扩展模块用来基于企业结构化信息在知识图谱中扩展增加企业节点的属性。所述第三扩展模块用来基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。所述信息抽取模块用来从企业非结构化信息中抽取出结构化的三元组信息。所述第四扩展模块用来基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。所述第四判定模块用来基于企业工商信息、企业结构化信息和企业非结构化信息共同判定企业疑似关联关系。上述企业疑似关联关系判定系统是本申请的实施例四,基于企业工商信息、企业结构化信息和企业非结构化信息得到企业疑似关联关系。
本申请取得的技术效果是采用图数据库构建和存储知识图谱,采用图计算的手段基于企业工商信息、企业结构化信息和/或企业非结构化信息得到企业疑似关联关系,具有直观、高效、快速的特点。
附图说明
图1是本申请提供的企业疑似关联关系判定方法的实施例一的流程图。
图2是步骤S110中构建知识图谱的方法的详细流程图。
图3是本申请提供的企业疑似关联关系判定方法的实施例二的流程图。
图4是本申请提供的企业疑似关联关系判定方法的实施例三的流程图。
图5是本申请提供的企业疑似关联关系判定方法的实施例四的流程图。
图6是本申请提供的企业疑似关联关系判定系统的实施例一的结构示意图。
图7是本申请提供的企业疑似关联关系判定系统的实施例二的结构示意图。
图8是本申请提供的企业疑似关联关系判定系统的实施例三的结构示意图。
图9是本申请提供的企业疑似关联关系判定系统的实施例四的结构示意图。
图中附图标记说明:600、700、800、900为企业疑似关联关系判定系统;610为图谱构建模块;620为第一扩展模块;630为第一判定模块;730为第二扩展模块;740为第三扩展模块;750为第二判定模块;830为信息抽取模块;840为第四扩展模块;850为第三判定模块;950为第四判定模块。
具体实施方式
请参阅图1,本申请提供的企业疑似关联关系判定方法的实施例一包括如下步骤。
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。
所述企业工商信息是指企业在工商行政管理部门登记的信息,包括企业名称、企业地址、企业注册资本、企业股权数据、企业高管数据等。所述股权数据是指企业的直接持股股东及出资比例。所述高管数据是指企业的高层管理人员信息,例如法定代表人、董事、监事等。
优选地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗(data cleaning),再基于清洗后的数据构建知识图谱。所述数据清洗例如包括企业基础属性合法性清洗、股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。
优选地,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据标准化处理,再基于标准化后的数据构建知识图谱。所述数据标准化包括以下操作的一种或多种。其一,将工商登记的地址信息进行分解和标准化,将每个地址信息分解成其对应的省、市、区以及道路和园区。其二,将企业工商登记的邮箱域名和网址域名进行标准化,统一转化成大写或者小写字母,标点符号全部转化成半角符号,同时删除一些诸如163.com、qq.com、sina.com、gmail.com、sina.com.cn等的公共域名。其三,将企业登记的电话信息进行标准化,将电话号码分解成区号、电话号码主机和分机号信息。
优选地,对企业工商信息中的股权数据和高管数据先进行数据清洗,再进行数据标准化处理,再基于清洗后和标准化后的数据构建知识图谱。
请参阅图2,所述构建知识图谱具体包括如下步骤。
步骤S210:将企业工商信息中的每一家企业及其直接持股股东、高管人员均作为图中的每一个节点。每个节点包含三个属性:实体ID、实体名称、实体类型。实体ID是赋予每个节点的唯一的ID,作为该节点的唯一性标识。实体名称是指单位名称或自然人姓名。实体类型包括E、P、G、S、Z中的一项或多项。其中E表示个体工商户、个人独资企业、合作社、企业法人等各种类型的企业;P表示自然人;G表示政府机关;S表示事业单位;Z表示社会组织。对于企业节点,还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息。
步骤S220:基于每一家企业的股权数据,为企业节点及其直接持股股东节点之间增加表征直接投资关系的第一类边。第一类边有方向,其方向例如从直接持股股东节点指向企业节点,也可变为相反方向。第一类边的属性为直接投资比例。
步骤S230:基于每一家企业的高管任职数据,为企业节点及其高管人员节点之间增加表征高管任职关系的第二类边。第二类边可以有方向,也可以无方向。第二类边的属性为任职的职务。
步骤S240:为具有相同姓名、且的确是同一自然人的多个自然人节点之间两两增加表征同一自然人关系的第三类边。第三类边优选为无方向。第三类边的属性是同一自然人关系。
所述步骤S220至步骤S240的执行顺序没有严格限制,两者或者顺序互换,或者同时进行,或者交叉进行,都是允许的。
优选地,知识图谱中的所有边都具有类型属性,以区分第一类边、第二类边、……。
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。
例如,当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增表征具有相同高管人员的第四类边。第四类边优选为无方向。第四类边的属性为两个企业节点具有相同的高管人员的数量。优选地,第四类边的属性的最大取值为10。
又如,当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第五类边。第五类边优选为无方向。第五类边的属性例如设置为常数1。
又如,当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增表征具有相同邮箱域名的第六类边。第六类边优选为无方向。第六类边的属性例如设置为常数1。
又如,当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增表征具有相同网址域名的第七类边。第七类边优选为无方向。第七类边的属性例如设置为常数1。
又如,当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第八类边。第八类边优选为无方向。第八类边的属性例如设置为常数1。
又如,对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增表征具有相同企业简称的第九类边。第九类边优选为无方向。第九类边的属性例如设置为常数1。
步骤S130:在步骤S120所构建的知识图谱中,基于企业工商信息判定企业疑似关联关系。先对任意两个企业节点之间基于企业工商信息中的企业关联特征计算第一疑似度,然后将得到的第一疑似度与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
优选地,所述第一疑似度是将企业工商信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。所述第一疑似度的计算公式例如为其中ScoreF表示两个企业节点之间的第一疑似度,vi表示两个企业节点之间的第i类边的属性值。如果两个企业节点之间没有第i类边相连接,则vi=0。wi表示两个企业节点之间的第i类边的权重信息。在实际应用中,利用企业工商信息计算第一疑似度有可能不需要第四类边至第九类边的全部,那么只需要将不需要的边的权重wi设置为0即可。基于相同原理,还可能扩展增加企业工商信息中的其他关联特征,并在计算第一疑似度时一并纳入。优选地,w4=4,w5=1,w6=2,w7=2,w8=1,w9=1。
两个企业节点之间的第一疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第四类边至第九类边所表征的企业工商信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。优选地,第一阈值设为10。
上述实施例一仅利用了企业工商信息来进行企业疑似关联关系的判定。
请参阅图3,本申请提供的企业疑似关联关系判定方法的实施例二包括如下步骤。
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。
步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性。企业结构化信息是指已经结构化好的信息,例如企业的知识产权信息、企业员工的名片信息等,其具有准确度较高的特点。
例如,基于企业的知识产权信息扩展知识图谱中的节点属性。
采集企业的知识产权信息,包括商标、专利、软件著作权、作品著作权、资质认证等,为每一条知识产权信息构建唯一的知识产权ID。对于每一条知识产权信息,查询其所属的企业名称,然后利用该企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性中进行搜索,找到该条知识产权信息对应的企业节点。为对应的企业节点新增一个知识产权属性,并将该条知识产权信息添加到对应的企业节点的知识产权属性中,对知识图谱进行更新。知识产权属性包括知识产权类型等。
优选地,如果一条知识产权信息同时匹配到多个企业节点,则将这一条知识产权信息同时添加到这多个企业节点的知识产权属性中。
优选地,如果一个企业节点的知识产权属性下包含多条知识产权信息,则将这些知识产权信息聚合为一个数组,添加到该企业节点的知识产权属性下面。
又如,基于企业员工的名片信息扩展知识图谱中的节点属性。
采集企业员工的名片信息,并将员工姓名、职位、部门、个人电话、个人邮箱等个人隐私信息进行清除,即获取脱敏后的企业员工的名片信息。剩余的名片信息就是企业的公开信息,主要包括企业名称、地址、邮箱域名、网址域名、企业电话等信息。优选地,对这些数据进行数据清洗和/或数据标准化。为每张名片信息增加创建时间,以体现时效性。为每张名片的公开信息计算hash值,并将具有相同hash值的名片的公开信息聚合到一起,获得企业名片模板信息。企业名片模板信息具有名片的全部公有信息,同时也具有时效性信息,其创建时间为所有聚合的名片中最早的创建时间。对于每一个企业名片模板信息,利用其企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,搜索匹配的优先级为实体名称>曾用名>商标>产品名称,找到该条企业名片模板信息对应的企业节点。为对应的企业节点新增一个名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间等,对知识图谱进行更新。由于企业节点的名片模板属性具有时效性信息,因此名片模板属性的时效性信息也被更新到知识图谱中。
优选地,如果多个企业名片模板信息匹配到同一个企业节点,则将这些企业名片模板信息聚合为一个数组后,添加到对应的企业节点的名片模板属性中。
步骤S340:基于企业结构化信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。
例如,当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,以知识产权ID为判断依据,则在这两个企业节点之间新增表征具有相同知识产权的第十类边。第十类边优选为无方向。第十类边的属性为两个企业节点具有相同的知识产权信息的数量。优选地,第十类边的属性的最大取值为10。
又如,当任意两个企业节点的工商登记地址属性与名片模板属性的集合之间包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增表征具有共同地址的第十一类边。第十一类边优选为无方向。第十一类边的属性例如设置为常数1。
上述第五类边、第十一类边均用于表征企业节点之间具有共同地址关系。区别在于:第五类边的判断依据是企业节点的工商登记地址属性,信息来源仅为企业工商信息。第十一类边的判断依据是企业节点的工商登记地址属性和名片模板属性,信息来源包括企业工商信息和企业结构化信息。
又如,当任意两个企业节点的工商登记的邮箱域名属性与名片模板属性的集合之间包含至少一个相同的邮箱域名,则在这两个企业节点之间新增表征具有相同邮箱域名的第十二类边。第十二类边优选为无方向。第十二类边的属性例如设置为常数1。
上述第六类边、第十二类边均用于表征企业节点之间具有相同的邮箱域名关系。区别在于:第六类边的判断依据是企业节点的工商登记的邮箱域名属性,信息来源仅为企业工商信息。第十二类边的判断依据是企业节点的工商登记的邮箱属性和名片模板属性,信息来源包括企业工商信息和企业结构化信息。
又如,当任意两个企业节点的工商登记的网址域名属性与名片模板属性的集合之间中包含至少一个相同的网址域名,则在这两个企业节点之间新增表征具有相同网址域名的第十三类边。第十三类边优选为无方向。第十三类边的属性例如设置为常数1。
上述第七类边、第十三类边均用于表征企业节点之间具有相同的网址域名关系。区别在于:第七类边的判断依据是企业节点的工商登记的网址域名属性,信息来源仅为企业工商信息。第十三类边的判断依据是企业节点的工商登记的网址域名属性和名片模板属性,信息来源包括企业工商信息和企业结构化信息。
又如,当任意两个企业节点的工商登记的电话属性与名片模板属性的集合之间中包含至少一个相同的电话,这是指去除了区号和分机号之后的电话号码主机相同,则在这两个企业节点之间新增表征具有相同电话的第十四类边。第十四类边优选为无方向。第十四类边的属性例如设置为常数1。
上述第八类边、第十四类边均用于表征企业节点之间具有相同的电话关系。区别在于:第八类边的判断依据是企业节点的工商登记的电话属性,信息来源仅为企业工商信息。第十四类边的判断依据是企业节点的工商登记的电话属性和名片模板属性,信息来源包括企业工商信息和企业结构化信息。
步骤S350:在步骤S340所构建的知识图谱中,基于企业工商信息和企业结构化信息共同判定企业疑似关联关系。对任意两个企业节点之间,基于企业工商信息中的企业关联特征计算第一疑似度,基于企业结构化信息中的企业关联特征计算第二疑似度,然后将得到的第一疑似度和第二疑似度综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
所述第一疑似度的计算与步骤S130中相同,不再赘述。
优选地,所述第二疑似度是将企业结构化信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。所述第二疑似度的计算公式例如为其中ScoreY表示两个企业节点之间的第二疑似度,vi表示两个企业节点之间的第i类边的属性值;如果两个企业节点之间没有第i类边相连接,则vi=0。wi表示两个企业节点之间的第i类边的权重信息。在实际应用中,利用企业结构化信息计算第二疑似度有可能不需要第十类边至第十四类边的全部,那么只需要将不需要的边的权重wi设置为0即可。基于相同原理,还可能扩展增加企业结构化信息中的其他关联特征,并在计算第二疑似度时一并纳入。优选地,w10=4,w11=1,w12=2,w13=2,w14=2。
根据第一疑似度和第二疑似度计算总疑似度,Scoreall=WFScoreF+WYScoreY,其中,WF表示第一疑似度的权重,WY表示第二疑似度的权重。两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第四类边至第十四类边所表征的企业工商信息中的企业关联特征、企业结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。优选地,WF=1,WY=0.2。优选地,第一阈值设为10。
上述实施例二同时利用了企业工商信息和企业结构化信息来进行企业疑似关联关系的判定。其中步骤S120为第一组,步骤S330至S340为第二组,两组执行顺序没有严格限制,两组或者顺序互换,或者同时进行,或者交叉进行,都是允许的。
请参阅图4,本申请提供的企业疑似关系判定方法的实施例三包括如下步骤。
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。
步骤S430:从企业非结构化信息中抽取出结构化的三元组信息。企业非结构化信息是指涉及企业的自由文本信息,需要通过自然语言处理等技术将非结构化信息转化为计算机能够读懂的结构化信息。在结构化处理的过程中可能会出现错误,因此非结构化信息一般用来对企业疑似关系进行微调。
常见的三元组定义为:实体—关系—实体。这一步中,采用机器学习技术从涉及企业的自由文本中抽取出所需要的实体信息。例如采用Bert+BiLSTM+CRF算法来从裁判文书和招投标文件中抽取企业名称作为实体。采用机器学习技术对涉及企业的自由文本中的两个实体之间的关系进行分类。例如采用Bert+MLP算法从裁判文书和招投标文件中判断任意两个实体之间的关系。由于很多实体之间不存在任何关系,因此在Bert+MLP算法输出的结果中,可以输出无关系这个选项。一对实体和他们之间的关系构成了一个结构化的三元组信息。
例如,基于企业的裁判文书抽取出三元组信息。三元组定义为:实体—关系—实体。这里的关系被确定为:共同原告关系,共同被告关系,原告被告关系等。
又如,基于企业的招投标文件抽取出三元组信息。三元组定义为:实体—关系—实体。这里的关系被确定为:共同招标人关系,共同中标人关系,招标人中标人关系等。
步骤S440:基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。
将三元组信息中的每个实体在知识图谱中的每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,搜索匹配的优先级为实体名称>曾用名>商标>产品名称,找到该条三元组信息对应的两个企业节点。
当任意两个企业节点之间被同一条三元组信息所对应,则在这两个企业节点之间新增表征被非结构化信息关联的第十五类边。第十五类边优选为无方向。第十五类边的属性为两个企业节点之间所关联的三元组信息的数量。优选地,第十五类边的属性的最大取值为10。
步骤S450:在步骤S440所构建的知识图谱中,基于企业工商信息和企业非结构化信息共同判定企业疑似关联关系。对任意两个企业节点之间,基于企业工商信息中的企业关联特征计算第一疑似度,基于企业非结构化信息中的企业关联特征计算第三疑似度,然后将得到的第一疑似度和第三疑似度综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
所述第一疑似度的计算与步骤S130中相同,不再赘述。
所述第二疑似度的计算与步骤S350中相同,不再赘述。
优选地,所述第三疑似度是将企业非结构化信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。所述第三疑似度的计算公式例如为ScoreN=w15*v15,其中ScoreN表示两个企业节点之间的第三疑似度,v15表示两个企业节点之间的第十五类边的属性值;如果两个企业节点之间没有第十五类边相连接,则v15=0。w15表示两个企业节点之间的第十五类边的权重信息。基于相同原理,还可能扩展增加企业非结构化信息中的其他关联特征,并在计算第三疑似度时一并纳入。优选地,w15=1。
根据第一疑似度和第三疑似度计算总疑似度,Scoreall=WFScoreF+WNScoreN,其中,WF表示第一疑似度的权重,WN表示第三疑似度的权重。两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第四类边至第九类边、第十五类边所表征的企业工商信息中的企业关联特征、企业非结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。优选地,WF=1,WN=0.1。优选地,第一阈值设为10。
上述实施例三同时利用了企业工商信息和企业非结构化信息来进行企业疑似关联关系的判定。其中步骤S120为第一组,步骤S430至S440为第三组,两组执行顺序没有严格限制,两组或者顺序互换,或者同时进行,或者交叉进行,都是允许的。
请参阅图5,本申请提供的企业疑似关系判定方法的实施例四包括如下步骤。
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。
步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性。
步骤S340:基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。
步骤S430:从企业非结构化信息中抽取出结构化的三元组信息。
步骤S440:基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。
步骤S550:在知识图谱中,基于企业工商信息、企业结构化信息和企业非结构化信息共同判定企业疑似关联关系。对任意两个企业节点之间,基于企业工商信息中的企业关联特征计算第一疑似度,基于企业结构化信息中的企业关联特征计算第二疑似度,基于企业非结构化信息中的企业关联特征计算第三疑似度,然后将得到的第一疑似度、第二疑似度和第三疑似度综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
所述第一疑似度的计算与步骤S130中相同,不再赘述。
所述第二疑似度的计算与步骤S350中相同,不再赘述。
所述第三疑似度的计算与步骤S450中相同,不再赘述。
根据第一疑似度、第二疑似度和第三疑似度计算总疑似度,Scoreall=WFScoreF+WYScoreY+WNScoreN。两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第四类边至第十五类边所表征的企业工商信息中的企业关联特征、企业结构化信息中的企业关联特征、企业非结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。优选地,WF=1,WY=0.2,WN=0.1。优选地,第一阈值设为10。
上述实施例四同时利用了企业工商信息、企业结构化信息和企业非结构化信息来进行企业疑似关联关系的判定。其中步骤S120为第一组,步骤S330至S340为第二组,步骤S430至S440为第三组,三组执行顺序没有严格限制,三组或者顺序互换,或者同时进行,或者交叉进行,都是允许的。
请参阅图6,与上述企业疑似关联关系判定方法的实施例一相对应地,本申请还提供了一种企业疑似关联关系判定系统的实施例一。所述企业疑似关联关系判定系统600包括图谱构建模块610、第一扩展模块620、第一判定模块630。
所述图谱构建模块610用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱。构建好的知识图谱中,每一家企业及其直接持股股东、高管人员分别作为图中的每一个节点。每个节点包含三个属性:实体ID、实体名称、实体类型。企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息。直接持股股东节点对企业节点的直接投资关系及直接投资比例用有方向的第一类边表示。高管人员节点在企业节点的任职关系及任职职务用第二类边表示。同一自然人关系用第三类边表示。
所述第一扩展模块620用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边。
所述第一判定模块630.用来基于企业工商信息判定企业疑似关联关系。
上述实施例一仅利用了企业工商信息来进行企业疑似关联关系的判定。
请参阅图7,与上述企业疑似关联关系判定方法的实施例二相对应地,本申请还提供了一种企业疑似关联关系判定系统的实施例二。所述企业疑似关联关系判定系统700包括图谱构建模块610、第一扩展模块620、第二扩展模块730、第三扩展模块740、第二判定模块750。前两个模块与实施例一相同,不再赘述。
所述第二扩展模块730用来基于企业结构化信息在知识图谱中扩展增加企业节点的属性。
所述第三扩展模块740用来基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。
所述第二判定模块750用来基于企业工商信息和企业结构化信息共同判定企业疑似关联关系。
上述实施例二同时利用了企业工商信息和企业结构化信息来进行企业疑似关联关系的判定。
请参阅图8,与上述企业疑似关联关系判定方法的实施例三相对应地,本申请还提供了一种企业疑似关联关系判定系统的实施例三。所述企业疑似关联关系判定系统800包括图谱构建模块610、第一扩展模块620、信息抽取模块830、第四扩展模块840、第三判定模块850。前两个模块与实施例一相同,不再赘述。
所述信息抽取模块830用来从企业非结构化信息中抽取出结构化的三元组信息。
所述第四扩展模块840用来基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边。
所述第三判定模块850用来基于企业工商信息和企业非结构化信息共同判定企业疑似关联关系。
上述实施例三同时利用了企业工商信息和企业非结构化信息来进行企业疑似关联关系的判定。
请参阅图9,与上述企业疑似关联关系判定方法的实施例四相对应地,本申请还提供了一种企业疑似关联关系判定系统的实施例四。所述企业疑似关联关系判定系统900包括图谱构建模块610、第一扩展模块620、第二扩展模块730、第三扩展模块740、信息抽取模块830、第四扩展模块840、第四判定模块950。前两个模块与实施例一相同,紧跟的两个模块与实施例二相同,再紧跟的两个模块与实施例三相同,不再赘述。
所述第四判定模块950用来基于企业工商信息、企业结构化信息和企业非结构化信息共同判定企业疑似关联关系。
上述实施例四同时利用了企业工商信息、企业结构化信息和企业非结构化信息来进行企业疑似关联关系的判定。
本申请基于图数据库来构建并存储反映企业的股权投资及高管任职关系、且对同一自然人进行标注的知识图谱,并采用图计算的技术手段找出企业疑似关联关系,并将其保存在知识图谱中。这样,对任意企业疑似关联关系的查询可在所述知识图谱中立即得到结果,极大地提升了存储和运算效率以及响应的及时性。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (22)

1.一种企业疑似关联关系判定方法,其特征是,包括如下步骤:
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
一家企业及其直接持股股东、高管人员分别作为所述知识图谱的一个节点;每个节点包含三个属性:实体ID、实体名称、实体类型;实体类型属性包括企业、自然人、政府机关、事业单位、社会组织中的一项或多项;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息;
所述知识图谱中的边都具有类型属性,以区分不同类型的边;第一类边连接企业节点及其直接持股股东节点,表征直接投资关系;第二类边连接企业节点及其高管人员节点,表征高管任职关系;第三类边连接属于同一自然人的多个自然人节点,表征同一自然人关系;
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增第四类边;第四类边表征两个企业具有相同的高管人员;
当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第五类边;第五类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增第六类边;第六类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增第七类边;第七类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,则在这两个企业节点之间新增第八类边;第八类边表征两个企业具有相同电话;
对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增第九类边;第九类边表征两个企业具有相同企业简称;
步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性,包括以下操作的一项或多项;
采集企业的知识产权信息,将知识产权信息添加到对应的企业节点的新增的知识产权属性中;
采集企业员工的名片信息,为对应的企业节点新增名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间;
步骤S340:基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,则在这两个企业节点之间新增第十类边;第十类边表征两个企业表征相同知识产权;
当任意两个企业节点的工商登记地址属性和名片模板属性的集合中包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第十一类边;第十一类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性和名片模板属性的集合中包含至少一个相同的邮箱域名,则在这两个企业节点之间新增第十二类边;第十二类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性和名片模板属性的集合中包含至少一个相同的网址域名,则在这两个企业节点之间新增第十三类边;第十三类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性和名片模板属性的集合中包含至少一个相同的电话,则在这两个企业节点之间新增第十四类边;第十四类边表征两个企业具有相同电话;
步骤S350:在知识图谱中,基于企业工商信息和企业结构化信息共同判定企业疑似关联关系;对任意两个企业节点之间,基于第四类边至第九类边的属性值和各自权重计算第一疑似度,基于第十类边至第十四类边的属性值和各自权重计算第二疑似度,然后将得到的第一疑似度和第二疑似度和各自权重综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
2.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据清洗,再基于清洗后的数据构建知识图谱。
3.根据权利要求2所述的企业疑似关联关系判定方法,其特征是,所述数据清洗包括企业基础属性合法性清洗、股权比例合法性检测清洗、高管数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。
4.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S110中,先对企业工商信息中的股权数据和高管数据进行数据标准化处理,再基于标准化后的数据构建知识图谱。
5.根据权利要求4所述的企业疑似关联关系判定方法,其特征是,所述数据标准化包括以下操作的一种或多种;其一,将工商登记的地址信息进行分解和标准化;其二,将企业工商登记的邮箱域名和网址域名进行标准化,删除公共域名;其三,将企业登记的电话信息进行标准化。
6.根据权利要求2或4所述的企业疑似关联关系判定方法,其特征是,对企业工商信息中的股权数据和高管数据先进行数据清洗,再进行数据标准化处理,再基于清洗后和标准化后的数据构建知识图谱。
7.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S330中,对于每一条知识产权信息查询其所属的企业名称,然后利用该企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性中进行搜索,找到该条知识产权信息对应的企业节点。
8.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述步骤S330中,将名片信息中的个人隐私信息进行清除,剩余的名片信息就是企业的公开信息;为每张名片信息增加创建时间;为每张名片的公开信息计算hash值,并将具有相同hash值的名片的公开信息聚合到一起,获得企业名片模板信息;企业名片模板信息的创建时间为所有聚合的名片中最早的创建时间;对于每一个企业名片模板信息,利用其企业名称在每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,找到该企业名片模板信息对应的企业节点。
9.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,所述第一疑似度是将企业工商信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的;所述第二疑似度是将企业结构化信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。
10.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,根据第一疑似度和第二疑似度计算总疑似度;两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的边所表征的企业工商信息中的企业关联特征、企业结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。
11.根据权利要求1所述的企业疑似关联关系判定方法,其特征是,步骤S120为第一组,步骤S330至S340为第二组,两组执行顺序或者顺序互换,或者同时进行,或者交叉进行。
12.一种企业疑似关联关系判定方法,其特征是,包括如下步骤;
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
一家企业及其直接持股股东、高管人员分别作为所述知识图谱的一个节点;每个节点包含三个属性:实体ID、实体名称、实体类型;实体类型属性包括企业、自然人、政府机关、事业单位、社会组织中的一项或多项;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息;
所述知识图谱中的边都具有类型属性,以区分不同类型的边;第一类边连接企业节点及其直接持股股东节点,表征直接投资关系;第二类边连接企业节点及其高管人员节点,表征高管任职关系;第三类边连接属于同一自然人的多个自然人节点,表征同一自然人关系;
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增第四类边;第四类边表征两个企业具有相同的高管人员;
当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第五类边;第五类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增第六类边;第六类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增第七类边;第七类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,则在这两个企业节点之间新增第八类边;第八类边表征两个企业具有相同电话;
对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增第九类边;第九类边表征两个企业具有相同企业简称;
步骤S430:从企业非结构化信息中抽取出结构化的三元组信息;包括以下操作的一项或多项;
从企业的裁判文书抽取出实体—关系—实体三元组;其中的关系包括:共同原告关系,共同被告关系,原告被告关系;
从企业的招投标文件抽取出实体—关系—实体三元组;其中的关系包括:共同招标人关系,共同中标人关系,招标人中标人关系;
步骤S440:基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边;当任意两个企业节点之间被同一条三元组信息所对应,则在这两个企业节点之间新增第十五类边;第十五类边表征两个企业被非结构化信息关联;
步骤S450:在知识图谱中,基于企业工商信息和企业非结构化信息共同判定企业疑似关联关系;对任意两个企业节点之间,基于第四类边至第九类边的属性值和各自权重计算第一疑似度,基于第十五类边的属性值和权重计算第三疑似度,然后将得到的第一疑似度和第三疑似度和各自权重综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
13.根据权利要求12所述的企业疑似关联关系判定方法,其特征是,所述步骤S440中,将三元组信息中的每个实体在知识图谱中的每个企业节点的实体名称属性、企业的曾用名信息属性、知识产权属性中的商标信息、企业的产品名称信息属性中的一项或多项进行搜索,找到该条三元组信息对应的两个企业节点。
14.根据权利要求12所述的企业疑似关联关系判定方法,其特征是,所述第一疑似度是将企业工商信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的;所述第三疑似度是将企业非结构化信息中的每一项关联特征的属性值与权重相乘,再累加在一起得到的。
15.根据权利要求12所述的企业疑似关联关系判定方法,其特征是,根据第一疑似度和第三疑似度计算总疑似度;两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第四类边至第九类边、第十五类边所表征的企业工商信息中的企业关联特征、企业非结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。
16.根据权利要求12所述的企业疑似关联关系判定方法,其特征是,步骤S120为第一组,步骤S430至S440为第三组,两组执行顺序或者顺序互换,或者同时进行,或者交叉进行。
17.一种企业疑似关联关系判定方法,其特征是,包括如下步骤:
步骤S110:根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
一家企业及其直接持股股东、高管人员分别作为所述知识图谱的一个节点;每个节点包含三个属性:实体ID、实体名称、实体类型;实体类型属性包括企业、自然人、政府机关、事业单位、社会组织中的一项或多项;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息;
所述知识图谱中的边都具有类型属性,以区分不同类型的边;第一类边连接企业节点及其直接持股股东节点,表征直接投资关系;第二类边连接企业节点及其高管人员节点,表征高管任职关系;第三类边连接属于同一自然人的多个自然人节点,表征同一自然人关系;
步骤S120:基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增第四类边;第四类边表征两个企业具有相同的高管人员;
当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第五类边;第五类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增第六类边;第六类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增第七类边;第七类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,则在这两个企业节点之间新增第八类边;第八类边表征两个企业具有相同电话;
对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增第九类边;第九类边表征两个企业具有相同企业简称;
步骤S330:基于企业结构化信息在知识图谱中扩展增加企业节点的属性,包括以下操作的一项或多项;
采集企业的知识产权信息,将知识产权信息添加到对应的企业节点的新增的知识产权属性中;
采集企业员工的名片信息,为对应的企业节点新增名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间;
步骤S340:基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,则在这两个企业节点之间新增第十类边;第十类边表征两个企业表征相同知识产权;
当任意两个企业节点的工商登记地址属性和名片模板属性的集合中包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第十一类边;第十一类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性和名片模板属性的集合中包含至少一个相同的邮箱域名,则在这两个企业节点之间新增第十二类边;第十二类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性和名片模板属性的集合中包含至少一个相同的网址域名,则在这两个企业节点之间新增第十三类边;第十三类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性和名片模板属性的集合中包含至少一个相同的电话,则在这两个企业节点之间新增第十四类边;第十四类边表征两个企业具有相同电话;
步骤S430:从企业非结构化信息中抽取出结构化的三元组信息,包括以下操作的一项或多项;
从企业的裁判文书抽取出实体—关系—实体三元组;其中的关系包括:共同原告关系,共同被告关系,原告被告关系;
从企业的招投标文件抽取出实体—关系—实体三元组;其中的关系包括:共同招标人关系,共同中标人关系,招标人中标人关系;
步骤S440:基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边;当任意两个企业节点之间被同一条三元组信息所对应,则在这两个企业节点之间新增第十五类边;第十五类边表征两个企业被非结构化信息关联;
步骤S550:在知识图谱中,基于企业工商信息、企业结构化信息和企业非结构化信息共同判定企业疑似关联关系;对任意两个企业节点之间,基于第四类边至第九类边的属性值和各自权重计算第一疑似度,基于第十类边至第十四类边的属性值和各自权重计算第二疑似度,基于第十五类边的属性值和权重计算第三疑似度,然后将得到的第一疑似度、第二疑似度和第三疑似度和各自权重综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
18.根据权利要求17所述的企业疑似关联关系判定方法,其特征是,根据第一疑似度、第二疑似度和第三疑似度计算总疑似度;两个企业节点之间的总疑似度大于或等于第一阈值则判定这两个企业节点之间具有疑似关联关系,并将这两个企业节点之间所连接的第边所表征的企业工商信息中的企业关联特征、企业结构化信息中的企业关联特征、企业非结构化信息中的企业关联特征作为判定的依据;否则判定这两个企业节点之间不具有疑似关联关系。
19.根据权利要求17所述的企业疑似关联关系判定方法,其特征是,步骤S120为第一组,步骤S330至S340为第二组,步骤S430至S440为第三组,三组执行顺序或者顺序互换,或者同时进行,或者交叉进行。
20.一种企业疑似关联关系判定系统,其特征是,包括图谱构建模块、第一扩展模块、第二扩展模块、第三扩展模块、第二判定模块;
所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
一家企业及其直接持股股东、高管人员分别作为所述知识图谱的一个节点;每个节点包含三个属性:实体ID、实体名称、实体类型;实体类型属性包括企业、自然人、政府机关、事业单位、社会组织中的一项或多项;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息;
所述知识图谱中的边都具有类型属性,以区分不同类型的边;第一类边连接企业节点及其直接持股股东节点,表征直接投资关系;第二类边连接企业节点及其高管人员节点,表征高管任职关系;第三类边连接属于同一自然人的多个自然人节点,表征同一自然人关系;
所述第一扩展模块用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增第四类边;第四类边表征两个企业具有相同的高管人员;
当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第五类边;第五类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增第六类边;第六类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增第七类边;第七类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,则在这两个企业节点之间新增第八类边;第八类边表征两个企业具有相同电话;
对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增第九类边;第九类边表征两个企业具有相同企业简称;
所述第二扩展模块用来基于企业结构化信息在知识图谱中扩展增加企业节点的属性,包括以下操作的一项或多项;
采集企业的知识产权信息,将知识产权信息添加到对应的企业节点的新增的知识产权属性中;
采集企业员工的名片信息,为对应的企业节点新增名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间;
所述第三扩展模块用来基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,则在这两个企业节点之间新增第十类边;第十类边表征两个企业表征相同知识产权;
当任意两个企业节点的工商登记地址属性和名片模板属性的集合中包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第十一类边;第十一类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性和名片模板属性的集合中包含至少一个相同的邮箱域名,则在这两个企业节点之间新增第十二类边;第十二类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性和名片模板属性的集合中包含至少一个相同的网址域名,则在这两个企业节点之间新增第十三类边;第十三类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性和名片模板属性的集合中包含至少一个相同的电话,则在这两个企业节点之间新增第十四类边;第十四类边表征两个企业具有相同电话;
所述第二判定模块用来基于企业工商信息和企业结构化信息共同判定企业疑似关联关系;对任意两个企业节点之间,基于第四类边至第九类边的属性值和各自权重计算第一疑似度,基于第十类边至第十四类边的属性值和各自权重计算第二疑似度,然后将得到的第一疑似度和第二疑似度和各自权重综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
21.一种企业疑似关联关系判定系统,其特征是,包括图谱构建模块、第一扩展模块、信息抽取模块、第四扩展模块、第三判定模块;
所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
一家企业及其直接持股股东、高管人员分别作为所述知识图谱的一个节点;每个节点包含三个属性:实体ID、实体名称、实体类型;实体类型属性包括企业、自然人、政府机关、事业单位、社会组织中的一项或多项;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息;
所述知识图谱中的边都具有类型属性,以区分不同类型的边;第一类边连接企业节点及其直接持股股东节点,表征直接投资关系;第二类边连接企业节点及其高管人员节点,表征高管任职关系;第三类边连接属于同一自然人的多个自然人节点,表征同一自然人关系;
所述第一扩展模块用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增第四类边;第四类边表征两个企业具有相同的高管人员;
当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第五类边;第五类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增第六类边;第六类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增第七类边;第七类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,则在这两个企业节点之间新增第八类边;第八类边表征两个企业具有相同电话;
对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增第九类边;第九类边表征两个企业具有相同企业简称;
所述信息抽取模块用来从企业非结构化信息中抽取出结构化的三元组信息,包括以下操作的一项或多项;
从企业的裁判文书抽取出实体—关系—实体三元组;其中的关系包括:共同原告关系,共同被告关系,原告被告关系;
从企业的招投标文件抽取出实体—关系—实体三元组;其中的关系包括:共同招标人关系,共同中标人关系,招标人中标人关系;
所述第四扩展模块用来基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边;当任意两个企业节点之间被同一条三元组信息所对应,则在这两个企业节点之间新增第十五类边;第十五类边表征两个企业被非结构化信息关联;
所述第三判定模块用来基于企业工商信息和企业非结构化信息共同判定企业疑似关联关系;对任意两个企业节点之间,基于第四类边至第九类边的属性值和各自权重计算第一疑似度,基于第十五类边的属性值和权重计算第三疑似度,然后将得到的第一疑似度和第三疑似度和各自权重综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
22.一种企业疑似关联关系判定系统,其特征是,包括图谱构建模块、第一扩展模块、第二扩展模块、第三扩展模块、信息抽取模块、第四扩展模块、第四判定模块;
所述图谱构建模块用来根据企业工商信息中的股权数据和高管数据,采用图计算的数据结构构建反映企业的股东投资和高管任职关系、且对同一自然人进行标注的知识图谱;
一家企业及其直接持股股东、高管人员分别作为所述知识图谱的一个节点;每个节点包含三个属性:实体ID、实体名称、实体类型;实体类型属性包括企业、自然人、政府机关、事业单位、社会组织中的一项或多项;企业节点还具有以下属性:工商登记地址、工商登记的邮箱域名、工商登记的网址域名、工商登记的电话、企业的曾用名信息、企业的产品名称信息;
所述知识图谱中的边都具有类型属性,以区分不同类型的边;第一类边连接企业节点及其直接持股股东节点,表征直接投资关系;第二类边连接企业节点及其高管人员节点,表征高管任职关系;第三类边连接属于同一自然人的多个自然人节点,表征同一自然人关系;
所述第一扩展模块用来基于企业工商信息在知识图谱中扩展增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点通过第二类边连接的高管人员节点为同一个,或所述高管人员节点之间存在第三类边的连接,则在这两个企业节点之间新增第四类边;第四类边表征两个企业具有相同的高管人员;
当任意两个企业节点的工商登记地址属性相同或相近,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第五类边;第五类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性中至少有一个邮箱域名相同,则在这两个企业节点之间新增第六类边;第六类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性中至少有一个网址域名相同,则在这两个企业节点之间新增第七类边;第七类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性中至少有一个电话相同,则在这两个企业节点之间新增第八类边;第八类边表征两个企业具有相同电话;
对所有企业节点的实体名称属性提取企业简称,当任意两个企业节点的企业简称相同,则在这两个企业节点之间新增第九类边;第九类边表征两个企业具有相同企业简称;
所述第二扩展模块用来基于企业结构化信息在知识图谱中扩展增加企业节点的属性,包括以下操作的一项或多项;
采集企业的知识产权信息,将知识产权信息添加到对应的企业节点的新增的知识产权属性中;
采集企业员工的名片信息,为对应的企业节点新增名片模板属性,包括企业名称、地址、邮箱域名、网址域名、企业电话、创建时间;
所述第三扩展模块用来基于企业结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边,包括以下操作的一项或多项;
当任意两个企业节点的知识产权属性中包含至少一个相同的知识产权信息,则在这两个企业节点之间新增第十类边;第十类边表征两个企业表征相同知识产权;
当任意两个企业节点的工商登记地址属性和名片模板属性的集合中包含至少一个相同或相近的地址,相近是指位于同一个办公楼中,则在这两个企业节点之间新增第十一类边;第十一类边表征两个企业具有共同地址;
当任意两个企业节点的工商登记的邮箱域名属性和名片模板属性的集合中包含至少一个相同的邮箱域名,则在这两个企业节点之间新增第十二类边;第十二类边表征两个企业具有相同邮箱域名;
当任意两个企业节点的工商登记的网址域名属性和名片模板属性的集合中包含至少一个相同的网址域名,则在这两个企业节点之间新增第十三类边;第十三类边表征两个企业具有相同网址域名;
当任意两个企业节点的工商登记的电话属性和名片模板属性的集合中包含至少一个相同的电话,则在这两个企业节点之间新增第十四类边;第十四类边表征两个企业具有相同电话;
所述信息抽取模块用来从企业非结构化信息中抽取出结构化的三元组信息,包括以下操作的一项或多项;
从企业的裁判文书抽取出实体—关系—实体三元组;其中的关系包括:共同原告关系,共同被告关系,原告被告关系;
从企业的招投标文件抽取出实体—关系—实体三元组;其中的关系包括:共同招标人关系,共同中标人关系,招标人中标人关系;
所述第四扩展模块用来基于企业非结构化信息在知识图谱中增加表征企业具有关联特征的一条或多条边;当任意两个企业节点之间被同一条三元组信息所对应,则在这两个企业节点之间新增第十五类边;第十五类边表征两个企业被非结构化信息关联;
所述第四判定模块用来基于企业工商信息、企业结构化信息和企业非结构化信息共同判定企业疑似关联关系;对任意两个企业节点之间,基于第四类边至第九类边的属性值和各自权重计算第一疑似度,基于第十类边至第十四类边的属性值和各自权重计算第二疑似度,基于第十五类边的属性值和权重计算第三疑似度,然后将得到的第一疑似度、第二疑似度和第三疑似度和各自权重综合后与第一阈值比较以判断这两个企业节点之间是否具有疑似关联关系。
CN201910878698.XA 2019-09-18 2019-09-18 一种企业疑似关联关系判定方法及系统 Active CN110825817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910878698.XA CN110825817B (zh) 2019-09-18 2019-09-18 一种企业疑似关联关系判定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910878698.XA CN110825817B (zh) 2019-09-18 2019-09-18 一种企业疑似关联关系判定方法及系统

Publications (2)

Publication Number Publication Date
CN110825817A CN110825817A (zh) 2020-02-21
CN110825817B true CN110825817B (zh) 2023-11-10

Family

ID=69548038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910878698.XA Active CN110825817B (zh) 2019-09-18 2019-09-18 一种企业疑似关联关系判定方法及系统

Country Status (1)

Country Link
CN (1) CN110825817B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633889A (zh) * 2020-11-12 2021-04-09 中科金审(北京)科技有限公司 一种企业基因测序系统及方法
CN112270195A (zh) * 2020-11-25 2021-01-26 上海水滴征信服务有限公司 确定企业关联关系、重名对象判定
CN113065657A (zh) * 2021-04-09 2021-07-02 顶象科技有限公司 一种基于银行对公数据的知识图谱构建方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140351261A1 (en) * 2013-05-24 2014-11-27 Sap Ag Representing enterprise data in a knowledge graph
US20150095303A1 (en) * 2013-09-27 2015-04-02 Futurewei Technologies, Inc. Knowledge Graph Generator Enabled by Diagonal Search
CN107402927A (zh) * 2016-05-19 2017-11-28 上海斯睿德信息技术有限公司 一种基于图模型的企业关联关系拓扑建立方法及查询方法
CN108959575A (zh) * 2018-07-06 2018-12-07 北京神州泰岳软件股份有限公司 一种企业关联关系信息挖掘方法及装置
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN109376182A (zh) * 2018-09-26 2019-02-22 上海睿翎法律咨询服务有限公司 基于计算机软件系统实现关联公司识别处理的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140351261A1 (en) * 2013-05-24 2014-11-27 Sap Ag Representing enterprise data in a knowledge graph
US20150095303A1 (en) * 2013-09-27 2015-04-02 Futurewei Technologies, Inc. Knowledge Graph Generator Enabled by Diagonal Search
CN107402927A (zh) * 2016-05-19 2017-11-28 上海斯睿德信息技术有限公司 一种基于图模型的企业关联关系拓扑建立方法及查询方法
CN108959575A (zh) * 2018-07-06 2018-12-07 北京神州泰岳软件股份有限公司 一种企业关联关系信息挖掘方法及装置
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN109376182A (zh) * 2018-09-26 2019-02-22 上海睿翎法律咨询服务有限公司 基于计算机软件系统实现关联公司识别处理的方法

Also Published As

Publication number Publication date
CN110825817A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110781246A (zh) 一种企业关联关系构建方法及系统
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN110825817B (zh) 一种企业疑似关联关系判定方法及系统
CN111949834B (zh) 选址方法和选址平台系统
US20080183693A1 (en) Efficient exact set similarity joins
CN110826976A (zh) 一种企业实际控制人运算系统及方法
WO2019024496A1 (zh) 企业推荐方法及应用服务器
JP2009059371A (ja) データウェアハウス内のデータの処理および検索のための方法とプログラム
CN112148843B (zh) 文本处理方法、装置、终端设备和存储介质
CN108241867B (zh) 一种分类方法及装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
US8972328B2 (en) Determining document classification probabilistically through classification rule analysis
US10311093B2 (en) Entity resolution from documents
CN110750588A (zh) 面向多源异构的数据融合方法、系统、装置及存储介质
CN112116331A (zh) 一种人才推荐方法及装置
CN112650858A (zh) 应急协助信息的获取方法、装置、计算机设备及介质
CN110781311A (zh) 一种企业一致行动人运算系统及方法
CN110765317B (zh) 一种企业受益人运算系统及方法
CN115687787A (zh) 产业政策目标群画像构建方法、系统及存储介质
CN114240344A (zh) 企业人员数据处理方法、装置、计算机设备和存储介质
US20110113006A1 (en) Business process control apparatus, businesses process control method and business process control program
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN115099798A (zh) 一种基于实体识别的比特币异常地址追踪系统
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN113934729A (zh) 一种基于知识图谱的数据管理方法、相关设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210223

Address after: Room 1105-1123, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai, 200436

Applicant after: Shanghai hehe Information Technology Co.,Ltd.

Applicant after: Shanghai Shengteng Data Technology Co.,Ltd.

Applicant after: Shanghai Linguan Data Technology Co.,Ltd.

Applicant after: Shanghai yingwuchu Data Technology Co.,Ltd.

Address before: Room 1601-120, 238 JIANGCHANG Third Road, Jing'an District, Shanghai, 200436

Applicant before: Shanghai Shengteng Data Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant