CN110020433B - 一种基于企业关联关系的工商高管人名消歧方法 - Google Patents

一种基于企业关联关系的工商高管人名消歧方法 Download PDF

Info

Publication number
CN110020433B
CN110020433B CN201910256769.2A CN201910256769A CN110020433B CN 110020433 B CN110020433 B CN 110020433B CN 201910256769 A CN201910256769 A CN 201910256769A CN 110020433 B CN110020433 B CN 110020433B
Authority
CN
China
Prior art keywords
enterprise
management
name
association
incidence relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910256769.2A
Other languages
English (en)
Other versions
CN110020433A (zh
Inventor
杜漫
贺敏
杜慧
王秀文
王锟
王凡凡
孙庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golaxy Data Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Golaxy Data Technology Co ltd
Priority to CN201910256769.2A priority Critical patent/CN110020433B/zh
Publication of CN110020433A publication Critical patent/CN110020433A/zh
Application granted granted Critical
Publication of CN110020433B publication Critical patent/CN110020433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于企业关联关系的工商高管人名消歧方法,涉及实体消歧领域,包括以下步骤:将待消歧数据集U,按高管姓名划分成组n个高管姓名组A;根据步骤S1得到的姓名组划分结果,对每个组A,构建N层以内的高管及企业关联关系网络G;针对每个姓名组A,根据密切度计算规则,计算姓名组A中高管节点之间的关联密切度f;根据关联密切度构建聚类函数CL,使用层次聚类算法得到消歧结果。本发明能自动化对工商高管人名进行消歧,具有较高的消歧准确率,且具有一定的阈值设置灵活性,可满足较多应用场景的工商高管人名消歧;同时可构建高管任职关联关系、高管投资关联关系,为高管全视角的关联图谱分析提供支撑。

Description

一种基于企业关联关系的工商高管人名消歧方法
技术领域
本发明涉及实体消歧领域,尤其涉及一种基于企业关联关系的工商高管人名消歧方法。
背景技术
随着新兴金融模式的不断涌现,互联网金融平台问题频发,互联网金融监管技术平台需实现从总体情况摸底,到运营情况监测,再到风险预警处置的风险发现与应对的闭环体系。而其中核心环节是对企业信息进行全面画像,包括对企业关联关系进行深入挖掘分析,以实现全国或区域内的企业风险预警。
进一步地,企业关联关系主要包括企业的投资控股关联关系、法人关联关系、董监高等任职关联关系、分支公司关联关系、通信关联关系分析等。而上述关联关系的数据源为工商注册信息。工商注册信息中,考虑隐私保护等因素,公开信息中涉及自然人相关信息的,仅包含自然人名字,并未包含唯一识别身份ID或其他可唯一标识该自然人的代码。这对于要从工商数据中分析出自然人相关关联关系(包括自然人任职公司、自然人作为法定代表人的公司、自然人投资公司)带来了很大的难度和挑战。
基于企业关联关系的工商高管人名消歧属于实体消歧领域的一个分支。实体消歧领域现有工作包括有监督的和无监督的消歧方法,目标是建立待分析样本所包含实体之间的对应关系。基于监督学习消歧方法是指,根据人工标注的数据,生成分类模型,以判断相同名字是否属于同一实体。但工商数据的人名信息标注标准缺乏正确参照,基本无法完成或标注成本极高;无监督消歧方法是通过属性计算样本间的相似度,根据相似度进行聚类。但由于属性约束往往较弱,且难以客观判定区分实体的相似度阈值,消歧准确率往往较低。
发明内容
本发明的目的在于提供一种基于企业关联关系的工商高管人名消歧方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于企业关联关系的工商高管人名消歧方法,包括以下步骤:
S1,将待消歧数据集U,按高管姓名划分成组n个高管姓名组A;
S2,根据步骤S1得到的姓名组划分结果,对每个组A,构建N层以内的高管及企业关联关系网络G;
S3,针对每个姓名组A,根据密切度计算规则,计算姓名组A中高管节点之间的关联密切度f;
S4,根据关联密切度构建聚类函数CL,使用层次聚类算法得到消歧结果。
优选地,步骤S1具体为:
待消歧数据集U划分为待消歧的各个同名工商高管组A,记为U={A1,A2,…,An},其中Ai为U中的第i个工商高管姓名组,Ai包含了一个工商高管姓名及其所属企业列表;对于所得到的每个高管姓名组Ai,以高管所属企业来区分实体,将姓名组中每个企业的待消歧高管姓名作为一个待消歧高管实体;假设高管姓名组Ai中有m个企业,则认为Ai包含m个高管实体ai,j,即Ai={ai,1,ai,2,…,ai,j,…ai,m},其中0<i≤n,0<j≤m。
优选地,步骤S2具体为:
S21,获取步骤S1中每个高管姓名组A中的高管实体节点a以及高管实体所属企业c;
S22,以企业c为出发点首先构建第一层关联关系,将拓展出的关系和节点都加入关联关系网络G中;
S23,对于新扩展出的企业节点,再往外扩展一层;
S24,不断重复步骤S23,直到将关系网络扩展到N层。
优选地,所述关联关系网络G中实体节点包含企业节点和自然人节点;
关联关系包括五类关系,分别为:投资控股关系、法定代表人关联关系、董监高等高管任职关联关系、分支公司关联关系、通信关联关系。
优选地,步骤S3中,所述关系密切度计算规则包括:
S31,通过工商数据中的企业联系方式信息,进行企业关联关系密切度计算,从而进行候选企业高管的消歧,包括:
关联关系密切度计算规则R1:对于联系电话一致的企业,认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1;
关联关系密切度计算规则R2:对于联系邮箱一致的企业,认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1;
关联关系密切度计算规则R3:对于企业邮箱所在服务器域名,判定是否在对应企业ICP备案域名列表中;如果是,则认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1。
优选地,步骤S3中,所述关系密切度计算规则包括:
S32,通过工商数据中的投资控股关联信息,进行企业关联关系密切度计算,从而进行候选企业高管的消歧;
关联关系密切度计算规则R4:判断待分析的高管ai,x和ai,y所属企业ci,x和ci,y之间是否存在较为密切的企业间关联关系,具体判断方法为:在关联关系网络图Gi中,检索ci,x与ci,y之间通过企业间关联关系关联的路径长度path(ci,x,ci,y),直接关联则路径长度为1,通过一个中间节点关联则路径长度为2,以此类推;若ci,x与ci,y之间有多条关联路径,path(ci,x,ci,y)取最短路径的长度。
其中,企业间关联关系是指关联关系网络G中的投资控股关系、分支公司关联关系、通信关联关系。
如果path(ci,x,ci,y)<α,则认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1。其中,α为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越低,企业间的关联关系越密切。
优选地,步骤S3中,所述关系密切度计算规则包括:
S33,通过工商数据中的共同任职/投资关系信息,进行企业关联关系计算,从而进行候选企业高管的消歧;
关联关系密切度计算规则R5:判断待分析的高管ai,x和ai,y所属企业ci,x和ci,y的相关联自然人集合是否存在较为密切的交集关系,具体流程为:在关联关系网络图Gi中,分别获取企业ci,x、企业ci,y的相关联自然人集合分别为Pi,x、Pi,y。其中,相关联自然人包括:企业自然人法定代表人、自然人股东、企业高管(董监高等)。如果集合Pi,x与集合Pi,y的交集数量大于某阈值,则认为是关联企业,关联关系密切度为1,即当|Pi,x∩Pi,y|≥β时,f(ai,x,ai,y)=1;其中,β为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切。
优选地,步骤S4中使用的聚类函数CL为:
Figure BDA0002013967280000041
其中,count(f(ai,x,ai,j)=1)函数是指待消歧高管ai,x与已聚成一类的高管集合中的高管ai,j满足条件f(ai,x,ai,j)=1的个数;γ1为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切;γ2为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切。
上述关联关系密切度计算规则R1-R5之间,因各计算规则的准确率不同,具有优先级顺序,具体为:R1,R2,R3优先于R4优先于R5。
优选地,所述γ1和γ2取值范围为1~3。
优选地,根据聚类函数CL,使用层次聚类法进行高管姓名消歧的具体步骤为:
对于每个高管组Ai中的高管ai,j,若CL(ai,x,ai,y)=1,则高管节点ai,x与高管节点ai,y属于同一工商高管,并将其合并成一个小组Mk,重复执行上述步骤,直到聚类分组不再变化,从而得到高管组Ai中消歧后的结果{M1,M2,…,Mk,…}。
本发明的有益效果是:
本发明公开了一种基于企业关联关系的工商高管人名消歧方法,提供的所述方法基于企业关联关系进行工商高管人名消歧,能自动化对工商高管人名进行消歧,具有较高的消歧准确率,且具有一定的阈值设置灵活性,可满足较多应用场景的工商高管人名消歧。
基于本发明所述工商高管人名消歧技术,在高管人名消歧数据的基础上,可构建高管任职关联关系、高管投资关联关系,为高管全视角的关联图谱分析提供支撑。
附图说明
图1是基于企业关联关系的工商高管人名消歧方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例
本实施例提供一种基于企业关联关系的工商高管人名消歧的方法,所述方法包括:
S1,将待消歧数据集U,按高管姓名划分成n个高管姓名组A;
S2,根据S1的划分结果,对每个组A,构建N层以内的高管及企业关联关系网络G;
S3,针对每个组Ai,利用步骤S2中构建关联关系网络Gi,根据密切度计算规则,计算组Ai中高管节点之间的关联密切度f(ai,x,ai,y)。
S4,根据关联密切度构建聚类函数CL,使用层次聚类算法得到消歧结果。
步骤S1的具体实施方式为:待消歧数据集U中包含待消歧的各个同名工商高管组A,U={A1,A2,…,An},其中Ai为U中的第i个工商高管姓名组,包含Ai所对应工商高管姓名及其所属企业信息。对于所得到的每个高管姓名组,以高管所属企业来区分实体,将组中每个企业的待消歧高管姓名作为一个待消歧高管实体。假设高管姓名组Ai中有m个企业,则将Ai包含m个高管实体ai,j,即Ai={ai,1,ai,2,…,ai,m},其中0<i≤n,0<j≤m。
步骤S2的具体实施方式为:步骤S1中所得的每一个高管姓名组A中的高管实体节点a,及高管a所属企业c,以企业c为出发点,不断迭代构建N层以内的高管姓名组A的关联关系网络G。即以企业c为出发点,先构建企业c的一层关联关系,将拓展出的关系和节点都加入G中;对于新扩展出的企业节点,再往外扩展一层;不断重复上述步骤,直到扩展到N层。
其中,关联关系网络G中包含两类节点,即:企业节点、自然人节点。关联关系包括五类关系,分别为:投资控股关系(企业-企业、企业-自然人)、法定代表人关联关系(企业-自然人、企业-企业)、董监高等高管任职关联关系(企业-自然人)、分支公司关联关系(企业-企业)、通信关联关系(企业-企业)。
本实施例中一层的关联关系包括:投资控股关系、法定代表人关联关系、董监高等高管任职关联关系、分支公司关联关系、通信关联关系。
步骤S3的具体实施方式为:针对每个组Ai,利用步骤S2中构建关联关系网络Gi,根据密切度计算规则,计算组Ai中高管节点之间的关联密切度f(ai,x,ai,y)。其中,关联关系密切度计算规则包括:
S31,通过工商数据中的企业联系方式信息一致性判断,包括企业联系电话、企业联系邮箱以及邮箱所在服务器域名在企业域名列表中,从而进行企业关联关系密切度计算,从而进行候选企业高管的消歧;
关联关系密切度计算规则R1:企业联系电话一致性。
(1)提取企业联系电话信息,提取数据来源为:从企业工商登记联系方式、工商企业年报;
(2)对电话格式进行标准化处理,包括:去掉括号、短横线等非数字字符;国内手机号去掉“86/+86”;座机区号根据工商注册地址补齐;
(3)对于联系电话一致的企业,认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1。
关联关系密切度计算规则R2:企业联系邮箱一致性。
(1)提取企业联系邮箱信息,提取数据来源为:企业工商登记联系方式、工商企业年报;
(2)提取企业关联域名信息,提取数据来源为:ICP备案数据库,提取方法为:通过企业名称在构建的ICP备案信息数据中进行检索,获取所有权为检索企业的域名列表;
(3)对邮箱格式进行标准化处理,包括:统一“@/at”符号、大小写转换;从邮箱信息中提取邮箱后缀作为邮箱所在服务器域名;
(4)对于联系邮箱一致的企业,认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1。
关联关系密切度计算规则R3:邮箱所在服务器域名在企业域名列表中。
(1)提取企业联系邮箱信息,提取数据来源为:企业工商登记联系方式、工商企业年报;
(2)提取企业关联域名信息,提取数据来源为:ICP备案数据库,提取方法为:通过企业名称在构建的ICP备案信息数据中进行检索,获取所有权为检索企业的域名列表;
(3)对邮箱格式进行标准化处理,包括:统一“@/at”符号、大小写转换;从邮箱信息中提取邮箱后缀作为邮箱所在服务器域名;
(4)对于企业邮箱所在服务器域名,判定是否在对应企业ICP备案域名列表中。如果是,则认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1。
S32,通过工商数据中的投资控股关联信息,进行企业间关联关系判定,计算企业关联关系密切度计算,从而进行候选企业高管的消歧;
关联关系密切度计算规则R4:判断待分析的高管ai,x和ai,y所属企业ci,x和ci,y之间是否存在较为密切的企业间关联关系。具体判断方法为:在关联关系网络图Gi中,检索ci,x与ci,y之间通过企业间关联关系关联的路径长度path(ci,x,ci,y),直接关联则路径长度为1,通过一个中间节点关联则路径长度为2,以此类推;若ci,x与ci,y之间有多条关联路径,path(ci,x,ci,y)取最短路径的长度。其中,本条密切度计算规则中的企业间关联关系是指关联关系网络G中的投资控股关系、分支公司关联关系、通信关联关系。
如果path(ci,x,ci,y)<α,则认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1。其中,α为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越低,企业间的关联关系越密切,一般取1-4之间。
S33,通过工商数据中的共同任职/投资关系信息,使用企业相关联自然人关系判定,进行企业关联关系计算,从而进行候选企业高管的消歧;
关联关系密切度计算规则R5:判断待分析的高管ai,x和ai,y所属企业ci,x和ci,y的相关联自然人集合是否存在较为密切的交集关系。具体流程为:在关联关系网络图Gi中,分别获取企业ci,x、企业ci,y的相关联自然人集合分别为Pi,x、Pi,y。其中,相关联自然人包括:企业自然人法定代表人、自然人股东、企业高管(董监高等)。如果集合Pi,x与集合Pi,y的交集数量大于某阈值,则认为是关联企业,关联关系密切度为1,即当|Pi,x∩Pi,y|≥β时,f(ai,x,ai,y)=1。其中,β为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切,通常阈值一般取1-3之间。
步骤S4的具体实施方法为:根据关联密切度构建聚类函数CL,聚类函数CL根据不同的关联关系密切度计算规则而不同,具体为:
Figure BDA0002013967280000081
其中,count(f(ai,x,ai,j)=1)函数是指待消歧高管ai,x与已聚成一类的高管集合中的高管ai,j满足条件f(ai,x,ai,j)=1的个数;γ1为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切,一般取1-3之间;γ2为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切,一般取1-3之间。
上述关联关系密切度计算规则R1-R5之间,因各计算规则的准确率不同,具有优先级顺序,具体为:R1,R2,R3优先于R4优先于R5。
根据如上聚类函数CL,使用层次聚类法进行高管姓名消歧。对于每个高管组Ai中的高管ai,j,若CL(ai,x,ai,y)=1,则高管节点ai,x与高管节点ai,y属于同一工商高管,并将其合并成一个小组Mk,重复执行上述步骤,直到聚类分组不再变化。此时,就得到高管组Ai中消歧后的结果{M1,M2,…,Mk,…}。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明所述方法基于企业关联关系进行工商高管人名消歧,由于采用多种关联关系密切度计算规则,准确全面的建立聚类函数,能自动化对工商高管人名进行消歧,具有较高的消歧准确率,且具有一定的阈值设置灵活性,可满足较多应用场景的工商高管人名消歧。
基于本发明所述工商高管人名消歧技术,在高管人名消歧数据的基础上,可构建高管任职关联关系、高管投资关联关系,为高管全视角的关联图谱分析提供支撑。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (6)

1.一种基于企业关联关系的工商高管人名消歧方法,其特征在于,包括以下步骤:
S1,将待消歧数据集U,按高管姓名划分成组n个高管姓名组A;
S2,根据步骤S1得到的姓名组划分结果,对每个组A,构建N层以内的高管及企业关联关系网络G;
S3,针对每个姓名组A,根据密切度计算规则,计算姓名组A中高管节点之间的关联密切度f;
S4,根据关联密切度构建聚类函数CL,使用层次聚类算法得到消歧结果;
步骤S3中,所述关联密切度计算规则包括:
S31,通过工商数据中的企业联系方式信息,进行企业关联关系密切度计算,从而进行候选企业高管的消歧,包括:
关联关系密切度计算规则R1:对于联系电话一致的企业,认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1;
关联关系密切度计算规则R2:对于联系邮箱一致的企业,认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1;
关联关系密切度计算规则R3:对于企业邮箱所在服务器域名,判定是否在对应企业ICP备案域名列表中;如果是,则认为是关联企业,关联关系密切度为1,即f(ai,x,ai,y)=1;
步骤S3中,所述关联密切度计算规则包括:
S32,通过工商数据中的投资控股关联信息,进行企业关联关系密切度计算,从而进行候选企业高管的消歧;
关联关系密切度计算规则R4:判断待分析的高管ai,x和ai,y所属企业ci,x和ci,y之间是否存在较为密切的企业间关联关系,具体判断方法为:在关联关系网络图Gi中,检索ci,x与ci,y之间通过企业间关联关系关联的路径长度patch(ci,x,ci,y),直接关联则路径长度为1,通过一个中间节点关联则路径长度为2,以此类推;若ci,x与ci,y之间有多条关联路径,path(ci,x,ci,y)取最短路径的长度;
步骤S3中,所述关联密切度计算规则包括:
S33,通过工商数据中的共同任职/投资关系信息,进行企业关联关系计算,从而进行候选企业高管的消歧;
关联关系密切度计算规则R5:判断待分析的高管ai,x和ai,y所属企业ci,x和ci,y的相关联自然人集合是否存在较为密切的交集关系,具体流程为:在关联关系网络图Gi中,分别获取企业ci,x、企业ci,y的相关联自然人集合分别为Pi,x、Pi,y;如果集合Pi,x与集合Pi,y的交集数量大于某阈值,则认为是关联企业,关联关系密切度为1,即当|Pi,x∩Pi,y|≥β时,f(ai,x,ai,y)=1;其中,β为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切;
步骤S4中使用的聚类函数CL为:
其中,count(f(ai,x,ai,j)=1)函数是指待消歧高管ai,x与已聚成一类的高管集合中的高管ai,j满足条件f(ai,x,ai,j)=1的个数;γ1为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切;γ2为阈值,根据实际应用场景对于关联关系密切度的要求,阈值越高,企业间的关联关系越密切。
2.根据权利要求1所述的基于企业关联关系的工商高管人名消歧方法,其特征在于,步骤S1具体为:
待消歧数据集U划分为待消歧的各个同名工商高管组A,记为U={A1,A2,...,An},其中Ai为U中的第i个工商高管姓名组,Ai包含了一个工商高管姓名及其所属企业列表;对于所得到的每个高管姓名组Ai,以高管所属企业来区分实体,将姓名组中每个企业的待消歧高管姓名作为一个待消歧高管实体。
3.根据权利要求1所述的基于企业关联关系的工商高管人名消歧方法,其特征在于,步骤S2具体为:
S21,获取步骤S1中每个高管姓名组A中的高管实体节点a以及高管实体所属企业c;
S22,以企业c为出发点首先构建第一层关联关系,将拓展出的关系和节点都加入关联关系网络G中;
S23,对于新扩展出的企业节点,再往外扩展一层;
S24,不断重复步骤S23,直到将关系网络扩展到N层。
4.根据权利要求3所述的基于企业关联关系的工商高管人名消歧方法,其特征在于,所述关联关系网络G中实体节点包含企业节点和自然人节点;
关联关系包括五类关系,分别为:投资控股关系、法定代表人关联关系、董监高等高管任职关联关系、分支公司关联关系、通信关联关系。
5.根据权利要求1所述的基于企业关联关系的工商高管人名消歧方法,其特征在于,所述γ1和γ2取值范围为1~3。
6.根据权利要求1所述的基于企业关联关系的工商高管人名消歧方法,其特征在于,根据聚类函数CL,使用层次聚类法进行高管姓名消歧的具体步骤为:
对于每个高管组Ai中的高管ai,j,若CL(ai,x,ai,y)=1,则高管节点ai,x与高管节点ai,y属于同一工商高管,并将其合并成一个小组Mk,重复执行上述步骤,直到聚类分组不再变化,从而得到高管组Ai中消歧后的结果{M1,M2,...,Mk,...}。
CN201910256769.2A 2019-04-01 2019-04-01 一种基于企业关联关系的工商高管人名消歧方法 Active CN110020433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910256769.2A CN110020433B (zh) 2019-04-01 2019-04-01 一种基于企业关联关系的工商高管人名消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910256769.2A CN110020433B (zh) 2019-04-01 2019-04-01 一种基于企业关联关系的工商高管人名消歧方法

Publications (2)

Publication Number Publication Date
CN110020433A CN110020433A (zh) 2019-07-16
CN110020433B true CN110020433B (zh) 2023-04-18

Family

ID=67190370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910256769.2A Active CN110020433B (zh) 2019-04-01 2019-04-01 一种基于企业关联关系的工商高管人名消歧方法

Country Status (1)

Country Link
CN (1) CN110020433B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427406A (zh) * 2019-08-10 2019-11-08 吴诚诚 组织机构相关人员关系的挖掘方法及装置
CN110705297A (zh) * 2019-09-23 2020-01-17 北京海致星图科技有限公司 一种企业曾用名识别方法、系统、介质及设备
CN112948638B (zh) * 2019-12-11 2023-09-05 中国移动通信集团海南有限公司 一种图谱构建方法、装置、存储介质和计算机设备
CN112036692B (zh) * 2020-07-28 2024-06-07 中译语通科技股份有限公司 一种人员在机构间流动情况的分析方法及分析系统
CN112417879A (zh) * 2020-11-25 2021-02-26 上海水滴征信服务有限公司 确定企业属性相似性、重名对象判定
CN112287674B (zh) * 2020-12-17 2021-03-26 成都数联铭品科技有限公司 企业间同名大节点识别方法、系统、电子设备及存储介质
CN112860677B (zh) * 2021-02-25 2023-10-03 深圳证券交易所 实体判重方法、终端设备及存储介质
CN113255324B (zh) * 2021-03-09 2022-02-18 西安循数信息科技有限公司 一种用于专利数据中发明人姓名消歧的方法
CN113326377B (zh) * 2021-06-02 2023-10-13 上海生腾数据科技有限公司 一种基于企业关联关系的人名消歧方法及系统
CN113609346B (zh) * 2021-10-08 2022-01-07 企查查科技有限公司 基于企业关联关系的自然人人名消歧方法、设备和介质
CN114254207B (zh) * 2022-03-02 2022-06-21 金电联行(北京)信息技术有限公司 企业同名高管识别方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653590A (zh) * 2015-12-21 2016-06-08 青岛智能产业技术研究院 一种中文文献作者重名消歧的方法
CN107341194A (zh) * 2017-06-14 2017-11-10 北京金堤科技有限公司 一种企业重名人区分方法及装置
CN107577791A (zh) * 2017-09-18 2018-01-12 河北省科学院应用数学研究所 一种企业征信人名重名消歧的方法及运用该方法的征信系统
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN109271426A (zh) * 2018-10-10 2019-01-25 中科鼎富(北京)科技发展有限公司 企业关联关系分析方法、装置及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8112402B2 (en) * 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US11675824B2 (en) * 2015-10-05 2023-06-13 Yahoo Assets Llc Method and system for entity extraction and disambiguation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653590A (zh) * 2015-12-21 2016-06-08 青岛智能产业技术研究院 一种中文文献作者重名消歧的方法
CN107341194A (zh) * 2017-06-14 2017-11-10 北京金堤科技有限公司 一种企业重名人区分方法及装置
CN107577791A (zh) * 2017-09-18 2018-01-12 河北省科学院应用数学研究所 一种企业征信人名重名消歧的方法及运用该方法的征信系统
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN109271426A (zh) * 2018-10-10 2019-01-25 中科鼎富(北京)科技发展有限公司 企业关联关系分析方法、装置及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Name Disambiguation in AMiner: Clustering,Maintenance, and Human in the Loop;Yutao Zhang;《Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》;20180823;1002-1011 *
基于企业知识图谱构建的可视化研究;林莉 等;《青岛大学学报( 自 然 科 学 版 )》;20190228;55-60 *
文献数据库中作者名消歧算法研究;郭舒;《现代图书情报技术》;20130825;74-79 *

Also Published As

Publication number Publication date
CN110020433A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110020433B (zh) 一种基于企业关联关系的工商高管人名消歧方法
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
CN112347222B (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN108628811B (zh) 地址文本的匹配方法和装置
WO2018177316A1 (zh) 信息识别方法、计算设备及存储介质
CN108153824B (zh) 目标用户群体的确定方法及装置
CN104699835A (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN110019617B (zh) 地址标识的确定方法和装置、存储介质、电子装置
CN111563103B (zh) 一种用于数据血缘检测方法和系统
CN110309433B (zh) 一种数据处理方法、装置及服务器
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答系统构建方法
JP2002032773A (ja) 地図データの処理装置及び方法
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
TW201810093A (zh) 使用者背景資訊的收集方法及裝置
CN112650858A (zh) 应急协助信息的获取方法、装置、计算机设备及介质
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN110825817B (zh) 一种企业疑似关联关系判定方法及系统
CN110188207B (zh) 知识图谱构建方法及装置、可读存储介质、电子设备
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
CN113743080A (zh) 一种分层级地址文本相似度比对方法、装置及介质
CN111159411B (zh) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN112784113A (zh) 数据处理方法及装置、计算机可读存储介质、电子设备
CN115795052A (zh) 一种产业链地图构建方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Du Man

Inventor after: He Min

Inventor after: Du Hui

Inventor after: Wang Xiuwen

Inventor after: Wang Gun

Inventor after: Wang Fanfan

Inventor after: Sun Qing

Inventor before: Du Man

Inventor before: He Min

Inventor before: Du Hui

Inventor before: Wang Xiuwen

Inventor before: Wang Kun

Inventor before: Wang Fanfan

Inventor before: Sun Qing

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant