CN107341194B - 一种企业重名人区分方法及装置 - Google Patents

一种企业重名人区分方法及装置 Download PDF

Info

Publication number
CN107341194B
CN107341194B CN201710448068.XA CN201710448068A CN107341194B CN 107341194 B CN107341194 B CN 107341194B CN 201710448068 A CN201710448068 A CN 201710448068A CN 107341194 B CN107341194 B CN 107341194B
Authority
CN
China
Prior art keywords
enterprise
name
vector
incidence relation
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710448068.XA
Other languages
English (en)
Other versions
CN107341194A (zh
Inventor
程浩
张快
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201710448068.XA priority Critical patent/CN107341194B/zh
Publication of CN107341194A publication Critical patent/CN107341194A/zh
Application granted granted Critical
Publication of CN107341194B publication Critical patent/CN107341194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种企业重名人区分方法及装置。所述方法包括:获取与待查询人名相关联的企业集合;获取所述企业集合的人名‑企业关联关系表;根据所述人名‑企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。本发明实施例提供的企业重名人区分方法及装置,将与待查询人名相关联的每个企业向量化,生成对应的企业向量,根据企业向量的聚类结果生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,从而将企业重名人进行区分,并且可以直观地看出每个自然人所对应的企业,以便进行各种后续分析及调查。

Description

一种企业重名人区分方法及装置
技术领域
本发明涉及信息检索技术领域,具体涉及一种企业重名人区分方法及装置。
背景技术
在日常生活中,人们经常需要查询某些人作为高管、法人等的公司信息,以便进行后续的各种分析和调查。
然而在进行企业信息检索查询时,经常遇到相同人名的情况。例如,在企业信息检索库中查询“张三”作为高管的公司,检索结果可能出现X公司、Y公司、C公司等上百家公司,作为这些公司高管的张三可能指代的是不同的自然人。现有的企业信息检索系统无法区分哪些“张三”是同一个自然人,并对应哪些公司,对查询用户造成困扰。
因此,对企业重名人进行区分的需求是目前业界亟待解决的重要课题。
发明内容
针对现有技术中的缺陷,本发明实施例提供了一种企业重名人区分方法及装置。
第一方面,本发明实施例提供一种企业重名人区分方法,所述方法包括:
获取与待查询人名相关联的企业集合;
获取所述企业集合的人名-企业关联关系表;
根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;
对所述企业向量聚类,生成所述待查询人名的企业子集合。
第二方面,本发明实施例提供一种企业重名人区分装置,所述装置包括:
第一获取模块,用于获取与待查询人名相关联的企业集合;
第二获取模块,用于获取所述企业集合的人名-企业关联关系表;
企业向量化模块,用于根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;
聚类模块,用于对所述企业向量聚类,生成所述待查询人名的企业子集合。
第三方面,本发明实施例提供一种电子设备,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取与待查询人名相关联的企业集合;获取所述企业集合的人名-企业关联关系表;根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:获取与待查询人名相关联的企业集合;获取所述企业集合的人名-企业关联关系表;根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。
本发明实施例提供的企业重名人区分方法及装置,将与待查询人名相关联的每个企业向量化,生成对应的企业向量,根据企业向量的聚类结果生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,从而将企业重名人进行区分,并且可以直观地看出每个自然人所对应的企业,以便进行各种后续分析及调查。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的企业重名人区分方法流程示意图;
图2为本发明实施例提供的企业重名人区分装置的结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的企业重名人区分方法流程示意图,如图1所示,所述方法包括:
步骤S11、获取与待查询人名相关联的企业集合;
具体地,当用户需要查询某个人名所对应的企业时,首先获取与待查询人名相关联的所有企业,上述所有企业组成该待查询人名的企业集合,将上述企业集合记为待查询人名_Com_Set,在实际应用中,与待查询人名相关联的企业可以是待查询人名作为高管和/或法人和/或股东的所有企业,可以通过工商部门提供的信息获取到该待查询人名相关联的所有企业。
例如,用户需要查询“张三”所对应的企业,则首先获取“张三”作为高管和/或法人和/或股东的所有企业,例如,“张三”作为高管的企业有X企业和Y企业,“张三”作为法人的企业有X企业和Z企业,“张三”作为股东的企业有X企业和W企业,则与“张三”相关联的企业集合为X企业、Y企业、Z企业和W企业,即“张三”_Com_Set={X,Y,Z,W}。
步骤S12、获取所述企业集合的人名-企业关联关系表;
具体地,遍历步骤S11中获得的企业集合,根据该企业集合中的每个企业的人名信息和企业信息,生成企业集合的人名-企业关联关系表。
例如,遍历上述企业集合“张三”_Com_Set,获取X企业、Y企业、Z企业和W企业的人名信息和企业信息,根据上述信息生成企业集合的人名-企业关联关系表。
步骤S13、根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;
具体地,根据步骤S12获得的企业集合的人名-企业关联关系表,将企业集合中的每个企业向量化,生成每个企业对应的企业向量。
例如,根据企业集合“张三”_Com_Set的人名-企业关联关系表,就可以生成X企业向量、Y企业向量、Z企业向量和W企业向量。
步骤S14、对所述企业向量聚类,生成所述待查询人名的企业子集合。
具体地,对步骤S13中获得的企业向量聚类,将聚为一类的企业向量所对应的企业作为待查询人名的一个企业子集,直到企业集合中所有的企业都已经被划分到相应的企业子集为止,该待查询人名的所有企业子集组成待查询人名的企业子集合,其中属于一个企业子集的待查询人名对应一个自然人。
例如,对上述X企业向量、Y企业向量、Z企业向量和W企业向量进行聚类,若聚类结果为X企业向量、Z企业向量和W企业向量为一类,Y企业向量为另一类,则X企业、Z企业和W企业为一个“张三”的企业子集,Y企业为“张三”所对应的另一个企业子集,则表明X企业、Z企业和W企业所对应的“张三”为同一个自然人,而Y企业所对应的“张三”为另一个自然人,这样就可以很好将“张三”所对应的重名人进行区分,使用户很直观地看到“张三”这个待查询人名实际对应的是两个不同的自然人,并且可以看到每个“张三”所对应的企业。
本发明实施例提供的企业重名人区分方法,将与待查询人名相关联的每个企业向量化,生成对应的企业向量,根据企业向量的聚类结果生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,从而将企业重名人进行区分,并且可以直观地看出每个自然人所对应的企业,以便进行各种后续分析及调查。
在上述实施例的基础上,进一步地,所述获取所述企业集合的人名-企业关联关系表,包括:
获取与所述企业集合中每个企业相关联的人名;
获取与所述企业集合中每个企业相关联的企业;
根据所述每个企业相关联的人名和所述每个企业相关联的企业生成所述每个企业的人名-企业关联关系,根据所述人名-企业关联关系生成所述企业集合的人名-企业关联关系表。
具体地,遍历上述企业集合中的每个企业,获取与该企业相关联的人名,例如获取该企业高管、法人、或股东所对应的人名,上述高管、法人或股东可以根据实际情况选择,本发明实施例对此不作限定,然后获取与该企业相关联的企业,例如可以是与该企业具有投资关系的企业。根据所获得与该企业相关联的人名和企业组成该企业的人名-企业关联关系。然后根据企业集合中每个企业的人名-企业关联关系生成企业集合的人名-企业关联关系表。
例如,上述企业集合“张三”_Com_Set={X,Y,Z,W},其中与X企业相关联的人名为“张三”和“李四”,与X企业相关联的企业为Z企业和E企业;与Y企业相关联的人名为“张三”和“王五”,与Y企业相关联的企业为空;与Z企业相关联的人名为“张三”、“李四”和“赵六”,与Z企业相关联的企业为W企业和E企业;与W企业相关联的人名为“张三”和“赵六”,与W企业相关联的企业为E企业。则X企业的人名-企业关联关系为{“张三”,“李四”,Z,E},Y企业的人名-企业关联关系为{“张三”,“王五”},Z企业的人名-企业关联关系为{“张三”,“李四”,“赵六”,W,E},W企业的关联关系表为{“张三”、“赵六”,E}。然后根据各企业的人名-企业关联关系生成“张三”_Com_Set的人名-企业关联关系表。表1为“张三”_Com_Set的人名-企业关联关系表,如表1所示:
表1“张三”_Com_Set的人名-企业关联关系表
企业 相关联人名 相关联企业
X “张三”,“李四” Z,E
Y “张三”,“王五” --
Z “张三”,“李四”,“赵六” W,E
W “张三”、“赵六” E
根据“张三”_Com_Set的人名-企业关联关系表,生成该集合中每个企业的企业向量,对企业向量聚类,生成“张三”的企业子集合。在实际应用中,由于“张三”所对应的企业的相关联的人名中都含有“张三”,还可以在人名-企业关联关系中删除“张三”,只保留其他人名和相关联的企业,例如X企业的相关联人名为“李四”,相关联企业为Z企业和E企业。
本发明实施例提供的企业重名人区分方法,根据与企业相关联的人名和企业组成企业集合的人名-企业关联关系表,根据人名-企业关联关系表生成企业向量,根据企业向量的聚类结果生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,提高了区分企业重名人的正确率。
在上述各实施例的基础上,进一步地,所述根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量,包括:
获取所述人名-企业关联关系表中的所有人名;
获取所述人名-企业关联关系表中的所有企业;
根据所述所有人名和所述所有企业生成所述每个企业对应的企业向量,根据所述人名-企业关联关系,将所述企业向量中与所述企业相关联的元素标记为1,与所述企业无关联的元素标记为0。
具体地,首先获取待查询人名相关联的企业集合的人名-企业关联关系表,该人名-企业关联关系表列出了企业集合中每个企业以及与每个企业相关联的人名和企业,从人名-企业关联关系表中获取所有人名和所有企业,根据所有人名和所有企业构建企业向量,例如,人名-企业关联关系表中有n1个不同的人名和n2个不同的企业,则企业向量长度为n1+n2。其中企业向量元素分布可以为前n1个元素为人名对应的元素,后n2个元素为企业对应的元素,也可以是前n2个元素是企业对应的元素,后n1个元素是人名对应的元素。初始企业向量的所有元素均置0,然后对于企业集合中的每个企业,根据其人名-企业关联关系,将企业向量中与该企业相关联的人名对应的元素处标记为1,将与该企业相关联的企业对应的元素处标记为1,其他元素处标记为0,这样就可得到企业集合中的每个企业所对应的企业向量。
例如,根据“张三”_Com_Set的人名-企业关联关系表,获得该表中的所有人名为:“张三”、“李四”、“王五”和“赵六”,获得该表中所有企业为:X企业、Y企业、Z企业、W企业和E企业,则可以设置企业向量为长度为9的企业向量,例如,设置企业向量为{“张三”,“李四”,“王五”,“赵六”,X,Y,Z,W,E},对于企业集合“张三”_Com_Set中的X企业,与其相关联的人名为“张三”和“李四”,与其相关联的企业为Z企业和E企业,则X企业向量为{1,1,0,0,0,0,1,0,1},同理,Y企业向量为{1,0,1,0,0,0,0,0,0},Z企业向量为{1,1,0,1,0,0,0,1,1},W企业向量为{1,0,0,1,0,0,0,0,1},表2为“张三”_Com_Set的企业向量列表,如表2所示:
表2“张三”_Com_Set的企业向量列表
企业 向量
X {1,1,0,0,0,0,1,0,1}
Y {1,0,1,0,0,0,0,0,0}
Z {1,1,0,1,0,0,0,1,1}
W {1,0,0,1,0,0,0,0,1}
对“张三”_Com_Set的企业向量列表中向量聚类,生成“张三”的企业子集合,从而将“张三”所对应的不同自然人进行区分。
本发明实施例提供的企业重名人区分方法,根据人名-企业关联关系表中的所有人名和所有企业构建企业向量,将企业向量中与企业相关联的元素标记为1,与企业无关联的元素标记为0,用企业向量表示了该企业的关联关系,即利用关联关系生成企业子集合,进一步提高了区分企业重名人的正确率。
在上述各实施例的基础上,进一步地,所述对所述企业向量聚类,生成所述待查询人名的企业子集合包括:
根据下述公式计算待划分的企业集合:
Di=Di-1-Ci-1,(i>0)
其中,D0为所述与待查询人名相关联的企业集合,C0为空集,Di为第i个待划分的企业集合,Ci为第i个企业子集;
计算企业向量Dij与企业向量Dik的距离,若所述距离小于预设阈值,则将Dij所对应的企业划分至Ci中,其中,Dij为Di中的第j个企业所对应的企业向量,Dik为Di中的参考企业所对应的企业向量;
根据所述Ci组成所述待查询人名的企业子集合。
具体地,首先将待查询人名相关联的企业集合作为第1个待划分的企业集合,从中选取一个参考企业,然后分别计算上述企业集合中的企业所对应的企业向量D1j与该参考企业所对应的企业向量D1k的距离,若距离小于预设阈值,则将D1j所对应的企业划分至待查询人名的第1个企业子集中。
然后,从待查询人名相关联的企业集合中减去第1个企业子集,得到第2个待划分企业集合,从中选取一个参考企业,然后分别计算上述企业集合中的企业所对应的企业向量D2j与该参考企业所对应的企业向量D2k的距离,若距离小于预设阈值,则将D2j所对应的企业划分至待查询人名的第2个企业子集中。
然后根据上述步骤依次划分待查询人名的第3个企业子集、第4个企业子集等,直到待查询人名相关联的企业被全部划分相应的企业子集中。上述企业子集构成待查询人名的企业子集合。
例如,“张三”_Com_Set中选取X企业作为参考企业,则X企业向量为参考企业向量,分别计算X企业向量与X企业向量的距离s1、Y企业向量与X企业向量的距离s2、Z企业向量与X企业向量的距离s3和W企业向量与X企业向量的距离s4,若s1、s3和s4小于预设阈值,则将X企业、Z企业和W企业划分到“张三”的第1个企业子集中,将Y企业划分至“张三”的第2个企业子集中,这样“张三”的企业子集合为{{X,Z,W},{Y}},由此可以看出,X企业、Z企业和W企业所对应的“张三”为同一个自然人,Y企业所对应的“张三”为另一个自然人,所查询的企业人名“张三”为两个不同的自然人,第一个“张三”对应X企业、Z企业和W企业,第二个“张三”对应Y企业。
本发明实施例提供的企业重名人区分方法,根据向量之间的距离对企业向量聚类,生成待查询人名的企业子集合,进一步提高了区分企业重名人的正确率。
在上述各实施例的基础上,进一步地,所述计算企业向量Dij与企业向量Dik的距离具体为:
根据下述公式计算企业向量的距离:
其中,N为企业向量的长度,Dijm为企业向量Dij中第m个元素,Dikm为企业向量Dikm中的第m个元素。
具体地,首先获取待查询人名相关联的企业集合,然后对该企业集合中的每个企业根据人名-企业关联关系表进行向量化,得到每个企业对应的企业向量,根据cosθ计算两个企业向量之间的距离,例如,对于上述“张三”_Com_Set中的企业所对应的企业向量:X企业向量、Y企业向量、Z企业向量和W企业向量,若将X企业向量作为参考企业向量,对企业集合进行划分,则分别计算X企业向量、Y企业向量、Z企业向量和W企业向量与X企业向量的cosθ值,例如,计算X企业向量与Y企业向量的cosθ值,则根据公式:计算cosθ值,即,根据同样的方法计算出X企业向量与其他企业向量的距离,然后判断该距离是否小于预设阈值,若小于则将该企业向量对应的企业与X企业划分至第1个企业子集,根据同样的方法将企业集合中的所有企业划分。
本发明实施例提供的企业重名人区分方法,根据向量之间的余弦值计算向量的距离,根据向量距离对企业向量的聚类,生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,提高了区分企业重名人的正确率。
图2为本发明实施例提供的企业重名人区分装置的结构示意图,如图2所示,所述装置包括:第一获取模块21、第二获取模块22、企业向量化模块23和聚类模块24,其中:
第一获取模块21用于获取与待查询人名相关联的企业集合;第二获取模块22用于获取所述企业集合的人名-企业关联关系表;企业向量化模块23用于根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;聚类模块24用于对所述企业向量聚类,生成所述待查询人名的企业子集合。
具体地,第一获取模块21首先获取与待查询人名相关联的所有企业,上述所有企业组成该待查询人名的企业集合,将上述企业集合记为待查询人名_Com_Set,在实际应用中,与待查询人名相关联的企业可以是待查询人名作为高管和/或法人和/或股东的所有企业,可以通过工商部门提供的信息获取到该待查询人名相关联的所有企业。然后第二获取模块22获取该企业集合中的每个企业的人名信息和企业信息,生成企业集合的人名-企业关联关系表,并将该人名-企业关联关系表发送至企业向量化模块23,企业向量化模块23根据企业集合的人名-企业关联关系表,将企业集合中的每个企业向量化,生成每个企业对应的企业向量,并将企业向量发送至聚类模块24,聚类模块24对企业向量聚类,将聚为一类的企业向量所对应的企业作为待查询人名的一个企业子集,直到企业集合中所有的企业都已经被划分到相应的企业子集为止,该待查询人名的所有企业子集组成待查询人名的企业子集合,其中属于一个企业子集的待查询人名对应一个自然人。本发明实施例提供的装置,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的企业重名人区分装置,将与待查询人名相关联的每个企业向量化,生成对应的企业向量,根据企业向量的聚类结果生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,从而将企业重名人进行区分,并且可以直观地看出每个自然人所对应的企业,以便进行各种后续分析及调查。
在上述实施例的基础上,进一步地,所述第二获取模块包括:
第一获取单元,用于获取与所述企业集合中每个企业相关联的人名;
第二获取单元,用于获取与所述企业集合中每个企业相关联的企业;
关联关系单元,用于根据所述每个企业相关联的人名和所述每个企业相关联的企业生成所述每个企业的人名-企业关联关系,根据所述人名-企业关联关系生成所述企业集合的人名-企业关联关系表。
具体地,第一获取单元遍历上述企业集合中的每个企业,获取与该企业相关联的人名,例如获取该企业高管、法人、或股东所对应的人名,上述高管、法人或股东可以根据实际情况选择,本发明实施例对此不作限定,第二获取单元获取与该企业相关联的企业,例如可以是与该企业具有投资关系的企业。关联关系单元根据所获得与该企业相关联的人名和企业组成该企业的人名-企业关联关系。然后根据企业集合中每个企业的人名-企业关联关系生成企业集合的人名-企业关联关系表。本发明实施例提供的装置,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的企业重名人区分装置,根据与企业相关联的人名和企业组成企业集合的人名-企业关联关系表,根据人名-企业关联关系表生成企业向量,根据企业向量的聚类结果生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,提高了区分企业重名人的正确率。
在上述各实施例的基础上,进一步地,所述企业向量化模块包括:
第三获取单元,用于获取所述人名-企业关联关系表中的所有人名;
第四获取单元,用于获取所述人名-企业关联关系表中的所有企业;
处理单元,用于根据所述所有人名和所述所有企业生成所述每个企业对应的企业向量,根据所述人名-企业关联关系,将所述企业向量中与所述企业相关联的元素标记为1,与所述企业无关联的元素标记为0。
具体地,第三获取单元获取待查询人名相关联的企业集合的人名-企业关联关系表中的所有人名,第四获取单元获取人名-企业关联关系表中的所有企业,处理单元根据所有人名和所有企业构建企业向量,例如,人名-企业关联关系表中有n1个不同的人名和n2个不同的企业,则企业向量长度为n1+n2。其中企业向量元素分布可以为前n1个元素为人名对应的元素,后n2个元素为企业对应的元素,也可以是前n2个元素是企业对应的元素,后n1个元素是人名对应的元素。初始企业向量的所有元素均置0,然后对于企业集合中的每个企业,处理单元根据其人名-企业关联关系,将企业向量中与该企业相关联的人名对应的元素处标记为1,将与该企业相关联的企业对应的元素处标记为1,其他元素处标记为0,这样就可得到企业集合中的每个企业所对应的企业向量。本发明实施例提供的装置,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的企业重名人区分装置,根据人名-企业关联关系表中的所有人名和所有企业构建企业向量,将企业向量中与企业相关联的元素标记为1,与企业无关联的元素标记为0,用企业向量表示了该企业的关联关系,即利用关联关系生成企业子集合,进一步提高了区分企业重名人的正确率。
在上述各实施例的基础上,进一步地,所述聚类模块具体用于:
根据下述公式计算待划分的企业集合:
Di=Di-1-Ci-1,(i>0)
其中,D0为所述与待查询人名相关联的企业集合,C0为空集,Di为第i个待划分的企业集合,Ci为第i个企业子集;
计算企业向量Dij与企业向量Dik的距离,若所述距离小于预设阈值,则将Dij所对应的企业划分至Ci中,其中,Dij为Di中的第j个企业所对应的企业向量,Dik为Di中的参考企业所对应的企业向量;
根据所述Ci组成所述待查询人名的企业子集合。
具体地,聚类模块首先将待查询人名相关联的企业集合作为第1个待划分的企业集合,从中选取一个参考企业,然后分别计算上述企业集合中的企业所对应的企业向量D1j与该参考企业所对应的企业向量D1k的距离,若距离小于预设阈值,则将D1j所对应的企业划分至待查询人名的第1个企业子集中。
然后,聚类模块从待查询人名相关联的企业集合中减去第1个企业子集,得到第2个待划分企业集合,从中选取一个参考企业,然后分别计算上述企业集合中的企业所对应的企业向量D2j与该参考企业所对应的企业向量D2k的距离,若距离小于预设阈值,则将D2j所对应的企业划分至待查询人名的第2个企业子集中。
然后聚类模块根据上述步骤依次划分待查询人名的第3个企业子集、第4个企业子集等,直到待查询人名相关联的企业被全部划分相应的企业子集中。上述企业子集构成待查询人名的企业子集合。本发明实施例提供的装置,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的企业重名人区分装置,根据向量之间的距离对企业向量聚类,生成待查询人名的企业子集合,进一步提高了区分企业重名人的正确率。
在上述各实施例的基础上,进一步地,所述计算企业向量Dij与企业向量Dik的距离具体为:
聚类模块根据下述公式计算企业向量的距离:
其中,N为企业向量的长度,Dijm为企业向量Dij中第m个元素,Dikm为企业向量Dikm中的第m个元素。
具体地,聚类模块根据cosθ计算两个企业向量之间的距离,例如,对于上述“张三”_Com_Set中的企业所对应的企业向量:X企业向量、Y企业向量、Z企业向量和W企业向量,若将X企业向量作为参考企业向量,对企业集合进行划分,则分别计算X企业向量、Y企业向量、Z企业向量和W企业向量与X企业向量的cosθ值,例如,计算X企业向量与Y企业向量的cosθ值,则根据公式:计算cosθ值,即,根据同样的方法计算出X企业向量与其他企业向量的距离,然后判断该距离是否小于预设阈值,若小于则将该企业向量对应的企业与X企业划分至第1个企业子集,根据同样的方法将企业集合中的所有企业划分。
本发明实施例提供的企业重名人区分装置,根据向量之间的余弦值计算向量的距离,根据向量距离对企业向量的聚类,生成待查询人名的企业子集合,使同一企业子集合所对应的待查询人名为同一个自然人,提高了区分企业重名人的正确率。
图3为本发明实施例提供的电子设备的结构示意图,如图3所示,所述设备包括:处理器(processor)301、存储器(memory)302和总线303;
其中,处理器301和存储器302通过所述总线303完成相互间的通信;
处理器301用于调用存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取与待查询人名相关联的企业集合;获取所述企业集合的人名-企业关联关系表;根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取与待查询人名相关联的企业集合;获取所述企业集合的人名-企业关联关系表;根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取与待查询人名相关联的企业集合;获取所述企业集合的人名-企业关联关系表;根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;对所述企业向量聚类,生成所述待查询人名的企业子集合。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RXM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的企业重名人区分装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RXM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (8)

1.一种企业重名人区分方法,其特征在于,包括:
获取与待查询人名相关联的企业集合;
获取所述企业集合的人名-企业关联关系表;
根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;
对所述企业向量聚类,生成所述待查询人名的企业子集合;
所述获取所述企业集合的人名-企业关联关系表,包括:
获取与所述企业集合中每个企业相关联的人名;
获取与所述企业集合中每个企业相关联的企业;
根据所述每个企业相关联的人名和所述每个企业相关联的企业生成所述每个企业的人名-企业关联关系,根据所述人名-企业关联关系生成所述企业集合的人名-企业关联关系表。
2.根据权利要求1所述的方法,其特征在于,所述根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量,包括:
获取所述人名-企业关联关系表中的所有人名;
获取所述人名-企业关联关系表中的所有企业;
根据所述所有人名和所述所有企业生成所述每个企业对应的企业向量,根据所述人名-企业关联关系,将所述企业向量中与所述企业相关联的元素标记为1,与所述企业无关联的元素标记为0。
3.根据权利要求2所述的方法,其特征在于,所述对所述企业向量聚类,生成所述待查询人名的企业子集合包括:
根据下述公式计算待划分的企业集合:
Di=Di-1-Ci-1,(i>0)
其中,D0为所述与待查询人名相关联的企业集合,C0为空集,Di为第i个待划分的企业集合,Ci为第i个企业子集;
计算企业向量Dij与企业向量Dik的距离,若所述距离小于预设阈值,则将Dij所对应的企业划分至Ci中,其中,Dij为Di中的第j个企业所对应的企业向量,Dik为Di中的参考企业所对应的企业向量;
根据所述Ci组成所述待查询人名的企业子集合。
4.根据权利要求3所述的方法,其特征在于,所述计算企业向量Dij与企业向量Dik的距离具体为:
根据下述公式计算企业向量的距离:
其中,N为企业向量的长度,Dijm为企业向量Dij中第m个元素,Dikm为企业向量Dikm中的第m个元素。
5.一种企业重名人区分装置,其特征在于,包括:
第一获取模块,用于获取与待查询人名相关联的企业集合;
第二获取模块,用于获取所述企业集合的人名-企业关联关系表;
企业向量化模块,用于根据所述人名-企业关联关系表,生成所述企业集合中每个企业对应的企业向量;
聚类模块,用于对所述企业向量聚类,生成所述待查询人名的企业子集合;
所述第二获取模块包括:
第一获取单元,用于获取与所述企业集合中每个企业相关联的人名;
第二获取单元,用于获取与所述企业集合中每个企业相关联的企业;
关联关系单元,用于根据所述每个企业相关联的人名和所述每个企业相关联的企业生成所述每个企业的人名-企业关联关系,根据所述人名-企业关联关系生成所述企业集合的人名-企业关联关系表。
6.根据权利要求5所述的装置,其特征在于,所述企业向量化模块包括:
第三获取单元,用于获取所述人名-企业关联关系表中的所有人名;
第四获取单元,用于获取所述人名-企业关联关系表中的所有企业;
处理单元,用于根据所述所有人名和所述所有企业生成所述每个企业对应的企业向量,根据所述人名-企业关联关系,将所述企业向量中与所述企业相关联的元素标记为1,与所述企业无关联的元素标记为0。
7.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一所述的方法。
CN201710448068.XA 2017-06-14 2017-06-14 一种企业重名人区分方法及装置 Active CN107341194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710448068.XA CN107341194B (zh) 2017-06-14 2017-06-14 一种企业重名人区分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710448068.XA CN107341194B (zh) 2017-06-14 2017-06-14 一种企业重名人区分方法及装置

Publications (2)

Publication Number Publication Date
CN107341194A CN107341194A (zh) 2017-11-10
CN107341194B true CN107341194B (zh) 2019-04-16

Family

ID=60220457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710448068.XA Active CN107341194B (zh) 2017-06-14 2017-06-14 一种企业重名人区分方法及装置

Country Status (1)

Country Link
CN (1) CN107341194B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376095A (zh) * 2018-02-27 2018-08-07 北京金堤科技有限公司 一种图标排列方法和装置
CN108897833B (zh) * 2018-06-22 2019-05-03 龙马智芯(珠海横琴)科技有限公司 企业间相关性的分析方法、装置和存储介质
CN109838694B (zh) * 2019-01-02 2021-02-02 好农易电子商务有限公司 灌溉管路的监测方法和装置
CN109780454B (zh) * 2019-03-26 2021-01-05 三川智慧科技股份有限公司 供水管道泄漏点定位设备组的选择方法及装置
CN110020433B (zh) * 2019-04-01 2023-04-18 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110705297A (zh) * 2019-09-23 2020-01-17 北京海致星图科技有限公司 一种企业曾用名识别方法、系统、介质及设备
CN110713163B (zh) * 2019-09-27 2022-02-22 深圳市元征科技股份有限公司 一种信息处理方法及相关设备
CN111328671A (zh) * 2020-03-05 2020-06-26 红河哈尼族彝族自治州水利水电工程地质勘察咨询规划研究院 一种实现自动频率调节的水库光伏提灌控制系统及方法
CN112417879A (zh) * 2020-11-25 2021-02-26 上海水滴征信服务有限公司 确定企业属性相似性、重名对象判定

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN105868347A (zh) * 2016-03-28 2016-08-17 南京邮电大学 一种基于多步聚类的重名消歧方法
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN105868347A (zh) * 2016-03-28 2016-08-17 南京邮电大学 一种基于多步聚类的重名消歧方法
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于组合特征的Web人名消歧方法;辛涛等;《计算机系统应用》;20151130;第24卷(第11期);第162-166页

Also Published As

Publication number Publication date
CN107341194A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107341194B (zh) 一种企业重名人区分方法及装置
US9128959B2 (en) Crowdsourced search and locate platform
CN106844614A (zh) 一种户型图功能区域快速识别系统
CN108664897A (zh) 票据识别方法、装置及存储介质
CN110325983A (zh) 图像检索装置和图像检索方法
CN104221017B (zh) 使用示例来查找连接语料库中的数据
CN105493085B (zh) 创建数据库表的样本的方法、系统和计算机可读存储介质
CN110363076A (zh) 人员信息关联方法、装置及终端设备
CN110032665A (zh) 确定关系网络图中图节点向量的方法及装置
CN108733713A (zh) 数据仓库中的数据查询方法及装置
CN108416028A (zh) 一种搜索内容资源的方法、装置及服务器
CN108664515B (zh) 一种搜索方法及装置,电子设备
US11887013B2 (en) System and method for facilitating model-based classification of transactions
CN108984658A (zh) 一种智能问答数据处理方法及装置
CN109240637A (zh) 音量调节的处理方法、装置、设备及存储介质
CN108345601A (zh) 搜索结果排序方法及装置
CN109408583A (zh) 数据处理方法及装置、计算机可读存储介质、电子设备
CN105468596A (zh) 图片检索方法和装置
CN107451266A (zh) 用于处理数据方法及其设备
CN108197203A (zh) 一种门脸头图挑选方法、装置、服务器和存储介质
CN106407434A (zh) 视频推送方法及系统
CN110502670A (zh) 基于人工智能的网络社交关系知识图谱生成方法和系统
DE102021124261A1 (de) Automatisierte computerisierte Identifizierung von Anlagegegenständen
CN105786810B (zh) 类目映射关系的建立方法与装置
CN110378546A (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant