CN114861787A - 获取存在重名情况的待查询人员名下公司的方法和装置 - Google Patents
获取存在重名情况的待查询人员名下公司的方法和装置 Download PDFInfo
- Publication number
- CN114861787A CN114861787A CN202210459194.6A CN202210459194A CN114861787A CN 114861787 A CN114861787 A CN 114861787A CN 202210459194 A CN202210459194 A CN 202210459194A CN 114861787 A CN114861787 A CN 114861787A
- Authority
- CN
- China
- Prior art keywords
- company
- name
- group
- under
- inquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开一种获取存在重名情况的待查询人员名下公司的方法和装置、存储介质和电子设备,方法包括:获取重名人员的各个名下公司,并获取各个名下公司的特征数据,重名人员包括待查询人员以及与其重名的人员;基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;将待查询人员名下公司所在的公司组与公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取待查询人员的各个名下公司。该方法使的获取的该同名老板名下公司的数据更加全面准确,满足了商业查询需要,大大提高了查询用户的查询体验和满意度。
Description
技术领域
本发明涉及名下公司查询技术领域,尤其是涉及一种获取存在重名情况的待查询人员名下公司的方法和装置、存储介质和电子设备。
背景技术
在日常生活和各种商业活动中,人们经常需要查询某个公司的法人代表、高管等信息,并且查询该人员名下的其他公司。在查询过程中,当存在与待查询人员重名的情况,需要确定两个或多个公司的同名人员是否是同一个自然人时,通常通过公司之间的关联特征来确定两个公司的同名人员是否是同一人。
友商的计算方法是通过获取该同名老板名下公司的关联特征,包括公司的邮箱、电话、地址、其他人员等信息,然后查找该同名老板名下的其他公司是否具有这些关联特征,若两个公司有关联特征,则认为是这两个公司是关联的,这两个公司的同名老板是同一个人,直到找到所有具有关联特征的公司。
但是,现有的查询方法查询结果不够准确全面,在查询过程中无法将必要的关联关系全部找到,容易漏掉没有关联特征的潜在公司,从而出现漏掉部分公司的情况。
有鉴于此,亟待提出一种查询方法,以解决现有技术中不能准确全面的对存在重名的待查询人员的名下公司进行查询的问题。
发明内容
为了解决现有技术中查询结果不够准确全面,在查询过程中容易漏掉没有关联特征的潜在公司的问题,本发明的实施例提供了一种获取存在重名情况的待查询人员名下公司的方法和装置、存储介质和电子设备。
根据本发明实施例的第一方面,提供一种获取存在重名情况的待查询人员名下公司的方法,所述方法包括:
获取重名人员的各个名下公司,并获取各个名下公司的特征数据,其中,所述重名人员包括待查询人员以及与其重名的人员;
基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,其中,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;
将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司。
优选地,基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合之前,
首先对所述公司组内的各项所述特征数据进行清洗过滤,过滤掉不适合作为所述关联特征的所述特征数据。
优选地,所述清洗过滤对象包括伪注册的特征数据,以及通过群体注册的特征数据。
优选地,所述特征数据包括电话、邮箱、关联人员、投资关系、地址、行业和经营范围。
优选地,基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合包括:
将具有关联特征的两个公司进行关联形成公司对;
将各个具有关联特征的所述公司对之间通过连通性合并成一组,形成所述公司组,多个公司组汇集成公司组集合。
优选地,将各个具有关联特征的所述公司对之间通过连通性合并成一组包括:
若一个所述公司对与另一个所述公司对均包括一相同的公司,则判定这两个公司对之间具有连通性,多个具有连通性的公司对之间通过连通性合并成一组。
优选地,将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司包括:
计算得出所述公司组集合中的各个公司组的特征向量;
对于待查询人员的名下公司,判断出该待查询人员的名下公司所在的公司组,并分别计算该待查询人员的名下公司所在的公司组与所述公司组集合中的其他公司组之间的特征向量相似度;
若计算得出的所述特征向量相似度大于相似度阈值,则判定该待查询人员的名下公司所在的公司组,与参与相似度比较的对应公司组统一属于该待查询人员名下的公司组;
将判定出的统一属于该待查询人员名下的多个公司组进行汇集,形成待查询人员名下公司组集合,从而获得所述待查询人员的各个名下公司。
优选地,计算得出所述公司组集合中的各个公司组的特征向量包括:
将所述公司组集合中的各个公司组的组内公司的特征数据进行组内融合,形成该公司组的特征;
将形成的公司组的特征进行特征向量化,得到该公司组的特征向量。
优选地,将形成的公司组的特征进行特征向量化包括:
将所述特征数据采用one-hot编码,
和/或,
将所述特征数据采用doc2vec方法进行向量化。
优选地,将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司包括:
计算得出所述公司组集合中的各个公司组的组内公司的特征向量;
计算每个公司组的组内公司的特征向量的聚类中心;
对于待查询人员的名下公司,判断出该查询人员的名下公司所在的公司组,并分别计算所述公司组集合中的其他公司组的聚类中心,与该待查询人员的名下公司所在的公司组的聚类中心之间的距离;
若所述距离小于距离阈值,则判定参与距离比较的公司组与该查询人员的名下公司所在的公司组具有相似性,两者统一属于该待查询人员名下的公司组;
将判定出的统一属于该待查询人员名下的多个公司进行汇集,形成待查询人员名下公司组集合,从而获得所述待查询人员的各个名下公司。
根据本发明实施例的第二方面,提供一种获取存在重名情况的待查询人员名下公司的装置,所述装置包括:
获取单元,用于获取重名人员的各个名下公司,并获取各个名下公司的特征数据,其中,所述重名人员包括待查询人员以及与其重名的人员;
汇集单元,用于基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,其中,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;
搜索单元,用于将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述获取存在重名情况的待查询人员名下公司的方法。
根据本发明实施例的第四方面,提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述获取存在重名情况的待查询人员名下公司的方法。
基于本发明上述实施例提供的获取存在重名情况的待查询人员名下公司的方法和装置、存储介质和电子设备,其中,获取存在重名情况的待查询人员名下公司的方法包括:获取重名人员的各个名下公司,并获取各个名下公司的特征数据,其中,所述重名人员包括待查询人员以及与其重名的人员;基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,其中,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司。本发明的技术方案,通过对重名人员名下公司的相关特征数据计算获得公司组集合,然后通过将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司,最终获得待查询人员名下的所有公司,有效的避免了遗漏没有关联特征的潜在公司情况的出现,使的获取的该同名老板名下公司的数据更加全面准确,满足了商业查询需要,大大提高了查询用户的查询体验和满意度。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明一示例性实施例提供的获取存在重名情况的待查询人员名下公司的方法的流程示意图;
图2是本发明一示例性实施例提供的获取存在重名情况的待查询人员名下公司的装置的结构示意图;
图3是本发明一示例性实施例提供的电子设备的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性方法
图1是本发明一示例性实施例提供的获取存在重名情况的待查询人员名下公司的方法的流程示意图。本实施例可应用在电子设备上,如图1所示,实施例所述获取存在重名情况的待查询人员名下公司的方法包括以下步骤:
步骤S01:获取重名人员的各个名下公司,并获取各个名下公司的特征数据,其中,所述重名人员包括待查询人员以及与其重名的人员;
该步骤中,获取待查询人员以及与其重名的人员的各个名下公司,并进一步获取各个名下公司的特征数据,所述特征数据包括但不限于电话、邮箱、关联人员、投资关系、地址、行业和经营范围。
步骤S02:对所述公司组内的各项所述特征数据进行清洗过滤,过滤掉不适合作为所述关联特征的所述特征数据;
该步骤中,对所述公司组内的各项所述特征数据进行清洗过滤,过滤掉不适合作为所述关联特征的所述特征数据。所述清洗过滤对象包括但不限于伪注册的特征数据,以及通过群体注册的特征数据。
对于伪注册的特征数据,如使用常见数字来代替电话信息,具体例如注册公司时将“123456”或者“111111”作为公司电话信息等,需要进行清洗,通过建立黑名单去除这些伪注册信息。邮箱、人名等其他特征数据同样适用该种伪注册特征数据的清洗过滤方法,对于人名可以去除一些极其常见的人名以及非常明显为伪造的人名,例如“张三”、“李四”等。
对于群体注册的特征数据,涉及的注册量往往非常大,可通过统计其注册次数等进行清洗,具体为通过设置同一特征数据的注册量阈值来进行是否为群体注册的判断,若某一特征数据的注册量超过注册量阈值,则判定该特征数据为群体注册的特征数据。具体地,如有超过100家公司均注册了同一个电话,则这个电话就认为是群体注册的特征数据,其不能作为关联特征。
通过该清洗过滤步骤,过滤掉不适合作为所述关联特征的所述特征数据,防止了后续无效的特征数据造成的信息处理量巨大以及获取结果不准确情况的出现,并且减少错误关联,大大提高了后续数据处理的效率以及获取结果的准确性。
步骤S03:基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,其中,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;
该步骤中,基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合又包括步骤S031和步骤S032,具体如下:
步骤S031:将具有关联特征的两个公司进行关联形成公司对;
将具有关联特征的两个公司进行关联,例如将具有诸如相同电话、相同邮箱、共同的其他人员、相同的投资关系等关联特征的两个公司进行关联,使得关联的这两个公司形成公司对,两个公司之间只要具有一个关联特征便可进行关联进行公司对。
步骤S032:将各个具有关联特征的所述公司对之间通过连通性合并成一组,形成所述公司组,多个公司组汇集成公司组集合。
该步骤中,若一个所述公司对与另一个所述公司对均包括一相同的公司,则判定这两个公司对之间具有连通性,多个具有连通性的公司对之间通过连通性合并成一组,即形成公司组,多个公司组汇集成公司组集合{S1,S2,S3···Sn},其中n为大于1的整数。
步骤S04:将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司。
在其中一种实施方式中,该步骤S04又包括第一步骤至第四步骤,具体如下:
第一步骤:计算得出所述公司组集合中的各个公司组的特征向量;
具体地,首先将所述公司组集合中的各个公司组的组内公司的特征数据进行组内融合,即将公司组内多个公司的诸如地址、行业、经营范围等特征数据进行拼接,形成该公司组的特征;
而后,将形成的公司组的特征进行特征向量化,得到该公司组的特征向量。在将公司组的特征进行向量化时,将所述特征数据采用one-hot编码,和/或,将所述特征数据采用doc2vec方法进行向量化。例如,将地址根据省市县进行one-hot编码,将行业、经营范围采用doc2vec方法进行向量化,从而获得该公司组的特征向量。
第二步骤:对于待查询人员的名下公司,判断出该待查询人员的名下公司所在的公司组,并分别计算该待查询人员的名下公司所在的公司组与所述公司组集合中的其他公司组之间的特征向量相似度;
具体地,基于确定的信息,例如已经明确了公司组集合中的某个公司属于待查询人员名下的公司,判断确定出该待查询人员的名下公司所在的公司组,然后分别计算该待查询人员的名下公司所在的公司组与所述公司组集合中的其他公司组之间的特征向量相似度。
第三步骤:若计算得出的所述特征向量相似度大于相似度阈值,则判定该待查询人员的名下公司所在的公司组,与参与相似度比较的对应公司组统一属于该待查询人员名下的公司组;
具体地,计算得出的所述特征向量相似度大于相似度阈值,则判定该待查询人员的名下公司所在的公司组,与参与相似度比较的对应公司组统一属于该待查询人员名下的公司组,即判定该待查询人员的名下公司所在的公司组,与参与相似度比较的对应公司组属于同一人员名下;反之,则判定参与相似度比较的对应公司组不属于该待查询人员名下的公司组,即判定该待查询人员的名下公司所在的公司组,与参与相似度比较的对应公司组不属于同一人员名下。
第四步骤:将判定出的统一属于该待查询人员名下的多个公司组进行汇集,形成待查询人员名下公司组集合,从而获得所述待查询人员的各个名下公司。
具体地,将第三步骤中判定出的统一属于该待查询人员名下的多个公司组进行汇集,汇集对象包括该待查询人员的名下公司所在的公司组,以及经相似度比较筛选出的属于该待查询人员名下的公司组,经汇集形成待查询人员名下公司组集合,公司组集合中的各个公司可以形成公司集合,公司集合中的各个公司则为该待查询人员名下的公司,从而获得所述待查询人员的各个名下公司。
在另外一种可替代的实施方式中,该步骤S04又包括步骤一至步骤五,具体如下:
步骤一:计算得出所述公司组集合中的各个公司组的组内公司的特征向量;
步骤二:计算每个公司组的组内公司的特征向量的聚类中心;
步骤三:对于待查询人员的名下公司,判断出该查询人员的名下公司所在的公司组,并分别计算所述公司组集合中的其他公司组的聚类中心,与该待查询人员的名下公司所在的公司组的聚类中心之间的距离;
步骤四:若所述距离小于距离阈值,则判定参与距离比较的公司组与该查询人员的名下公司所在的公司组具有相似性,两者统一属于该待查询人员名下的公司组;
具体地,若步骤三中计算得出的距离值小于距离阈值,则判定参与距离比较的公司组与该查询人员的名下公司所在的公司组具有相似性,两者统一属于该待查询人员名下的公司组,即判定参与距离比较的公司组与该查询人员的名下公司所在的公司组属于同一人员名下;反之,则判定参与距离比较的公司组与该查询人员的名下公司所在的公司组不属于同一人员名下。
步骤五:将判定出的统一属于该待查询人员名下的多个公司进行汇集,形成待查询人员名下公司组集合,从而获得所述待查询人员的各个名下公司。
具体地,将判定出的统一属于该待查询人员名下的多个公司进行汇集,汇集对象包括该待查询人员的名下公司所在的公司组,以及经相似性比较筛选出的属于该待查询人员名下的公司组,经汇集形成待查询人员名下公司组集合,公司组集合中的各个公司可以形成公司集合,公司集合中的各个公司则为该待查询人员名下的公司,从而获得所述待查询人员的各个名下公司。
通过将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司,最终获得待查询人员名下的所有公司,有效的避免了遗漏没有关联特征的公司情况的出现,使的获取该同名老板名下公司的数据更加全面准确,满足了商业查询需要,大大提高了查询用户的查询体验和满意度。
示例性装置
图2是本发明一示例性实施例提供的获取存在重名情况的待查询人员名下公司的装置的结构示意图。如图2所示,本实施例所述的获取存在重名情况的待查询人员名下公司的装置包括:
获取单元201,用于获取重名人员的各个名下公司,并获取各个名下公司的特征数据,其中,所述重名人员包括待查询人员以及与其重名的人员;
汇集单元202,用于基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,其中,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;
搜索单元203,用于将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的针对敏感类网站图像的滤除方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的针对敏感类网站图像的滤除方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
示例性电子设备
图3是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图3图示了根据本公开实施例的电子设备的框图。如图3所示,电子设备包括一个或多个处理器301和存储器302。
处理器301可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器302可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器301可以运行所述程序指令,以实现上文所述的被公开的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置303和输出装置304,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置303还可以包括例如键盘、鼠标等等。
该输出装置304可以向外部输出各种信息。该输出设备304可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (13)
1.一种获取存在重名情况的待查询人员名下公司的方法,其特征在于,所述方法包括:
获取重名人员的各个名下公司,并获取各个名下公司的特征数据,其中,所述重名人员包括待查询人员以及与其重名的人员;
基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,其中,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;
将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司。
2.根据权利要求1所述的方法,其特征在于,基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合之前,
首先对所述公司组内的各项所述特征数据进行清洗过滤,过滤掉不适合作为所述关联特征的所述特征数据。
3.根据权利要求2所述的方法,其特征在于,所述清洗过滤对象包括伪注册的特征数据,以及通过群体注册的特征数据。
4.根据权利要求1所述的方法,其特征在于,所述特征数据包括电话、邮箱、关联人员、投资关系、地址、行业和经营范围。
5.根据权利要求1所述的方法,其特征在于,基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合包括:
将具有关联特征的两个公司进行关联形成公司对;
将各个具有关联特征的所述公司对之间通过连通性合并成一组,形成所述公司组,多个公司组汇集成公司组集合。
6.根据权利要求5所述的方法,其特征在于,将各个具有关联特征的所述公司对之间通过连通性合并成一组包括:
若一个所述公司对与另一个所述公司对均包括一相同的公司,则判定这两个公司对之间具有连通性,多个具有连通性的公司对之间通过连通性合并成一组。
7.根据权利要求1所述的方法,其特征在于,将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司包括:
计算得出所述公司组集合中的各个公司组的特征向量;
对于待查询人员的名下公司,判断出该待查询人员的名下公司所在的公司组,并分别计算该待查询人员的名下公司所在的公司组与所述公司组集合中的其他公司组之间的特征向量相似度;
若计算得出的所述特征向量相似度大于相似度阈值,则判定该待查询人员的名下公司所在的公司组,与参与相似度比较的对应公司组统一属于该待查询人员名下的公司组;
将判定出的统一属于该待查询人员名下的多个公司组进行汇集,形成待查询人员名下公司组集合,从而获得所述待查询人员的各个名下公司。
8.根据权利要求7所述的方法,其特征在于,计算得出所述公司组集合中的各个公司组的特征向量包括:
将所述公司组集合中的各个公司组的组内公司的特征数据进行组内融合,形成该公司组的特征;
将形成的公司组的特征进行特征向量化,得到该公司组的特征向量。
9.根据权利要求8所述的方法,其特征在于,将形成的公司组的特征进行特征向量化包括:
将所述特征数据采用one-hot编码,
和/或,
将所述特征数据采用doc2vec方法进行向量化。
10.根据权利要求1所述的方法,其特征在于,将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司包括:
计算得出所述公司组集合中的各个公司组的组内公司的特征向量;
计算每个公司组的组内公司的特征向量的聚类中心;
对于待查询人员的名下公司,判断出该查询人员的名下公司所在的公司组,并分别计算所述公司组集合中的其他公司组的聚类中心,与该待查询人员的名下公司所在的公司组的聚类中心之间的距离;
若所述距离小于距离阈值,则判定参与距离比较的公司组与该查询人员的名下公司所在的公司组具有相似性,两者统一属于该待查询人员名下的公司组;
将判定出的统一属于该待查询人员名下的多个公司进行汇集,形成待查询人员名下公司组集合,从而获得所述待查询人员的各个名下公司。
11.一种获取存在重名情况的待查询人员名下公司的装置,其特征在于,所述装置包括:
获取单元,用于获取重名人员的各个名下公司,并获取各个名下公司的特征数据,其中,所述重名人员包括待查询人员以及与其重名的人员;
汇集单元,用于基于重名人员的各个名下公司之间的关联特征形成公司组,多个公司组汇集成公司组集合,其中,若不同的公司之间具有相同的特征数据,则该特征数据称之为关联特征;
搜索单元,用于将待查询人员名下公司所在的公司组与所述公司组集合中的其他公司组进行相似度比较,并根据比较结果搜索出符合相似度要求的各个公司组,从而获取所述待查询人员的各个名下公司。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行如权利要求1-10任一项所述的方法。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459194.6A CN114861787A (zh) | 2022-04-27 | 2022-04-27 | 获取存在重名情况的待查询人员名下公司的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459194.6A CN114861787A (zh) | 2022-04-27 | 2022-04-27 | 获取存在重名情况的待查询人员名下公司的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861787A true CN114861787A (zh) | 2022-08-05 |
Family
ID=82633598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210459194.6A Pending CN114861787A (zh) | 2022-04-27 | 2022-04-27 | 获取存在重名情况的待查询人员名下公司的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861787A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880623A (zh) * | 2011-07-13 | 2013-01-16 | 富士通株式会社 | 同名人物搜索方法及系统 |
CN107402984A (zh) * | 2017-07-11 | 2017-11-28 | 北京金堤科技有限公司 | 一种基于主题的分类方法及装置 |
US20170344954A1 (en) * | 2016-05-31 | 2017-11-30 | Linkedln Corporation | Query building for search by ideal candidates |
CN107577791A (zh) * | 2017-09-18 | 2018-01-12 | 河北省科学院应用数学研究所 | 一种企业征信人名重名消歧的方法及运用该方法的征信系统 |
CN109376182A (zh) * | 2018-09-26 | 2019-02-22 | 上海睿翎法律咨询服务有限公司 | 基于计算机软件系统实现关联公司识别处理的方法 |
CN109992603A (zh) * | 2019-04-04 | 2019-07-09 | 北京金堤科技有限公司 | 一种数据搜索方法、装置、电子设备和计算机可读介质 |
CN110175555A (zh) * | 2019-05-23 | 2019-08-27 | 厦门市美亚柏科信息股份有限公司 | 人脸图像聚类方法和装置 |
CN111428503A (zh) * | 2020-03-11 | 2020-07-17 | 合肥工业大学 | 同名人物的识别处理方法及处理装置 |
CN112417879A (zh) * | 2020-11-25 | 2021-02-26 | 上海水滴征信服务有限公司 | 确定企业属性相似性、重名对象判定 |
CN113269244A (zh) * | 2021-05-18 | 2021-08-17 | 上海睿翎法律咨询服务有限公司 | 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质 |
CN113609346A (zh) * | 2021-10-08 | 2021-11-05 | 企查查科技有限公司 | 基于企业关联关系的自然人人名消歧方法、设备和介质 |
CN114240344A (zh) * | 2021-12-06 | 2022-03-25 | 企查查科技有限公司 | 企业人员数据处理方法、装置、计算机设备和存储介质 |
-
2022
- 2022-04-27 CN CN202210459194.6A patent/CN114861787A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880623A (zh) * | 2011-07-13 | 2013-01-16 | 富士通株式会社 | 同名人物搜索方法及系统 |
US20170344954A1 (en) * | 2016-05-31 | 2017-11-30 | Linkedln Corporation | Query building for search by ideal candidates |
CN107402984A (zh) * | 2017-07-11 | 2017-11-28 | 北京金堤科技有限公司 | 一种基于主题的分类方法及装置 |
CN107577791A (zh) * | 2017-09-18 | 2018-01-12 | 河北省科学院应用数学研究所 | 一种企业征信人名重名消歧的方法及运用该方法的征信系统 |
CN109376182A (zh) * | 2018-09-26 | 2019-02-22 | 上海睿翎法律咨询服务有限公司 | 基于计算机软件系统实现关联公司识别处理的方法 |
CN109992603A (zh) * | 2019-04-04 | 2019-07-09 | 北京金堤科技有限公司 | 一种数据搜索方法、装置、电子设备和计算机可读介质 |
CN110175555A (zh) * | 2019-05-23 | 2019-08-27 | 厦门市美亚柏科信息股份有限公司 | 人脸图像聚类方法和装置 |
CN111428503A (zh) * | 2020-03-11 | 2020-07-17 | 合肥工业大学 | 同名人物的识别处理方法及处理装置 |
CN112417879A (zh) * | 2020-11-25 | 2021-02-26 | 上海水滴征信服务有限公司 | 确定企业属性相似性、重名对象判定 |
CN113269244A (zh) * | 2021-05-18 | 2021-08-17 | 上海睿翎法律咨询服务有限公司 | 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质 |
CN113609346A (zh) * | 2021-10-08 | 2021-11-05 | 企查查科技有限公司 | 基于企业关联关系的自然人人名消歧方法、设备和介质 |
CN114240344A (zh) * | 2021-12-06 | 2022-03-25 | 企查查科技有限公司 | 企业人员数据处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8768914B2 (en) | System and method for searching and matching databases | |
AU2008339587B2 (en) | Data normalisation for investigative data mining | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN111614690A (zh) | 一种异常行为检测方法及装置 | |
US11500876B2 (en) | Method for duplicate determination in a graph | |
CN110825817B (zh) | 一种企业疑似关联关系判定方法及系统 | |
CN115170027A (zh) | 数据分析方法、装置、设备及存储介质 | |
CN110704432A (zh) | 数据索引的建立方法和装置、可读存储介质、电子设备 | |
CN107038593B (zh) | 一种基于防伪溯源系统的异常数据处理方法及系统 | |
CN113495886A (zh) | 用于模型训练的污染样本数据的检测方法及装置 | |
CN114861787A (zh) | 获取存在重名情况的待查询人员名下公司的方法和装置 | |
CN110781211B (zh) | 一种数据的解析方法及装置 | |
CN111429110A (zh) | 门店标准化审核方法、装置、设备及存储介质 | |
CN111581235A (zh) | 识别常见关联关系的方法及系统 | |
Jabeen et al. | Divided we stand out! Forging Cohorts fOr Numeric Outlier Detection in large scale knowledge graphs (CONOD) | |
CN113095604B (zh) | 产品数据的融合方法、装置、设备及存储介质 | |
CN111611483B (zh) | 一种对象画像构建方法、装置、设备及存储介质 | |
CN113706279B (zh) | 欺诈分析方法、装置、电子设备及存储介质 | |
CN114706899A (zh) | 快递数据的敏感度计算方法、装置、存储介质及设备 | |
CN113656652A (zh) | 医保违规行为的检测方法、装置、设备及存储介质 | |
CN112416922A (zh) | 一种团伙关联数据挖掘方法、装置、设备及存储介质 | |
CN110781309A (zh) | 一种基于模式匹配的实体并列关系相似度计算方法 | |
CN112907306B (zh) | 一种客户满意度判别方法及装置 | |
WO2014091481A1 (en) | System and method for determining by an external entity the human hierarchial structure of an organization, using public social networks | |
CN115150052B (zh) | 攻击团伙的跟踪识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |