CN112287674A - 企业间同名大节点识别方法、系统、电子设备及存储介质 - Google Patents

企业间同名大节点识别方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN112287674A
CN112287674A CN202011494894.6A CN202011494894A CN112287674A CN 112287674 A CN112287674 A CN 112287674A CN 202011494894 A CN202011494894 A CN 202011494894A CN 112287674 A CN112287674 A CN 112287674A
Authority
CN
China
Prior art keywords
same
data
name
person
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011494894.6A
Other languages
English (en)
Other versions
CN112287674B (zh
Inventor
罗镇权
刘世林
张发展
祝凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN202011494894.6A priority Critical patent/CN112287674B/zh
Publication of CN112287674A publication Critical patent/CN112287674A/zh
Application granted granted Critical
Publication of CN112287674B publication Critical patent/CN112287674B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及自然语言处理领域,具体是一种企业间同名大节点识别方法、系统、电子设备及存储介质。一种企业间同名大节点识别方法,包括如下步骤:步骤1获取用于输入的特征。步骤2获得特征标注后的数据。步骤3将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表。步骤4准备孪生网络,所述孪生网络包括CNN网络;步骤5将训练数据集输入孪生网络中进行训练,得到训练好的模型。步骤6使用训练好的模型进行预测。本发明可以大大的减少计算量,从原本达到
Figure 352490DEST_PATH_IMAGE001
时间复杂度大大的降低。CNN网络具有更强的并行计算能力,在比较节点较多时,进一步提高计算效率,特别适用于大节点和超大节点识别场景。

Description

企业间同名大节点识别方法、系统、电子设备及存储介质
技术领域
本申请涉及自然语言处理领域,具体的说,是一种企业间同名大节点识别方法、系统、电子设备及存储介质。
背景技术
随着互联网技术快速发展,人们可以获得的公开数据越来越多,如何快速整理这些非结构化数据,受到越来越多人的关注。其中,大数据技术中,将企业和股东、高管的等信息抽离出来建立起知识图谱,对于市场调查,投资分析,金融监管等领域有十分重要的作用。而在绘制关联图谱时,如果不能判断企业信息的自然人是同一个人,会在一张图谱中出现实际上是同一实体自然人的多个同名自然人实体,影响图谱的推理分析。因此,同名实体对齐对知识图谱的构建中较为重要。如果有身份证数据,那么同名对齐就比较简单,但是身份证信息属于个人隐私,因此很难捕捉到身份证数据。因此迫切需要利用技术方法来对这些公开数据的自然人生成一个“唯一ID”,以此区分出各个不同公司的同名人。
现在比较流行采用机器学习的方法,通过输入同名人的特征,然后通过机器学习模型去判定是否是同一个人,然后对于被识别为同一个人的,给出相同的编号作为“唯一ID”。
比如现有专利申请号为CN201910256769 .2,申请日为2019 .04 .01,名称为《一种基于企业关联关系的工商高管人名消歧方法》的发明专利,其技术方案为:本发明公开了一种基于企业关联关系的工商高管人名消歧方法,涉及实体消歧领域,包括以下步骤:将待消歧数据集U,按高管姓名划分成组n个高管姓名组A;根据步骤S1得到的姓名组划分结果,对每个组A,构建N层以内的高管及企业关联关系网络G;针对每个姓名组A,根据密切度计算规则,计算姓名组A中高管节点之间的关联密切度f;根据关联密切度构建聚类函数CL,使用层次聚类算法得到消歧结果。上述方法采用了多层关系网络,通过关联密切度构建聚类函数进行消岐,属于无监督学习方法,无监督学习方法对于结果无法控制与判断,有可能聚类得到不需要的结果,识别的准确率不高。
特别的,在同名人识别中,现有技术对于大节点(比如同名人实体节点量超过100人)或超大节点(比如同名人实体节点量超过10000)而言,要么就不做识别,直接默认为是不同的人;或者只选取少量的数据进行计算。原因在于如果采用传统两两对比的计算方案,在同名节点量超过一定范围时,计算量十分巨大;比如某个同名节点的量为10000个,需要计算的量是49995000次,所以现有技术无法很好的完成,所以只能采用部分计算,或者干脆都不计算的方式,不能满足建立高质量图谱的现实需要。
发明内容
为了克服现有技术中所存在的上述不足,本申请提供一种属于监督学习方法,能提高识别的准确率,降低判断过程计算量,缩短判断过程计算时间的企业间同名大节点识别方法、系统、电子设备及存储介质。
为实现上述技术效果,本申请的技术方案如下:
一种企业间同名大节点识别方法,包括如下步骤:
步骤1,获取用于输入的特征。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表的作用是用于其他同名人与其进行比较,而无需其他同名人与同一个人的所有数据进行比较。
训练数据的输入形式为:一个样本
Figure 29973DEST_PATH_IMAGE001
,其中y的取值范围为[0,1],
Figure 859388DEST_PATH_IMAGE002
是 同名人输入特征组成的向量,其中
Figure 650102DEST_PATH_IMAGE003
按不同公司同一个人,选一个代表,选代表的规则 可以是注册资本最大的公司等从现有特征中能够筛选出的规则,同名同人与该代表组成
Figure 285483DEST_PATH_IMAGE004
,则此时y的标签为1,同名不同人与该代表组成
Figure 582603DEST_PATH_IMAGE004
,则此时y标签为0。
步骤4,准备孪生网络,所述孪生网络包括CNN网络,所述CNN网络通过并行计算满足大规模计算要求;
给定一个样本
Figure 910817DEST_PATH_IMAGE005
,y为[0,1],其中采用的余弦相似度表达式如下
Figure 926177DEST_PATH_IMAGE006
,loss函数表达式可采用如下:
Figure 630828DEST_PATH_IMAGE007
其中
Figure 48034DEST_PATH_IMAGE008
余弦相似度用来计算由子网络转化后的向量的相似度, loss函数是用来估量模型的预测值与真实值的不一致程度,余弦相似度和loss函数属于孪生网络的组成部分。
其中
Figure 281569DEST_PATH_IMAGE005
Figure 908860DEST_PATH_IMAGE009
表示同名人特征组成的向量,如张三+A特征向量,
Figure 761409DEST_PATH_IMAGE010
表示另 一个同名人特征组成的向量,如张三+α的特征向量,y表示
Figure 157755DEST_PATH_IMAGE004
是不是同一个人,如果y=1 则认为同一个人,如y=0则认为是同名的两个人。
Figure 703137DEST_PATH_IMAGE006
:常见普通余弦相似度计算公式,
Figure 817724DEST_PATH_IMAGE011
表 示两个人名转换向量的余弦相似度表示,
Figure 473964DEST_PATH_IMAGE012
表示将
Figure 724817DEST_PATH_IMAGE009
输入孪生网络后得到新的向量,
Figure 565734DEST_PATH_IMAGE013
同理,
Figure 42983DEST_PATH_IMAGE014
表示求两个向量的内积,
Figure 627548DEST_PATH_IMAGE015
表示向量
Figure 622922DEST_PATH_IMAGE012
Figure 634740DEST_PATH_IMAGE013
的范式 norm相乘。
Figure 333706DEST_PATH_IMAGE016
:有很多同名人对
Figure 456383DEST_PATH_IMAGE005
,为了对同名人对
Figure 681828DEST_PATH_IMAGE005
每个个体进行区分,用 上标(i)标明多个
Figure 739914DEST_PATH_IMAGE005
中的一个,i取值从0到本同名人对总数-1。
m为相似苛刻度,用于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取值范围为(0,1);
Figure 50809DEST_PATH_IMAGE017
Figure 852543DEST_PATH_IMAGE018
:训练过程中若y取1,则采用
Figure 932495DEST_PATH_IMAGE017
,若y取0则采用
Figure 286116DEST_PATH_IMAGE018
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同(相同是指达到同一个人的判断阈值,其中判断阈值可人为进行设定)则加入对应组,结束本轮计算;若都不同,则认为这是新的同名人,将这个新的同名人指定为新增的代表人。
进一步地,本申请提供一种企业间同名人识别系统,包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
进一步地,本申请提供一种企业间同名人电子设备,包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本申请方法来完成不同企业间同名人识别。
进一步地,本申请提供一种计算机可读存储介质,包括程序代码,当所述程序代码在计算机上运行时,所述程序代码用于使所述计算机执行本申请方法的步骤。
本申请的有益效果为:
1、本发明提供一种企业间同名大节点识别方法,与现有技术相比,可以大大的减少计 算量,从原本达到
Figure 959673DEST_PATH_IMAGE019
时间复杂度大大的降低,代表之间才需要两两对比
Figure 424153DEST_PATH_IMAGE019
,其中N表示变 量的数量,这部分数量较少,而组内计算是线性时间复杂度,假设一个案例,有10000个公司 包含同一人名,其中仅有1000个为现实中的相同姓名的不同个人,用机器学习方法判断,两 两比较,需要49995000次计算,而采用本发明,则只是1000个代表需要499500次比较,然后 组内分别和代表比较9000次,一共508500次计算次数,减少了近100倍的计算量,现实中 10000个相同人名的实际不同个人数可能远小于1000个人,比如其中有500个同名人,而采 用本发明,则只是500个代表需要124750次比较,然后组内成员分别和代表比较9500次,一 共134250次计算次数,减少了近372倍的计算量,从计算原理即可判断即可完成不同企业同 名人大节点计算。
2、由于本发明实现原理,相当于构造向量在空间里让代表人名向量作为中心,组内人名向量尽量靠近该代表人名,围绕该代表人名附近,不同代表人名之间尽量远离,因而能采用该方法来减少计算量,从而克服其他机器学习不能确定代表和链式相似问题的弊端。
3、本发明中孪生网络中采用CNN网络,相比于其他网络,CNN具有更强的并行计算能力,在比较节点较多时,进一步提高计算效率,特别适用于大节点和超大节点识别场景。
附图说明
图1为本申请的流程图。
图2为本发明孪生网络架构图,采用CNN网络组成孪生网络架构示意图。
图3为本发明进行不同代表人的同名人计算量变化示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1
如图1所示,一种企业间同名大节点识别方法,包括如下步骤:
步骤1,获取用于输入的特征;所述特征如可以选择但是不限于公司名,公司名中关键词,公司所在行业,公司地址,公司同名人数,公司是否直接关联,两个公司是否兄弟公司,两个公司是否父母公司,两个公司是否祖孙关系,公司是否是其他二度关联关系,公司高管人数,公司所在街道号码,全国企业关联中存在改名字的企业数量,姓名分别在公司所在省份的数量等,特征的主要目的是为了对于同名人进行区分。其中特征是通过实践证明行之有效的特征,通过这些特征能得到较好的结果。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。具体而言,可采用人工标注或现有数据获得特征标注后的数据。特征标注是指明确给定特征的同名人,哪些是同一个人,哪些不是同一个人。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从 数据中选择出一个代表,代表作用是用于其他同名人与其进行比较,而无需其他同名人与 同一个人的所有数据进行比较。训练数据的输入形式为:一个样本
Figure 233977DEST_PATH_IMAGE005
,其中y的取值 范围为[0,1],
Figure 24078DEST_PATH_IMAGE004
是同名人输入特征组成的向量,其中
Figure 919353DEST_PATH_IMAGE004
按不同公司同一个人,选一 个代表,选代表的规则可以是注册资本最大的公司等从现有特征中能够筛选出的规则,同 名同人与该代表组成
Figure 187524DEST_PATH_IMAGE004
,则此时y的标签为1,同名不同人与该代表组成
Figure 242067DEST_PATH_IMAGE004
,则此时y 标签为0。
相对于全量数据的识别,标注仅需较小的工作量,比如全量数据中有5000个同名人“张三”,可以标注其中的50个“张三”的对应数据来作为训练语料,相当于通过人工或者根据现有数据对这个5000个中的50个同名人打上标签。再比如50个同名人“张三”中事实上有10个不同自然人,通过标注就将这50个同名人数据分成了10组,再在每一组中根据设置的规则选择1个来作为本组的代表人。
示例如下:
标注特征后的数据如:[张三+A,张三+B,张三+C,张三+D,张三+E]和[张三+α,张三+β,张三+γ, 张三+θ]是两个不同的张三,A和α分别代表不同的公司名,B和β、C和γ、D和θ各自表示相同特征类别中的不同内容,其中张三+A和张三+α被选作是各自代表,则[张三+A,张三+B,1] ,[张三+A,张三+C,1], [张三+α,张三+β,1], [张三+α,张三+γ,1], [张三+A,张三+α,0]。
步骤4,准备孪生网络,所述孪生网络包括CNN网络,因为我们设计的孪生网络结构和输入数据的方式,保证了我们选取的代表是有效可靠的。孪生网络(Siamese Network)中Siamese意为暹罗猫,孪生或双子。孪生网络是指这个网络结构中的Network_1和Network_2这两个网络的结构一般是相同的,并且参数是共享的,即参数是一致的。在监督学习范式下,孪生神经网络会最大化不同标签的表征,并最小化相同标签的表征。
本发明申请中,输入信息
Figure 812857DEST_PATH_IMAGE020
Figure 320062DEST_PATH_IMAGE021
分别通过孪生网络的两个子网络进行了向量的 重构,孪生网络将
Figure 264359DEST_PATH_IMAGE020
Figure 173410DEST_PATH_IMAGE021
的普通特征映射至高维特征空间,并输出对应的表征向量,由于孪 生网络的特性,完成训练后能够让同组向量尽量靠近,异组向量尽量远离,相当于构造向量 在空间里让代表人名向量作为中心,组内人名向量尽量靠近该代表人名,围绕该代表人名 附近,不同代表人名之间尽量远离,提高了判断敏感性,保证了识别的准确率,从而克服其 他机器学习不能确定代表和链式相似问题的弊端。链式相似问题指A->B->C->D->E,若A与E 不进行比较,则可能认为A与E不同,被抛弃,并且因为采用代表对比方法极大的减少了完成 全部识别所需的计算量。并且在构成孪生网络时,子网络选用CNN,CNN网络通过能够通过并 行计算来满足大规模计算的要求,特别适用于识别大节点和超大节点的应用场景。
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同(相同是指达到同一个人的判断阈值,其中判断阈值可人为进行设定)则加入对应组,结束本轮计算;若都不同,则认为这是新的同名人,将这个新的同名人指定为新增的代表人。
实施例2
如图1所示,一种企业间同名大节点识别方法,包括如下步骤:
步骤1,获取用于输入的特征;所述特征如可以选择但是不限于公司名,公司名中关键词,公司所在行业,公司地址,公司同名人数,公司是否直接关联,两个公司是否兄弟公司,两个公司是否父母公司,两个公司是否祖孙关系,公司是否是其他二度关联关系,公司高管人数,公司所在街道号码,全国企业关联中存在改名字的企业数量,姓名分别在公司所在省份的数量等,特征的主要目的是为了对于同名人进行区分。其中特征是通过实践证明行之有效的特征,通过这些特征能得到较好的结果。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。具体而言,可采用人工标注或现有数据获得特征标注后的数据。特征标注是指明确给定特征的同名人,哪些是同一个人,哪些不是同一个人。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表作用是用于其他同名人与其进行比较,而无需其他同名人与同一个人的所有数据进行比较。
训练数据的输入形式为:一个样本
Figure 39734DEST_PATH_IMAGE005
,其中y的取值范围为[0,1],
Figure 909602DEST_PATH_IMAGE004
是 同名人输入特征组成的向量,其中
Figure 785154DEST_PATH_IMAGE004
按不同公司同一个人,选一个代表,选代表的规则 可以是注册资本最大的公司等从现有特征中能够筛选出的规则,同名同人与该代表组成
Figure 424076DEST_PATH_IMAGE004
,则此时y的标签为1,同名不同人与该代表组成
Figure 461303DEST_PATH_IMAGE004
,则此时y标签为0。
示例如下:
标注特征后的数据如:[张三+A,张三+B,张三+C,张三+D,张三+E]和[张三+α,张三+β,张三+γ, 张三+θ]是两个不同的张三,A和α分别代表不同的公司名,B和β、C和γ、D和θ各自表示相同特征类别中的不同内容,其中张三+A和张三+α被选作是各自代表,则[张三+A,张三+B,1] ,[张三+A,张三+C,1], [张三+α,张三+β,1], [张三+α,张三+γ,1], [张三+A,张三+α,0]。
步骤4,准备孪生网络,所述孪生网络包括CNN网络,所述CNN网络通过并行计算满 足大规模计算要求;给定一个样本
Figure 84045DEST_PATH_IMAGE005
,y为[0,1],其中采用的余弦相似度表达式如 下
Figure 232130DEST_PATH_IMAGE006
,loss函数表达式可采用如下:
Figure 115772DEST_PATH_IMAGE007
其中
Figure 199266DEST_PATH_IMAGE008
上述过程是孪生网络来实现,本实施例中的孪生网络结构采用的是CNN网络结构结合余弦相似度的方式,loss函数采用的上述表达式,孪生网络可生成向量,向量通过余弦相似度对比,其余未进行进一步阐述的部分可使用本领域现有技术实现。
其中
Figure 168359DEST_PATH_IMAGE022
Figure 261080DEST_PATH_IMAGE009
表示同名人特征组成的向量,如张三+A特征向量,
Figure 999228DEST_PATH_IMAGE010
表示另 一个同名人特征组成的向量,如张三+α的特征向量,y表示
Figure 253623DEST_PATH_IMAGE004
是不是同一个人,如果y=1 则认为同一个人,如y=0则认为是同名的两个人。
Figure 710012DEST_PATH_IMAGE006
:常见普通余弦相似度计算公式,
Figure 340845DEST_PATH_IMAGE011
表 示两个人名转换向量的余弦相似度表示,
Figure 933500DEST_PATH_IMAGE012
表示将
Figure 749010DEST_PATH_IMAGE009
输入孪生网络后得到新的向量,
Figure 305412DEST_PATH_IMAGE013
同理,
Figure 864569DEST_PATH_IMAGE014
表示求两个向量的内积,
Figure 187097DEST_PATH_IMAGE015
表示向量
Figure 173508DEST_PATH_IMAGE012
Figure 479855DEST_PATH_IMAGE013
的范式 norm相乘。
Figure 577124DEST_PATH_IMAGE016
:有很多同名人对
Figure 878792DEST_PATH_IMAGE022
,为了对同名人对
Figure 911471DEST_PATH_IMAGE022
每个个体进行区分, 用上标(i)标明多个
Figure 564169DEST_PATH_IMAGE005
中的一个,i取值从0到本同名人对总数-1;m为相似苛刻度,用 于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取 值范围为(0,1)。
Figure 340495DEST_PATH_IMAGE017
Figure 762249DEST_PATH_IMAGE018
:训练过程中若y取1,则采用
Figure 965828DEST_PATH_IMAGE017
,若y取0则采用
Figure 105823DEST_PATH_IMAGE018
CNN网络可以并行计算,适合大规模计算,相对RNN网络计算更快,更适合大节点计 算。以CNN结构组成的孪生网络架构图2为例,从下往上看通过输入
Figure 279315DEST_PATH_IMAGE023
,CNN网络进行编码转 换,Convolution表示CNN网络的卷积层,Pooling表示CNN网络的池化层,Fully Connected 表示CNN网络的全连接层。
本实施例用以说明采用CNN网络的具体结构是:
输入:1*25*1 即25维向量的同名人特征
Figure 696521DEST_PATH_IMAGE009
Figure 195635DEST_PATH_IMAGE010
作为输入。
Layer1:8个大小1*3的卷积核,步长为1,采用ReLU激活函数。
Layer2:1*2大小的池化层,使用的是max-pooling,步长为1。
Layer3:16个大小1*3的卷积核,步长为1,采用ReLU激活函数。
Layer4:1*2大小的池化层,使用的是max-pooling,步长为1。
Layer5:全连接层,输出64维向量
Figure 698292DEST_PATH_IMAGE024
Figure 675475DEST_PATH_IMAGE025
再对这两个输出的向量求余弦相似度,即
Figure 209837DEST_PATH_IMAGE026
。其中数字表示向量的长度。
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入,若都不同,则认为这是新的同名人。
如图3所示,图中竖轴代表计算次数,横轴代表代表人数,假如平均分布,可看出随着代表人数减少,计算次数下降趋势明显。而采用现有方法,处理超大节点(同名人实体节点量超过10000),则理论上需要进行49995000次运算。
实施例3
在实施例1和实施例2的基础上,本申请提供一种企业间同名大节点识别系统,包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
实施例4
在实施例1-3的基础上,本申请提供一种企业间同名大节点识别的电子设备,包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本申请方法来完成不同企业间同名人识别。
实施例5
本申请提供一种计算机可读存储介质,包括程序代码,当所述程序代码在计算机上运行时,所述程序代码用于使所述计算机执行本申请方法的步骤。
可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不同限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种企业间同名大节点识别方法,其特征在于:包括如下步骤:
步骤1,获取用于输入的特征;
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征;
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表的作用是用于其他同名人与其进行比较;
步骤4,准备孪生网络,所述孪生网络包括CNN网络,所述CNN网络通过并行计算满足大规模计算要求;
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型;
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
2.根据权利要求1所述的一种企业间同名大节点识别方法,其特征在于:步骤2可采用人工标注或现有数据获得特征标注后的数据。
3.根据权利要求1所述的一种企业间同名大节点识别方法,其特征在于:步骤3中训练 数据集的输入形式为:一个样本
Figure 81463DEST_PATH_IMAGE001
,其中y的取值范围为[0,1],
Figure 264183DEST_PATH_IMAGE002
是同名人输 入特征组成的向量,其中
Figure 575078DEST_PATH_IMAGE002
按不同公司同一个人,选一个代表,同名同人与该代表组成
Figure 376812DEST_PATH_IMAGE002
,则此时y的标签为1,同名不同人与该代表组成
Figure 722343DEST_PATH_IMAGE002
,则此时y标签为0。
4.根据权利要求3所述的一种企业间同名大节点识别方法,其特征在于:在步骤4中给 定一个样本
Figure 685751DEST_PATH_IMAGE003
,其中y为[0,1],采用的余弦相似度表达式如下
Figure 483943DEST_PATH_IMAGE004
,loss函数表达式可采用如下:
Figure 89367DEST_PATH_IMAGE005
其中
Figure 23825DEST_PATH_IMAGE006
余弦相似度用来计算由子网络转化后的向量的相似度, loss函数是用来估量模型的 预测值与真实值的不一致程度,余弦相似度和loss函数属于孪生网络的组成部分;其中
Figure 548348DEST_PATH_IMAGE007
表示将
Figure 712131DEST_PATH_IMAGE008
输入孪生网络后得到新的向量,
Figure 980302DEST_PATH_IMAGE009
表示将
Figure 644632DEST_PATH_IMAGE010
输入孪生网络后得到 新的向量,
Figure 605635DEST_PATH_IMAGE011
表示求两个向量的内积,
Figure 253785DEST_PATH_IMAGE012
表示向量
Figure 794488DEST_PATH_IMAGE007
Figure 969117DEST_PATH_IMAGE013
的范式 norm相乘;
Figure 710808DEST_PATH_IMAGE014
Figure 705309DEST_PATH_IMAGE015
Figure 190648DEST_PATH_IMAGE016
表述有很多同名人对
Figure 219784DEST_PATH_IMAGE001
,为了对同名人对
Figure 397956DEST_PATH_IMAGE001
每个 个体进行区分,用上标(i)标明多个
Figure 879753DEST_PATH_IMAGE001
中的一个,i取值从0到本同名人对总数-1;
m为相似苛刻度,用于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取值范围为(0,1);
Figure 168783DEST_PATH_IMAGE017
,
Figure 52425DEST_PATH_IMAGE018
:训练过程中若y取1,则采用
Figure 260553DEST_PATH_IMAGE017
,若y取0则采用
Figure 105012DEST_PATH_IMAGE018
5.一种企业间同名大节点识别系统,其特征在于:包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
6.一种企业间同名大节点识别电子设备,其特征在于:包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1-4任一所述方法来完成不同企业间同名人识别。
7.一种计算机可读存储介质,其特征在于:其存储有程序代码,当所述程序代码在计算机上运行时,所述程序代码用于使所述计算机执行权利要求1-4任意一项所述方法的步骤。
CN202011494894.6A 2020-12-17 2020-12-17 企业间同名大节点识别方法、系统、电子设备及存储介质 Expired - Fee Related CN112287674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494894.6A CN112287674B (zh) 2020-12-17 2020-12-17 企业间同名大节点识别方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494894.6A CN112287674B (zh) 2020-12-17 2020-12-17 企业间同名大节点识别方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112287674A true CN112287674A (zh) 2021-01-29
CN112287674B CN112287674B (zh) 2021-03-26

Family

ID=74426865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494894.6A Expired - Fee Related CN112287674B (zh) 2020-12-17 2020-12-17 企业间同名大节点识别方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112287674B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269244A (zh) * 2021-05-18 2021-08-17 上海睿翎法律咨询服务有限公司 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质
CN113326377A (zh) * 2021-06-02 2021-08-31 上海生腾数据科技有限公司 一种基于企业关联关系的人名消歧方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
US20190354582A1 (en) * 2018-05-21 2019-11-21 LEVERTON GmbH Post-filtering of named entities with machine learning
CN111652667A (zh) * 2019-12-31 2020-09-11 成都数联铭品科技有限公司 一种企业主要相关自然人实体数据对齐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
US20190354582A1 (en) * 2018-05-21 2019-11-21 LEVERTON GmbH Post-filtering of named entities with machine learning
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN111652667A (zh) * 2019-12-31 2020-09-11 成都数联铭品科技有限公司 一种企业主要相关自然人实体数据对齐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LE-KUI ZHOU等: "Disambiguating named entities with deep supervised learning via crowd labels", 《FRONTIERS OF INFORMATION TECHNOLOGY&ELECTRONIC ENGINEERING》 *
RUI CAI等: "Learning Entity Representation for Named Entity Disambiguation", 《LNCS》 *
仇国华等: "一种论文作者重名消歧方法", 《软件导刊》 *
柯昊等: "数据缺失时基于BP神经网络的作者重名辨识研究", 《情报学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269244A (zh) * 2021-05-18 2021-08-17 上海睿翎法律咨询服务有限公司 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质
CN113269244B (zh) * 2021-05-18 2024-07-23 上海睿翎法律咨询服务有限公司 针对工商登记信息中跨企业人员重名实现消歧处理方法
CN113326377A (zh) * 2021-06-02 2021-08-31 上海生腾数据科技有限公司 一种基于企业关联关系的人名消歧方法及系统
CN113326377B (zh) * 2021-06-02 2023-10-13 上海生腾数据科技有限公司 一种基于企业关联关系的人名消歧方法及系统

Also Published As

Publication number Publication date
CN112287674B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
Ha et al. Improving credit risk prediction in online peer-to-peer (P2P) lending using feature selection with deep learning
CN109471938A (zh) 一种文本分类方法及终端
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Kim et al. Inter-cluster connectivity analysis for technology opportunity discovery
CN112287674B (zh) 企业间同名大节点识别方法、系统、电子设备及存储介质
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN112487819A (zh) 一种企业间同名人识别方法、系统、电子设备及存储介质
Sun Wood quality defect detection based on deep learning and multicriteria framework
Cheng et al. Blocking bug prediction based on XGBoost with enhanced features
Liu et al. Three‐way decisions with single‐valued neutrosophic decision theory rough sets based on grey relational analysis
CN111178578A (zh) 一种融合聚类与集成学习的金融股票预测方法
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
Niu Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi‐Feature Extraction
CN113159160A (zh) 一种基于节点注意力的半监督节点分类方法
CN117196808A (zh) 一种同业业务的流动性风险预测方法及相关装置
Deng et al. Research on C4. 5 Algorithm Optimization for User Churn
Yuan et al. SporeDet: A Real-Time Detection of Wheat Scab Spores
CN114722941A (zh) 信贷违约识别方法、装置、设备和介质
CN116861226A (zh) 一种数据处理的方法以及相关装置
Yu et al. Workflow recommendation based on graph embedding
CN112765148A (zh) 一种基于改进svm多分类的网络入侵检测方法
Wang et al. Clustering analysis of human behavior based on mobile phone sensor data
CN113742472B (zh) 一种基于客服营销场景下的数据挖掘方法及装置
Wang et al. Unsupervised Data Anomaly Detection Based on Graph Neural Network
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210326

CF01 Termination of patent right due to non-payment of annual fee