CN112287674A - 企业间同名大节点识别方法、系统、电子设备及存储介质 - Google Patents
企业间同名大节点识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112287674A CN112287674A CN202011494894.6A CN202011494894A CN112287674A CN 112287674 A CN112287674 A CN 112287674A CN 202011494894 A CN202011494894 A CN 202011494894A CN 112287674 A CN112287674 A CN 112287674A
- Authority
- CN
- China
- Prior art keywords
- same
- data
- name
- person
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 45
- 238000013500 data storage Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 24
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 19
- 238000002372 labelling Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本申请涉及自然语言处理领域,具体的说,是一种企业间同名大节点识别方法、系统、电子设备及存储介质。
背景技术
随着互联网技术快速发展,人们可以获得的公开数据越来越多,如何快速整理这些非结构化数据,受到越来越多人的关注。其中,大数据技术中,将企业和股东、高管的等信息抽离出来建立起知识图谱,对于市场调查,投资分析,金融监管等领域有十分重要的作用。而在绘制关联图谱时,如果不能判断企业信息的自然人是同一个人,会在一张图谱中出现实际上是同一实体自然人的多个同名自然人实体,影响图谱的推理分析。因此,同名实体对齐对知识图谱的构建中较为重要。如果有身份证数据,那么同名对齐就比较简单,但是身份证信息属于个人隐私,因此很难捕捉到身份证数据。因此迫切需要利用技术方法来对这些公开数据的自然人生成一个“唯一ID”,以此区分出各个不同公司的同名人。
现在比较流行采用机器学习的方法,通过输入同名人的特征,然后通过机器学习模型去判定是否是同一个人,然后对于被识别为同一个人的,给出相同的编号作为“唯一ID”。
比如现有专利申请号为CN201910256769 .2,申请日为2019 .04 .01,名称为《一种基于企业关联关系的工商高管人名消歧方法》的发明专利,其技术方案为:本发明公开了一种基于企业关联关系的工商高管人名消歧方法,涉及实体消歧领域,包括以下步骤:将待消歧数据集U,按高管姓名划分成组n个高管姓名组A;根据步骤S1得到的姓名组划分结果,对每个组A,构建N层以内的高管及企业关联关系网络G;针对每个姓名组A,根据密切度计算规则,计算姓名组A中高管节点之间的关联密切度f;根据关联密切度构建聚类函数CL,使用层次聚类算法得到消歧结果。上述方法采用了多层关系网络,通过关联密切度构建聚类函数进行消岐,属于无监督学习方法,无监督学习方法对于结果无法控制与判断,有可能聚类得到不需要的结果,识别的准确率不高。
特别的,在同名人识别中,现有技术对于大节点(比如同名人实体节点量超过100人)或超大节点(比如同名人实体节点量超过10000)而言,要么就不做识别,直接默认为是不同的人;或者只选取少量的数据进行计算。原因在于如果采用传统两两对比的计算方案,在同名节点量超过一定范围时,计算量十分巨大;比如某个同名节点的量为10000个,需要计算的量是49995000次,所以现有技术无法很好的完成,所以只能采用部分计算,或者干脆都不计算的方式,不能满足建立高质量图谱的现实需要。
发明内容
为了克服现有技术中所存在的上述不足,本申请提供一种属于监督学习方法,能提高识别的准确率,降低判断过程计算量,缩短判断过程计算时间的企业间同名大节点识别方法、系统、电子设备及存储介质。
为实现上述技术效果,本申请的技术方案如下:
一种企业间同名大节点识别方法,包括如下步骤:
步骤1,获取用于输入的特征。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表的作用是用于其他同名人与其进行比较,而无需其他同名人与同一个人的所有数据进行比较。
训练数据的输入形式为:一个样本,其中y的取值范围为[0,1], 是
同名人输入特征组成的向量,其中 按不同公司同一个人,选一个代表,选代表的规则
可以是注册资本最大的公司等从现有特征中能够筛选出的规则,同名同人与该代表组成 ,则此时y的标签为1,同名不同人与该代表组成 ,则此时y标签为0。
步骤4,准备孪生网络,所述孪生网络包括CNN网络,所述CNN网络通过并行计算满足大规模计算要求;
余弦相似度用来计算由子网络转化后的向量的相似度, loss函数是用来估量模型的预测值与真实值的不一致程度,余弦相似度和loss函数属于孪生网络的组成部分。
m为相似苛刻度,用于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取值范围为(0,1);
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同(相同是指达到同一个人的判断阈值,其中判断阈值可人为进行设定)则加入对应组,结束本轮计算;若都不同,则认为这是新的同名人,将这个新的同名人指定为新增的代表人。
进一步地,本申请提供一种企业间同名人识别系统,包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
进一步地,本申请提供一种企业间同名人电子设备,包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本申请方法来完成不同企业间同名人识别。
进一步地,本申请提供一种计算机可读存储介质,包括程序代码,当所述程序代码在计算机上运行时,所述程序代码用于使所述计算机执行本申请方法的步骤。
本申请的有益效果为:
1、本发明提供一种企业间同名大节点识别方法,与现有技术相比,可以大大的减少计
算量,从原本达到 时间复杂度大大的降低,代表之间才需要两两对比 ,其中N表示变
量的数量,这部分数量较少,而组内计算是线性时间复杂度,假设一个案例,有10000个公司
包含同一人名,其中仅有1000个为现实中的相同姓名的不同个人,用机器学习方法判断,两
两比较,需要49995000次计算,而采用本发明,则只是1000个代表需要499500次比较,然后
组内分别和代表比较9000次,一共508500次计算次数,减少了近100倍的计算量,现实中
10000个相同人名的实际不同个人数可能远小于1000个人,比如其中有500个同名人,而采
用本发明,则只是500个代表需要124750次比较,然后组内成员分别和代表比较9500次,一
共134250次计算次数,减少了近372倍的计算量,从计算原理即可判断即可完成不同企业同
名人大节点计算。
2、由于本发明实现原理,相当于构造向量在空间里让代表人名向量作为中心,组内人名向量尽量靠近该代表人名,围绕该代表人名附近,不同代表人名之间尽量远离,因而能采用该方法来减少计算量,从而克服其他机器学习不能确定代表和链式相似问题的弊端。
3、本发明中孪生网络中采用CNN网络,相比于其他网络,CNN具有更强的并行计算能力,在比较节点较多时,进一步提高计算效率,特别适用于大节点和超大节点识别场景。
附图说明
图1为本申请的流程图。
图2为本发明孪生网络架构图,采用CNN网络组成孪生网络架构示意图。
图3为本发明进行不同代表人的同名人计算量变化示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1
如图1所示,一种企业间同名大节点识别方法,包括如下步骤:
步骤1,获取用于输入的特征;所述特征如可以选择但是不限于公司名,公司名中关键词,公司所在行业,公司地址,公司同名人数,公司是否直接关联,两个公司是否兄弟公司,两个公司是否父母公司,两个公司是否祖孙关系,公司是否是其他二度关联关系,公司高管人数,公司所在街道号码,全国企业关联中存在改名字的企业数量,姓名分别在公司所在省份的数量等,特征的主要目的是为了对于同名人进行区分。其中特征是通过实践证明行之有效的特征,通过这些特征能得到较好的结果。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。具体而言,可采用人工标注或现有数据获得特征标注后的数据。特征标注是指明确给定特征的同名人,哪些是同一个人,哪些不是同一个人。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从
数据中选择出一个代表,代表作用是用于其他同名人与其进行比较,而无需其他同名人与
同一个人的所有数据进行比较。训练数据的输入形式为:一个样本 ,其中y的取值
范围为[0,1], 是同名人输入特征组成的向量,其中按不同公司同一个人,选一
个代表,选代表的规则可以是注册资本最大的公司等从现有特征中能够筛选出的规则,同
名同人与该代表组成,则此时y的标签为1,同名不同人与该代表组成 ,则此时y
标签为0。
相对于全量数据的识别,标注仅需较小的工作量,比如全量数据中有5000个同名人“张三”,可以标注其中的50个“张三”的对应数据来作为训练语料,相当于通过人工或者根据现有数据对这个5000个中的50个同名人打上标签。再比如50个同名人“张三”中事实上有10个不同自然人,通过标注就将这50个同名人数据分成了10组,再在每一组中根据设置的规则选择1个来作为本组的代表人。
示例如下:
标注特征后的数据如:[张三+A,张三+B,张三+C,张三+D,张三+E]和[张三+α,张三+β,张三+γ, 张三+θ]是两个不同的张三,A和α分别代表不同的公司名,B和β、C和γ、D和θ各自表示相同特征类别中的不同内容,其中张三+A和张三+α被选作是各自代表,则[张三+A,张三+B,1] ,[张三+A,张三+C,1], [张三+α,张三+β,1], [张三+α,张三+γ,1], [张三+A,张三+α,0]。
步骤4,准备孪生网络,所述孪生网络包括CNN网络,因为我们设计的孪生网络结构和输入数据的方式,保证了我们选取的代表是有效可靠的。孪生网络(Siamese Network)中Siamese意为暹罗猫,孪生或双子。孪生网络是指这个网络结构中的Network_1和Network_2这两个网络的结构一般是相同的,并且参数是共享的,即参数是一致的。在监督学习范式下,孪生神经网络会最大化不同标签的表征,并最小化相同标签的表征。
本发明申请中,输入信息 和 分别通过孪生网络的两个子网络进行了向量的
重构,孪生网络将和的普通特征映射至高维特征空间,并输出对应的表征向量,由于孪
生网络的特性,完成训练后能够让同组向量尽量靠近,异组向量尽量远离,相当于构造向量
在空间里让代表人名向量作为中心,组内人名向量尽量靠近该代表人名,围绕该代表人名
附近,不同代表人名之间尽量远离,提高了判断敏感性,保证了识别的准确率,从而克服其
他机器学习不能确定代表和链式相似问题的弊端。链式相似问题指A->B->C->D->E,若A与E
不进行比较,则可能认为A与E不同,被抛弃,并且因为采用代表对比方法极大的减少了完成
全部识别所需的计算量。并且在构成孪生网络时,子网络选用CNN,CNN网络通过能够通过并
行计算来满足大规模计算的要求,特别适用于识别大节点和超大节点的应用场景。
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同(相同是指达到同一个人的判断阈值,其中判断阈值可人为进行设定)则加入对应组,结束本轮计算;若都不同,则认为这是新的同名人,将这个新的同名人指定为新增的代表人。
实施例2
如图1所示,一种企业间同名大节点识别方法,包括如下步骤:
步骤1,获取用于输入的特征;所述特征如可以选择但是不限于公司名,公司名中关键词,公司所在行业,公司地址,公司同名人数,公司是否直接关联,两个公司是否兄弟公司,两个公司是否父母公司,两个公司是否祖孙关系,公司是否是其他二度关联关系,公司高管人数,公司所在街道号码,全国企业关联中存在改名字的企业数量,姓名分别在公司所在省份的数量等,特征的主要目的是为了对于同名人进行区分。其中特征是通过实践证明行之有效的特征,通过这些特征能得到较好的结果。
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征。具体而言,可采用人工标注或现有数据获得特征标注后的数据。特征标注是指明确给定特征的同名人,哪些是同一个人,哪些不是同一个人。
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表作用是用于其他同名人与其进行比较,而无需其他同名人与同一个人的所有数据进行比较。
训练数据的输入形式为:一个样本 ,其中y的取值范围为[0,1], 是
同名人输入特征组成的向量,其中按不同公司同一个人,选一个代表,选代表的规则
可以是注册资本最大的公司等从现有特征中能够筛选出的规则,同名同人与该代表组成 ,则此时y的标签为1,同名不同人与该代表组成 ,则此时y标签为0。
示例如下:
标注特征后的数据如:[张三+A,张三+B,张三+C,张三+D,张三+E]和[张三+α,张三+β,张三+γ, 张三+θ]是两个不同的张三,A和α分别代表不同的公司名,B和β、C和γ、D和θ各自表示相同特征类别中的不同内容,其中张三+A和张三+α被选作是各自代表,则[张三+A,张三+B,1] ,[张三+A,张三+C,1], [张三+α,张三+β,1], [张三+α,张三+γ,1], [张三+A,张三+α,0]。
上述过程是孪生网络来实现,本实施例中的孪生网络结构采用的是CNN网络结构结合余弦相似度的方式,loss函数采用的上述表达式,孪生网络可生成向量,向量通过余弦相似度对比,其余未进行进一步阐述的部分可使用本领域现有技术实现。
:有很多同名人对 ,为了对同名人对 每个个体进行区分,
用上标(i)标明多个中的一个,i取值从0到本同名人对总数-1;m为相似苛刻度,用
于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取
值范围为(0,1)。
CNN网络可以并行计算,适合大规模计算,相对RNN网络计算更快,更适合大节点计
算。以CNN结构组成的孪生网络架构图2为例,从下往上看通过输入 ,CNN网络进行编码转
换,Convolution表示CNN网络的卷积层,Pooling表示CNN网络的池化层,Fully Connected
表示CNN网络的全连接层。
本实施例用以说明采用CNN网络的具体结构是:
Layer1:8个大小1*3的卷积核,步长为1,采用ReLU激活函数。
Layer2:1*2大小的池化层,使用的是max-pooling,步长为1。
Layer3:16个大小1*3的卷积核,步长为1,采用ReLU激活函数。
Layer4:1*2大小的池化层,使用的是max-pooling,步长为1。
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型。
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入,若都不同,则认为这是新的同名人。
如图3所示,图中竖轴代表计算次数,横轴代表代表人数,假如平均分布,可看出随着代表人数减少,计算次数下降趋势明显。而采用现有方法,处理超大节点(同名人实体节点量超过10000),则理论上需要进行49995000次运算。
实施例3
在实施例1和实施例2的基础上,本申请提供一种企业间同名大节点识别系统,包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
实施例4
在实施例1-3的基础上,本申请提供一种企业间同名大节点识别的电子设备,包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本申请方法来完成不同企业间同名人识别。
实施例5
本申请提供一种计算机可读存储介质,包括程序代码,当所述程序代码在计算机上运行时,所述程序代码用于使所述计算机执行本申请方法的步骤。
可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不同限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种企业间同名大节点识别方法,其特征在于:包括如下步骤:
步骤1,获取用于输入的特征;
步骤2,获得特征标注后的数据,标注后的数据至少包括人名和与该人名对应的特征;
步骤3,将标注后数据整理成准备训练数据集,其中针对不同公司的同一个人,从数据中选择出一个代表,代表的作用是用于其他同名人与其进行比较;
步骤4,准备孪生网络,所述孪生网络包括CNN网络,所述CNN网络通过并行计算满足大规模计算要求;
步骤5,将训练数据集输入孪生网络中进行训练,得到训练好的模型;
步骤6,使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
2.根据权利要求1所述的一种企业间同名大节点识别方法,其特征在于:步骤2可采用人工标注或现有数据获得特征标注后的数据。
余弦相似度用来计算由子网络转化后的向量的相似度, loss函数是用来估量模型的
预测值与真实值的不一致程度,余弦相似度和loss函数属于孪生网络的组成部分;其中表示将输入孪生网络后得到新的向量,表示将输入孪生网络后得到
新的向量, 表示求两个向量的内积, 表示向量 和的范式 norm相乘;
m为相似苛刻度,用于调节两个向量的相似苛刻程度,m设置的越大表示两个向量的余弦相似度要求越高,m取值范围为(0,1);
5.一种企业间同名大节点识别系统,其特征在于:包括数据获取模块、数据存储模块和数据处理模块,所述数据获取模块与数据存储模块信号相连,所述数据存储模块与数据处理模块信号相连;
所述数据获取模块,用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络;
所述数据存储模块,用于存储数据获取模块和数据处理模块输出的数据;
所述数据处理模块,用于将训练数据集输入孪生网络中进行训练,得到训练好的模型,并使用训练好的模型进行预测,新输入数据只需和同名人的代表进行对比,若相同则加入该同名人数据中,若都不同,则认为这是新的同名人。
6.一种企业间同名大节点识别电子设备,其特征在于:包括处理器和存储器,所述处理与存储器相连,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1-4任一所述方法来完成不同企业间同名人识别。
7.一种计算机可读存储介质,其特征在于:其存储有程序代码,当所述程序代码在计算机上运行时,所述程序代码用于使所述计算机执行权利要求1-4任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494894.6A CN112287674B (zh) | 2020-12-17 | 2020-12-17 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494894.6A CN112287674B (zh) | 2020-12-17 | 2020-12-17 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287674A true CN112287674A (zh) | 2021-01-29 |
CN112287674B CN112287674B (zh) | 2021-03-26 |
Family
ID=74426865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011494894.6A Expired - Fee Related CN112287674B (zh) | 2020-12-17 | 2020-12-17 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287674B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269244A (zh) * | 2021-05-18 | 2021-08-17 | 上海睿翎法律咨询服务有限公司 | 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN110020433A (zh) * | 2019-04-01 | 2019-07-16 | 中科天玑数据科技股份有限公司 | 一种基于企业关联关系的工商高管人名消歧方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110472065A (zh) * | 2019-07-25 | 2019-11-19 | 电子科技大学 | 基于gcn孪生网络的跨语言知识图谱实体对齐方法 |
US20190354582A1 (en) * | 2018-05-21 | 2019-11-21 | LEVERTON GmbH | Post-filtering of named entities with machine learning |
CN111652667A (zh) * | 2019-12-31 | 2020-09-11 | 成都数联铭品科技有限公司 | 一种企业主要相关自然人实体数据对齐方法 |
-
2020
- 2020-12-17 CN CN202011494894.6A patent/CN112287674B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
US20190354582A1 (en) * | 2018-05-21 | 2019-11-21 | LEVERTON GmbH | Post-filtering of named entities with machine learning |
CN110020433A (zh) * | 2019-04-01 | 2019-07-16 | 中科天玑数据科技股份有限公司 | 一种基于企业关联关系的工商高管人名消歧方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110472065A (zh) * | 2019-07-25 | 2019-11-19 | 电子科技大学 | 基于gcn孪生网络的跨语言知识图谱实体对齐方法 |
CN111652667A (zh) * | 2019-12-31 | 2020-09-11 | 成都数联铭品科技有限公司 | 一种企业主要相关自然人实体数据对齐方法 |
Non-Patent Citations (4)
Title |
---|
LE-KUI ZHOU等: "Disambiguating named entities with deep supervised learning via crowd labels", 《FRONTIERS OF INFORMATION TECHNOLOGY&ELECTRONIC ENGINEERING》 * |
RUI CAI等: "Learning Entity Representation for Named Entity Disambiguation", 《LNCS》 * |
仇国华等: "一种论文作者重名消歧方法", 《软件导刊》 * |
柯昊等: "数据缺失时基于BP神经网络的作者重名辨识研究", 《情报学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269244A (zh) * | 2021-05-18 | 2021-08-17 | 上海睿翎法律咨询服务有限公司 | 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质 |
CN113269244B (zh) * | 2021-05-18 | 2024-07-23 | 上海睿翎法律咨询服务有限公司 | 针对工商登记信息中跨企业人员重名实现消歧处理方法 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
CN113326377B (zh) * | 2021-06-02 | 2023-10-13 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112287674B (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ha et al. | Improving credit risk prediction in online peer-to-peer (P2P) lending using feature selection with deep learning | |
CN109471938A (zh) | 一种文本分类方法及终端 | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
Kim et al. | Inter-cluster connectivity analysis for technology opportunity discovery | |
CN112287674B (zh) | 企业间同名大节点识别方法、系统、电子设备及存储介质 | |
CN111178196B (zh) | 一种细胞分类的方法、装置及设备 | |
CN112487819A (zh) | 一种企业间同名人识别方法、系统、电子设备及存储介质 | |
Sun | Wood quality defect detection based on deep learning and multicriteria framework | |
Cheng et al. | Blocking bug prediction based on XGBoost with enhanced features | |
Liu et al. | Three‐way decisions with single‐valued neutrosophic decision theory rough sets based on grey relational analysis | |
CN111178578A (zh) | 一种融合聚类与集成学习的金融股票预测方法 | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
Niu | Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi‐Feature Extraction | |
CN113159160A (zh) | 一种基于节点注意力的半监督节点分类方法 | |
CN117196808A (zh) | 一种同业业务的流动性风险预测方法及相关装置 | |
Deng et al. | Research on C4. 5 Algorithm Optimization for User Churn | |
Yuan et al. | SporeDet: A Real-Time Detection of Wheat Scab Spores | |
CN114722941A (zh) | 信贷违约识别方法、装置、设备和介质 | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
Yu et al. | Workflow recommendation based on graph embedding | |
CN112765148A (zh) | 一种基于改进svm多分类的网络入侵检测方法 | |
Wang et al. | Clustering analysis of human behavior based on mobile phone sensor data | |
CN113742472B (zh) | 一种基于客服营销场景下的数据挖掘方法及装置 | |
Wang et al. | Unsupervised Data Anomaly Detection Based on Graph Neural Network | |
CN117764536B (zh) | 一种基于人工智能的创新创业项目辅助管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210326 |
|
CF01 | Termination of patent right due to non-payment of annual fee |