CN111539210A - 跨网络实体的识别方法、装置、电子设备及介质 - Google Patents

跨网络实体的识别方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN111539210A
CN111539210A CN202010299820.0A CN202010299820A CN111539210A CN 111539210 A CN111539210 A CN 111539210A CN 202010299820 A CN202010299820 A CN 202010299820A CN 111539210 A CN111539210 A CN 111539210A
Authority
CN
China
Prior art keywords
entity
recall
target
recalling
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010299820.0A
Other languages
English (en)
Other versions
CN111539210B (zh
Inventor
常文睿
冯天恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010299820.0A priority Critical patent/CN111539210B/zh
Publication of CN111539210A publication Critical patent/CN111539210A/zh
Application granted granted Critical
Publication of CN111539210B publication Critical patent/CN111539210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本说明书实施例公开了一种跨网络实体的识别方法,根据多个实体及实体间的关联关系,构建异构网络,其中,所述多个实体位于多个网络中;从所述异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体,其中,所述目标实体和所述召回实体位于所述多个网络中的不同网络中;基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。

Description

跨网络实体的识别方法、装置、电子设备及介质
技术领域
本说明书实施例涉及区块链处理技术领域,尤其涉及一种跨网络实体的识别方法、装置、电子设备及介质。
背景技术
随着移动电子设备的飞速发展,使得移动电子设备上的应用也越来越多,而且应用内部网络通常会存储有多个实体例如企业、店铺和用户等,应用的外部网络中也会存在多个实体,内部网络和外部网络中的会存在一些相同的实体。
现有技术中在对多个网络中的实体进行识别时,通常是根据多个网络中的多个多种实体例如包括自然人,企业,账户,手机号和设备等和多种实体间关系例如包括隶属,股权,法人和链接等,组成异构网络,利用预先创建的识别模型对异构网络进行直接识别,识别出多个网络中的实体之间的关系。
发明内容
本说明书实施例提供了一种跨网络实体的识别方法、装置、电子设备及介质,能够识别不同网络的两个实体是否为同一个实体,并提高识别准确度。
本说明书实施例第一方面提供了一种跨网络实体的识别方法,包括:
根据多个实体及实体间的关联关系,构建异构网络,其中,所述多个实体位于多个网络中;
从所述异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体,其中,所述目标实体和所述召回实体位于所述多个网络中的不同网络中;
基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
本说明书实施例第二方面提供了一种跨网络实体的识别装置,包括:
异构网络构建单元,用于根据多个实体及实体间的关联关系,构建异构网络,其中,所述多个实体位于多个网络中;
召回实体获取单元,用于从所述异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体,其中,所述目标实体和所述召回实体位于所述多个网络中的不同网络中;
识别单元,用于基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
本说明书实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述跨网络实体的识别方法的步骤。
本说明书实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时上述跨网络实体的识别方法的步骤。
本说明书实施例的有益效果如下:
基于上述技术方案,根据多个实体及实体间的关联关系,构建异构网络,其中,多个实体位于多个网络中;从异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体;再基于实体识别模型对召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;如此,通过链路预测算法对目标实体进行召回识别,由于链路预测算法能够准确的预测出目标实体与其它实体之间的相似度指标,在相似度指标更准确的基础上进行召回识别,使得识别出的召回实体与目标实体的匹配度更高,在匹配度更高的基础上进行实体识别,使得识别的准确度也会随之提高;而且由于召回实体和目标实体位于异构网络的不同网络中,从而能够实现跨网络识别实体基础上提高识别准确度。
附图说明
图1为本说明书实施例中跨网络实体的识别方法的方法流程图;
图2为本说明书实施例中异构网络的结构示意图;
图3为本说明书实施例中召回网络的结构示意图;
图4为本说明书实施例中筛选后的召回网络的结构示意图;
图5为本说明书实施例中跨网络实体的识别装置的结构示意图;
图6为本说明书实施例中电子设备的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
第一方面,如图1所示,本说明书实施例提供一种跨网络实体的识别方法,包括:
S102、根据多个实体及实体间的关联关系,构建异构网络,其中,多个实体位于多个网络中;
S104、从异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从异构网络中识别出召回实体,其中,目标实体和召回实体位于多个网络中的不同网络中;
S106、基于已创建的实体识别模型对召回实体进行识别,识别出召回实体与目标实体是否为同一个实体。
本说明书实施例中,实体可以是自然人,企业,账户,店铺,手机号和设备等;实体间的关联关系可以包括隶属,股权,法人和链接等。
本说明书实施例中的识别方法可以将外部实体与内部实体进行关联和识别,例如在企业中的自然人在没有证件信息的情况下,与金融应用的支付账户关联起来。其中,金融应用例如可以某某宝、某信和某团应用等。而且,自然人同名的情况在金融应用中非常多,在大量外部数据源中获得的自然人信息和数据,通常以姓名为单位,因此需要将获得的自然人信息与用户账户或身份信息完成挂载和准确识别。其它实体例如企业、机构、产品、店铺等,由于名称模糊、重名等情况也会出现类似情况。
在执行步骤S102时,首先获取两个网络中各个网络包含的多个实体,然后将两个网络包含的所有实体进行实体对齐,得到已对齐的实体,以及获取未对齐的实体;将未对齐的实体与已对齐的实体进行串联,构建异构网络。具体来讲,在进行实体对齐过程中,若某个网络中的一个实体与另一网络中的一个实体对齐,则表征该网络中的实体与另一网络中的实体是同一个实体。
本说明书实施例中,多个网络包括外部网络和内部网络,当然,多个网络还可以包括多个外部网络和一个内部网络;进一步的,本说明书实施例中,多个是指2个或2个以上的数量。
例如,通过对外部数据源即外部网络进行分析,提取到实体包括自然人a1,a2,a3,a4,a5,a6,a8和a10,以及店铺b1,b3,b4和b5;以及通过对金融应用的内部数据库即内部网络进行分析,提取到实体包括自然人a3、a5,a6,a7,a8,a9和a10,以及店铺b1,b2,b3,b4和b6;然后对外部网络中的每个实体与内部网络中的每个实体进行实体对齐,得到对齐后的实体和未对齐后的实体,然后将a1,a2,a3,a4、a5,a6,a7,b8,a9和a10,与b1,b2,b3,b4,b5和b6进行串联,得到异构网络,具体如图2所示。
本说明书实施例中,异构网络中的每个节点对应一个实体,使得节点和实体一一对应。
在得到异构网络之后,执行步骤S104。
以及,在步骤S104中,可以将异构网络中的每个实体可以作为目标实体,也可以从异构网络中随机选取一个实体作为目标实体;当然,还可以根据用户选取操作,从异构网络中选取对应的实体作为目标实体,本说明书不作具体限制。
在获取目标实体之后,在异构网络中基于链路预测算法对目标实体进行召回识别。具体地,在获取目标实体之后,通过链路预测算法,对目标实体与每个备选实体之间的链路进行预测,从而预测出目标实体和每个备选实体之间的相似度指标,根据目标实体和每个备选实体之间的相似度指标,可以获取到目标实体与每个备选实体之间的相似度相似度;再基于目标实体与每个备选实体之间的相似度,从所有备选实体中确定召回实体,其中,每个备选实体在异构网络中均与目标实体不相连,召回实体与目标实体位于所述多个网络的不同网络中。
具体来讲,在获取目标实体之后,根据路径搜索,从异构网络中获取与目标实体不相连的每个备选实体;此时,可以获取到目标实体与每个备选实体之间的链路;然后,通过链路预测算法,对目标实体与每个备选实体之间的链路进行预测,得到目标实体与每个备选实体之间的相似度;选取大于设定相似度的相似度对应的备选实体作为召回实体,其中,目标实体和召回实体位于多个网络的不同网络中。例如多个网络包括外部网络和内部网络,此时,目标实体可以位于外部网络和内部网络中的任意一种网络中,召回实体位于多个网络中的另一种网络中,例如目标实体位于外部网络中,则召回实体位于内部网络中;以及若目标实体位于内部网络中,则召回实体位于外部网络中。
本说明书实施例中,设定相似度可以由用户或设备自行设定,也可以根据实际需求进行设定,设定相似度例如可以为90%,95%,98%和99%等。
例如,如图2所示,若目标实体为a4,从异构网络中获取a4对应的每个备选实体包括a1,a2,a3,a8,a9和a10;获取a4与每个备选实体之间的链路依次为a4-a1,a4-a2,a4-a3,a4-a8,a4-a9和a4-a10,采用链路预测算法对a4-a1,a4-a2,a4-a3,a4-a8,a4-a9和a4-a10这5条链路进行预测,得到a4与a1,a2,a3,a8,a9和a10的相似度依次为a41,a42,a43,a48,a49和a410;若设定相似度为95%,a41,a42,a43,a48,a49和a410仅检测到a43>95%,则确定召回实体为a3。
以及,在确定召回实体之后,获取目标实体和召回实体之间的召回网络,基于预设的边强度,对召回网络中的边进行筛选,得到筛选后的召回网络。
本说明书实施例中的边是指异构网络和召回网络中两个相连实体之间的边;进一步的,模型评价指标可以包括准确率,精确率和召回率等。
本说明书另一实施例中,在确定预设的边强度时,可以针对异构网络创建链路强度模型,使用异构网络中的每条链路的强度作为训练数据进行模型训练,得到链路强度模型;通过模型评价指标对链路强度模型进行评估,根据评估结果,对链路强度模型调整,得到调整的链路强度模型,其中,调整后的链路强度模型满足约束条件,以及通过调整后的链路强度模型对异构网络中的每条边进行预测,得到每条边的强度;根据每条边的强度,确定预设的边强度。
具体地,可以根据每条边的强度进行排序,根据排序结果,确定预设的边强度;此时,若排序结果是强度依次从高到低排序,则可以取排序在80%,70%和65%等设定比例对应的边的强度作为预设的边强度;也可以根据每条边的强度取平均强度,并将平均强度作为预设的边强度。当然,也可以由人工或设备自行设定一个值作为预设的边强度,本说明书不作具体限制。
具体来讲,在创建链路强度模型时,可以通过辑回归或者迭代的决策树(GradientBoosting Decision Tree,简称GBDT)算法建立模型预测各类链路是否正确,此过程中模型的得分就可以作为链路的强度。
然后,使用调整后的链路强度模型对召回网络中的每条边进行预测,得到召回中的每条边的强度;再根据预设的边强度,对召回网络中的边进行筛选,将召回网络中强度小于预设的边强度的边删除,以及将召回网络中强度不小于预设的边强度的边保留,保留的边组成的网络即为筛选后的召回网络。
如此,根据预设的边强度,将召回网络中强度小于预设的边强度的边删除,从而能够召回网络中去除准确度较低的实体,能够有效防止召回网络过分发散,确保召回网络的准确度。
例如,对异构网络中的实体B作为目标实体,基于链路预测算法对实体B进行召回识别,从异构网络中识别出召回实体为B1和B2,得到召回网络如图3所示,其中,召回网络包括实体B,B1,B2,C1,C2,C3,C4和C5,实体B,B1和B2均为自然人,实体C1,C2,C3,C4和C5可以为企业或商户等。针对异构网络进行模型训练,得到调整后的链路强度模型;使用调整后的强度链路模型对召回网络中的每条边进行预测,得到召回网络中每条边的强度;将召回网络中每条边的强度与预设的边强度进行比对,将召回网络中强度不小于预设的边强度的边保留,由于召回网络中边40,边41,边42和边43的强度均小于预设的边强度,从召回网络中删除边40,边41,边42和边43,得到筛选后的召回网络具体如图4所示,其中,筛选后的召回网络包括实体B,B1,B2,C1和C2。
如此,使得筛选后的召回网络中边的强度均不小于预设的边强度,确保了筛选后的召回网络中的实体之间的关联强度,在筛选后的召回网络中的实体之间的关联强度较高的情况下进行后续计算,也使得后续计算的准确性也会随之提高。
本说明书另一实施例中,在获取召回网络或者筛选后的召回网络之后,还可以对召回网络中目标实体与召回实体之间的每条链路进行分级,得到目标实体与召回实体之间的每条链路的级别;根据目标实体与召回实体之间的每条链路的级别,获取目标实体与召回实体之间的目标链路,目标链路的级别大于预设级别;此时,目标链路为目标实体与召回实体之间的级别较高的链路例如为第一级链路和第二级链路,并将目标链路作为目标实体与召回实体之间的最终链路,其中,第一级链路的级别大于第二级链路的级别。
具体来讲,可以根据预设的链路强度,对召回网络中目标实体与召回实体之间的每条链路进行分级。具体地,可以获取目标实体与召回实体之间的每条链路的强度,将每条链路的强度与预设的链路强度进行比对;再根据比对结果,将目标实体与召回实体之间的每条链路进行分级。
本说明书实施例中,预设的链路强度可以由人工或设备进行设定,也可以根据实际需求进行设定。
本说明书实施例中,预设级别根据目标实体与召回实体之间的链路的第一级别进行设定,预设级别通常为小于第一级别且不小于目标实体与召回实体之间的链路的第二级别。当然,预测级别也可以设置为小于第二级别,本说明书不作具体限制。
例如,以图4为例,获取实体B到B1的链路包括链路d1,d2和d3,以预设的链路强度为f为例,若d3>f>d2>d1,则确定d3为第一级链路,d2为第二级链路,以及d1为第三级链路;根据d3、d2和d1的分级,由于d3的级别最高,则确定d3为目标链路。
以及,若大于设定相似度的相似度对应多个备选实体,将多个备选实体均作为召回实体,此时,召回实体的数量≥2;若大于设定相似度的相似度对应一个备选实体,则将大于设定相似度的相似度对应的一个备选实体作为召回实体。
例如,参见图2,若目标实体为a3,若a3与a7之间的相似度大于设定相似度,且a3和a6之间的相似度也大于设定相似度,则将a6和a7均作为召回实体。
在识别出召回实体之后,执行步骤S106。
以及,在步骤S106中,可以首先确定召回实体的数量,若召回实体的数量为1,则直接使用实体识别模型对召回实体进行识别,识别出召回实体与目标实体是否为同一个实体。若召回实体的数量≥2,则可以通过预先创建的实体筛选模型对多个召回实体进行筛选,筛选出可信度最高的一个召回实体;再使用实体识别模型对筛选出的召回实体进行识别,识别出召回实体与目标实体是否为同一个实体。
由于在召回实体的数量≥2时,首先从多个召回实体中筛选出可信度最高的一个召回实体,再使用实体识别模型对筛选出的召回实体进行识别;无需将多个召回实体中每个召回实体进行识别,减少了召回实体的识别数量,能够有效提高识别效率;而且筛选出可信度最高的一个召回实体进行识别,能够有效确保筛选出的召回实体与目标实体的匹配度更高。
本说明书实施例中,可以将历史异构网络中的边特征和实体特征作为训练数据进行模型训练,得到实体筛选模型,其中,边特征包括实体之间的连接关系、边的强度和链路的数量等;实体特征包括企业的经营类型、经营状态、自然人的年龄、学历、机构的类型和级别等。
具体来讲,实体筛选模型可以是二分类模型或多分类模型,本说明书不作具体限制。
如此,在获取到实体筛选模型之后,将多个召回实体中每个召回实体的边特征和实体特征输入到实体筛选模型中,得到多个召回实体中每个召回实体的预设可信度;根据每个召回实体的预设可信度,筛选出可选度最高的一个召回实体。例如,参见图4,通过实体筛选模型分别B1和B2进行可信度预测,得到B1的可信度和B2的可信度,若B1的可信度大于B2的可信度,则判定可信度最高的一个召回实体为B1。
本说明书实施例中,可以使用多个网络包括的历史实体数据进行模型训练,得到实体识别模型,其中,实体识别模型可以是深度学习模型。例如,可以对多个网络包括的历史实体数据中标记的实体对和非实体对进行深度学习,得到实体识别模型。
以及,在召回实体的数量为1,使用实体识别模型对召回实体进行识别过程中,可以将召回实体与目标实之间的所有边特征和实体特征输入到实体识别模型中,识别出召回实体与目标实体是否为同一个实体;当然,还可以通过目标链路获取方式获取目标实体与召回实体之间的目标链路,再使用实体识别模型对目标链路进行识别,即将目标链路中的所有边特征和实体特征输入到实体识别模型中,识别出召回实体与目标实体是否为同一个实体。
若召回实体的数量≥2,从多个召回实体中筛选出可信度最高的一个召回实体之后,再使用实体识别模型对筛选出的召回实体进行识别,此时,同样可以通过目标链路获取方式获取目标实体与筛选出的召回实体之间的目标链路,再使用实体识别模型对目标链路进行识别,即将筛目标实体与选出的召回实体之间的所有边特征和实体特征输入到实体识别模型中,识别出筛选出的召回实体与目标实体是否为同一个实体;当然,还可以将目标链路中的所有边特征和实体特征输入到实体识别模型中,识别出筛选出的召回实体与目标实体是否为同一个实体。
由于在使用实体识别模型进行识别时,输入到实体识别模型中的数据是目标链路的所有边特征和实体特征,而由于目标链路的级别大于预设级别,若链路的级别越高,其链路的可信度越高,如此,能够可信度更高的链路的链路数据输入到实体识别模型中,使得输入到实体识别模型中的链路数据可信度更高时,实体识别模型识别出的结果的可信度也会随之变高,从而能够有效确保识别出召回实体与目标实体是否为同一个实体的准确性。
本说明书实施例中,在使用实体识别模型识别出召回实体与目标实体是否为同一个实体之后,若存在已识别的高可信实体,则可以将已识别的高可信实体作为中间节点进行迭代,继续延伸链路与网络,实现对更多实体进行识别召回,从而增加实体对识别数量。
本说明书实施例采用的技术方案是:根据多个实体及实体间的关联关系,构建异构网络,其中,多个实体位于多个网络中;从异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体;再基于实体识别模型对召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;如此,通过链路预测算法对目标实体进行召回识别,使得识别出的召回实体与目标实体的匹配度更高,在匹配度更高的基础上进行实体识别,使得识别的准确度也会随之提高;而且由于召回实体和目标实体位于多个网络的不同网络中,从而能够实现跨网络识别实体基础上提高识别准确度。
第二方面,基于相同的技术构思,本说明书实施例提供一种跨网络实体的识别装置,参见图5,包括:
异构网络构建单元501,用于根据多个实体及实体间的关联关系,构建异构网络,其中,所述多个实体位于多个网络中;
召回实体获取单元502,用于从所述异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体,其中,所述目标实体和所述召回实体位于所述多个网络中的不同网络中;
识别单元503,用于基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
在一种可选的实施方式中,召回实体获取单元502,用于从所述异构网络中选取所述目标实体;通过链路预测算法,对所述目标实体与每个备选实体之间的链路进行预测,其中,每个备选实体在所述异构网络中均与所述目标实体不相连;基于所述目标实体与每个备选实体之间的相似度,从所有备选实体中确定所述召回实体,其中,所述召回实体与所述目标实体位于所述多个网络的不同网络中。
在一种可选的实施方式中,召回实体获取单元502,用于通过链路预测算法,对所述目标实体与每个备选实体之间的链路进行预测,得到所述目标实体与每个备选实体之间的相似度;选取大于设定相似度的相似度对应的备选实体作为所述召回实体。
在一种可选的实施方式中,识别单元503,用于若所述召回实体的数量为1,则使用所述实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;若所述召回实体的数量≥2,则通过预先创建的实体筛选模型对所述召回实体进行筛选,筛选出可信度最高的一个召回实体;使用所述实体识别模型对筛选出的召回实体进行识别,识别出所述筛选出的召回实体与所述目标实体是否为同一个实体。
在一种可选的实施方式中,识别装置还包括:
召回网络筛选单元,用于在从所述异构网络中识别出召回实体之后,获取所述目标实体和所述召回实体之间的召回网络;基于预设的边强度,对所述召回网络中的边进行筛选,得到筛选后的召回网络。
在一种可选的实施方式中,识别装置还包括:
链路分级单元,用于在得到筛选后的召回网络之后,对所述筛选后的召回网络中目标实体与召回实体之间的每条链路进行分级,得到所述目标实体与所述召回实体之间的每条链路的级别;根据所述目标实体与所述召回实体之间的每条链路的级别,获取所述目标实体与所述召回实体之间的目标链路,其中,所述目标链路的级别大于预设级别。
在一种可选的实施方式中,识别单元503,用于若所述召回实体的数量为1,使用所述实体识别模型对所述目标实体和所述召回实体之间的目标链路进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;若所述召回实体的数量≥2,使用所述实体识别模型对所述目标实体和筛选出的召回实体之间的目标链路进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
第三方面,基于与前述实施例中跨网络实体的识别方法同样的发明构思,本说明书实施例还提供一种电子设备,如图6所示,包括存储器604、处理器602及存储在存储器604上并可在处理器602上运行的计算机程序,所述处理器602执行所述程序时实现前文所述跨网络实体的识别方法的任一方法的步骤。
其中,在图6中,总线架构(用总线600来代表),总线600可以包括任意数量的互联的总线和桥,总线600将包括由处理器602代表的一个或多个处理器和存储器604代表的存储器的各种电路链接在一起。总线600还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口605在总线600和接收器601和发送器603之间提供接口。接收器601和发送器603可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器602负责管理总线600和通常的处理,而存储器604可以被用于存储处理器602在执行操作时所使用的数据。
第四方面,基于与前述实施例中跨网络实体的识别方法的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述跨网络实体的识别方法的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (16)

1.一种跨网络实体的识别方法,包括:
根据多个实体及实体间的关联关系,构建异构网络,其中,所述多个实体位于多个网络中;
从所述异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体,其中,所述目标实体和所述召回实体位于所述多个网络中的不同网络中;
基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
2.如权利要求1所述的方法,所述从所述异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体,包括:
从所述异构网络中选取所述目标实体;
通过链路预测算法,对所述目标实体与每个备选实体之间的链路进行预测,其中,每个备选实体在所述异构网络中均与所述目标实体不相连;
基于所述目标实体与每个备选实体之间的相似度,从所有备选实体中确定所述召回实体,其中,所述召回实体与所述目标实体位于所述多个网络的不同网络中。
3.如权利要求2所述的方法,所述基于所述目标实体与每个备选实体之间的相似度,从所有备选实体中确定所述召回实体,包括:
通过链路预测算法,对所述目标实体与每个备选实体之间的链路进行预测,得到所述目标实体与每个备选实体之间的相似度;
选取大于设定相似度的相似度对应的备选实体作为所述召回实体。
4.如权利要求1-3任一项所述的方法,所述基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体,包括:
若所述召回实体的数量为1,则使用所述实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;
若所述召回实体的数量≥2,则通过预先创建的实体筛选模型对所述召回实体进行筛选,筛选出可信度最高的一个召回实体;使用所述实体识别模型对筛选出的召回实体进行识别,识别出所述筛选出的召回实体与所述目标实体是否为同一个实体。
5.如权利要求4所述的方法,在从所述异构网络中识别出召回实体之后,所述方法还包括:
获取所述目标实体和所述召回实体之间的召回网络;
基于预设的边强度,对所述召回网络中的边进行筛选,得到筛选后的召回网络。
6.如权利要求5所述的方法,在得到筛选后的召回网络之后,所述方法还包括:
对所述筛选后的召回网络中目标实体与召回实体之间的每条链路进行分级,得到所述目标实体与所述召回实体之间的每条链路的级别;
根据所述目标实体与所述召回实体之间的每条链路的级别,获取所述目标实体与所述召回实体之间的目标链路,其中,所述目标链路的级别大于预设级别。
7.如权利要求6所述的方法,所述基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体,包括:
若所述召回实体的数量为1,使用所述实体识别模型对所述目标实体和所述召回实体之间的目标链路进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;
若所述召回实体的数量≥2,使用所述实体识别模型对所述目标实体和筛选出的召回实体之间的目标链路进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
8.一种跨网络实体的识别装置,包括:
异构网络构建单元,用于根据多个实体及实体间的关联关系,构建异构网络,其中,所述多个实体位于多个网络中;
召回实体获取单元,用于从所述异构网络中选取一个实体作为目标实体,基于链路预测算法对目标实体进行召回识别,从所述异构网络中识别出召回实体,其中,所述目标实体和所述召回实体位于所述多个网络中的不同网络中;
识别单元,用于基于已创建的实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
9.如权利要求8所述的装置,所述召回实体获取单元,用于从所述异构网络中选取所述目标实体;通过链路预测算法,对所述目标实体与每个备选实体之间的链路进行预测,其中,每个备选实体在所述异构网络中均与所述目标实体不相连;基于所述目标实体与每个备选实体之间的相似度,从所有备选实体中确定所述召回实体,其中,所述召回实体与所述目标实体位于所述多个网络的不同网络中。
10.如权利要求9所述的装置,所述召回实体获取单元,用于通过链路预测算法,对所述目标实体与每个备选实体之间的链路进行预测,得到所述目标实体与每个备选实体之间的相似度;选取大于设定相似度的相似度对应的备选实体作为所述召回实体。
11.如权利要求8-10任一项所述的装置,所述识别单元,用于若所述召回实体的数量为1,则使用所述实体识别模型对所述召回实体进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;若所述召回实体的数量≥2,则通过预先创建的实体筛选模型对所述召回实体进行筛选,筛选出可信度最高的一个召回实体;使用所述实体识别模型对筛选出的召回实体进行识别,识别出所述筛选出的召回实体与所述目标实体是否为同一个实体。
12.如权利要求11所述的装置,还包括:
召回网络筛选单元,用于在从所述异构网络中识别出召回实体之后,获取所述目标实体和所述召回实体之间的召回网络;基于预设的边强度,对所述召回网络中的边进行筛选,得到筛选后的召回网络。
13.如权利要求12所述的装置,还包括:
链路分级单元,用于在得到筛选后的召回网络之后,对所述筛选后的召回网络中目标实体与召回实体之间的每条链路进行分级,得到所述目标实体与所述召回实体之间的每条链路的级别;根据所述目标实体与所述召回实体之间的每条链路的级别,获取所述目标实体与所述召回实体之间的目标链路,其中,所述目标链路的级别大于预设级别。
14.如权利要求13所述的装置,所述识别单元,用于若所述召回实体的数量为1,使用所述实体识别模型对所述目标实体和所述召回实体之间的目标链路进行识别,识别出所述召回实体与所述目标实体是否为同一个实体;若所述召回实体的数量≥2,使用所述实体识别模型对所述目标实体和筛选出的召回实体之间的目标链路进行识别,识别出所述召回实体与所述目标实体是否为同一个实体。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN202010299820.0A 2020-04-16 2020-04-16 跨网络实体的识别方法、装置、电子设备及介质 Active CN111539210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010299820.0A CN111539210B (zh) 2020-04-16 2020-04-16 跨网络实体的识别方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010299820.0A CN111539210B (zh) 2020-04-16 2020-04-16 跨网络实体的识别方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN111539210A true CN111539210A (zh) 2020-08-14
CN111539210B CN111539210B (zh) 2023-08-11

Family

ID=71974969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010299820.0A Active CN111539210B (zh) 2020-04-16 2020-04-16 跨网络实体的识别方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN111539210B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066479A1 (en) * 2012-04-20 2015-03-05 Maluuba Inc. Conversational agent
CN109190043A (zh) * 2018-09-07 2019-01-11 北京三快在线科技有限公司 推荐方法及装置,存储介质,电子设备及推荐系统
US20190080245A1 (en) * 2017-09-08 2019-03-14 Niantic, Inc. Methods and Systems for Generation of a Knowledge Graph of an Object
CN110188148A (zh) * 2019-05-23 2019-08-30 北京建筑大学 面向多模异构特征的实体识别方法及装置
CN110516247A (zh) * 2019-08-27 2019-11-29 湖北亿咖通科技有限公司 基于神经网络的命名实体识别方法及计算机存储介质
CN110929172A (zh) * 2019-11-27 2020-03-27 中科曙光国际信息产业有限公司 信息选择方法、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066479A1 (en) * 2012-04-20 2015-03-05 Maluuba Inc. Conversational agent
US20190080245A1 (en) * 2017-09-08 2019-03-14 Niantic, Inc. Methods and Systems for Generation of a Knowledge Graph of an Object
CN109190043A (zh) * 2018-09-07 2019-01-11 北京三快在线科技有限公司 推荐方法及装置,存储介质,电子设备及推荐系统
CN110188148A (zh) * 2019-05-23 2019-08-30 北京建筑大学 面向多模异构特征的实体识别方法及装置
CN110516247A (zh) * 2019-08-27 2019-11-29 湖北亿咖通科技有限公司 基于神经网络的命名实体识别方法及计算机存储介质
CN110929172A (zh) * 2019-11-27 2020-03-27 中科曙光国际信息产业有限公司 信息选择方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111539210B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
CN111309822B (zh) 用户身份识别方法及装置
JP2021510429A (ja) 知識および自然言語処理を統合するための機械学習
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
TW201942814A (zh) 物件分類方法、裝置、伺服器及儲存媒體
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
CN108027814A (zh) 停用词识别方法与装置
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、系统、介质及设备
US20210201270A1 (en) Machine learning-based change control systems
CN109344227A (zh) 工单处理方法、系统和电子设备
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN113537960A (zh) 一种异常资源转移链路的确定方法、装置和设备
CN110689211A (zh) 网站服务能力的评估方法及装置
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Mittal et al. A COMPARATIVE STUDY OF ASSOCIATION RULE MINING TECHNIQUES AND PREDICTIVE MINING APPROACHES FOR ASSOCIATION CLASSIFICATION.
US20220019571A1 (en) Auto detection of matching fields in entity resolution systems
KR102514993B1 (ko) 클러스터링을 활용한 입찰 경쟁업체의 투찰금액 예측 방법
CN111539210B (zh) 跨网络实体的识别方法、装置、电子设备及介质
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
CN116757476A (zh) 一种风险预测模型的构建、风险防控方法和装置
CN115099934A (zh) 一种高潜客户识别方法、电子设备和存储介质
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN107402984B (zh) 一种基于主题的分类方法及装置
CN113282686B (zh) 一种不平衡样本的关联规则确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant