CN103748582A - 基于与共同实体的关系的实体解析 - Google Patents

基于与共同实体的关系的实体解析 Download PDF

Info

Publication number
CN103748582A
CN103748582A CN201280040422.0A CN201280040422A CN103748582A CN 103748582 A CN103748582 A CN 103748582A CN 201280040422 A CN201280040422 A CN 201280040422A CN 103748582 A CN103748582 A CN 103748582A
Authority
CN
China
Prior art keywords
entity
instance
relation
entities
similar degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280040422.0A
Other languages
English (en)
Other versions
CN103748582B (zh
Inventor
B·M·卡塞雷斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103748582A publication Critical patent/CN103748582A/zh
Application granted granted Critical
Publication of CN103748582B publication Critical patent/CN103748582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了用于基于与共同实体的关系解析实体的技术。在一个实施例中,比较两个实体以确定实体解析阈值未被满足。确定共同与两个实体相关的一个或多个实体。基于一个或多个共同关联的实体,确定两个实体满足实体解析阈值。随后两个实体被解析为单个实体。

Description

基于与共同实体的关系的实体解析
背景技术
实体解析应用典型地执行实体解析和关系解析中的一个或两者。实体解析试图回答“谁是谁?”的问题,即,确定多个数据记录实际是否是指相同的物理实体或不同的物理实体。例如,识别两个姓氏不同的妇女的数据记录实际上可能是指具有父姓和夫姓两者的同一个妇女。关系解析试图例如通过交叉参考来自不同源的数据,回答“谁知道谁?”的问题,以便确定实体之间的关系的益处和/或风险,这些实体诸如顾客、雇员、卖主等。例如,可识别共享相同地址或电话号码的两个个体之间的关系。实体解析应用的一个例子是可从纽约州阿蒙克市的国际商业机器公司
Figure BDA0000467297270000011
获得的InfoSphere Identity Insight。
发明内容
本发明的实施例提供了一种计算机实现的方法、计算机程序产品和系统,其用于执行包括确定实体解析系统中的第一实体和第二实体之间的类似度得分的操作。每个实体包括一个或多个身份记录,其表示由实体解析系统假设存在的对应的物理实体。而且,每个身份记录包括含有表征对应物理实体的一个或多个属性的数据记录。操作还包括确定类似度分数不满足用于将第一实体和第二实体解析为单个实体的限定阈值。操作还包括识别与第一实体相关的一组一个或多个实体,以及与第二实体相关的一组一个或多个实体。操作还包括基于两个组的交集和通过一个或多个计算机处理器的操作,调整类似度得分,其中所述交集包括至少第三实体。操作也包括一旦确定调整的类似度得分满足预定阈值,确定第一实体和第二实体表示实体解析系统内相同的物理实体。
附图说明
为了详细理解上述方面被实现的方式,可通过参考附图阅读对以上概述的本发明的实施例的更详细的描述。
但是应当注意,附图仅示出了本发明的典型实施例,且因此不被认为是限制其范围,因为本发明可允许其他同等有效的实施例。
图1A是示出根据本发明的一个实施例的用于实体解析的系统的框图。
图1B示出了根据本发明的一个实施例的用于基于共同相关的实体来解析实体的技术。
图2示出了根据本发明的一个实施例、用于实体解析的应用可基于发现的关系为其调整类似度得分的实体的例子。
图3示出了根据本发明的一个实施例、应用可基于发现的关系为其调整类似度得分的实体的另一个例子。
图4示出了根据本发明的一个实施例、应用可基于披露的关系为其调整类似度得分的实体的例子。
图5示出了根据本发明的一个实施例、应用可抑制由于与共同实体的关系而进行解析的实体的例子。
图6示出了根据本发明的一个实施例、应用可抑制由于具有过大数量的关系的实体而进行解析的实体的例子。
图7是示出根据本发明的一个实施例的用于基于与共同实体的关系来解析实体的方法的流程图。
图8是示出根据本发明的一个实施例的用于确定一组一个或多个共同实体的方法的流程图。
图9是示出根据本发明的一个实施例的用于实体解析的应用的组件的框图。
具体实施方式
本发明的实施例提供了一种用于实体解析的应用,其被配置为基于相关身份、实体、条件、活动或事件处理数据记录。在一个实施例中,应用维护为实体解析系统所知(或更具体地,由实体解析系统假设存在于物理世界)的不同物理实体的全体知识。在实体解析系统中,每个物理实体由相应逻辑实体(在此也被称为实体)表示。每个逻辑实体是一组一个或多个数据记录,其被确定为属于由相应逻辑实体表示的物理实体,即,与为实体解析系统已知的其他物理实体相对。换句话说,每个逻辑实体是一组数据记录,其包含描述由相应逻辑实体表示的特定物理实体的一个或多个属性。数据记录在此也被称为身份记录。表示实体解析系统所知的物理实体的逻辑实体也被称为已知(或现有)逻辑实体。物理实体可以是实体解析系统认为存在于物理世界的任何可识别实体,诸如个体、组织、位置、建筑、车辆、动物、物体等。
在一个实施例中,当应用处理新接收到的数据记录(或重新处理现有的数据记录)时,应用确定被处理的数据记录是否属于实体解析系统已知的物理实体。如果是这样,应用添加该数据记录到用于该物理实体的组,即,该数据记录被处理,且表示该物理实体的组被整合或合并为单个逻辑实体。根据实施例,被处理的数据记录也可被实体解析系统认为具有其自己的逻辑实体,该数据记录是该逻辑实体的一部分。确定数据记录(或其逻辑实体)属于实体解析系统已知的特定物理实体在此也被称为将数据记录(或其逻辑实体)“解析为”表示特定物理实体的逻辑实体。
在一些实施例中,应用也可确定数据记录不再属于给定的逻辑实体。在这样的情况下,数据记录可从给定的逻辑实体移除,并被分配给不同或新的逻辑实体。从逻辑实体移除数据在此也被称为从逻辑实体“剥离”数据记录。
在一些情况下,有可能应用不将给定的数据记录解析为任何已知的逻辑实体。在这样的情况下,可以说应用确定数据记录解析为实体解析系统中其自己的逻辑实体。在一些实施例中,应用可额外创建数据记录的逻辑实体和实体解析系统中的已知逻辑实体之间的关系。换句话说,尽管应用没有将数据记录解析为任何已知的逻辑实体,应用仍可确定数据记录描述了与已知的物理实体存在某种关系的物理实体。例如,关系可指雇主雇员关系、配偶关系、卖主买主关系等。至少部分地可基于数据记录中包含的信息做出该确定。
仅为了参考方便,“将被处理的数据记录”在此可被称为“入站身份记录”(inbound identity record)。换句话说,入站身份记录是指将针对已知的逻辑实体被评估(或重新评估的)的任何身份记录,该评估是为了确定是否将身份记录解析为已知的逻辑实体(或从其剥离身份记录)。
如上所述,逻辑实体(或实体)是指一组一个或多个身份记录,其被实体解析系统认为是描述了相同的物理实体。作为例子,当“Bob Smith”登记入住酒店房间时,酒店入住记录中的家庭地址和电话号码可被用于将他匹配为与具有相同地址和电话号码的“Robert Smith”是同一个人。为了将“Bob Smith”与“Robert Smith”进行匹配,描述“Bob Smith”的身份记录与一组实体进行比较,每个实体表示不同的个人。
在一个实施例中,解析身份记录并检测实体间的关系的过程可使用预定或可配置的实体解析规则来执行。典型地,两个实体间的关系是从与实体相关的身份记录中的信息(例如,共享地址、雇员、电话号码等)产生的,所述信息指示了两个实体间的关系。这种规则的两个例子包括以下:
·如果入站身份记录具有相对于现有实体匹配的“社会保险号码”和接近的“全名”,则将入站身份记录解析为现有的实体。
·如果入站身份记录与现有实体具有匹配的“电话号码”,则创建入站身份记录的实体和具有匹配电话号码的实体之间的关系
第一条规则将新的入站记录添加到现有实体中,而第二条基于入站记录创建了两个实体之间的关系。当然,基于入站身份记录的类型,实体关系规则可被调整并适于特定情况的需要。
在一个实施例中,用于实体解析的应用也可包括用于检测相关身份、身份、条件或事件的规则,即,用于基于进入的身份记录产生告警的规则。例如,规则可检查入站身份记录的属性并在发现特定匹配时产生告警(例如,入站身份记录使人感兴趣,因为它包括了特定邮编内的地址)。或者告警规则可指定这样的情况,其中入站身份记录的指定角色与另一个身份记录的指定角色冲突,该入站记录具有与该另一身份记录的零或更大度(degree)的关系(例如,具有指定角色“雇员”的身份与具有指定角色“卖主”的身份有很强的关系)。作为另一个例子,告警规则可被定义为两个方法的组合(例如,每当具有“内华达赌博黑名单”角色的身份也具有“旅馆客人”角色,且涉及的旅馆位于“内华达”州时,进行告警)。当然,使用的相关规则可被调整以适应特定情况的需求。
在一个实施例中,当特定身份记录(典型地是正在被处理的入站记录)的存在使得某个条件被满足(该条件以某种方式相关且可要求用户(例如,商业分析师、警察部门的调查者等)的额外审查)时,应用产生告警。这些过程的结果典型地是关于应当被用户检查的告警列表。这样的告警可有助于用户识别益处(例如潜在的机遇)和风险(例如潜在的威胁和/或欺骗)两者。
在一个实施例种,应用结合关系评估属性以确定第一实体和第二实体是否应当被解析为单个实体。为此,应用可将第一实体与第二实体进行比较以确定第一实体和第二实体近似满足实体解析规则。更具体地,应用可将第一实体和第二实体的属性进行比较以确定用于两个实体的类似度得分。实体解析规则指定了用于将第一实体和第二实体解析为单个实体的特定标准。
在一些情况中,身份记录可通过其类似度得分刚好不满足(例如以不超过预定的数值范围)实体解析规则定义的阈值分数,而近似满足实体解析规则。在这样的情况下,应用可识别与第一实体和第二实体相关的实体。应用基于与第一实体和第二实体共同相关的实体调整类似度得分。至少在一些情况下,类似度得分可调整为超过阈值。换言之,基于第一实体和第二实体与第三实体相关,第一实体和第二实体可被确定为满足实体解析规则。例如,假设用于Jenny Smith的身份记录不满足实体解析规则,该实体解析规则一旦被满足,将触发将身份记录解析为具有姓名Jennifer Smith的实体。还假设Jenny Smith和Jennifer Smith都与第三人Robert Smith具有关系。在这样的情况下,基于与第三方(Robert Smith)的共享关系,应用可重新评估用于(Jenny Smith的)身份记录和Jennifer Smith的实体的类似度得分。假设这使得类似度得分超过了为特定情况设置的阈值,入站身份记录将随后被解析为表示Jennifer Smith的身份。
而且,尽管在此参考由实体解析规则定义的阈值分数描述实施例,可宽泛地考虑其他实施例。例如,在可替代的实施例中,阈值分数可以是由实体解析系统定义的参数。在这样的实施例种,阈值分数不与任何特定的实体解析规则相关。
有益地,相对于仅考虑属性而不考虑关系来解析实体的可替代方法,通过结合关系评估属性,至少在一些情况中应用可以改善的精度执行实体解析。例如,应用可正确地将两个实体解析为单个实体,甚至当属性不足以指示两个实体应当被解析时。
以下将参考本发明的实施例。但是,应当理解本发明不限于在此描述的特定实施例。相反,以下特点和元素的任意组合,不管是否涉及不同的实施例,被认为实施并实践本发明。而且,尽管本发明的实施例相对于其他可能的方案和/或现有技术可实现优势,特定优势是否由给定实施例实现不限制本发明。因此,以下方面、特点、实施例和优势仅是描述性的,且不被认为是所附权利要求书的元素或限制,除非在权利要求书中特别说明。类似地,提及“本发明”不应被理解为是在此公开的任何发明主题的概括,且不应被认为是所附权利要求书的元素或限制,除非在权利要求书中特别说明。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如JavaTM、SmalltalkTM、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article ofmanufacture)。
计算机程序指令也可被加载到计算机、其他可编程数据处理设备或其他设备,使得一些操作步骤在计算机、其他可编程设备或其他设备上执行以产生计算机实施的处理,这样当指令在计算机或其他可编程设备上被执行时,提供处理以实施流程图和/或框图或方框中指定的功能/动作。
本发明的实施例可通过云计算架构被提供给终端用户。云计算通常是指通过网络提供可伸缩的计算资源作为服务。更正式地,云计算可被定义为计算能力,其提供计算资源及其底层技术架构之间的抽象,使得能够对共享的可配置计算资源池进行方便、随需的网络访问,所述计算资源可用最小的管理努力或服务提供者交互被快速提供并释放。因此,计算资源允许用户访问“云中”的虚拟计算资源(例如存储、数据、应用,并甚至完全的虚拟化计算系统),而不考虑用于提供计算资源的底层物理系统(或这些系统的位置)。
典型地,云计算资源以按使用付费的方式被提供给用户,其中仅针对被实际使用的计算资源(例如,用户消费的存储空间的量或用户实例化的虚拟系统的数量)对用户收费。用户可在任何时候、从因特网的任何地方访问驻留在云上的任何资源。在本发明的上下文中,用于实体解析的应用可在云中执行。使得应用在云中执行允许用户从附加到连接到云的网络(例如因特网)的任何计算系统管理实体解析。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
图1A是示出根据本发明的一个实施例的用于实体解析的系统100的框图。联网系统100包括经由网络130连接到数据源170的计算机102。计算机102也经由网络130连接到其他计算机。数据源170存储将被发送给应用150的身份记录,以及/或身份记录针对其被解析的实体。通常,网络130可以是电信网络和/或广域网(WAN)。在特定实施例中,网络130是因特网。
计算机102通常包括经由总线112连接到存储器106、网络接口设备110、存储设备108、输入设备114和输出设备116的处理器104。计算机102通常受操作系统的控制。操作系统的例子包括UNIX、微软
Figure BDA0000467297270000091
操作系统的各种版本和
Figure BDA0000467297270000092
操作系统的发布版等。(注意Linux是LinusTorvalds在美国和其他国家的商标)。更一般地,可使用支持在此公开的功能的任何操作系统。处理器104被包括以代表单个CPU、多个CPU、具有多个处理核的单个CPU等。类似地,存储器106可以是随机存取存储器。尽管存储器106作为单个实体被示出,应当理解存储器106可包括多个模块,且存储器106可在多层存在,从高速寄存器和高速缓存到低速但是更大的DRAM芯片。网络接口设备110可以是允许计算机102经由网络130与其他计算机通信的任何类型的网络通信设备。
存储设备108可以是持久存储设备。尽管存储设备108被示出为单个单元,存储设备108可以是固定和/或可移动存储设备的结合,所述存储设备诸如固定盘驱动器、固态驱动器、软盘驱动器、磁带驱动器、可移动存储卡或光存储器。存储器106和存储设备108可以是跨多个初级和次级存储设备的一个虚拟地址空间的一部分。而且,如上所述,应用150接收来自数据源170的身份记录和/或实体。附加地或可替代地,应用150也可经由存储设备108接收身份记录和/或实体。
输入设备114可以是用于提供输入到计算机102的任何设备。例如,可使用键盘和/或鼠标。输出设备116可以是给计算机102的用户提供输出的任何设备。例如,输出设备116可以是任何传统的显示屏或一组扬声器,及其各自的接口卡,即,音频卡和声卡(未示出)。尽管与输入设备114分开示出,输出设备116和输入设备114可被结合。例如,可使用具有集成触摸屏的显示屏。
如图所示,计算机102的存储器106包括用于实体解析的应用150、实体152和实体152之间的关系156。如上所述,应用150可处理入站身份记录以将入站身份记录解析到一个或多个实体152。每个身份记录可包括一个或多个属性154。在一些实施例中,入站身份记录也可被应用150认为是新实体—至少直到应用150确定是否将新实体解析为引用已知实体。每种关系156可以是披露关系或发现关系。如在此使用的,披露关系是指实体间的任何用户指定关系,诸如员工档案中的紧急联系人、求职申请上的推荐人、保险受益人等。发现关系是指不是用户指定的、而是基于实体属性间的相似性被应用150推断出来的关系。至少在一些实施例中,当两个实体的属性足以指示实体很可能相关但不足以指示实体应当被解析为单个实体时,应用150创建两个实体间的发现关系。例如,当两个实体共享单个匹配属性(诸如电话号码、地址或信用卡号)时,可创建发现关系。
如上所述,在一个实施例中,应用150处理入站身份记录以将入站身份记录解析为一个或多个实体152。至少在一些实施例中,从时间和/或处理的角度来说将入站身份记录与所有已知实体进行比较成本太高了。因此,在一个实施例中,应用150可仅针对已知实体的一个子集来评估入站身份记录,这个已知实体的子集被称为候选实体或简单地称为“候选者”。候选者可基于一个或多个候选者创建属性而被选择。例如,如果候选者创建属性是电话号码,则具有与入站身份记录相同的电话号码的身份记录的实体可被选为候选实体。至少在一些情况中,仅针对候选者来评估入站身份记录可改善应用150的性能。
在一个实施例中,一旦选择候选者,应用150可确定是否将入站身份记录解析为一个候选者。该确定可通过基于其他属性(即除了候选者创建属性外的属性)进一步评估候选者而做出。例如,如果入站身份记录包含与候选实体相同的电话号码、地址、姓名和生日,则入站身份记录和候选者很可能表示相同个体。因此,应用150可将入站身份记录和候选实体解析为单个实体。或者,如果没有候选实体具有确证(corroborating)属性,则入站身份记录被假设为是指新的实体(诸如解析到对于实体解析系统来说还未“知”的个体)。在这种情况下,应用150可基于入站身份记录创建新实体。
在一个实施例中,为了确定是否将入站身份记录解析为一个候选实体,应用150确定入站身份记录和每个候选实体之间的“类似度得分”。用于给定候选实体的类似度得分表征了给定候选实体中的属性与入站身份记录中的属性匹配的程度。应用150可随后选择具有最高类似度得分的候选实体。如果选定的候选者的类似度得分(具有最高类似度得分)超过用于将两个实体解析为单个实体的实体解析规则定义的阈值,则应用150将入站身份记录解析为选定的候选者。否则,应用150将入站身份记录作为新实体存储。在一些实施例中,通过重复上述步骤,入站身份记录和多个候选实体可被解析为单个实体。而且,在一些实施例中,如果选定的候选者的类似度得分至少满足用于创建实体间的关系的较低阈值,应用150也可创建新实体和候选实体之间的发现关系。较低阈值可被用于创建两个实体间关系(而不是将两个实体解析为单个实体)的实体解析规则定义。应用150也可基于选定的候选者的类似度得分确定用于发现关系的关系强度。
在一个实施例中,入站身份记录和给定候选实体之间的类似度得分可基于一个或多个预定得分规则而被确定。得分规则可分配相对权重给每个匹配或不匹配的属性,且每个权重可以是正的或负的。得分规则也可分配共性因子给匹配的属性。共性因子表征一个匹配属性的一部分或全部发生在实体解析系统中的频率。例如,假设在入站身份记录的姓名“James SmithRobinson”和候选实体的姓名“James Smith”之间存在部分匹配。如果应用150也确定姓名“James Smith”是实体解析系统中存储的实体中经常可遇到的,则应用150可减少(或消除)该部分匹配对类似度得分的贡献度。附加地或替换地,如果应用150确定匹配地姓名很少在存储在实体解析系统中的实体中被遇到,则应用150可增加匹配姓名对于类似度得分的贡献度。属性值发生在实体解析系统中的程度可以频率统计的形式被维护,且可被应用150获得。在其他实施例中,频率统计可基于数据源(诸如外部姓名数据库)而不是实体解析系统被确定。
至少在一些实施例中,类似度得分通过两个阶段计算:初始阶段,其中基础类似度得分被计算,以及调整阶段,其中对基础类似度得分做出一个或多个调整以产生(最终的)类似度得分。例如,在初始阶段,匹配的姓名和地址可产生100分,其可以是用于解析入站身份记录的最小得分。另一方面,如果应用150随后在调整阶段确定生日不匹配,则应用150可将类似度得分降低相关量(例如20),由此阻止身份记录被解析。例如,入站身份记录和候选实体可代表在不同的时间点位于相同地址的不同个人。预定的得分规则可指定每个匹配或不匹配的属性是否在初始阶段或调整阶段被考虑。在可替代实施例中,类似度得分在单个阶段被计算,考虑所有的权重以及预定得分规则指定的匹配和/或不匹配的属性。
在一些实施例中,为了改善应用150的性能,预定得分规则也可指定用于考虑调整的阈值分数。例如,可指定200的最大阈值分数,因为负调整不太可能(而正调整不会)影响将入站身份记录解析为候选实体的结果,其中候选实体具有200或更大的类似度得分。阈值分数也可特定于指定调整。例如,95的最小阈值分数可被指定给调整,该调整可能为类似度得分增加5,因为总数为100的得分会触发入站身份记录被解析。在一些例子中,可能想要低于95的阈值分数,因为其他调整可有助于足以增加分数而触发入站身份记录被解析。因此,使用用于考虑调整的阈值分数,至少在一些情况下,应用150可避免引起与不必要的比较属性和/或计算调整相关的处理时间和/或成本。至少在一些实施例中,应用150重新获取元数据,其指示已知哪些调整是处理密集型的。基于元数据,应用150可选择性地避免执行处理密集型调整。因此,使用在此公开的技术,足够的处理和精确得分之间的权衡可被用户配置以适于特定情况的需求。
在一个实施例中,应用150基于与以下各项共同相关的一个或多个实体调整类似度得分:(i)表示身份记录的第一实体和(ii)候选实体。例如,类似度得分可基于一个或多个实体的计数、一个或多个实体与第一实体(和/或与候选实体)的关系强度和/或一个或多个实体与第一实体(和/或与候选实体)的分离度(degrees of separation)数而被调整。候选实体可基于相对于其他候选实体具有最高类似度得分而被选择。
在一个实施例中,可基于与第一实体和/或候选实体相关的关系而识别一个或多个实体。在一些实施例中,关系可被表示为与第一实体和/或候选实体相关的关系图的形式。如在此使用的,关系图是指将实体表示为顶点且将实体间的关联表示为边的任何图。可通过遍历关系图来识别一个或多个实体。根据实施例,关系图可被提前生成或在遍历期间或紧接着遍历之前被动态生成。如在此使用的,如果从第一实体通过第三实体到第二实体有一条路径,其中该路径满足预定路径准则,则第一实体和第二实体被称为具有共同相关的第三实体。路径准则可指定三个实体中任意两个之间的最大分离度数。更简单地,C被称为与A和B共同相关,如果C在最大分离度数内与A和B都相关。此外,路径准则可指定路径的任何分段的最小关系强度。路径准则可指定在路径中没有实体应出现两次。这样做可在其中最大分离度数大于1的情况下,阻止相关实体的关系被不正确地划分为相关实体。
例如,假设实体C与实体A和B共同相关。更具体地,假设实体C分别与实体A和B具有一度关系。假设实体C与实体D也具有一度关系。不是指定实体D由于路径{A,C,D,C,B}也与实体A和B共同相关,该路径被取消资格,因为C在路径中出现两次。换句话说,仅仅因为C与A和B共同相关,这并不自动使得C的其他一度关系(诸如实体D)与A和B共同相关。但是,实体D可能仍会经由其他路径被指定与实体A和B共同相关,诸如通过实体E和F(例如经由路径{A,E,D,F,B})。在基于与第一实体和候选实体共同相关的一个或多个实体调整类似度得分后,应用150可确定候选实体是否满足实体解析规则。如果是这样,应用150将第一实体和候选实体解析为单个实体。
在一个实施例中,当遍历关系图时,不考虑第一实体和候选实体之间的关系(包括披露关系和发现关系)。这样做阻止了应用150不正确地将实体识别为与第一实体和候选实体共同相关。例如,假设实体A与实体B相关,且实体B与实体C相关。进一步假设实体A和实体C仅通过实体B相关。不考虑实体A和实体B之间的关系阻止了实体C被不正确地识别为与实体A和实体B共同相关的实体。
图1B是根据本发明的实施例的用于基于共同相关的实体来解析实体的技术的可视化描述160。如上所述,基于分别包含在第一和第二实体1521和1522中的属性1541、1542,应用150确定第一实体1521和第二实体1522之间的类似度得分178。类似度得分178不满足用于将第一实体和第二实体整合(或合并)为单个实体的阈值类似度180。换句话说,类似度得分不足以使应用150推断出第一实体和第二实体代表相同的物理实体。在一个实施例中,应用150确定与第一实体1521相关的一组实体172以及与第二实体1522相关的一组实体174。应用150随后确定两个组172、174之间的交集176。该交集仅包括那些与第一实体1521和第二实体1522共同相关的实体。应用150随后基于交集调整类似度得分178。如果调整的类似度得分超过阈值类似度180,则应用150将第一实体和第二实体整合为单个实体。
图2示出了根据本发明的一个实施例基于发现的关系应用150可对其调整类似度得分的实体的例子。该例子在具有两个室友James Smith和John Robinson的上下文中被展示。当然,本领域技术人员知道在此展示的例子仅是示意性的,而不旨在限制本发明的实施例。如图所示,实体包括实体A1521、实体B1522和实体C1523。假设实体A包含入站身份记录,实体B是候选实体,且实体C是与实体A和实体B中的至少一个相关的实体。实体包括以下属性:身份记录指示符202、姓名204和生日206。此外,实体A和实体C包括表示电话号码208的属性,且实体B和C包括表示地址210的属性。如图所示,实体A和B具有匹配的姓名204和生日206。至少在一些情况下,匹配的姓名和生日可足以触发将实体A和B解析为单个实体。
但是,假设姓名“James Smith”在实体解析系统中很常见。结果,类似度得分可能不足以(或可被调整得不足以)触发将实体A和实体B解析为单个实体。另一方面,应用150推断(或之前已推断)实体A和实体B与实体C共同相关。更具体地,应用150推断(或之前已推断):(i)基于匹配的电话号码,实体A和实体C之间的关系212;以及(ii)基于匹配的地址,实体B和C之间的关系214。如上所述,这些关系被称为发现关系。在一个实施例中,基于共同相关的实体C,应用150增加了实体A和B之间的类似度得分。类似度得分被增加,因为通常不太可能,John(实体C)两个具有相同名字和生日的不同个体作为室友,而不管该名字是否常见。如果增加的类似度得分满足实体解析规则定义的阈值,则应用150将实体A和B解析为单个实体。因此,共同相关的实体C的存在实际上可触发实体A和B至少在一些情况下(诸如类似度得分刚刚低于实体解析规则定义的阈值)被解析。
在一个实施例中,至少部分作为生成和/或遍历关系图的结果,与确定两个实体是否具有特定的匹配属性相比,确定两个实体是否具有共同相关的实体将会代价更高(从处理时间和/或计算资源来说)。因此,在一些实施例中,应用150被配置为仅当类似度得分低于阈值预定程度(例如在100点的阈值的10点以内)时,识别共同相关的实体。这样做可至少在一些情况下(诸如类似度得分的增加将仍然不足以触发实体解析),阻止应用150不必要地识别共同相关的实体。该预定程度可以是用户指定的,且/或被调整已适于特定情况的需求。因此,在本上下文中,用户也可管理高效处理和精确评分之间的权衡。
图3示出了根据本发明的实施例基于发现关系应用150可对其调整类似度得分的实体的另一个例子。该例子被展示在一个个体James Smith的上下文中,该个体已被一家餐馆店主Roger Ramirez向执法机构重复报告为游荡。如图3所示,实体包括实体A1541、实体B1542和实体C1543。再一次地,假设实体A包含入站身份记录,实体B是候选实体,且实体C是与实体A和实体B中的至少一个相关的实体。实体包括以下属性:身份记录指示符302、姓名304和一个或多个投诉标志符308。在该特定例子中,每个投诉标识符唯一地识别由执法机构提交的投诉,其中每个投诉指定侵犯者和向执法机构提交投诉的人。此外,实体A和实体B包括表示生日308的属性,实体C包括分别表示地址310和电话号码312的属性。而且,实体A包括身份记录A1,实体B包括身份记录B2,且实体C包括两个身份记录,C1和C2。每个身份记录与相应投诉者标示符相关。
假设如在之前的例子中那样,从实体A和实体B计算的类似度得分不足以触发将实体A和实体B解析为单个实体。在一个实施例中,应用150推断实体A和B与实体C共同相关。更具体地,应用150推断:(i)基于第一匹配的投诉标识符,身份记录A1和C1之间的关系314;以及(ii)基于第二匹配的投诉标识符,身份记录B1和C2之间的关系316。在一个实施例中,基于共同相关的实体C,应用150增加了实体A和实体B之间的类似度得分。增加类似度得分是因为通常不太可能提交投诉的人(实体C)对于同一个侵害会报告具有相同姓名和生日的两个不同个人,不管该姓名有多常见。换句话说,通常很可能是提交投诉的人已两次报告重复的侵害者。如果增加的类似度得分满足实体解析规则定义的阈值,则应用150将实体A和B解析为单个实体。
图4示出了根据本发明的实施例基于披露关系应用150可对其调整类似度得分的实体的例子。例子被展示在一个个体Joy Sado的上下文中,该个体被列为另一个个体Roger Ramirez的求职申请的推荐人。此外,Joy还被列为Roger的员工人寿保险计划的受益人。假设实体A包含表示Joy的入站身份记录,实体B是也表示Joy的候选实体,且实体C是与实体A和实体B中的至少一个有关的实体。实体包括以下属性:身份记录指示符402、姓名404和电话号码406。此外,实体B和C包括分别表示生日408和地址410的属性。而且,实体A包括身份记录A1,实体B包括身份记录B2,且实体C包括两个身份记录,C1和C2。假设C1表示Roger的求职申请,且C2表示Roger的员工人寿保险计划。
假设姓名“Joy Sado”不是实体解析系统中常见的。因此,匹配的姓名和匹配的电话号码可能足以触发实体A和B解析为单个实体。但是。实体B的电话号码与实体A的电话号码不精确匹配。例如,数据输入和/或处理中的错误可能导致实体B的电话号码与实体A的电话号码相差一位数。相差一位数的电话号码可导致实体A和B刚刚不满足实体解析规则定义的阈值。
另一方面,在一个实施例中,应用150识别出实体A和B与实体C共同相关。该识别是基于以下做出的:(i)基于求职推荐人,身份记录C1和A1之间的披露关系412;以及(ii)基于受益人列表,身份记录C2和B1之间的披露关系414。在一个实施例中,基于共同相关的实体C,应用150于是增加实体A和B之间的类似度得分。增加类似度得分是因为通常Roger不太可能与具有相同名字和类似电话号码的两个不同个体密切相关,从而将一个列为求职推荐人,而另一个列为受益人。如果增加的类似度得分满足由实体解析规则定义的阈值,则应用150将实体A和B解析为单个实体。
以上结合图2到4描述的例子涉及至少在一些情况下使用关系来避免实体解析不足。如在此使用的,解析不足是指当两个实体实际上是指同一个个体(且其应当被解析)时,不正确地没有将两个实体解析为单个实体。在一些实施例中,在此公开的技术也可进一步被改善以避免由于使用关系而导致过度解析实体。如在此使用的,过度解析是指当两个实体实际上是不同实体(且其不应当被解析)时,不正确地将两个实体解析为单个实体。
在一个实施例中,通过不考虑仅由第一实体(包含入站身份记录)和候选实体之间已经共享的身份属性值而形成的发现关系,可改善该技术。例如,假设实体A包含入站身份记录且实体B包含与实体A匹配的两个属性:姓名和生日。假设实体A和B具有不足以将实体A和B解析为单个实体的类似度得分。例如,也许匹配的姓名经常出现在实体解析系统中,例如“James Smith”。还假设基于实体A和B之间的部分或全部匹配属性,应用150推断实体A和B中的每个与实体C之间的关系。换句话说,假设实体C也具有匹配的姓名和/或匹配的生日。
在一些实施例中,尽管实体C中的匹配属性不一定足以使得实体C被解析为实体A或B,实体C中的匹配属性可能仍足以使应用150推断实体C与实体A和B中的每个之间的关系。通过使用在此公开的改善技术,应用150不考虑实体C与实体A和B中的每个之间的推断关系,从而根本阻止实体C增加实体A和实体B之间的类似度得分。这是因为实体C不包含将实体A与实体B关联的新信息(即,属性)。反而,实体C中将实体A和实体B进行关联的属性已包含在实体A和B中。因此,至少在一些情况下,改善的技术可阻止由于使用实体间的关系而过度解析实体。例如,改善的技术防止实体C不正确地触发将实体A和实体B解析为单个实体。
图5示出了根据本发明的实施例,应用150可抑制由于与共同实体的关系而进行解析的实体的例子。如图所示,实体A、B和C每个包括各自的身份记录指示符502。此外,实体A、B和C包括以下匹配的属性:姓名502和生日506。在该特定例子中,匹配的姓名是“James Smith”,其在实体解析系统中很常见。因此,实体A和B可能具有类似度得分,其不足以触发将实体A和B解析为单个实体。而且,基于匹配的属性姓名502和生日506,应用150可推断实体A和B中的每个与实体C之间的关系。更具体地,基于匹配的属性,应用150可推断以下各项之间的关系508、510和512:分别是实体A和C、实体B和C以及实体A和B。另一方面,实体C没有使用相对于实体A和B已包含的属性的任何新属性来关联实体A和B。因此,应用150不考虑推断的关系,从而阻止了基于推断的关系,实体A和实体B之间的类似度得分增加。因此,应用150阻止实体C使得实体A和B变得过度解析。
在一些实施例中,改善技术以避免至少在一些情况下过度解析实体的可替代方法包括将每种关系指定为“类似关系”或“关联关系”。如在此使用的,类似关系是指指示实体很可能代表同一个个体的实体间的关系。例如,可在两个实体间创建类似关系,其中实体具有不满足用于将实体解析为单个实体的更高阈值、但是满足用于在两个实体间创建类似关系的较低阈值的类似度得分。关联关系是指指示实体很可能代表单独但相关个体的实体间的关系。例如,可基于披露关系在两个实体之间创建关联关系,诸如保险政策的受益人、员工档案上的紧急联系人、求职申请上的推荐人等。个体通常可能不太可能将其自己列在至少一些类型的披露关系中。一旦每种关系被指定为类似关系或关联关系,于是可通过不考虑所有的类似关系,由此阻止任何类似关系增加类似度得分,来改善技术。或者,可通过仅考虑关联关系,由此允许仅关联关系增加类似度得分,来改善技术。
附加地或可替代地,在一个实施例中,技术可被改善以避免其他情况中过度解析实体。例如,技术可被改善以阻止过度相关的实体使得两个实体被过度解析。如在此使用的,过度相关的实体是指具有过大数量的第一度关系的实体。例如,如果实体具有超过预定阈值的数量的第一度关系,应用150可确定指定实体为过度相关的实体。过度相关的实体通常比具有较少数量的第一度关系的实体更可能引起过度解析。
图6示出了根据本发明的一个实施例、应用150抑制由于具有过大数量的关系的实体而进行解析的实体的例子。以在内华达州收到交通传票(citation)的租车客户为上下文展示例子。假设租车客户是Acme RentalCar公司的客户,该公司是一家租车公司,其在内华达州机动车辆部(DMV)登记有大量汽车。在DMV的每个登记导致了新产生的身份记录,每个记录具有各自的不同牌照。如图所示,实体A和B每个表示名为JamesSmith的客户,而实体C表示Acme Rental Car。实体A、B和C每个包括身份记录指示符602和姓名604。此外,实体A和B包括生日606、牌照608、传票日期610和驾驶执照612。实体C包含所有新产生的身份记录(以及各个不同的牌照)。例如,基于匹配的属性,诸如姓名、电话号码和地址,应用150可将所有新产生的身份记录解析为单个实体,即实体C。
在该特定例子中,假设实体A表示个体James Smith,他在2002年驾驶一辆租赁车辆时接收到一张传票,且在收到传票时拥有加利福尼亚驾照。进一步假设实体B表示与James Smith具有相同姓名的个体,而他在2008年驾驶一辆不同的租赁车辆时收到一张传票,且在收到传票时具有德州驾照。还假设实体A和B具有匹配的生日。如上所述,匹配的名字和生日可典型地足以触发将实体A和B解析为单个实体。但是,因为姓名“JamesSmith”经常出现在实体解析系统中,实体A和B可具有刚好未达到将实体A和B解析为单个实体的阈值的类似度得分。
在一个实施例中,改善技术,以不考虑任何过度相关的实体,从而阻止与过度相关的实体的任何关系不正确地使得两个实体被解析为单个实体。如上所述,如果实体具有超过预定阈值的数量的关系,应用150可确定将实体指定为过度相关的实体。预定阈值可以是用户指定的,和/或基于实体解析系统中根据关系计数的指定实体百分比而确定。例如,在一个实施例中,基于关系计数前百分之二十的实体可不被应用150考虑。改善的技术可被用来阻止Acme Rental Car(实体C)不正确地使得实体A和B被解析为单个实体。
当然,有可能在2002年和2008年间,名为James Smith的个人从加州搬到德州,并在多个场合访问内华达州,而在内华达州期间接收到两张传票。另一方面,如果Acme Rental Car是一家具有数以千计客户的大公司,则同样可能名为James Smith的两个个人,各自分别从加州和德州访问内华达州,而在内华达州期间都分别收到传票。实体是指两个不同个体的可能性至少在一些程度上与Acme Rental Car的第一度关系的数量和/或James Smith的名字的普遍性相称。因此,通过使用改善的计数,应用150可避免在这种情况下过度解析实体。
图7是示出根据本发明的实施例用于基于与共同实体的关系解析实体的方法700的流程图。如图所示,方法700从步骤710开始,在此应用150比较第一实体和第二实体以确定第一实体和第二实体几乎满足实体解析规则。第一实体可包含入站身份记录,而第二实体可以是候选实体。如上所述,实体解析规则指定用于将第一实体和第二实体解析为单个实体的规则。几乎满足实体解析规则包括具有以不超过预定范围未达到由实体解析规则定义的阈值的类似度得分。
在步骤720,应用150确定与第一和第二实体相关的一组一个或多个实体,其中该组一个或多个实体包括至少第三实体。可通过遍历含有披露和/或发现关系的关系图而确定一个或多个实体。下文中结合图8进一步描述步骤720。在步骤730,基于一组一个和多个实体,应用150确定第一实体和第二实体满足实体解析规则。例如,第一和第二实体之间的类似度得分可以基于一个或多个实体而增加,增加的类似度得分满足由实体解析规则定义的阈值。在步骤740,于是应用150可将第一和第二实体解析为单个实体。在步骤740后,方法750终止。
图8是示出根据本发明的实施例用于确定与图7的第一和第二实体共同相关的一组一个或多个实体的方法800的流程图。方法800对应于图7的步骤720。而且,尽管在此参考关系形式的组的底层表示来描述实施例,也可宽泛地设想其他实施例。例如,组的底层表示可以是实体形式,而不是关系形式。例如,该实体C共同与实体A和B相关,可以被表示成实体形式(即,作为包含实体C的组),而不是关系形式(级,包含A和C之间的第一关系和B和C之间的第二关系的组)。在该特定上下文中,实体C可互换地被称为与实体A和/或实体B相关的实体或者实体A和/或实体B的关系。
如图所示,方法800从步骤810开始,在此应用150识别第一和第二实体的每个的所有一度发现关系,除了第一和第二实体之间的任何关系。应用150可将识别的关系添加到组。在步骤820,应用150可从组移除这样的发现关系,所述发现关系仅是从第一和第二实体之间已存在匹配的属性确定的。例如,应用150可从组移除图5的关系508、510和512(以及/或实体1543)。在步骤830,应用150为第一和第二实体中的每个添加披露关系到组,除了第一和第二实体之间的任何关系。在步骤840,应用150可选地从组移除不满足最小关系强度的任何关系,这样只有超过想要强度的关系在确定共同相关的实体时被考虑。
在步骤850,应用150移除到第三实体的任何关系,该第三实体对第一和第二实体来说不是共同的,从而产生一组共同相关的实体。在步骤860,应用150可选地在组中遍历一个或多个额外度的关系,向组添加发现与第一和第二实体共同相关的任何实体。在步骤870,应用150可选地从组移除与被识别为过度相关实体的任何关系。例如,应用150可从组移除图6的关系618和620(和/或实体C1543)。在步骤870后,方法800终止。
图9是示出根据本发明的实施例的图1A的应用150的组件900的框图。如图所示,组件900包括实体解析组件910、关系生成器920、关系遍历器930和评分组件940。评分组件940包括基础评分模块950和调整模块960。在一个实施例中,实体解析组件910被配置为将多个实体解析为单个实体或将单个实体分为多个实体。为此,实体解析组件910应用一条或多条实体解析规则。因此,实体解析组件910可执行图7的步骤740。关系生成器920被配置为基于包含在实体中的属性和预定关系准则,创建并存储实体间的推断的关系。例如,关系生成器920可执行图8的步骤810的一部分或全部。
在一个实施例中,关系遍历器930被配置为探索关系图以识别共同相关的实体。为此,关系遍历器930可应用预定的遍历准则。遍历准则的例子包括关系强度、分离度、关系计数等。因此,关系遍历器930可执行图8的步骤820到870。评分组件940被配置为计算类似度得分,其至少部分表示第一实体的属性与第二实体的属性匹配的程度。为此,评分组件940应用一条或多条预定评分规则。因此,评分组件940可执行图7的步骤710和/或730的全部或一部分。在通过两个阶段计算类似度得分的实施例中,基础评分模块950执行步骤710的一部分或全部,且调整模块960执行步骤730的一部分或全部。
有益地,本发明的实施例提供用于基于与共同实体的关系执行解析实体的技术。一个实施例提供了用于实体解析的应用。应用比较两个实体以确定实体解析阈值几乎满足,其中实体解析阈值是指用于将两个实体解析为单个实体的阈值。应用确定与两个实体共同相关的一个或多个实体。应用随后基于一个或多个共同相关的实体,确定两个实体满足实体解析阈值。应用随后将两个实体解析为单个实体。有益地,至少在一些情况中应用相对于可替代方案可更精确地解析实体。更具体地,由于使用在此公开的技术,实体解析不足可被减少,同时最小化任何实体过度解析。
在一个实施例中,实体可被更精确地解析,特别是当获取的数据量和/或质量较低时。低数据量的例子是对于许多个体仅记录姓名和生日。低质量的数据的例子是在捕获的数据中有许多不一致,这也许是因为数据输入和/或数据处理中的错误导致的。例如,数据可包括许多身份记录,每个具有看起来是名字“James Smith”的不同错误拼写。当身份记录实际上应当被解析为单个实体时,此处的技术可被用来减少在实体解析系统中跨越大量稀疏分布的实体的身份记录的发生。
如上所述,至少在一些情况中,相对于可替代方法,应用可更精确地解析实体。可替代方法的例子是包括基于共同的名字和/或改变实体解析规则中指定的阈值,选择性地使能解析实体,而不在解析实体时考虑与共同实体的关系。尽管可替代方法可一定程度减少解析不足,但结果可能更频繁得多地发生过度解析。至少在一些实施例中,可使用与概率论中的生日问题相关的概率技术来测量过度解析更频繁得多地发生的程度。生日问题涉及到这样的概率,在一组随机选择的人中,某一对人将具有相同的生日。作为例子,实体解析系统中的实体通常可仅包含姓名和生日。在50年的跨度中大约有18250个不同的生日,不包括闰年中的额外一天。假设每个不同的生日都被加载到实体解析系统,且给定的姓名与160个不同生日相关。在该特定例子中,有大约50%的可能性一个生日属于具有相同名字的两个不同个体。而且,在大约有800万人口且将近一半是男性的纽约市的上下文中,有可能有1320个不同的人都叫“James Smith”。如果400个不同个体被加载到实体解析系统,则有98.8%的可能性两个个体具有相同的生日。这是因为概率是基于(i)个体和(ii)生日的成对组合的数量。因为两个不同个体具有相同生日的概率很高,由于使用可替代方法,过度解析可能会更频繁得多地发生。
尽管前述内容描述了本发明的实施例,也可设想本发明的其他和进一步的实施例,而不脱离其基本范围,且其范围是由所附权利要求书确定的。

Claims (24)

1.一种计算机实施的方法,包括:
确定实体解析系统中的第一实体和第二实体之间的类似度得分,每个实体包括表示由实体解析系统假设存在的对应物理实体的一个或多个身份记录,每个身份记录包括含有表征对应物理实体的一个或多个属性的数据记录;
确定所述类似度得分不满足用于将第一实体和第二实体解析为单个实体的定义阈值;
识别与所述第一实体相关的一组一个或多个实体以及与所述第二实体相关的一组一个或多个实体;
基于两个组之间的交集并通过一个或多个计算机处理器的操作调整类似度得分,其中所述交集包括至少第三实体;以及
一旦确定调整的类似度得分满足定义阈值,确定第一实体和第二实体表示实体解析系统内相同的物理实体。
2.如权利要求1所述的计算机实施的方法,其中所述类似度得分是通过比较第一实体和第二实体的属性确定的,且其中所述第二实体是候选实体。
3.如权利要求1所述的计算机实施的方法,其中所述第三实体是从基于以下各项中的至少一个识别的一组实体中选择的:(i)与第一实体或第二实体的分离度以及(ii)相关的关系强度;其中在识别所述一组实体时不考虑第一实体和第二实体之间的任何关系,其中至少一个关系包括发现关系和披露关系中的一个,且其中在识别所述一组实体时不考虑仅基于由第一和第二实体共享的一个或多个属性值的任何发现关系。
4.如权利要求1所述的计算机实施的方法,其中第三实体具有不超过预定阈值分离度,其中所述分离度是从第一实体和第二实体中的至少一个测量的。
5.如权利要求1所述的计算机实施的方法,其中第三实体具有不超过预定阈值的一度关系计数。
6.如权利要求1所述的计算机实施的方法,其中类似度得分是基于以下各项中的至少一个被调整的:(i)交集的范围;(ii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的关系的强度的度量;以及(iii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的分离度计数。
7.如权利要求1所述的计算机实施的方法,其中至少第三实体不包括满足与第一和第二实体中的至少一个的类似度阈值的任何实体,其中满足类似度阈值包括具有与第一和第二实体中的至少一个的关系,其中该关系是仅基于对第一和第二实体共同的一个或多个身份属性。
8.如权利要求7所述的计算机实施的方法,其中每个关系包括类似关系和关联关系中的一个,其中具有与第一和第二实体中的至少一个的发现关系、且满足类似度阈值的实体被指定为具有类似关系,且其中具有与第一和第二实体中的至少一个的披露关系的实体被指定为具有关联关系。
9.一种计算机程序产品,包括:
包含有计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码包括:
被配置为确定实体解析系统中的第一实体和第二实体之间的类似度得分的计算机可读程序代码,每个实体包括表示由实体解析系统假设存在的对应的物理实体的一个或多个身份记录,每个身份记录包括含有表征对应物理实体的一个或多个属性的数据记录;
被配置为确定类似度得分不满足用于将第一实体和第二实体解析为单个实体的定义阈值的计算机可读程序代码;
被配置为识别与第一实体相关的一组一个或多个实体以及与第二实体相关的一组一个或多个实体的计算机可读程序代码;
被配置为基于两个组的交互调整类似度得分的计算机可读程序代码,其中所述交集包括至少第三实体;以及
被配置为一旦确定调整的类似度得分满足定义阈值,确定第一实体和第二实体表示实体解析系统内相同的物理实体的计算机可读程序代码。
10.如权利要求9所述的计算机程序产品,其中类似度得分是通过比较第一实体和第二实体的属性确定的,且其中第二实体是候选实体。
11.如权利要求9所述的计算机程序产品,其中第三实体是从基于以下各项中的至少一个识别的一组实体中选择的:(i)与第一实体或第二实体的分离度以及(ii)相关的关系强度;其中在识别所述一组实体时不考虑第一实体和第二实体之间的任何关系,其中至少一个关系包括发现关系和披露关系中的一个,且其中在识别所述一组实体时不考虑仅基于由第一和第二实体共享的一个或多个属性值的任何发现关系。
12.如权利要求9所述的计算机程序产品,其中第三实体具有不超过预定阈值分离度,其中所述分离度是从第一实体和第二实体中的至少一个测量的。
13.如权利要求9所述的计算机程序产品,其中第三实体具有不超过预定阈值的一度关系计数。
14.如权利要求9所述的计算机程序产品,其中类似度得分是基于以下各项中的至少一个调整的:(i)交集的范围;(ii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的关系的强度的度量;以及(iii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的分离度计数。
15.如权利要求9所述的计算机程序产品,其中至少第三实体不包括满足与第一和第二实体中的至少一个的类似度阈值的任何实体,其中满足类似度阈值包括具有与第一和第二实体中的至少一个的关系,其中该关系是仅基于对第一和第二实体共同的一个或多个身份属性。
16.如权利要求15所述的计算机程序产品,其中每个关系包括类似关系和关联关系中的一个,其中具有与第一和第二实体中的至少一个的发现关系、且满足类似度阈值的实体被指定为具有类似关系,且其中与第一和第二实体中的至少一个具有披露关系的实体被指定为具有关联关系。
17.一种系统,包括:
一个或多个计算机处理器;
存储器,包含程序,该程序当被一个或多个计算机处理器执行时,被配置为执行包括以下步骤的操作:
确定实体解析系统中的第一实体和第二实体之间的类似度得分,每个实体包括表示由实体解析系统假设存在的对应的物理实体的一个或多个身份记录,每个身份记录包括含有表征对应的物理实体的一个或多个属性的数据记录;
确定类似度得分不满足用于将第一实体和第二实体解析为单个实体的定义阈值;
识别与第一实体相关的一组一个或多个实体和与第二实体相关的一组一个或多个实体;
基于两个组的交集调整类似度得分,其中所述交集包括至少第三实体;以及
一旦确定调整的类似度得分满足定义阈值,确定第一实体和第二实体表示实体解析系统中相同的物理实体。
18.如权利要求17所述的系统,其中类似度得分是通过比较第一实体和第二实体的属性确定的,且其中第二实体是候选实体。
19.如权利要求17所述的系统,其中第三实体是从基于以下各项中的至少一个识别的一组实体中选择的:(i)与第一实体或第二实体的分离度以及(ii)相关的关系强度;其中在识别所述一组实体时不考虑第一实体和第二实体之间的任何关系,其中至少一个关系包括发现关系和披露关系中的一个,且其中在识别所述一组实体时不考虑仅基于由第一和第二实体共享的一个或多个属性值的任何发现关系。
20.如权利要求17所述的系统,其中第三实体具有不超过预定阈值的分离度,其中所述分离度是从第一实体和第二实体中的至少一个测量的。
21.如权利要求17所述的系统,其中第三实体具有不超过预定阈值的一度关系计数。
22.如权利要求17所述的系统,其中类似度得分是基于以下各项中的至少一个调整的:(i)交集的范围;(ii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的关系的强度的度量;以及(iii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的分离度计数。
23.如权利要求17所述的系统,其中至少第三实体不包括满足与第一和第二实体中的至少一个的类似度阈值的任何实体,其中满足类似度阈值包括具有与第一和第二实体中的至少一个的关系,其中该关系是仅基于对第一和第二实体共同的一个或多个身份属性。
24.如权利要求23所述的系统,其中每个关系包括类似关系和关联关系中的一个,其中具有与第一和第二实体中的至少一个的发现关系的实体、且满足类似度阈值的实体被指定为具有类似关系,且其中具有与第一和第二实体中的至少一个的披露关系的实体被指定为具有关联关系。
CN201280040422.0A 2011-08-24 2012-06-21 基于与共同实体的关系的实体解析 Active CN103748582B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/217,027 2011-08-24
US13/217,027 US8965848B2 (en) 2011-08-24 2011-08-24 Entity resolution based on relationships to a common entity
PCT/IB2012/053144 WO2013027129A1 (en) 2011-08-24 2012-06-21 Entity resolution based on relationships to common entity

Publications (2)

Publication Number Publication Date
CN103748582A true CN103748582A (zh) 2014-04-23
CN103748582B CN103748582B (zh) 2016-12-21

Family

ID=47745141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280040422.0A Active CN103748582B (zh) 2011-08-24 2012-06-21 基于与共同实体的关系的实体解析

Country Status (5)

Country Link
US (1) US8965848B2 (zh)
EP (1) EP2748731A4 (zh)
JP (1) JP5946533B2 (zh)
CN (1) CN103748582B (zh)
WO (1) WO2013027129A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376223A (zh) * 2015-11-02 2016-03-02 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
US20230418877A1 (en) * 2022-06-24 2023-12-28 International Business Machines Corporation Dynamic Threshold-Based Records Linking

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112012007316B1 (pt) 2009-09-30 2021-09-28 Evan V. Chrapko Método e sistemas para determinar a conectividade de rede
US20110099164A1 (en) 2009-10-23 2011-04-28 Haim Zvi Melman Apparatus and method for search and retrieval of documents and advertising targeting
KR101994987B1 (ko) * 2012-02-22 2019-09-30 구글 엘엘씨 관련 엔티티들
US9471606B1 (en) * 2012-06-25 2016-10-18 Google Inc. Obtaining information to provide to users
JP6281491B2 (ja) * 2012-08-31 2018-02-21 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びプログラム
US10311156B2 (en) * 2013-06-03 2019-06-04 Comcast Cable Communications, Llc Information association and suggestion
US20150134379A1 (en) * 2013-11-14 2015-05-14 International Business Machines Corporation Singularity of Presence
US10026114B2 (en) * 2014-01-10 2018-07-17 Betterdoctor, Inc. System for clustering and aggregating data from multiple sources
US9390126B2 (en) 2014-02-03 2016-07-12 International Business Machines Corporation Distributed analytics for entity resolution
JP6268435B2 (ja) * 2014-03-03 2018-01-31 富士通株式会社 データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置
EP3143519A1 (en) * 2014-05-12 2017-03-22 Google, Inc. Automated reading comprehension
US9946808B2 (en) 2014-07-09 2018-04-17 International Business Machines Corporation Using vertex self-information scores for vertices in an entity graph to determine whether to perform entity resolution on the vertices in the entity graph
US10572935B1 (en) * 2014-07-16 2020-02-25 Intuit, Inc. Disambiguation of entities based on financial interactions
US9922290B2 (en) 2014-08-12 2018-03-20 Microsoft Technology Licensing, Llc Entity resolution incorporating data from various data sources which uses tokens and normalizes records
US10380486B2 (en) * 2015-01-20 2019-08-13 International Business Machines Corporation Classifying entities by behavior
US9578043B2 (en) 2015-03-20 2017-02-21 Ashif Mawji Calculating a trust score
US10187399B2 (en) * 2015-04-07 2019-01-22 Passport Health Communications, Inc. Enriched system for suspicious interaction record detection
WO2016205286A1 (en) 2015-06-18 2016-12-22 Aware, Inc. Automatic entity resolution with rules detection and generation system
CN106817390B (zh) 2015-12-01 2020-04-24 阿里巴巴集团控股有限公司 一种用户数据共享的方法和设备
US9734207B2 (en) * 2015-12-28 2017-08-15 Entelo, Inc. Entity resolution techniques and systems
WO2017132073A1 (en) * 2016-01-25 2017-08-03 Quaero Signal matching for entity resolution
US20170235792A1 (en) 2016-02-17 2017-08-17 Www.Trustscience.Com Inc. Searching for entities based on trust score and geography
US9679254B1 (en) 2016-02-29 2017-06-13 Www.Trustscience.Com Inc. Extrapolating trends in trust scores
US9721296B1 (en) 2016-03-24 2017-08-01 Www.Trustscience.Com Inc. Learning an entity's trust model and risk tolerance to calculate a risk score
US10585893B2 (en) * 2016-03-30 2020-03-10 International Business Machines Corporation Data processing
US10606821B1 (en) 2016-08-23 2020-03-31 Microsoft Technology Licensing, Llc Applicant tracking system integration
US10185738B1 (en) 2016-08-31 2019-01-22 Microsoft Technology Licensing, Llc Deduplication and disambiguation
US11501181B2 (en) 2017-02-09 2022-11-15 International Business Machines Corporation Point-and-shoot analytics via speculative entity resolution
US10783137B2 (en) * 2017-03-10 2020-09-22 Experian Health, Inc. Identity management
US11194829B2 (en) 2017-03-24 2021-12-07 Experian Health, Inc. Methods and system for entity matching
US11853397B1 (en) 2017-10-02 2023-12-26 Entelo, Inc. Methods for determining entity status, and related systems and apparatus
US11860960B1 (en) 2018-04-15 2024-01-02 Entelo, Inc. Methods for dynamic contextualization of third-party data in a web browser, and related systems and apparatus
US10997248B2 (en) * 2018-12-28 2021-05-04 IGMR Research Ltd. Data association using complete lists
US10885020B1 (en) * 2020-01-03 2021-01-05 Sas Institute Inc. Splitting incorrectly resolved entities using minimum cut
US11474983B2 (en) 2020-07-13 2022-10-18 International Business Machines Corporation Entity resolution of master data using qualified relationship score
US11726980B2 (en) * 2020-07-14 2023-08-15 International Business Machines Corporation Auto detection of matching fields in entity resolution systems
US20230376467A1 (en) * 2022-05-18 2023-11-23 Twilio Inc. Identity resolution system
US12008138B1 (en) * 2023-09-29 2024-06-11 Lightbeam.ai, Inc. Method for maintaining privacy and security of data

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309190A (zh) * 2008-06-30 2008-11-19 腾讯科技(深圳)有限公司 用户组织管理系统及方法
CN101324902A (zh) * 2001-12-28 2008-12-17 国际商业机器公司 实时数据入库
CN101594372A (zh) * 2008-05-29 2009-12-02 西北工业大学 基于虚拟感知能力部件的上下文感知计算的方法和系统
US20100161566A1 (en) * 2008-12-18 2010-06-24 Adair Gregery G Using relationships in candidate discovery
US20110047167A1 (en) * 2009-08-21 2011-02-24 International Business Machines, Corporation Determining entity relevance by relationships to other relevant entities
JP2011081763A (ja) * 2009-09-09 2011-04-21 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672833B2 (en) 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
EP2245554A1 (en) 2007-12-21 2010-11-03 Thomson Reuters Global Resources Systems, methods, and software for entity relationship resolution
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
CN102110087A (zh) 2009-12-24 2011-06-29 北京大学 字符数据中实体消解的方法和装置
US20120136812A1 (en) * 2010-11-29 2012-05-31 Palo Alto Research Center Incorporated Method and system for machine-learning based optimization and customization of document similarities calculation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324902A (zh) * 2001-12-28 2008-12-17 国际商业机器公司 实时数据入库
CN101594372A (zh) * 2008-05-29 2009-12-02 西北工业大学 基于虚拟感知能力部件的上下文感知计算的方法和系统
CN101309190A (zh) * 2008-06-30 2008-11-19 腾讯科技(深圳)有限公司 用户组织管理系统及方法
US20100161566A1 (en) * 2008-12-18 2010-06-24 Adair Gregery G Using relationships in candidate discovery
US20110047167A1 (en) * 2009-08-21 2011-02-24 International Business Machines, Corporation Determining entity relevance by relationships to other relevant entities
JP2011081763A (ja) * 2009-09-09 2011-04-21 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376223A (zh) * 2015-11-02 2016-03-02 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN105376223B (zh) * 2015-11-02 2018-10-12 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN109918669B (zh) * 2019-03-08 2023-08-08 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
US20230418877A1 (en) * 2022-06-24 2023-12-28 International Business Machines Corporation Dynamic Threshold-Based Records Linking

Also Published As

Publication number Publication date
EP2748731A4 (en) 2015-07-01
JP5946533B2 (ja) 2016-07-06
EP2748731A1 (en) 2014-07-02
JP2014529129A (ja) 2014-10-30
CN103748582B (zh) 2016-12-21
US8965848B2 (en) 2015-02-24
WO2013027129A1 (en) 2013-02-28
US20130054598A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
CN103748582A (zh) 基于与共同实体的关系的实体解析
US10430608B2 (en) Systems and methods of automated compliance with data privacy laws
US20200272645A1 (en) Identity resolution in big, noisy, and/or unstructured data
US8843501B2 (en) Typed relevance scores in an identity resolution system
US8918393B2 (en) Identifying a set of candidate entities for an identity record
WO2020048058A1 (zh) 基金知识推理方法、系统、计算机设备和存储介质
US11636290B2 (en) Systems and methods for determining features of entities based on centrality metrics of the entities in a knowledge graph
US8352460B2 (en) Multiple candidate selection in an entity resolution system
US20200334375A1 (en) Constraint querying for collaborative intelligence and constraint computing
US20170075975A1 (en) Managing data within a temporal relational database management system
US11093535B2 (en) Data preprocessing using risk identifier tags
CN108510396B (zh) 投保校验的方法、装置、计算机设备及存储介质
US11531656B1 (en) Duplicate determination in a graph
JP2019512128A (ja) データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法
CN111414490A (zh) 确定失联修复信息的方法、装置、电子设备和存储介质
AU2022208873B2 (en) Information matching using subgraphs
US11880377B1 (en) Systems and methods for entity resolution
US20160085807A1 (en) Deriving a Multi-Pass Matching Algorithm for Data De-Duplication
WO2017124991A1 (zh) 一种媒体信息发布方法、系统及计算机存储介质
CN112906998A (zh) 为保险公司的客户重新分配业务员的数据处理系统和方法
CN109190886A (zh) 企业内部客户风险评定的方法及装置
US11093514B2 (en) Ranking of graph patterns
Moreton Working hours: Balancing risk and productivity
CN116934417A (zh) 对象识别方法、装置、计算机设备、存储介质及程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant