CN102971729A - 将可操作属性归于描述个人身份的数据 - Google Patents

将可操作属性归于描述个人身份的数据 Download PDF

Info

Publication number
CN102971729A
CN102971729A CN2011800219564A CN201180021956A CN102971729A CN 102971729 A CN102971729 A CN 102971729A CN 2011800219564 A CN2011800219564 A CN 2011800219564A CN 201180021956 A CN201180021956 A CN 201180021956A CN 102971729 A CN102971729 A CN 102971729A
Authority
CN
China
Prior art keywords
attribute
inquiry
data
coupling
reference database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800219564A
Other languages
English (en)
Other versions
CN102971729B (zh
Inventor
安东尼·J·斯科里费希尼亚诺
迈克尔·克莱恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dun and Bradstreet Corp
Dun and Bradstreet Inc
Original Assignee
Dun and Bradstreet Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun and Bradstreet Inc filed Critical Dun and Bradstreet Inc
Priority to CN201610756728.6A priority Critical patent/CN106383836B/zh
Publication of CN102971729A publication Critical patent/CN102971729A/zh
Application granted granted Critical
Publication of CN102971729B publication Critical patent/CN102971729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种方法,包括(a)接收查询以启动对特定个人的数据搜索,(b)基于所述查询确定策略和灵活的预测方程,以搜索参考数据库,(c)根据所述策略,在所述参考数据库搜索所述查询的匹配,以及(d)输出所述匹配。该方法也输出与匹配相关的灵活的反馈,其反映了匹配过程的推断质量,终端用户可使用该反馈以确定被匹配主体满足终端用户的基于质量的标准的程度。本发明还提供了一种执行该方法的系统,和一种包含控制处理器执行该方法的指令的存储介质。

Description

将可操作属性归于描述个人身份的数据
技术领域
本发明涉及数据库搜索,特别是在数据库中搜索与个人身份相关的给定查询最相匹配的记录,该个人身份可以包括期望的和未期望的数据属性,并且提取与查询最相匹配的记录以及解释该匹配过程和结果的可操作反馈。
背景技术
本部分描述的方法是可以被实行的方法,但不必是先前设想或实行的方法。因此,除非是另有说明,本部分描述的方法对于本申请的权利要求也许不是现有技术,且不被本部分包含的内容承认为现有技术。
高效的数据库访问和搜索功能对于为了匹配目的保持在参照数据库中的数据的有效利用是重要的。这一目标的关键是能够高效提取匹配结果,以用一种有效又高效的方式识别和选择匹配结果,及提供可操作反馈的能力。所谓匹配结果即将参考数据匹配查询的结果,该查询包括预期作为查询一部分的个人标识和在前未知的标识。该可操作反馈可用于做出关于匹配结果的使用的业务决策,如用于持续有效的数据管理。
具体到识别个体,现有技术考虑具体而有限数量的数据字段,例如给定的名字、姓氏、物理地址和电子邮件地址、职位和别名,或一组未定义的数据组成部分,其可能包括或者不包括关于个体的信息。现有技术一般是基于逐字符的或数学启发式的比较,在考虑到可允许的正交变量,例如拼写特定字的多种方式以及连字符、大小写、字分离、标点符号、已知的缩写和同义词的使用后,其产生基于多个匹配字符或其他基本相关信息的准确性的评判。另外,现有技术假设了查询数据的一种特定结构,且没有考虑到与个体相关的有限的但是时间上无限制的高价值的预测的数据元素的集合或其他衍生标识,而这些已经被验证并合成或集成到个体的数据库,以用于匹配过程。
发明内容
本发明提供了一种方法,该方法包括(a)接收查询以启动对特定个体的数据的搜索,(b)基于该查询,确定策略以搜索一个参考数据库,(c)根据策略,在参考数据库搜索查询的匹配;和(d)输出匹配。该方法也可提供与匹配相关的反馈,其反映了匹配的推断质量,终端用户可用其确定被匹配主体满足终端用户的基于质量的标准的程度。本发明还提供了执行该方法的系统以及包含控制处理器执行该方法的指令的存储介质。
处理查询以确认和合成查询标识,包括期望的和非期望的数据组成部分,以评估和选择候选。关于个体的参考数据被保存在数据库,访问、评估和使用该参考数据以识别对查询的匹配。提供匹配结果和可操作数据给查询者或查询系统,包括描述匹配结果相关度的信任指标和属性,以指示用于传播匹配的数据反馈和替代标识反馈。
附图说明
图1是将可操作属性归于个人身份的数据的方法的功能框图。
图2是应用本发明的系统的框图。
具体实施方式
标识是涉及个人身份的信息。标识包括一个查询的可确认属性,即为该查询的期望组成部分的数据组成部分,例如个人的姓名、地址和出生日期,或在一个查询中被特别定义的数据组成部分,例如通过文件的栏目头或在线应用的特定数据输入字段定义的元数据,其可与其他数据一起使用来唯一地标识个人。标记还可以包括先前没有遇到的属性和替代方法,在该替代方法中,数据值可以如此表示或推断为名字的替代拼写。
反馈是关于匹配的信息,反映了匹配过程的推断质量,该推断质量按照查询和匹配候选之间的匹配的信任度的,用于匹配过程的每个数据字段的相对等级,和关于用于匹配查询的数据源的指示。终端用户可用该反馈确定被匹配主体满足最终用户的基于质量的标准的程度,并可基于该反馈驱动不同的操作和管理干预。
图1是将可操作属性归于描述个人身份的数据的方法100的功能框图。简而言之,方法100接收查询103,执行进程115、120、125、130和135以使来自查询103的数据和参考数据库110中的数据匹配,因此产生结果160。
方法100利用处理规则104、属性表105和频率表109,并在临时步骤中,产生数据140、属性145、函数150和一个最好的候选155。
在此进程115、120、125、130和135中的每一个关于其各自的总体操作被描述。进程115、120、125、130和135中的每一个可以被配置为一个独立的进程或作为从属进程的一个步骤。
查询103是一个请求,该请求启动了对一个有关特定个人的信息的搜索。搜索基于查询103中所包含的标识,并在这方面,查询103包括多个数据元素,该数据元素按照数据字段依次包括关于个人的特定信息,该数据字段是在处理规则104和属性表105中预先定义的可确认属性的全部或子集,也可能包括有关个人的额外的和几乎无限制的标识。查询103可以由人类用户或者由自动化的进程提供给方法100。例如,查询100可以由使用在线数据录入屏幕处理的个人查询导出,或者从使用批处理机能力提交的文件中导出。查询103包括被方法100重新格式化为数据104的数据和方法100用来唯一地识别个体的数据。数据104可包括,例如,如名字、地址、出生日期、社会安全号码和其它形式的身份证明的数据。
参考数据库110是一个关于个人信息的数据库,该数据库具有最大程度的个人和专业信息,即关于每个个人的已知属性。进程(未示出)被用于使数据获取资格,该数据其后将被分布在参考数据库110中,这随后可用于匹配目的。通过一组额外的进程(未示出),参考数据库110可被更新以包括已在参考数据库110中表示的关于个人的更多信息,及以包括额外的个人的信息。
处理规则104包括自动化的且可重复的业务和元数据规则(迄今为止简称“规则”),该规则基于标准化和归一化进程,其包括语义和数字消歧的逻辑以解释查询值,如不同的字组合(名/中间名/姓或姓/名/中间名,以及各种操作,如包括姓名属性的全部或子集的属性的其他重新排序)、寻址(独立地址或混合的地址组成部分)和不同的日期格式。元数据规则定义每个数据元素的信息,如(a)无论是否为文字的,即字母表中的字母,数字的或文字数字的,即文字和/或数字的,(b)允许的大小,及(c)格式。业务处理规则定义了基于一个或多个数据元素的值发生的活动,如,在后续操作或者计算运行前必须满足的条件。
处理规则104中标准化进程的一个例子包括更换街道(street)名称的不同的版本,如“街(St.)”和“街(Strt)”具有一个共同的一致的值如“街道”。处理规则104中归一化进程的一个例子包括如由“制(mnf)”作为统一的术语代替常见单词或缩写“制造(manufacturing)”和“制造(mnfctring)”以方便匹配。一个语义和消歧逻辑的例子包括将一个街道地址分为街道号码和街道名称的单独字段。
属性表105是可确认属性的表格,即可以关联能识别个人的数据的数据字段。属性表105还包括定义可确认属性特征的元数据。元数据是关于数据的信息,即,它描述了数据的特性。例如,属性表105可列出的“名”的属性,并且可包含关于名的元数据,其指示名必须是一串字母字符。属性表105也可以使用数据140中的数据更新,以包括先前没有被确认的属性,预测加权和其他信息可以被定义到该属性。当参考数据库110更新时,属性表105中的值将被监测和调整。
频率表109表示在参考数据库110,具有特定属性的特定值的记录的数目。也就是说,频率表109是从参考数据库110生成的,以识别在参考数据库110中特定数据值的发生频率(F)。例如,参考数据库110可能出现5647个以“乔恩(Jon)”作为名,893个以“斯迈思(Smythe)”为姓,和197个以“乔恩·斯迈思(Jon Smythe)”作为名/姓的组合。因此,频率表109可以表示(a)名“乔恩(Jon)”的频率为5647,(b)姓“斯迈思(Smythe)”频率为893,和(c)名/姓组合为“乔恩·斯迈思(Jon Smythe)”的频率为197。当参考数据库110中的记录更新时,频率表109更新。
方法100从进程115开始。
进程115接收查询103,并将来自查询103的标识构造为一种通用格式,即数据140。下面的表1示出数据140的一种典型表示。在表1中,数据140由一示范的数据元素组示出,该数据元素组以如姓名、地址、城市、州、邮政编码和电话号码的期望查询值的示范的通用格式表示。
表1
方法100从进程115进行到进程120。
进程120分析数据140以识别特定数据字段,该数据字段与属性表105中的属性相关联以提高从参考数据库110中通过使用单个或者多个这些数据字段识别匹配机会。在这方面,进程120从数据140中提取与对匹配的搜索相关的属性,从而产生属性145。
进程120按照处理规则104运行以清理、解析和规范化数据140中展示的输入的查询数据值的所有组成部分。
清理包括去除多余的值,如标点符号和其他形式的非有价值的字符,例如电话号码的破折号或分开日期组成部分的斜线。例如,清理格式化为12/13/60的数据值,将得到值121360。
解析包括分割数据140以增加识别查询103的匹配的机会。这可以包括将单独查询标识解析为多个数据元素,例如,分割格式为MMDDYY的生日121360为单独的元素,其包括月(MM(12))、日(DD(13))和年(YY(60))。解析还可包括合并单独的元素,例如,名(约翰(John))、中间名字或名(Q)、和姓(帕勃里克(Public))成为一个元素,例如,名字(约翰Q帕勃里克(JohnQPublic))。
规范化包括对数据140关联替代数据,以增加识别匹配的机会。这可能包括对一系列代表州的名称(新泽西(New Jersey);新泽西(N Jersey);新泽西(New Jrsy))的查询值关联一个两字符的值(NJ)。
进程120也使用处理规则104以分析和保留来自数据140的信息,该信息之前未遇到过,其目的在于产生新规则,其存储于处理规则104中,在将来执行进程120的期间使用。新规则可基于与现有规则的相似性被自动定义。包含在数据140中,但没有定义在属性表105中的标识,即,附加标识,因此,将被保留以供进程120和125后续使用,并有可能由进程130和135使用以处理从参考数据库110确定的候选。方法100包括保持这些附加标识的自动化的能力,以发展和定义将被填入在属性表105中的属性,并发展将被填入处理规则104中的相关的规则。
因此,进程120分析数据140,且如果进程120确认用于某些特定数据的在处理规则104中缺少一个规则,那么该特定数据被存于进程140中并为了分析做上标识。例如,如果查询103包含一个电子邮件地址,以及如果一个电子邮件地址是一个先前未确认的值,因此在处理规则中的规则104中不具有对应规则,处理规则104可被一个更新进程(未示出)更新,以保留该电子邮件作为一个新的标识,其可能会成为一个确认的属性。
下面,表2示出了处理规则104的一种示范的表示,表3示出了属性145的一种示范的表示。处理规则的例子包括:(i)将数据140名称字段划分为单独的名和姓字段,(ii)将数据140地址字段划分为单独的街道号和街道名字段,和(iii)将数据140出生日期字段划分为单独的月、日、和年字段。灵活的标识包括来自数据140的数据,该数据先前未被识别为期望为查询的一部分的数据,但其应由处理规则104为将来的匹配过程而保留。这包括可基于模板分类的数据和自由格式数据。
表2
Figure BPA00001625201700061
表3
Figure BPA00001625201700071
例如,按照表2,处理规则104表示名字被解析为单独的名和姓值。因此,“乔恩·斯迈思(Jon Smythe)”被解析以产生名“乔恩(Jon)”和姓“斯迈思(Smythe)”,并存储如所示的表3中。
方法100从进程120进行到进程125。
进程125与属性表125连接以进一步描述属性145,来开发函数150。对于属性145中的每一个属性,进程125基于在识别一个个体中属性的影响的相关值分配一个权重,从而产生一个加权属性,其中该权重表示该属性在找到数据140的匹配中的有效性。例如,这个确定将包括如属性表105定义的加权,其提供一个静态加权,如名字相比地址具有更高的权重,以及相对于属性表105定义的其他填入的字段,如就业开始时间的加权具有更大的值,当其比出生日期最少大18年时,并且基于属性表中105定义的一个字段的实际数据值的加权,如,一个诸如伊拉兹马斯(Erasmus)的不寻常的名字,比诸如约翰(John)的较常见的名字有更大的权重。这项分析还考虑属性145中数据字段的代替值,如首字母缩写词和替代拼写(例如,乔恩(Jon)和乔纳森(Jonathan)作为名)。除了属性的静态加权,属性表105基于用于其他属性的数据值的存在或不存在以及推断的预测,分配调整的加权。例如,如果没有用于姓的数据,名的权重也较小,以及街道号和名的组合分别地比这两个字段有更大的权重。
进程125确定搜索参考数据库110的最优策略,并在函数150中表示该策略,函数150在此表示为f(x)。更具体地说,进程125从属性表105获取权重(W),从频率表109获取频率(F),对于每个属性(x)计算预测的加权(K),其中K=W×F,从而产生K(x),其中K(x)是属性x的预测加权。函数150可基于属性的不同组合计算f(x)的多个值,例如姓和出生日期或名/姓和出生日期,进程125使用其结果以确定最优搜索策略略。函数150具有下面的一般格式:
f(x)=K1<字段1>+K2<字段2>+K3<字段3>+…+KN<字段N>,
其中对属性145的每一个组成部分计算K。
下面,表4示出了属性表105的一个示范的表示,表5示出了频率表109的一个示范的表示。
表4
Figure BPA00001625201700091
在表4的示例中,属性表105中包括属性“名”、指定该名必须是文字字符串的元数据,且对于该名,权重(W)=0.25。权重(W)表示数据140中表示的查询103中的属性的相关影响,以从参考数据库110中识别匹配。在表4的示例中,当属性具有值W=1,该属性被认为是一个匹配的更好的预测,相较于权重值小于1的属性。例如,如果查询103包括一个个人移动电话号码,这是一个具有可被认为是唯一值的属性,对于匹配过程,个人的移动电话号码将比姓具有更大的影响,姓很可能具有更常见的值。
表5
在进程125中,确定预测的加权可考虑属性间的关系,并基于上述关系计算一个修正的权重。例如,当名和姓都有它们自己的预测的加权时,名和姓的组合在参考数据库110中识别合适的匹配时可以是更多预测的或更少预测的。例如,如频率表109中定义的,在参考数据库110中名和姓值的组合“乔恩·斯迈思(Jon Smythe)”可能比“伊拉兹马斯·郝弗(Erasmus Hoffert)”出现得更多。名和姓值的组合可有一个频率(F),如频率表109定义的,以表示更多预测的加权重或更少预测的加权。
如上所述,对于每个属性(x),进程125从属性表105获取权重(W),从频率表109获取频率(F),计算预测的加权(K),其中K=W×F。可以基于属性的不同组合计算多个预测的加权重值。例如,使用表4和表5中的示范的数据来计算f(x):
对于名=乔恩(Jon),K1=0.25×5,647=1411.75
对于姓=斯迈思(Smythe),K2=0.5×893=446.5
因此,对于名和姓,f(x),即函数150为:
f(x)=1411.75<名″乔恩″>+446.5<姓″斯迈思″>
使用表4和表5中的示范的数据来第二次计算f(x):
对于名/姓=乔恩·斯迈思(Jon Smythe),K1=0.9×197=177.3
对于出生日期/月日年=012760,K2=0.7×211=147.7
因此,对于名/姓和出生日期/月日年,f(x),即函数150,为:
f(x)=177.3<名/姓″乔恩·斯迈思″>+147.7<出生日期/月日年″012760″>
一般情况下,对于一个给定的属性,如果该属性是匹配的好的预测,权重(W)就更大,但是较大的频率(F)说明该属性并不是一个匹配的好的预测。让我们来考虑搜索一个人的例子,此人有一个普通的名字,如“约翰(John)”,但是有唯一的移动电话号码,如“1234567890”,因此,在频率表109中,对于名“约翰(John)”,(F)=10,000,对于手机号码“1234567890”,(F)=1。基于表4,对这些属性的预测权重(K),其中K=W×F,为K<名″约翰″>=0.25×10,000=2500,且K<移动电话号码″1234567890″>=1×1=1。因此,这表明在f(x)中,名“约翰(John)”比移动电话号码“1234567890”有更大的预测的加权。然而,基于所执行的实际逻辑,较小的f(x)可以比较大的f(x)更有预测性。
尽管本例子中函数150表示为乘积的求和,函数150并不必须是求和或算数方程。一般而言,函数150是加权属性的列表,其中一个特定属性或者属性组合的权重表示了在参考数据库110中确定一个记录的合适匹配中该属性或属性组合的预测性,因此也表示了其重要性。
方法100从进程125进行到进程130。
进程130根据函数150搜索参考数据库110,函数150即由进程125确定的策略,并产生最佳候选155。更具体地,进程130根据函数150从参考数据库110中提取记录。然后进程130将这些记录中的属性和数据140比较,并且基于该比较,从参考数据库110中选择的一组有可能匹配数据140的候选。此后,进程130通过将参考数据库110中提取的记录的每个属性的值和来自数据140的相同属性的值比较,评估这组候选以最终确定一个最佳的匹配候选,即,最佳候选155。
下面的表6示出了来自参考数据库110的一组候选的示范的表示。
表6
Figure BPA00001625201700121
最佳候选155是一组候选中的一个记录,该候选具有与数据140的最大相似性,其从进程130中的技术产生以筛选该组候选。这样的技术包括考虑填入数据库110的数据源,和关于该数据的与质量相关的推断(如果一些源相较于其他源,被认为更多出现且更为高品质)。
例如,对于表6中的记录1,进程130为来自数据140的属性“姓”(“斯迈思(Smythe)”)和来自参考数据库110的属性“姓”(“史密斯(Smith)”)比较数据值,并确定了高度的相似性,对于属性“街道地址名”也如此,其在数据140为“第六大街(Sixth Ave)”,其在参考数据库110为“6th大街(Ave)”。对于表6中的记录2,进程130为来自数据140的属性“名”(“斯马思(Smarth)”)和来自参考数据库110的属性“名”(“史密斯(Smith)”)比较数据值,并确定了一个较低度的相似性,对于属性“街道地址名”进程130确定数据140中的“第六大街(Sixth Ave)”和参考数据库110中的“5th大街(Ave)”之间无相似性。
下面的表7示出最佳候选155的一个示范的表示。
表7
Figure BPA00001625201700131
方法100从进程130进行到进程135。
进程135输出结果160,其中包括最佳候选155A和反馈165。最佳候选155A是最佳候选155的拷贝。反馈165是关于数据140和最佳候选155A之间的相似度的信息,其是可操作的,即终端用户可以用它做出业务决策。
反馈165和结果160被包含,以表示最佳候选155A的品质,例如,最佳候选155A是查询103的合适匹配的信任水平。反馈165也可包括相对相似度,其由数据140中每个字段和最佳候选155A的每个组成部分之间的相对相关性表示。这个反馈表示为三个组成部分:(1)信任代码,其表示数据140和参考数据库110中的候选之间相对相似度;(2)匹配等级字符串,其表示数据140的属性和参考数据库110中的候选之间的相似度;和(3)匹配数据简介,其表示在参考数据库110中的用于匹配过程的数据类型。这些反馈组成部分可由终端用户用于定义业务规则以驱动个人身份匹配的使用和消费,为该终端用户做出关于匹配过程的业务决定,该匹配过程基于被匹配主体满足基于终端用户的质量准则的程度,并用于持续的管理干预。这些反馈结构灵活,反映了查询103中灵活标识的发生和开始。附加功能可以提供给用户,以浏览和查看那些可能不匹配的查询数据。
下面的表8示出了反馈165的一种示范的表示。
表8
反馈165的示范的表示
信任代码:8
匹配等级字符串:
名:A
姓:A
街道地址号:B
街道地址名:B
地址2:Z
城市:A
邮政编码:B
州:A
电话:Z
出生日期:F
移动电话号码:A
匹配数据简介:
名:03
姓:03
街道地址号:00
街道地址名:00
地址2:99
城市:00
邮政编码:00
州:00
电话:98
出生日期:98
移动电话号码:00
匹配等级字符串反馈可使用一个编码结构定义如下:“A”表示来自参考数据库110一个匹配候选的数据应被认为和数据140中的数据相同(例如,乔恩(Jon)和约翰(John));“B”表示数据140和数据库110的一个记录具有一定相似处(例如,乔恩(Jon)和约翰尼(Jhonny));“F”表示参考数据库110中的匹配候选的数据不应认为和数据140中的数据相同(例如,乔恩(Jon)和吉姆(Jim));“Z”表示对于一个特定的数据字段,在数据140或者参考数据库110中没有数据字段值。
匹配数据简介反馈表示参考数据库110中的数据类型,该数据由进程130使用以匹配从参考数据库110到数据140的记录,并可使用一个编码结构定义,如“00”表示主要业务名称或地址,“03”表示替代值如首席执行官(CEO)或以前的名称或地址,“98”表示数据140中未被进程130使用的属性,或“99”表示未被填入数据140的属性。
因此,简言之,方法100包括1)接收一个查询以启动对一个特定个人的搜索,2)处理查询以单独地以及和其他查询数据字段结合地最大限度地使用每个查询数据字段,其包括来清理、解析和标准化该查询的流程,3)基于单个或多个已被清理、解析和标准化的查询值,确定最优方法来搜索参考数据库,4)提取候选以选择匹配该查询的参考数据库实体,和5)返回最佳候选并提供反馈,其包括具有可操作属性的匹配结果。
方法100包括以下步骤:1)接收包括多个元素的输入数据,2)将多个元素的一个子集转换到一组术语,3)推断基于一个终端用户查询,使用灵活的标识确定匹配候选的能力的预测性,终端用户查询包括作为查询一部分的期望数据和可由终端用户提供的代替数据,4)基于术语提取存储的参考数据以识别匹配输入数据的最可能的候选,5)基于推断的预测度,在多个候选中选择最佳匹配,和6)提供具有可操作属性的匹配结果,其由每个初始查询和产生的候选的唯一方面确定,其允许终端用户关于匹配候选的使用做业务决策。
方法100包括使用有限但时间上无限制的标识组识别个体的功能,该标识用于形成一个查询和匹配候选之间相似度的评价。方法100专注于唯一地识别个人的某些固有的问题,包括1)与不同离散个体相关的个人名字的共性,这比商业中的共性更普遍,2)一个无附加标识的特定的名字,其可与一个个人和一个业务相关联,或与不止一个个人或业务相关联,和3)与多个地址和物理位置或其它标识相关联的个人。通过扩展个人的灵活多变的一组身份识别和匹配属性,这些挑战可以得到解决。该技术的灵活性包括元数据和实际数据值,将被使用在1)将有关个人的信息填入数据库,以及在2)基于一个查询和规则从数据库中选择一个个人,该规则对于给定目的管理接受的阈值。
在方法100中,一组标识首先被定义,这样X1,X2,...Xn表示用于匹配的属性(例如,名、中间名、姓、已知的地址元素、其他描述信息)。这组标识是大小无限制的可扩展的,所有的参考数据将被用于匹配、选择和评价过程。参考数据构造成包含尽可能大的一组数据以包含X的所有期望值和基于方程和预测算法额外的推断数据或提取数据。
对于每个匹配迭代,查询集被询问以确定S,其为集合X的一个子集。在匹配期间或者其他预定的预测时间段,基于在较大集合X中确定的一组相关系数,进行匹配和返回反馈如(1)一个置信区间,描述当其被X中的相关系数修改时的匹配强度,以及在用于查询集中所观察的子集S,(2)一个匹配等级字符串,表示S的相关元素和在这些特定元素中的匹配质量,和(3)一个匹配简介字符串,表示用于形成关于匹配质量的评价的参考数据,即关于最佳候选是查询的合适匹配的信任度的评价。匹配等级字符串和匹配简介字符串在长度和格式上是灵活的,由用于匹配过程的数据组成部分确定。
图2是本发明一个应用的系统200的框图。系统200包括计算机205,其连接到一个数据通讯网络,即网络220,如因特网。
计算机205包括一个用户接口210、处理器215和一个存储器225。虽然计算机205在此被表示为一个独立的设备,但不限于此,而是可以在一个分布式处理系统中连接到其他设备(未示出)。
用户接口210包括一个输入装置,如键盘或语音识别子系统,用于使用户能够向处理器215传达信息和命令选择。用户接口210还包括一个输出装置,例如显示器或打印机。光标控制,如鼠标、跟踪球、操纵杆或者位于显示器上的触摸敏感材料,允许用户操纵在显示器上的光标以传达额外的信息和命令选择给处理器215。
处理器215是一个电子设备,配置为响应和执行指令的逻辑电路。
存储器225是一种非临时性的计算机可读介质,用一个计算机程序对其编码。在这方面,存储器225存储数据和指令,该数据和指令是处理器215可读和可执行的,用于控制处理器215的操作。存储器225可以在一个随机存取存储器(RAM)、硬盘驱动器、只读存储器(ROM)或它们的组合中执行。存储器225中的一个组成部分是程序模块230。
程序模块230包含用于控制处理器215执行在此描述的方法的指令。例如,在程序模块230的控制下,处理器215执行方法100的进程。在此使用的术语“模块”表示一种功能操作,其可以表示为一个单独的部件或为多个子部件的集成组合。因此,程序模块230可以为单个模块,或为与彼此合作的多个模块。此外,虽然在此描述程序模块230为被安装在存储器225中,并且因此是在软件中实现的,它可以在任何硬件(例如,电子电路)、固件、软件或它们的组合中实现。
处理器215接收查询103,通过网络220或用户接口210,并访问处理规则104、属性表105、参考数据库110。处理规则104、属性表105和参考数据库110可以是计算机205的组成部分,例如,存储在存储器225中,或者可以位于计算机205的外部的设备上,其中计算机205经由网络220访问这些外部设备。处理器215输出结果160至用户接口210或经由网络220至远程设备(未示出)。
虽然指示了程序模块230已加载到存储器225中,其可以被配置在存储介质235上以随后加载到存储器225。存储介质235也是一个由计算机程序编码的非临时性计算机可读介质,并且可以是任何常规的存储介质,其以具体形式存储程序模块225于其上。存储介质235的例子包括软盘、光盘、磁带、只读存储器、光存储介质、通用串行总线(USB)闪存驱动器、数字多功能盘或zip驱动器。存储介质235也可以是一个随机存取存储器,或其他类型的电子存储器,位于远程存储系统上,并经由网络220连接到计算机205。
本文所描述的技术是示例性的,并且不应当被解释为对本申请的任何特别的限制。应当理解,各种替代方案、组合和修改可以由在本技术领域的技术人员设计出。例如,本文描述的过程相关的步骤可以以任何顺序执行,除非步骤本身另有要求或指示。本发明意在包括落入所附的权利要求书的范围内的所有这样的替代方案、修改和变化。
术语“包括”和“包含”解释为指定存在表明的特征、整数、步骤或部件,但不排除存在一个或多个其他特征、整数、步骤或部件或其组合。

Claims (15)

1.一种方法,包括:
接收查询以启动对关于特定个人的数据的搜索;基于所述查询确定策略,以搜索参考数据库;根据所述策略,在所述参考数据库搜索所述查询的匹配;以及
输出所述匹配。
2.如权利要求1所述的方法,
其中,所述的确定所述策略包括:
从所述查询提取与所述搜索相关的属性;
为所述属性分配权重,从而生成加权属性,其中所述权重表示在找到所述查询的匹配中所述属性的效能;以及
基于所述加权属性,建立函数,并且
其中,所述搜索包括:
基于所述函数,从所述参考数据库提取具有表示可能匹配所述查询的属性值的候选;
从所述候选中确定最佳候选;以及
返回所述最佳候选作为所述匹配。
3.如权利要求2所述的方法,
其中,所述查询包括对所述属性的查询值,以及
其中,所述建立包括:
修改所述权重为所述参考数据库中多个记录的函数,所述记录对所述属性具有所述查询值。
4.如权利要求1所述的方法,还包括:输出所述匹配为所述查询的合适匹配的信任度的指标。
5.如权利要求4所述的方法,其中,所述指标指示用来形成关于所述信任度的评判的参考数据。
6.一种系统,包括:
处理器;以及
包含指令的存储器,当所述指令被所述处理器读取时,使所述处理器:
接收查询以启动对关于特定个人的数据的搜索;
基于所述查询确定策略,以搜索参考数据库;
根据所述策略,在所述参考数据库搜索所述查询的匹配;以及
输出所述匹配。
7.如权利要求6所述的系统,
其中,为了确定所述策略,所述指令使所述处理器:
从所述查询提取与所述搜索相关的属性;
分配权重给所述属性,从而生成加权属性,其中,所述权重表示在找到所述查询的匹配中所述属性的效能;以及
基于所述加权属性建立函数,并且
其中,为了搜索所述参考数据库,所述指令使所述处理器:
基于所述函数,从所述参考数据库提取具有表示可能匹配所述查询的属性值的候选;
从所述候选确定最佳候选;以及
返回最佳候选作为所述匹配。
8.如权利要求7所述的系统,
其中,所述查询包括对所述属性的查询值,以及
其中,为了建立所述函数,所述指令使所述处理器:
修改所述权重为所述参考数据库中多个记录的函数,所述记录对所述属性具有所述查询值。
9.如权利要求6所述的系统,其中,所述指令还使所述处理器输出所述匹配为所述查询的合适匹配的信任度的指标。
10.如权利要求9所述的系统,其中,所述指标指示用来形成关于所述信任度的评判的参考数据。
11.一种存储介质,包括指令,当所述指令被所述处理器读取时,使所述处理器:
接收查询以启动对关于特定个人的数据的搜索;
基于所述查询确定策略,以搜索参考数据库;
根据所述策略,在所述参考数据库搜索所述查询的匹配;以及
输出所述匹配。
12.如权利要求11所述的存储介质,
其中,为了确定所述最优策略,所述指令使所述处理器:
从所述查询提取与所述搜索相关的属性;并
分配权重给所述属性,从而生成加权属性,其中,所述权重表示在找到所述查询的匹配中所述属性的效能;以及
基于所述加权属性建立函数,并且
其中,为了搜索所述参考数据库,所述指令使所述处理器:
基于所述函数,从所述参考数据库提取具有表示可能匹配所述查询的属性值的候选;
从所述候选确定最佳候选;以及
返回最佳候选作为所述匹配。
13.如权利要求12所述的存储介质,
其中,所述查询包括对所述属性的查询值,以及
其中,为了建立所述函数,所述指令使所述处理器:
修改所述权重为所述参考数据库中多个记录的函数,所述记录对所述属性具有所述查询值。
14.如权利要求11所述的存储介质,其中,所述指令还使所述处理器输出所述匹配为所述查询的合适匹配的信任度的指标。
15.如权利要求14所述的存储介质,其中,所述指标指示用来形成关于所述信任度的评判的参考数据。
CN201180021956.4A 2010-04-14 2011-04-14 将可操作属性归于描述个人身份的数据 Active CN102971729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610756728.6A CN106383836B (zh) 2010-04-14 2011-04-14 将可操作属性归于描述个人身份的数据

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32408610P 2010-04-14 2010-04-14
US61/324,086 2010-04-14
PCT/US2011/032517 WO2011130526A1 (en) 2010-04-14 2011-04-14 Ascribing actionable attributes to data that describes a personal identity

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610756728.6A Division CN106383836B (zh) 2010-04-14 2011-04-14 将可操作属性归于描述个人身份的数据

Publications (2)

Publication Number Publication Date
CN102971729A true CN102971729A (zh) 2013-03-13
CN102971729B CN102971729B (zh) 2016-09-28

Family

ID=44789013

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180021956.4A Active CN102971729B (zh) 2010-04-14 2011-04-14 将可操作属性归于描述个人身份的数据
CN201610756728.6A Active CN106383836B (zh) 2010-04-14 2011-04-14 将可操作属性归于描述个人身份的数据

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201610756728.6A Active CN106383836B (zh) 2010-04-14 2011-04-14 将可操作属性归于描述个人身份的数据

Country Status (12)

Country Link
US (2) US8438183B2 (zh)
EP (1) EP2558988A4 (zh)
JP (1) JP5587493B2 (zh)
KR (1) KR101511656B1 (zh)
CN (2) CN102971729B (zh)
AU (1) AU2011239618B2 (zh)
BR (1) BR112012026345A2 (zh)
CA (1) CA2796061C (zh)
HK (1) HK1183348A1 (zh)
MX (1) MX2012011923A (zh)
RU (1) RU2547213C2 (zh)
WO (1) WO2011130526A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408316A (zh) * 2016-11-23 2017-02-15 泰康保险集团股份有限公司 用于识别客户的方法及装置
CN108399259A (zh) * 2018-03-09 2018-08-14 深圳市汗青文化传媒有限公司 一种数据处理方法及系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026552B2 (en) * 2010-01-18 2015-05-05 Salesforce.Com, Inc. System and method for linking contact records to company locations
CN102542000A (zh) * 2011-12-07 2012-07-04 北京风灵创景科技有限公司 一种联系人检索的方法及其设备
US8943060B2 (en) * 2012-02-28 2015-01-27 CQuotient, Inc. Systems, methods and apparatus for identifying links among interactional digital data
US11593326B2 (en) * 2012-10-08 2023-02-28 GiantChair, Inc. Method and system for managing metadata
CN103970758A (zh) * 2013-01-29 2014-08-06 鸿富锦精密工业(深圳)有限公司 数据库访问系统及方法
US10956381B2 (en) * 2014-11-14 2021-03-23 Adp, Llc Data migration system
US10497044B2 (en) 2015-10-19 2019-12-03 Demandware Inc. Scalable systems and methods for generating and serving recommendations
JP6664201B2 (ja) * 2015-11-26 2020-03-13 株式会社パスコ 突合処理装置及び突合処理方法並びに突合処理プログラム
WO2019032851A1 (en) * 2017-08-10 2019-02-14 The Dun & Bradstreet Corporation SYSTEM AND METHOD FOR DYNAMIC SYNTHESIS AND TRANSIENT GROUPING OF SEMANTIC RESPONSIBILITIES FOR FEEDBACK AND TENDER
US11030205B2 (en) * 2017-12-13 2021-06-08 Microsoft Technology Licensing, Llc Contextual data transformation of image content
CN112699097B (zh) * 2020-12-31 2024-03-08 北京浩瀚深度信息技术股份有限公司 一种多元策略镜像实现方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046567A (ja) * 2002-07-12 2004-02-12 Minolta Co Ltd 画像照会用情報構築方法および画像照会方法
JP2005018689A (ja) * 2003-06-30 2005-01-20 Web Intelligence Lab:Kk データマイニング方法
US20060015498A1 (en) * 2004-08-13 2006-01-19 Edgar Sarmiento Search engine
CN1867908A (zh) * 2003-10-14 2006-11-22 美国连机股份有限公司 具有个人搜索参数的搜索增强系统
US20080109875A1 (en) * 2006-08-08 2008-05-08 Harold Kraft Identity information services, methods, devices, and systems background
US20090055355A1 (en) * 2007-03-27 2009-02-26 Brunner Josie C Systems, methods, and apparatus for seamless integration for user, contextual, and social awareness in search results through layer approach

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1052578A3 (en) * 1999-05-10 2002-04-17 Matsushita Electric Industrial Co., Ltd. Contents extraction system and method
US7363308B2 (en) * 2000-12-28 2008-04-22 Fair Isaac Corporation System and method for obtaining keyword descriptions of records from a large database
JP2002207764A (ja) * 2001-01-09 2002-07-26 Kentop:Kk 商品情報配信システム
US6859803B2 (en) * 2001-11-13 2005-02-22 Koninklijke Philips Electronics N.V. Apparatus and method for program selection utilizing exclusive and inclusive metadata searches
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
US7386554B2 (en) * 2002-09-03 2008-06-10 Infoglide Software Corporation Remote scoring and aggregating similarity search engine for use with relational databases
RU2236699C1 (ru) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
CA2575310C (en) * 2004-07-28 2014-11-04 Ims Health Incorporated A method for linking de-identified patients using encrypted and unencrypted demographic and healthcare information from multiple data sources
GB2432704B (en) * 2004-07-30 2009-12-09 Dictaphone Corp A system and method for report level confidence
US20060036659A1 (en) * 2004-08-12 2006-02-16 Colin Capriati Method of retrieving information using combined context based searching and content merging
US8108386B2 (en) * 2004-09-07 2012-01-31 Stuart Robert O More efficient search algorithm (MESA) using alpha omega search strategy
US8892571B2 (en) * 2004-10-12 2014-11-18 International Business Machines Corporation Systems for associating records in healthcare database with individuals
US8364670B2 (en) * 2004-12-28 2013-01-29 Dt Labs, Llc System, method and apparatus for electronically searching for an item
US7895223B2 (en) * 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
JP2007206976A (ja) * 2006-02-01 2007-08-16 Alpine Electronics Inc 情報処理装置
US8332366B2 (en) * 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
WO2008019007A2 (en) * 2006-08-04 2008-02-14 Thefind, Inc. Method for relevancy ranking of products in online shopping
CN100507915C (zh) * 2006-11-09 2009-07-01 华为技术有限公司 网络搜索方法、网络搜索设备和用户终端
US20080217400A1 (en) * 2007-03-06 2008-09-11 Portano Michael D System for preventing fraudulent purchases and identity theft
US20080228700A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Attribute Combination Discovery
US8005842B1 (en) * 2007-05-18 2011-08-23 Google Inc. Inferring attributes from search queries
US8086620B2 (en) * 2007-09-12 2011-12-27 Ebay Inc. Inference of query relationships
US20090164454A1 (en) * 2007-12-21 2009-06-25 Sanguinetti Thomas V System and method for searching venues based on similarity values
US8312022B2 (en) * 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8266168B2 (en) * 2008-04-24 2012-09-11 Lexisnexis Risk & Information Analytics Group Inc. Database systems and methods for linking records and entity representations with sufficiently high confidence
US20090271374A1 (en) * 2008-04-29 2009-10-29 Microsoft Corporation Social network powered query refinement and recommendations
US8645391B1 (en) * 2008-07-03 2014-02-04 Google Inc. Attribute-value extraction from structured documents
JP5116593B2 (ja) * 2008-07-25 2013-01-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JP5384060B2 (ja) * 2008-09-12 2014-01-08 株式会社東京証券取引所 内部者照合装置及び内部者照合方法ならびにそのプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046567A (ja) * 2002-07-12 2004-02-12 Minolta Co Ltd 画像照会用情報構築方法および画像照会方法
JP2005018689A (ja) * 2003-06-30 2005-01-20 Web Intelligence Lab:Kk データマイニング方法
CN1867908A (zh) * 2003-10-14 2006-11-22 美国连机股份有限公司 具有个人搜索参数的搜索增强系统
US20060015498A1 (en) * 2004-08-13 2006-01-19 Edgar Sarmiento Search engine
US20080109875A1 (en) * 2006-08-08 2008-05-08 Harold Kraft Identity information services, methods, devices, and systems background
US20090055355A1 (en) * 2007-03-27 2009-02-26 Brunner Josie C Systems, methods, and apparatus for seamless integration for user, contextual, and social awareness in search results through layer approach

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408316A (zh) * 2016-11-23 2017-02-15 泰康保险集团股份有限公司 用于识别客户的方法及装置
CN108399259A (zh) * 2018-03-09 2018-08-14 深圳市汗青文化传媒有限公司 一种数据处理方法及系统

Also Published As

Publication number Publication date
CN102971729B (zh) 2016-09-28
US20130204900A1 (en) 2013-08-08
CN106383836B (zh) 2019-12-27
MX2012011923A (es) 2013-03-20
AU2011239618B2 (en) 2014-08-28
US9442991B2 (en) 2016-09-13
CA2796061C (en) 2016-11-08
EP2558988A4 (en) 2016-12-21
CA2796061A1 (en) 2011-10-20
JP5587493B2 (ja) 2014-09-10
EP2558988A1 (en) 2013-02-20
HK1183348A1 (zh) 2013-12-20
RU2547213C2 (ru) 2015-04-10
AU2011239618A1 (en) 2012-11-01
CN106383836A (zh) 2017-02-08
US20110258232A1 (en) 2011-10-20
JP2013524387A (ja) 2013-06-17
WO2011130526A1 (en) 2011-10-20
BR112012026345A2 (pt) 2020-08-25
RU2012148248A (ru) 2014-05-20
KR101511656B1 (ko) 2015-04-22
US8438183B2 (en) 2013-05-07
KR20130108503A (ko) 2013-10-04

Similar Documents

Publication Publication Date Title
CN102971729A (zh) 将可操作属性归于描述个人身份的数据
CN101542475B (zh) 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法
CN101449271B (zh) 通过搜索进行注释
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
US8180808B2 (en) Spend data clustering engine with outlier detection
CN111753514A (zh) 一种专利申请文本的自动生成方法和装置
CN112988784A (zh) 数据查询方法、查询语句生成方法及其装置
CN112328653B (zh) 数据识别方法、装置、电子设备及存储介质
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质
JP2019016074A (ja) オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN115204155A (zh) 一种配置异常检测方法、装置、计算机设备和存储介质
CN114385777A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN112989011A (zh) 数据查询方法、数据查询装置和电子设备
CN107220249A (zh) 基于分类的全文搜索
JP4705430B2 (ja) 距離の概念に基づく言語処理装置
CN118364095B (zh) 一种车联网信号的快速查询方法、装置、设备及存储介质
CN113626600B (zh) 文本处理方法、装置、计算机设备和存储介质
CN110911015B (zh) 基于剖面隐式马氏模型的疾病名称标准化快速计算方法
CN117421421A (zh) 多源数据字典融合方法及装置、介质、设备
CN117349518A (zh) 确定最远邻候选点的方法、装置、计算机设备及存储介质
CN112860979A (zh) 资源搜索方法、装置、设备及存储介质
CN117216179A (zh) 一种基于语言模型的英文词语搭配查询方法
Tun et al. An approach of standardization and searching based on hierarchical bayesian clustering (hbc) for record linkage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1183348

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1183348

Country of ref document: HK