CN106575395A - 包含来自各种数据源的数据的实体解析 - Google Patents

包含来自各种数据源的数据的实体解析 Download PDF

Info

Publication number
CN106575395A
CN106575395A CN201580043264.8A CN201580043264A CN106575395A CN 106575395 A CN106575395 A CN 106575395A CN 201580043264 A CN201580043264 A CN 201580043264A CN 106575395 A CN106575395 A CN 106575395A
Authority
CN
China
Prior art keywords
record
entity
matching
item
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580043264.8A
Other languages
English (en)
Inventor
S·J·托马斯
M·M·H·乔德胡里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106575395A publication Critical patent/CN106575395A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Computational Mathematics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一对记录被分词以形成由每个记录表示的实体的规格化表示。通过确定两个实体是否已存在所学习的解析,将标记与机器学习系统相关联。如果不存在,则比较规格化记录以生成比较测量来确定记录是否匹配。规格化记录还可以用于执行web搜索,并且web搜索结果可以被规格化并且用作用于匹配的附加记录。当找到匹配时,更新记录以指示它们匹配,并且将匹配提供给机器学习系统以更新所学习的解析。

Description

包含来自各种数据源的数据的实体解析
背景技术
组织可使用一个或多个计算机系统。不同的计算机系统可以由不同的人用于不同的目的,因此每个系统可以包含其自身的数据。
一些这样的计算机系统包括业务系统。业务系统可以包括例如客户关系管理(CRM)系统、企业资源规划(ERP)系统、业务线(LOB)系统等。这些系统可以存储表示业务系统内的项的数据记录(例如,实体),并且其可以在数据记录上运行业务流程、工作流或其它业务逻辑,使得用户可以执行任务或活动以执行业务的功能。
实体可以表示业务系统内的各种各样的不同类型的事物。其可以是具有可调用函数的对象,或者其可以是更丰富的结构。此外,其可以表示各种各样的不同类型的事物。例如,客户实体可以表示和描述客户。供应者实体可以表示和描述供应者。产品实体可以表示和描述产品。报价实体可以表示和描述报价。业务机会实体可以表示和描述业务机会。这些仅是示例,并且也可以使用各种各样的其它实体。
数据(例如,实体或其它业务记录)或其它信息可以存在于针对不同业务功能而来源的不同应用中。这些功能中的一些可以包括例如销售、营销、客户服务、电子商务等。因为这些不同的应用或系统中的每一个具有其自身的数据,所以取决于使用其的应用,单个实体的数据可以是不同的。例如,在销售系统中表示客户A的数据可以不同于在授权系统中表示客户A的数据。事实上,对于单个企业或组织,这些类型的不同表示存在于许多(可能是40-50个或更多个)不同的系统中是并不罕见的。这可能呈现某些挑战。
例如,可能的是,来自客户A的人员联系组织的客户服务代表。客户服务代表可以驻留在客户A不具有很大比例的一些国家中,并且可能不知道客户A是组织的最高支付客户,是因为该信息存储在销售系统中,而客户服务代表正在使用客户服务系统。然而,这类型的信息对于客户服务代表可能是非常有用的。
因为许多组织彼此具有复杂的关系,该问题可能加剧。例如,客户A可以具有与组织的财务关系、以及合同关系或交易关系。财务关系中所需的信息可能与合同关系中所需的信息不同。类似地,客户A可能具有在组织中没有在财务或合同背景中获知的某些使用模式。在一些情况下,客户A可以是同一组织的客户和供应者。所有这些类型的复杂关系可以使得更加难以在全面的意义上理解客户A如何与部署业务系统的组织相关。
在实体解析领域已经做了一些工作。该工作包括尝试执行对象匹配、重复标识等。这些实体解析任务用于尝试标识计算机系统中可能指向相同真实世界项的不同实体。例如,在客户具有法定名称“ACME,Inc.”的情况下,该术语可以用于在授权系统中标识客户。然而,在客户还具有不同(例如,通俗)名称(例如,“ACME公司”)的情况下,该短语可以用于标识销售系统或客户服务系统中的客户。正在进行的用于执行实体解析的当前工作包括基于规则的方法、成对分类、各种聚类方法以及不同形式的概率推理。
上面的讨论仅提供了整体的背景信息,并且不旨在用于帮助确定所要求保护的主题的范围。
发明内容
一对记录被分词(tokenized)以形成由每个记录表示的实体的规格化表示。通过确定是否已存在用于两个实体的学习的解析,将标记与机器学习系统相关联。如果不存在,则比较规格化记录以生成比较测量来确定记录是否匹配。规格化记录还可以用于执行web搜索,并且web搜索结果可以被规格化并且用作用于匹配的附加记录。当找到匹配时,更新记录以指示其匹配,并且将匹配提供给机器学习系统以更新所学习的解析。
提供本发明内容来以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决背景技术中提到的任何缺点或所有缺点的实现方式。
附图说明
图1A和图1B(统称为图1)示出了实体解析架构的一个示例的框图。
图2是更详细地示出实体匹配系统的一个示例的框图。
图3A和图3B(统称为图3)示出了图示在匹配实体记录中的图1所示的架构和图2所示的实体匹配系统的操作的一个示例的流程图。
图4是示出部署在云计算架构中的图1所示的架构的一个示例的框图。
图5-图7示出了移动设备的各种示例。
图8是计算环境的一个示例的框图。
具体实施方式
本讨论将关于客户实体的实体解析来进行。例如,在计算系统中可以存在两个不同的实体,两个实体均表示相同的客户。然而,两个不同的实体可以包括稍微不同(或甚至非常不同)的信息。本讨论将关于如何解决和标识两个客户实体实际上指代相同客户的描述进行。当然,可以理解,实体解析可以在计算机系统中的任何类型的实体上执行,并且客户实体仅是一个示例。图1是实体解析架构100的一个示例的框图。架构100示例性地包括业务系统102、实体解析系统104(其被示出为与业务系统102分离,但是其也可以是业务系统102的一部分)、机器学习系统106、记录更新组件108、记录集合(例如,通过关系连接所连接的实体节点的图形)110、访问web内容114的搜索引擎112、处理器或服务器140、用户接口组件142,并且其还可以包括其它的项144。架构100还示出了在一个示例中,业务系统102生成具有用户输入机构118的用户界面显示器116,用户输入机构118可以被访问以用于由用户120交互。用户120可以示例性地与用户输入机构118交互,以控制和操纵业务系统102。架构100还示出了在一个示例中,记录110还可以被存储在业务系统102中或者可以由业务系统102访问。因此,用户120可以示例性地针对记录110执行搜索,以获得业务系统102内的各种实体和关系的全面视图。
业务系统102可以示例性地包括销售系统122、采购系统124、授权系统126,并且其可以包括其它数据源128。销售系统122可以被销售用户用于进行销售活动。采购系统124可以由用户用于进行采购活动。授权系统126可以用于执行授权活动。所有这些活动可以相对于正在使用业务系统102的组织来执行。这些类型的活动可以由各种不同的用户来执行。
此外,每个系统122-128可以具有表示与部署业务系统102的组织交互的各种其它组织、个人、产品等(例如,实体)的其自身的数据。例如,销售系统122可以具有表示部署业务系统102的组织的销售客户的客户数据。销售客户示例性地由销售系统122内的客户实体表示。在销售背景中,销售系统122中的客户实体可以描述客户的联系人、地址和其它信息。
同时,使用业务系统102的组织也可以具有与相同客户达成的授权协议。在这种情况下,授权系统126示例性地包括在授权背景中表示客户的实体。因此,对应于授权系统126中的客户实体的联系人、关系信息和其它信息可以不同于销售系统122中的同一客户的联系人、关系信息和其它信息。
作为示例,销售系统110中的客户实体的客户信息可以包括给定客户的总年销售量,指示客户相对于部署系统102的组织有多大。其还可以包括作为通俗名称的客户名称,而不是客户的法定名称(legal name)。然而,授权系统126可以不具有相同类型的信息。相反,表示授权系统126中的客户的实体可以具有客户的法定名称并且可以具有与授权相关的其它信息。因此,通过授权系统126与客户联系的用户120可能不知道客户是该组织的非常大的客户,是因为该信息在销售系统122中。
在更详细地描述系统之前,将首先提供系统的一些部分的概述。在一个示例中,销售记录130(包括来自销售系统122的实体)、采购记录132(包括来自采购系统124的实体)、授权记录134(包括来自授权系统126的实体)和其它记录136(包括来自其它数据源128的实体)示例性地输出为被提供给实体解析系统104的记录集合138。实体解析系统104示例性地解析各种实体以标识来自业务系统102的输入记录138的集合中的哪些实体实际上指代同一客户。其可以通过将记录与先前学习的解析140相关联并使用来自搜索web内容114的搜索引擎112的搜索结果来做到这一点。实体解析的结果被提供给更新记录110(相关实体的图形)的记录更新组件108。记录110还可以存储在业务系统102内或可由业务系统102访问。因此,当用户120访问记录110以获得给定客户的客户实体时,用户示例性地获得该客户的全面示图,因为记录110中的客户实体将包括来自该客户在各种系统和数据源122-128中的各种实体表示的针对该客户的所有信息。
实体解析系统104本身示例性地包括分区组件146,其将输入记录集合138分区成块148集合。系统104还示例性地包括处理器或服务器147和实体匹配系统150,实体匹配系统150包括多个不同的实体匹配组件152的实例。实体匹配组件152的每个实例在单独的记录块148上操作,并且标识该记录块内涉及相同客户的记录。每个实体匹配组件152提供匹配结果集合154,其指示哪些记录实际上匹配并且指向相同的实体,而哪些记录不匹配。匹配结果154被示例性地提供给机器学习系统106,机器学习系统106使用它们来更新所学习的解析140。匹配结果154也被提供给记录更新组件108。记录更新组件108然后从两个匹配记录获得所有信息并更新记录110,使得图中的实体节点包含来自刚刚分析的两个记录的信息的超集。下一次用户120访问该节点时,用户将因此具有该节点(例如,客户)的更全面的视图。
现在将提供实体匹配组件152的更详细的描述。图2示出了实体匹配组件152的一个示例的更详细视图的框图。将理解,实体匹配组件152的实例在每个块148的记录上操作。其匹配每个块中的记录对。因此,图2示出了实体匹配组件152已选择第一记录160和第二记录162。实体匹配组件152还包括分词器(tokenizer)164和166(其也可以是单个分词器而不是不同的分词器),分词器164和166将记录160和162规格化以获得相对应的实体标记168和170。实体匹配组件152还包括记录匹配器172,记录匹配器172可以在记录160-162本身上操作或在分词的(或规格化的)记录168-170上操作。记录匹配器172可以包括向量生成器175、阈值组件177、加权组件179或其它项181。记录匹配器172可以基于记录本身或实体标记来确定两个记录是否匹配(并且实际上是否指代相同实体,在该示例中为相同客户)。在这样做时,记录匹配器172可以将匹配与已经学习的解析140相关联,并且可以考虑基于每个实体标记168-170生成的诸如web搜索结果174-176之类的结构化和非结构化数据。记录匹配器172示例性地输出正在被处理的记录对160-162的匹配结果154,以指示它们是否匹配。
图3A和图3B(统称为图3)示出了图示在解析输入记录集合138中的实体中架构100的操作的一个示例的流程图。分区组件146首先接收输入记录集合138。这由图3中的块180指示。这可以以各种各样的方式来完成。例如,业务系统102或实体解析系统104可以包括间歇地爬行业务系统102中的各种系统122-128以获得新添加或修改的记录的爬行器。爬行数据源以获得输入记录集合138由块182指示。当然,系统122-128本身也可以提供记录138。可以以各种其它方式获得记录,并且这由块184指示。
分区组件146然后基于分区标准将输入记录集合138分区成块。这由块186指示。例如,在记录对应于业务系统102中的客户的情况下,分区组件146可以基于在那些记录中为客户实体标识的地理位置来将输入记录集合138分区。这可以是有帮助的,因为如果具有相对相似的记录的两个客户位于相同的地理位置或非常相似的地点处,则记录可能指代相同的客户。块188指示基于地理位置对记录进行分区。
然而,也可以基于各种各样的其它分区标准来对记录进行分区。例如,可以基于与记录相关联的部门标识符190来对其进行分区。可以基于整个主机的其它标准192来对其进行分区,并且用于对记录集合分区的特定标准可以基于应用或基于正被解析的实体的类型或者由于其它原因而变化。例如,如果实体是客户实体,则分区标准可以是地理位置或其它标准。如果实体是产品实体,则分区标准可以完全不同。
在任何情况下,分区组件146将输入记录集合138分区成记录块148的集合。每个块148示例性地包括一组记录194。
每个记录160-162示例性地包括实体标识符。在记录表示客户的示例中,实体标识符可以是记录中的客户名称。当然,在记录表示不同类型的实体的情况下,实体标识符可以是诸如部件号、产品名称等的不同的标识符。记录160-162中的每一个还示例性地包括多个不同的属性。其在图2中被示为属性1-N。属性还可以基于实体的特定类型而变化。例如,如果实体是客户,则属性可以包括客户地址、主要联系人、董事会、客户的销售数字等。然而,如果记录表示不同类型的实体,则属性可以完全不同。
在一个示例中,每个块中的记录194在之后使用分布式处理并行地通过实体解析系统104来处理。其可以被同步地或异步地处理。在这样的示例中,系统104示例性地针对不同块148中的每一个启动实体匹配组件152的实例。因此,将关于实体匹配组件152处理给定块148的记录194的给定实例来描述关于图3的剩余部分的处理。然而,应当理解,对于其它块148中的每一个中的记录194也可以执行相同或类似的处理。
实体匹配组件152首先从其相对应的块中选择一对记录194。这由图3中的块196指示。实体匹配组件152中的分词器164-166然后通过为每个记录生成规格化标记168-170来规格化数据。这由块198指示。这可以以各种各样的方式来完成。例如,分词器164-166可以匹配相应记录对中的记录162的模式。这由块200指示。如果模式不匹配,则分词器164-166可以扫描该记录并标识以规格化形式拟合的每个记录160-162中的各种性质(或属性)。例如,分词器可以在记录中定位地址信息并且放置在规格化形式的地址字段中。对记录的其它性质或属性也可以这样做。这由块202指示。分词器164-166也可以以其它方式规格化记录160-162的属性,并且这由块204指示。
一旦分词器已经生成了记录的规格化形式(作为实体标记168-170),记录匹配器172访问已经由机器学习系统106(其可以是监督学习系统)学习的学习解析140以确定相应的标记是否已经被解析。这由图3中的块206指示。如果是,则记录匹配器172使用已经学习的解析输出用于记录160-162的匹配结果154。这由图3中的块208和210指示。
然而,如果对于两个记录不存在现有的解析,则记录匹配器172比较记录的规格化形式(例如,实体标记168-170),以生成指示两个标记如何相似的比较测量。这由图3中的块212和214指示。在一个示例中,记录匹配器172中的向量生成器175通过以规格化形式为每个属性1-N生成相似性得分的比较向量来做到这一点。在一个示例中,向量生成器175比较每个相对应的属性以确定其是否保存相同的值。如果是,则对应于该属性的向量值指示已经发生匹配。如果不是,则向量值指示属性不匹配。然而,在另一个示例中,向量生成器175不仅寻找给定属性对的相同匹配,而且它可以确定它们是多么相似。例如,如果它们相差一个字母、一个字符或具有其它轻微差异,则向量生成器175可以包括高相似性得分作为该属性集合的向量值。如果它们急剧变化,则相似性得分可以较低。记录匹配器172可以对记录自身中的或者以两个记录160-162的规格化形式(例如,标记168-170中)的每对对应属性1-N进行此操作以生成比较向量。生成比较向量由图3中的块216指示。当然,记录匹配器172可以生成指示这两个记录的各种属性如何以其它方式彼此比较的比较测量,并且这由块218指示。
记录匹配器172中的阈值组件177在之后确定比较测量是否满足阈值。如果阈值组件177确定比较测量满足阈值,则两个记录被标识为匹配。这由图3中的块220指示。然而,如果不是,则记录匹配器172中的加权组件179访问机器学习系统106以获得属性权重。这由块222指示。例如,可能一些属性比其它属性更重要。在这种情况下,即使所有或大多数属性不匹配,匹配属性也可以超过不匹配属性。权重可以由机器学习系统106学习,并且随时间修改。因此,在一个示例中,加权组件179从机器学习系统106获得最新的属性权重,并将加权的匹配属性组合以获得指示加权属性匹配的组合的成对匹配结果。这由块224指示。
再次,阈值组件177确定成对匹配结果是否满足阈值。这由块226指示。如果是,则记录匹配器172将两个记录标识为匹配。这由块228指示。其提供与机器学习系统106的匹配,使得机器学习系统106可以更新学习的解析140。这由图3中的块230指示。它还向记录更新组件108提供匹配结果,记录更新组件108使用所解析的匹配更新记录110。这由块232指示。然后,实体匹配组件152确定在其相应块148中是否存在更多的记录需要考虑。这由块234指示。如果是,则处理返回到块196,在块196中从块选择另一对记录。
如果在块226处,阈值组件177确定即使使用加权属性,两个记录也不匹配,则记录匹配器172确定对于这两个记录不存在学习的解析或匹配。这由块236指示。然后,它确定是否对该对记录进行附加匹配。这由块238指示。这可以以各种各样的不同方式来完成。例如,如果还没有执行附加的网络结果匹配,则这可能是期望的。然而,如果已经执行了相当详尽的匹配操作,则可能不需要进一步匹配,并且处理在块234处再次继续。
假设在块238处尝试附加匹配,则记录匹配器174将实体标记168-170(或那些标记的子集或原始记录160-162)发送到搜索引擎112。搜索引擎112使用这些项来针对各种不同种类的web内容114执行搜索。将与不匹配的记录相相对应的实体标记或多个记录发送到搜索引擎112由图3中的块240指示。搜索引擎112返回搜索结果,并且由块242指示在实体匹配组件152处接收这些结果。记录匹配器172选择前N个结果作为其相应块中的附加记录。数字N可以是预设的、固定的或动态的。其可以凭经验、启发式或以其它方式确定。其可以基于实体类型或基于其它信息而变化。记录匹配器172然后将前N个结果添加到块以用于进一步处理。这由块244指示。然后,处理返回到块196,其中选择来自该块的另一对记录用于处理。以这种方式,网络结果被视为与对应于实体匹配组件152的该实例的记录块中的其它记录194相同。因此,如上所述,它们被选择、规格化和相互匹配。
因此可以看出,实体解析系统104汇集了用于执行实体解析的各种不同方法,并且利用网络结果元数据和机器学习方法来增强它们。其可以使用分布式处理(例如,mapreduce作业),其中记录链接到指代同一实体的链接记录。其可以并入结构化和非结构化数据、以及web搜索结果。其允许客户容易地表现有价值的信息,以获得针对给定客户或其它实体的跨越实现生命周期的所有阶段的各种洞察,并且其使得能够通知客户管理决策并且使得能够更加可预测和成功地实现软件系统(例如,业务软件系统)。
因为在两个不同的背景中使用的两个不同的实体可以包括有价值的、跨背景的信息,所以将两个不同的实体解析为标识相同的现实世界项可以是非常有益的。例如,获取单个客户视图可以提高客户行为的知识,并且可以用于改善客户关系。其还可用于提高客户在交叉销售活动中的保留。其还改善了系统本身的性能。例如,其更快地表现单个实体的更全面的视图。这导致更有效的处理,从而减少系统上的处理开销。用户可以不需要在业务系统内搜索多个不同的系统以获得实体的全面视图。相反,可以生成该实体,使得当用户上拉相关实体时,提供全面视图,而不是可以由任何单独系统提供的部分视图。
本讨论已经提到了处理器和服务器。在一个实施例中,处理器和服务器包括具有相关联的存储器和定时电路(未单独示出)的计算机处理器。它们是其所属系统或设备的功能部分,并且由这些系统中的其它组件或项激活并促进这些系统中的其它组件或项的功能。
此外,已经讨论了多个用户界面显示器。它们可以采取各种各样的不同形式,并且可以具有设置在其上的各种不同的用户可致动输入机构。例如,用户可致动输入机构可以是文本框、复选框、图标、链接、下拉菜单、搜索框等。它们还可以以各种各样的不同方式被致动。例如,可以使用点击装置(例如,跟踪球或鼠标)来致动它们。可以使用硬件按钮、开关、操纵杆或键盘、拇指开关或拇指垫等来致动它们。也可以使用虚拟键盘或其它虚拟致动器来致动它们。另外,在其上显示它们的屏幕是触敏屏幕的情况下,可以使用触摸手势来致动它们。此外,在显示它们的设备具有语音标识组件的情况下,可以使用语音命令来致动它们。
还讨论了多个数据存储。将注意到它们可以分别被分解成多个数据存储。所有数据存储可以是访问它们的系统的本地、所有数据存储可以是远程的、或者一些数据存储可以是本地的而另一些是远程的。本文中预期所有这些配置。
此外,附图示出了具有归属于每个块的功能的多个块。应当注意,可以使用更少的块,从而通过更少的组件来执行功能。此外,更多的块可以与分布在更多组件之间的功能一起使用。
图4是除了其元件设置在云计算架构500中之外,图1所示的架构100的框图。云计算提供不需要终端用户对递送服务的系统的物理位置或配置了解的计算、软件、数据访问和存储服务。在各种实施例中,云计算使用适当的协议通过广域网(例如,因特网)递送服务。例如,云计算提供商通过广域网递送应用,并且应用可以通过web浏览器或任何其它计算组件来访问。架构100的软件或组件以及相应的数据可以存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处合并或者它们可以被分散。即使云计算基础设施作为用户的单一访问点出现,它们也可以通过共享数据中心递送服务。因此,可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地,它们可以从常规服务器提供,或者它们可以直接地或以其它方式安装在客户端设备上。
该描述旨在包括公共云计算和私有云计算。云计算(公共和私有)提供了基本上无缝的资源池,以及减少了管理和配置底层硬件基础设施的需求。
公共云由供应者管理并且通常支持使用相同基础设施的多个消费者。此外,与私有云相反,公共云可以将终端用户从管理硬件中释放。私有云可以由组织本身管理,并且基础设施通常不与其它组织共享。组织仍在某种程度上维护硬件(例如,安装和维修等)。
在图4所示的示例中,一些项类似于图1中所示的项,并且它们被类似地编号。图4具体地示出了系统102、104、106、108和112可以位于云502(其可以是公共的、私有的或者其中部分是公共的而其它部分是私有的组合)中。因此,用户120使用用户设备504通过云502访问那些系统。
图4还描绘了云架构的另一示例。图4示出了还可以预期的是,架构100的一些元件被布置在云502中,而其它元件不被布置在云502中。作为示例,保持记录110的数据存储可以被布置在云502之外,并且通过云502访问。在另一个示例中,实体解析系统也可以在云502之外。无论它们位于何处,它们可以由设备504通过网络(广域网或局域网)被直接访问,它们可以通过服务在远程站点托管,或者它们可以通过云被提供作为服务或通过驻留在云中的连接服务被访问。本文设想所有这些架构。
还将注意到,架构100或其一部分可以设置在各种各样的不同设备上。这些设备中的一些包括服务器、台式计算机、膝上型计算机、平板计算机或诸如掌上计算机、蜂窝电话、智能电话、多媒体播放器、个人数字助理等的其它移动设备。
图5是可以用作用户或客户端的手持设备16的手持或移动计算设备的一个示例性实施例的简化框图,其中可以部署本系统(或其部分)。图6-图7是手持或移动设备的示例。
图5提供了可以运行架构100的组件或/和与架构100交互的客户端装置16的组件的整体框图。在设备16中,提供通信链路13,其允许手持设备与其它计算设备通信,并且在一些实施例情况下,诸如通过扫描提供用于自动接收信息的信道。通信链路13的示例包括红外端口、串行/USB端口、诸如以太网端口的电缆网络端口、以及允许通过一个或多个通信协议进行通信的无线网络端口,一个或多个通信协议包括通用分组无线电业务(GPRS)、LTE、HSPA、HSPA+和其它3G和4G无线电协议、1Xrtt以及短消息服务(其是用于提供对网络的蜂窝接入的无线服务)、以及提供到网络的本地无线连接的Wi-Fi协议和蓝牙协议。
在其它实施例情况下,在连接到SD卡接口15的可移动安全数字(SD)卡上接收应用或系统。SD卡接口15和通信链路13与处理器17(其还可以体现图1的处理器或服务器140、或147或设备504中的处理器或服务器)沿总线19通信,总线19还被连接到存储器21和输入/输出(I/O)组件23以及时钟25和定位系统27。
在一个实施例中,提供I/O组件23以促进输入和输出操作。用于设备16的各种实施例的I/O组件23可以包括诸如按钮、触摸传感器、多触摸传感器、光学或视频传感器、语音传感器、触摸屏、接近传感器、麦克风、倾斜传感器和重力开关的输入组件,以及诸如显示设备、扬声器和/或打印机端口的输出组件。也可以使用其它的I/O组件23。
时钟25示例性地包括输出时间和日期的实时时钟组件。其还可以示例性地为处理器17提供定时功能。
位置系统27示例性地包括输出设备16的当前地理位置的组件。这可以包括例如全球定位系统(GPS)接收机、LORAN系统、航位推算系统、蜂窝三角测量系统、或其它定位系统。其还可以包括例如生成所需地图、导航路线和其它地理功能的地图绘制软件或导航软件。
存储器21存储操作系统29、网络设置31、应用33、应用配置设置35、数据存储37、通信驱动器39和通信配置设置41。存储器21可以包括所有类型的有形易失性和非易失性计算机可读存储器设备。其还可以包括(如下所述的)计算机存储介质。存储器21存储计算机可读指令,计算机可读指令当由处理器17执行时,使得处理器根据指令执行计算机实现的步骤或功能。类似地,设备16可以具有客户业务系统24,客户业务系统24可以运行各种业务应用或实现架构100的部分或全部。也可以由其它组件激活处理器17以促进其功能。
网络设置31的示例包括诸如代理信息、因特网连接信息和映射的内容。应用配置设置35包括为特定企业或用户定制应用的设置。通信配置设置41提供用于与其它计算机通信的参数,并且包括诸如GPRS参数、SMS参数、用户名和密码连接的项。
应用33可以是先前存储在设备16上的应用或者在使用期间安装的应用,但是这些应用可以是操作系统29的部分,或者也可以托管在设备16外部。
图6示出了一个实施例,在该实施例中,设备16是平板计算机600。在图6中,示出了具有显示在显示屏幕602上的用户界面显示的计算机600。屏幕602可以是触摸屏(因此来自用户手指的触摸动作可以用于与应用交互)或者从笔或触笔接收输入的支持笔的接口。其还可以使用屏幕上的虚拟键盘。当然,其还可以通过合适的附接机构(例如,无线链接或USB端口)被附接到键盘或其它用户输入设备。计算机600还可以示例性地接收语音输入。
也可以使用设备16的附加示例。设备16可以是功能电话、智能电话或移动电话。电话包括用于拨打电话号码的一组键盘、能够显示包括应用图像、图标、网页、照片和视频的图像的显示器、以及用于选择示出在显示器上的项的控制按钮。电话可以包括用于接收诸如通用分组无线电服务(GPRS)和1Xrtt的蜂窝电话信号以及短消息服务(SMS)信号的天线。在一些实施例中,电话还包括接受SD卡的安全数字(SD)卡槽。
移动设备还可以是个人数字助理(PDA)或多媒体播放器或平板计算设备等(以下称为PDA)。PDA可以包括感应屏幕,当触笔定位在屏幕上时,感应屏幕感测触笔(或诸如用户手指的其它指针)的位置。这允许用户选择、突出显示和移动屏幕上的项以及绘制和写入。PDA还包括多个用户输入键或按钮,用户输入键或按钮允许用户滚动显示在显示器上的菜单选项或其它显示选项,并允许用户改变应用或选择用户输入功能,而不接触显示器。尽管未示出,但是PDA可以包括允许与其它计算机进行无线通信的内部天线和红外发射器/接收器以及允许到其它计算设备的硬件连接的连接端口。这种硬件连接通常通过利用串行端口或USB端口连接到另一计算机的支架来进行。因此,这些连接是非网络连接。
图7示出了电话可以是智能电话71。智能电话71具有显示图标或图块或其它用户输入机构75的触敏显示器73。机构75可以由用户使用来运行应用、呼叫、执行数据传输操作等。一般来说,智能电话71建立在移动操作系统上,并且提供比功能电话更高级的计算能力和连接性。
注意,设备16可以是其它形式。
图8是可以部署架构100或(例如)其部分的计算环境的一个实施例。参考图8,用于实现一些实施例的示例性系统包括计算机810形式的通用计算设备。计算机810的组件可以包括但不限于处理单元820(其可以包括处理器或服务器140或设备504中的处理器或服务器)、系统存储器830和系统总线821,系统总线821将包括系统存储器的各种系统组件耦合到处理单元820。系统总线821可以是几种类型的总线结构中的任何一种,总线结构包括存储器总线或存储器控制器、外围总线和使用各种总线架构中的任一种的局部总线。作为示例而非限制,这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线(也称为夹层总线)。关于图1描述的存储器和程序可以部署在图8的相应部分中。
计算机810通常包括各种计算机可读介质。计算机可读介质可以是可由计算机810访问的任何可用介质,并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质不同于并且不包括调制的数据信号或载波。其包括硬件存储介质,硬件存储介质包括以用于信息(例如,计算机可读指令、数据结构、程序模块或其它数据)存储的任何方法和技术实现的易失性和非易失性介质、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁存储设备或可用于存储所需信息并且可由计算机810访问的任何其它介质。通信介质通常在传输机构中体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递媒体。术语“调制数据信号”意指具有以在信号中编码信息的方式设置或改变其一个或多个特性的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接的有线介质以及诸如声学、RF、红外和其它无线介质的无线介质。任何上述的组合也应包括在计算机可读介质的范围内。
系统存储器830包括诸如只读存储器(ROM)831和随机存取存储器(RAM)832的易失性和/或非易失性存储器形式的计算机存储介质。基本输入/输出系统833(BIOS)包含例如在启动期间帮助在计算机810内的元件之间传输信息的基本例程,基本输入/输出系统833(BIOS)通常存储在ROM 831中。RAM 832通常包含可立即访问和/或当前正在由处理单元820操作的数据和/或程序模块。作为示例而非限制,图8图示了操作系统834、应用程序835、其它程序模块836和程序数据837。
计算机810还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图8图示了从不可移动、非易失性磁介质读取或向其写入的硬盘驱动841,以及从可移动、非易失性光盘856(例如,CD ROM或其它光学介质)读取或向其写入的光盘驱动855。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于磁带盒、闪存卡、数字多功能盘、数字视频磁带、固态RAM、固态ROM等。硬盘驱动841通常通过诸如接口840的不可移动存储器接口连接到系统总线821,并且光盘驱动855通常通过诸如接口850的可移动存储器接口连接到系统总线821。
备选地或附加地,本文所描述的功能性可以至少部分地由一个或多个硬件逻辑组件执行。例如但不限于,可以使用的硬件逻辑组件的示例性类型包括现场可编程门阵列(FPGA)、程序特定集成电路(ASIC)、程序特定标准产品(ASSP)、系统级芯片系统(SOC)、复杂可编程逻辑器件(CPLD)等。
以上所讨论的和在图8中图示的驱动及其相关联的计算机存储介质为计算机810提供计算机可读指令、数据结构、程序模块和其它数据的存储。在图8中,例如,硬盘驱动841被示出为存储操作系统844、应用程序845、其它程序模块846以及程序数据847。注意,这些组件可以与操作系统834、应用程序835、其它程序模块836和程序数据837相同,或与其不同。这里给出不同数量的操作系统844、应用程序845、其它程序模块846以及程序数据847以示出至少它们是不同的副本。
用户可以通过诸如键盘862、麦克风863和定点设备861(例如,鼠标、轨迹球或触摸板)的输入设备将命令和信息输入到计算机810中。其它输入设备(未示出)可以包括操纵杆、游戏板、卫星天线、扫描仪等。这些和其它输入设备通常通过耦合到系统总线的用户输入接口860被连接到处理单元820,但是可以通过其它接口和总线结构(例如,并行端口、游戏端口或通用串行总线(USB))被连接。视觉显示器891或其它类型的显示设备也经由诸如视频接口890的接口被连接到系统总线821。除了监视器之外,计算机还可以包括可以通过输出外围接口895连接的诸如扬声器897和打印机896的其它外围输出设备。
在联网环境中使用到诸如远程计算机880的一个或多个远程计算机的逻辑连接来操作计算机810。远程计算机880可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它公共网络节点,并且通常包括以上关于计算机810描述的许多或所有元件。图8中描述的逻辑连接包括局域网(LAN)871和广域网(WAN)873,而且可以包括其它网络。这样的网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN网络环境中使用时,计算机810通过网络接口或适配器870被连接到LAN871。当在WAN网络环境中使用时,计算机810通常包括调制解调器872或用于通过WAN 873(例如,因特网)建立通信的其它装置。可以是内部或外部的调制解调器872可以经由用户输入接口860或其它适当的机构连接到系统总线821。在联网环境中,相对于计算机810所描绘的程序模块或其部分可以存储在远程存储器存储设备中。作为示例而非限制,图8示出了驻留在远程计算机880上的远程应用程序885。应当理解,所示出的网络连接是示例性的,并且可以使用其它方式在计算机之间建立通信链路。
还应当注意,本文所描述的不同实施例可以以不同的方式组合。即,一个或多个实施例的部分可以与一个或多个其它实施例的部分组合。本文中设想所有这些。
示例1是一种计算系统,包括:
接收第一记录和第二记录的记录分词器,每个记录包括标识作为记录的对象的项的项标识符和属性集合,分词器将第一记录和第二记录规格化以获得相对应的第一实体标记和第二实体标记,每个实体标记以规格化形式表示对应记录中的项标识符和属性;以及
记录匹配器,其将第一实体标记与第二实体标记进行比较以标识相似性测量,并且基于相似性测量,提供指示第一记录和第二记录是否解析为与其对象相同的项的匹配结果。
示例2是任何或所有前述示例的计算系统,还包括:
记录更新组件,其接收匹配结果并基于匹配结果更新项的记录。
示例3是任何或所有前述示例的计算系统,其中更新组件被配置为响应于匹配结果指示第一记录和第二记录解析为相同项而聚集第一记录和第二记录中的属性的超集并且基于属性的超集在项的记录中更新相同的项。
示例4是任何或所有前述示例的计算系统,其中记录匹配器访问先前学习的解析集合以标识先前学习的解析是否指示第一实体标记和第二实体标记解析为相同项。
示例5是任何或所有前述示例的计算系统,还包括:
提供先前学习的解析集合的监督机器学习系统。
示例6是任何或所有前述示例的计算系统,其中记录匹配器被配置为向监督机器学习系统提供匹配结果以更新先前学习的解析。
示例7是任何或所有前述示例的计算系统,其中记录匹配器被配置为从记录块中选择第一记录和第二记录,并且响应于匹配结果指示第一记录和第二记录不解析为相同项,访问广域网搜索引擎以使用第一实体标记作为搜索输入来启动广域网搜索,并获得搜索结果,搜索结果被添加到记录块以作为要被分词器分词的并且使用记录匹配器比较的记录。
示例8是任何或所有前述示例的计算系统,并且还包括:
分区组件,所述分区组件接收输入记录集合并且基于分区标准将输入记录集合分区为块。
示例9是任何或所有前述示例的计算系统,其中分区组件基于被包含在输入记录集合的每个记录中的地理位置信息,来将输入记录集合分区为块。
示例10是任何或所有前述示例的计算系统,其中记录匹配器包括:
向量生成器,生成具有向量值的相似性向量,向量值对应于规格化形式的每个属性,向量值指示第一实体标记和第二实体标记中的对应属性是否彼此匹配,相似性测量基于向量值。
示例11是任何或所有前述示例的计算系统,其中记录匹配器包括:
阈值组件,标识相似性测量是否满足阈值,并且如果满足,则提供匹配结果以指示第一记录和第二记录解析为相同的项。
示例12是任何或所有前述示例的计算系统,其中记录匹配器包括:
加权组件,其标识每一向量值的权重,并且基于向量值的加权组合来生成相似性测量。
示例13是任何或所有先前示例的计算系统,并且还包括:
多个不同的业务子系统,每个业务子系统具有记录集合,来自多个不同业务子系统的记录集合包括输入记录集合。
示例14是一种方法,包括:
从多个不同的数据源获得输入记录集合,记录集合包括多个不同的记录,每个记录包括标识由记录描述的项的项标识符以及与项相关的属性集合,记录处于不同的形式;
将多个不同的记录规格化为相对应的规格化形式;
比较规格化形式以生成匹配结果,所述匹配结果指示多个不同记录是否描述相同的项;
基于匹配结果更新记录存储。
示例15是任何或所有前述示例的方法,其中比较进一步包括:
访问由监督机器学习系统学习的先前学习的匹配集合;
确定先前学习的匹配集合是否包括与所比较的规格化形式相对应的多个不同记录的匹配结果。
示例16是根据权利要求14所述的方法,还包括:
如果匹配结果指示多个不同的记录不描述相同的项,则使用至少一个规格化形式中的至少一部分启动web搜索;
接收搜索结果;以及
将至少一些搜索结果添加到用于规格化和比较的输入记录集合。
示例17是任何或所有前述示例的方法,其中获得输入记录集合包括:
从业务系统中的多个不同子系统获得输入记录集合。
示例18是任何或所有前述示例的方法,其中比较包括:
标识与记录中的两个相相对应的规格化形式的属性的相似性;
生成具有与属性相相对应的向量值的相似性向量,向量值指示对应属性的相似性;
基于向量值生成相似性测量;以及
基于相似性测量生成匹配结果。
示例19是实体解析系统,包括:
分区组件,其接收包括来自多个不同数据源的记录的输入记录集合,并且基于分区标准将输入记录集合分区成块,每个记录与实体相关;以及
实体匹配组件,其从给定块中选择第一记录和第二记录,并且输出指示第一记录和第二记录是否解析为相同实体的匹配结果,其中实体匹配组件将记录规格化为相对应的规格化形式,确定是否为与第一记录和第二记录相相对应的规格化形式找到先前学习的解析,并且如果否,则比较规格化形式以确定它们是否满足相似性阈值,如果不满足,则使用至少一个规格化形式的至少部分以生成web搜索并获得搜索结果,实体匹配组件将搜索结果中的至少一些添加到给定块,以供实体匹配组件稍后选择。
示例20是任何或所有前述示例的实体解析系统,其中第一记录和第二记录包含属性,并且还包括:
记录更新组件,其响应于指示第一记录和第二记录解析为同一实体的匹配结果,使用来自第一记录和第二记录的属性更新实体记录。
尽管以结构特征和/或方法动作专用的语言描述了主题,但是应当理解,所附权利要求中定义的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作被公开为实现权利要求的示例形式。

Claims (15)

1.一种计算系统,包括:
接收第一记录和第二记录的记录分词器,每个记录包括项标识符和属性集合,所述项标识符标识作为所述记录的对象的项,所述分词器将所述第一记录和所述第二记录规格化以获得相对应的第一实体标记和第二实体标记,每个实体标记以规格化形式表示相对应的所述记录中的所述项标识符和所述属性;以及
记录匹配器,所述记录匹配器将所述第一实体标记与所述第二实体标记进行比较以标识相似性测量,并且基于所述相似性测量来提供匹配结果,所述匹配结果指示所述第一记录和所述第二记录是否解析为与其对象相同的项。
2.根据权利要求1所述的计算系统,还包括:
记录更新组件,所述记录更新组件接收所述匹配结果,并且通过响应于所述匹配结果指示所述第一记录和所述第二记录解析为所述相同的项而聚集所述第一记录和所述第二记录中的所述属性的超集并且基于属性的所述超集在项的记录中更新所述相同的项,来基于所述匹配结果更新所述项记录。
3.根据权利要求2所述的计算系统,其中所述记录匹配器访问先前学习的解析集合,以标识先前学习的解析是否指示所述第一实体标记和所述第二实体标记解析为所述相同的项。
4.根据权利要求3所述的计算系统,还包括:
提供所述先前学习的解析集合的监督机器学习系统,其中所述记录匹配器被配置为向所述监督机器学习系统提供所述匹配结果以更新所述先前学习的解析。
5.根据权利要求1所述的计算系统,其中所述记录匹配器被配置为从记录块中选择所述第一记录和所述第二记录,并且响应于所述匹配结果指示所述第一记录和所述第二记录不解析为所述相同的项,访问广域网搜索引擎以使用所述第一实体标记作为搜索输入来启动广域网搜索并获得搜索结果,所述搜索结果被添加到所述记录块中以作为要被所述分词器分词的并且使用所述记录匹配器进行比较的记录。
6.根据权利要求5所述的计算系统,还包括:
分区组件,所述分区组件接收输入记录集合并且基于分区标准将所述输入记录集合分区为块。
7.根据权利要求6所述的计算系统,其中所述分区组件基于被包含在所述输入记录集合的每个记录中的地理位置信息来将所述输入记录集合分区为块。
8.根据权利要求5所述的计算系统,其中所述记录匹配器包括:
向量生成器,所述向量生成器生成具有向量值的相似性向量,所述向量值对应于所述规格化形式中的每个属性,所述向量值指示所述第一实体标记和所述第二实体标记中的相对应的所述属性是否彼此匹配,所述相似性测量基于所述向量值;以及
阈值组件,所述阈值组件标识所述相似性测量是否满足阈值,并且如果满足,则提供所述匹配结果以指示所述第一记录和所述第二记录解析为所述相同的项。
9.根据权利要求8所述的计算系统,其中所述记录匹配器包括:
加权组件,所述加权组件标识每一向量值的权重,并且基于所述向量值的加权组合来生成所述相似性测量。
10.根据权利要求6所述的计算系统,还包括:
多个不同的业务子系统,每个业务子系统具有记录集合,来自所述多个不同的业务子系统的所述记录集合包括输入记录集合。
11.一种方法,包括:
从多个不同的数据源获得输入记录集合,所述记录集合包括多个不同的记录,每个记录包括标识由所述记录描述的项的项标识符以及与所述项相关的属性集合,所述记录处于不同的形式;
将所述多个不同的记录规格化为相对应的规格化形式;
比较所述规格化形式以生成匹配结果,所述匹配结果指示所述多个不同的记录是否描述相同的项;
基于所述匹配结果来更新记录存储。
12.根据权利要求11所述的方法,还包括:
如果所述匹配结果指示所述多个不同的记录不描述所述相同的项,则使用所述规格化形式中的至少一个的至少部分来启动网页搜索;
接收搜索结果;以及
将所述搜索结果中的至少一些添加到所述输入记录集合以用于规格化和比较。
13.根据权利要求11所述的方法,其中获得所述输入记录集合包括:
从业务系统中的多个不同子系统获得所述输入记录集合。
14.根据权利要求11所述的方法,其中比较包括:
标识在与所述记录中的两个记录相对应的所述规格化形式中的所述属性的相似性;
生成具有与所述属性相对应的向量值的相似性向量,所述向量值指示相对应的所述属性的所述相似性;
基于所述向量值生成相似性测量;以及
基于所述相似性测量生成所述匹配结果。
15.一种实体解析系统,包括:
分区组件,所述分区组件接收包括来自多个不同数据源的记录的输入记录集合,并且基于分区标准将所述输入记录集合分区成块,每个记录与实体相关;以及
实体匹配组件,所述实体匹配组件从给定块中选择第一记录和第二记录,并且输出指示所述第一记录和所述第二记录是否解析为相同实体的匹配结果,其中所述实体匹配组件将所述记录规格化为相对应的规格化形式,确定是否为与所述第一记录和所述第二记录相相对应的所述规格化形式找到先前学习的解析,并且如果未找到,则比较所述规格化形式以确定所述规格化形式是否满足相似性阈值,如果不满足,则使用至少一个规格化形式的至少部分来生成网页搜索并获得搜索结果,所述实体匹配组件将所述搜索结果中的至少一些添加到所述给定块,以供所述实体匹配组件稍后选择。
CN201580043264.8A 2014-08-12 2015-08-11 包含来自各种数据源的数据的实体解析 Pending CN106575395A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/457,317 US9922290B2 (en) 2014-08-12 2014-08-12 Entity resolution incorporating data from various data sources which uses tokens and normalizes records
US14/457,317 2014-08-12
PCT/US2015/044543 WO2016025415A1 (en) 2014-08-12 2015-08-11 Entity resolution incorporating data from various data sources

Publications (1)

Publication Number Publication Date
CN106575395A true CN106575395A (zh) 2017-04-19

Family

ID=53872189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580043264.8A Pending CN106575395A (zh) 2014-08-12 2015-08-11 包含来自各种数据源的数据的实体解析

Country Status (4)

Country Link
US (3) US9922290B2 (zh)
EP (1) EP3180745A1 (zh)
CN (1) CN106575395A (zh)
WO (1) WO2016025415A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、系统、终端和计算机可读存储介质
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN112771518A (zh) * 2018-09-28 2021-05-07 亚马逊技术股份有限公司 托管机器学习模型
WO2022012380A1 (en) * 2020-07-13 2022-01-20 International Business Machines Corporation Improved entity resolution of master data using qualified relationship score

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083668A1 (en) * 2012-01-20 2017-03-23 International Business Machines Corporation Method and apparatus providing an online diagnostic assistant tool
US11593405B2 (en) * 2015-04-21 2023-02-28 International Business Machines Corporation Custodian disambiguation and data matching
US10503908B1 (en) 2017-04-04 2019-12-10 Kenna Security, Inc. Vulnerability assessment based on machine inference
US11568302B2 (en) * 2018-04-09 2023-01-31 Veda Data Solutions, Llc Training machine learning algorithms with temporally variant personal data, and applications thereof
US11120053B2 (en) * 2018-10-23 2021-09-14 International Business Machines Corporation System and method for multi-dimensional entity resolution of moving objects
US11792081B2 (en) 2019-02-22 2023-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Managing telecommunication network event data
US11989741B2 (en) * 2019-07-02 2024-05-21 Bsi Business Systems Integration Ag Campaign management system—multiple instances
US11556845B2 (en) * 2019-08-29 2023-01-17 International Business Machines Corporation System for identifying duplicate parties using entity resolution
US11544477B2 (en) * 2019-08-29 2023-01-03 International Business Machines Corporation System for identifying duplicate parties using entity resolution
US20220036006A1 (en) * 2020-07-30 2022-02-03 International Business Machines Corporation Feature vector generation for probabalistic matching
US20220043934A1 (en) * 2020-08-07 2022-02-10 SECURITI, Inc. System and method for entity resolution of a data element
US20220405309A1 (en) * 2021-06-09 2022-12-22 Adstra, Inc. Systems and methods for a unified matching engine

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7287019B2 (en) * 2003-06-04 2007-10-23 Microsoft Corporation Duplicate data elimination system
US20080040342A1 (en) * 2004-09-07 2008-02-14 Hust Robert M Data processing apparatus and methods
US7685093B1 (en) * 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
EP2245554A1 (en) 2007-12-21 2010-11-03 Thomson Reuters Global Resources Systems, methods, and software for entity relationship resolution
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US8175873B2 (en) 2008-12-12 2012-05-08 At&T Intellectual Property I, L.P. System and method for referring to entities in a discourse domain
US8190538B2 (en) * 2009-01-30 2012-05-29 Lexisnexis Group Methods and systems for matching records and normalizing names
US8731901B2 (en) 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
US8423525B2 (en) 2010-03-30 2013-04-16 International Business Machines Corporation Life arcs as an entity resolution feature
US8620927B2 (en) 2010-06-28 2013-12-31 International Business Machines Corporation Unguided curiosity in support of entity resolution techniques
WO2012103438A1 (en) 2011-01-28 2012-08-02 Ab Initio Technology Llc Generating data pattern information
US8972387B2 (en) 2011-07-28 2015-03-03 International Business Machines Corporation Smarter search
US8965848B2 (en) 2011-08-24 2015-02-24 International Business Machines Corporation Entity resolution based on relationships to a common entity
CN108388632B (zh) * 2011-11-15 2021-11-19 起元科技有限公司 数据分群、分段、以及并行化
US9443021B2 (en) 2011-12-30 2016-09-13 Microsoft Technology Licensing, Llc Entity based search and resolution
US9552393B2 (en) 2012-01-13 2017-01-24 Business Objects Software Ltd. Adaptive record linking in a distributed computing system
US20130268526A1 (en) * 2012-04-06 2013-10-10 Mark E. Johns Discovery engine
US8595219B1 (en) 2012-05-16 2013-11-26 Trans Union, Llc System and method for contextual and free format matching of addresses
US20140279739A1 (en) 2013-03-15 2014-09-18 InsideSales.com, Inc. Resolving and merging duplicate records using machine learning
WO2014031616A1 (en) 2012-08-22 2014-02-27 Bitvore Corp. Enterprise data processing
US9292797B2 (en) 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
US9355088B2 (en) * 2013-07-12 2016-05-31 Microsoft Technology Licensing, Llc Feature completion in computer-human interactive learning
US9230041B2 (en) 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US20150228004A1 (en) * 2014-02-07 2015-08-13 Kristin Kaye Bednarek Smart Device Apps and Incentives For Encouraging The Creation and Sharing Electronic Lists To Imrpove Targeted Marketing While Preserving User Anonymity

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
K HIMA PRASAD等: "Data Cleansing Techniques for Large Enterprise Datasets", 《2011 ANNUAL SRII GLOBAL CONFERENCE》 *
MONG LI LEE等: "cleansing data for mining and warehousing", 《LECTURE NOTES IN COMPUTER SCIENCE》 *
STEVEN N. MINTON等: "A Heterogeneous Field Matching Method for Record Linkage", 《PROCEEDINGS OF THE FIFTH IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM’05)》 *
ULLAS NAMBIAR等: "Data Augmentation as a Service for Single View Creation", 《2011 IEEE INTERNATIONAL CONFERENCE ON SERVICES COMPUTING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、系统、终端和计算机可读存储介质
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
US11275810B2 (en) 2018-03-23 2022-03-15 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based triple checking method and apparatus, device and storage medium
CN112771518A (zh) * 2018-09-28 2021-05-07 亚马逊技术股份有限公司 托管机器学习模型
WO2022012380A1 (en) * 2020-07-13 2022-01-20 International Business Machines Corporation Improved entity resolution of master data using qualified relationship score
US11474983B2 (en) 2020-07-13 2022-10-18 International Business Machines Corporation Entity resolution of master data using qualified relationship score
GB2611982A (en) * 2020-07-13 2023-04-19 Ibm Improved entity resolution of master data using qualified relationship score

Also Published As

Publication number Publication date
US9922290B2 (en) 2018-03-20
US11379754B2 (en) 2022-07-05
EP3180745A1 (en) 2017-06-21
WO2016025415A1 (en) 2016-02-18
US20220292403A1 (en) 2022-09-15
US20160048770A1 (en) 2016-02-18
US20180197113A1 (en) 2018-07-12

Similar Documents

Publication Publication Date Title
CN106575395A (zh) 包含来自各种数据源的数据的实体解析
TWI790443B (zh) 用於機器學習模型建立之技術
US10929799B2 (en) Identification of inaccurate addresses for package deliveries
US10783565B2 (en) Method, manufacture, and system of transferring authenticated sessions and states between electronic devices
KR101569470B1 (ko) 현재의 위치 또는 시간에 관한 정보의 제시
CN106471517B (zh) 对显示元素的因用户而异的可视化
JP2023029931A (ja) 名前付きエンティティの構文解析および識別に基づくクロスドキュメントの修辞的つながりの判断
US10902445B2 (en) Location evaluation
CN105612497A (zh) 所选更新在多个环境中的自动安装
JP2010508592A (ja) アルゴリズム上の再検討及び編集上の再検討の組み合わせによるモバイルコンテンツの検索結果
CN105612495A (zh) 在计算机系统中安装所选更新之后自动解决冲突
CN104115147B (zh) 位置感知应用搜索
CN105103117A (zh) 用于呈现和传递内容的系统和方法
CN105247555A (zh) 在生成推荐时考虑社交信息
CN107534586A (zh) 网站流量控制的系统和方法
KR102242974B1 (ko) 상호적 제품 리뷰 인터페이스
TW201413483A (zh) 用於處理產品及服務資料之推銷商系統及方法
US11481723B2 (en) Method, system, and media for management and organization of personal property
US20150347595A1 (en) Personal intelligence platform
CN105229638B (zh) 作为对内容的收集的贡献者的自动化的库管理员
CN107533696A (zh) 自动地将内容与人员相关
US20190220871A1 (en) Physical product interaction based session
WO2022245469A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
KR102308062B1 (ko) 창업을 위한 정보를 제공하기 위한 전자 장치 및 그 동작 방법
US11841911B2 (en) Scalable retrieval system for suggesting textual content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419

RJ01 Rejection of invention patent application after publication