CN116348868A - 信息管理的元数据索引 - Google Patents

信息管理的元数据索引 Download PDF

Info

Publication number
CN116348868A
CN116348868A CN202180071405.2A CN202180071405A CN116348868A CN 116348868 A CN116348868 A CN 116348868A CN 202180071405 A CN202180071405 A CN 202180071405A CN 116348868 A CN116348868 A CN 116348868A
Authority
CN
China
Prior art keywords
metadata
comparison
candidate
record
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180071405.2A
Other languages
English (en)
Inventor
A·塞思
S·S·纳甘纳
R·胡
J·A·小奥尼尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN116348868A publication Critical patent/CN116348868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于管理信息的方法、装置、计算机系统和计算机程序产品。由计算机系统识别数据记录的一组桶式散列和比较信息。根据比较信息生成该组桶式散列,其中该组桶式散列和比较信息形成元数据记录。由计算机系统使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中多个候选元数据记录包括该组候选桶式散列和候选比较信息。由计算机系统根据元数据记录中的比较信息与多个候选元数据记录中的候选比较信息的比较,识别数据记录的实体成员资格。

Description

信息管理的元数据索引
背景技术
1.领域:
本公开总体上涉及一种改进的计算机系统,并且更具体地涉及一种用于在计算机系统中使用元数据索引来管理数据集合的方法、装置、系统和计算机程序产品。
2.相关技术描述:
由组织收集和存储的数据量不断增加。例如,企业可以存储关于产品、服务、客户、交易和其他类型的信息的数据。期望确保最新和最准确的信息版本存在。该信息可位于不同的数据库或其他信息集合中。
对于大量信息,可以采用主数据管理解决方案来与此数据一起工作以执行对来自不同源的数据的索引、匹配和链接。主数据管理系统可被用作中央数据管理系统以提供具有数据的单个可信视图的使用。主数据管理可提供数据的准确且全面的匹配,其有助于克服可能在不同数据源中发生的差异和错误。在匹配数据中,来自不同源的记录对可以被比较以确定记录对是否匹配以及记录对是否应当彼此链接。比较记录中的记录属性以确定它们是否匹配。这些记录属性可以是例如名称、地址、电话号码或其他合适的信息。可使用不同比较函数来比较匹配条件的记录,诸如精确匹配、距离、语音、部分匹配、n元语法或某一其他条件。可以基于这些类型的比较的结果生成评分。例如,可以对每个属性进行一些评分,并且基于统计确定的相对权重进行组合,以确定记录是否彼此充分匹配以被链接。
发明内容
根据本发明的一个实施例,一种方法管理信息。由计算机系统识别数据记录的一组桶式散列和比较信息。根据比较信息生成该组桶式散列,其中该组桶式散列和比较信息形成元数据记录。由计算机系统使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中多个候选元数据记录包括该组候选桶式散列和候选比较信息。由计算机系统根据数据记录中的比较信息与多个候选元数据记录中的候选比较信息的比较,识别数据记录的实体成员资格。
根据本发明的另一实施例,信息管理系统包括计算机系统和存储在计算机系统中的元数据数据库。元数据数据库中的元数据记录每个包括一组桶式散列、比较信息和实体成员资格,其中该组桶式散列是使用比较信息生成的,并且实体成员资格识别一组相关元数据记录。
根据本发明的又另实施例,一种用于管理信息的计算机程序产品,包括具有存储在计算机可读存储介质上的第一程序代码、第二程序代码、和第三程序代码的计算机可读存储介质。第一程序代码可由计算机系统执行以使计算机系统识别数据记录的一组桶式散列和比较信息,其中该组桶式散列从比较信息生成,且其中该组桶式散列和比较信息形成元数据记录。第二程序代码可由计算机系统执行以使计算机系统使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中多个候选元数据记录包括候选桶式散列和候选比较信息。第三程序代码可由计算机系统执行以使计算机系统根据元数据记录中的比较信息与多个候选元数据记录中的候选比较信息的比较来确定数据记录的实体成员资格。
附图说明
图1是根据说明性实施例的云计算环境;
图2是根据说明性实施例的抽象模型层的图示;
图3是可以实现说明性实施例的数据处理系统网络的图形表示;
图4是根据说明性实施例的信息管理环境的框图;
图5是根据说明性实施例的使用信息管理器对记录进行匹配的数据流的图示;
图6是根据说明性实施例的元数据记录的图示;
图7是根据说明性实施例的用于管理信息的过程的流程图;
图8是根据说明性实施例的用于管理信息的过程的流程图;
图9是根据说明性实施例的用于确定实体成员资格的过程的流程图;
图10是根据说明性实施例的用于管理信息的过程的流程图;
图11是根据说明性实施例的用于生成用于链接数据记录的元数据数据库的过程的流程图;以及
图12是根据说明性实施例的数据处理系统的框图。
具体实施方式
本发明可以是在任何可能的技术细节集成水平下的系统、方法、和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
计算机可读存储介质可以是能够保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体实例的非详尽列表包含以下各项:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或快闪存储器)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码装置(例如,穿孔卡或槽中的具有记录于其上的指令的凸起结构),以及前述各项的任何合适组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
本文所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载至相应的计算/处理设备或下载至外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
本文参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的多个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以被提供给计算机的处理器、或其他可编程数据处理装置以便产生机器,这样使得经由计算机的处理器或其他可编程数据处理装置执行的这些指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
这些计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置、或其他设备上,以便使得在该计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程,从而使得在该计算机、其他可编程装置、或其他设备上执行的指令实现流程图和/或框图的或多个框中所指定的功能/动作。
附图中的流程图和框图展示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,连续示出的两个方框实际上可以作为一个步骤完成,同时、基本上同时、以部分或完全时间上重叠的方式执行,或者方框有时可以以相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
这些说明性实施例认识并考虑到多个不同的考虑因素。例如,说明性实施例认识并考虑到,在匹配信息的过程中,记录经历候选者选择的过程。所选择的候选记录是被怀疑是重复记录的记录。说明性实施例认识并考虑到在候选选择之后比较候选记录以做出链接或不链接记录的决定。
说明性实施例认识并考虑到,历史上,候补选择已经是非常昂贵的任务,因为这个过程涉及扫描大量桶式(bucket)散列形式的数据。说明性实施例认识并考虑到,获得所选择的候选记录的比较数据在该过程中是必需的,并且可以是显著昂贵的过程。说明性实施例认识并考虑到,匹配过程的效率取决于候选选择的效率和这些候选的比较数据的检索。因此,说明性实施例认识并考虑到每个步骤涉及从数据库搜索和检索记录。
因此,说明性实施例认识并考虑到,在处理数据记录以识别匹配并生成链接时减少许多数据库访问是所希望的。说明性实施例认识并考虑到,对数据库中的一行中的三种类型的列的访问可以用于减少访问,其中一个列包含桶式散列,第二列包含比较字符串,并且第三列包含用于记录的链接信息。在一个说明性示例中,单个索引用于促进更快的匹配能力。该索引是数据库形式的数据集合,在该数据库中包含元数据记录,并且该索引也可被称为数据库。每个元数据记录包括一组桶式散列和比较字符串。元数据记录还可以包括实体成员资格。实体成员资格是包括用于数据记录的标识符的字段。具有相同标识符的其他数据记录被认为被链接。
如本文中所使用的,“一组”当用于指代项目时意指一个或多个项目。例如,“一组桶式散列集”是一个或多个桶式散列。
因此,说明性实施例认识并考虑到,希望具有一种系统,该系统具有用于匹配元数据的改进的索引机制。在一个说明性示例中,方法、装置、计算机系统和计算机程序产品管理信息。由计算机系统识别数据记录的一组桶式散列和比较信息。根据比较信息生成该组桶式散列,其中该组桶式散列和比较信息形成元数据记录。计算机系统使用桶式该组散列识别元数据数据库中多个候选元数据记录,其中多个候选元数据记录包括该组候选桶式散列和候选比较信息。计算机系统根据元数据记录中的比较信息与多个候选元数据记录的候选比较信息的比较,识别数据记录的实体成员资格。
应当理解的是,尽管本公开包括关于云计算的详细描述,但本文陈述的传授内容的实现方式不限于云计算环境。相反,本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。
云计算是一种服务交付模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以用最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可以根据需要自动地单方面地配设计算能力,如服务器时间和网络存储,而不需要与服务的提供商进行人类交互。
广泛的网络接入:能力可通过网络获得并且通过促进异构薄或厚客户端平台(例如,移动电话、膝上计算机、和PDA)使用的标准机制访问。
资源池:提供者的计算资源被池化以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需要动态地分配和重新分配。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
快速弹性:可以快速和弹性地提供能力(在一些情况下,自动地)以快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
可测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽、和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供商的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用程序部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
基础设施即服务(IaaS):向消费者提供的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,该软件可以包括操作系统和应用程序。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
部署模型如下:
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础设施由若干组织共享并且支持具有共享关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公共云:使云基础架构对一般公众或大型行业组可用并且由出售云服务的组织拥有。
混合云:云基础设施是两个或更多个云(私有云、社区云、或公共云)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化技术或私有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参见图1,描绘了云计算环境50的图示。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。云计算节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解,图1中所示的计算装置54A-N的类型仅旨在是说明性的,并且云计算环境50中的云计算节点10可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化装置通信。
现在参见图2,示出了由图1中的云计算环境50提供的一组功能抽象层。应当事先理解,图2中所示的组件、层和功能仅旨在是说明性的,并且本发明的实施例不限于此。如所描述,提供以下层和对应功能。
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;事务处理95;以及主数据管理96。主数据管理96提供用于图1中的云计算环境50中的管理信息或访问图1中的云计算环境50的物理位置中的网络的服务。例如,主数据管理96可用于管理可位于不同储存库中的信息的多个副本。主数据管理96可以操作以跨实体的信息的所有副本维护真相的单个版本。在该示例中,单个版本的真实性(SVOT)涉及以一致的非冗余形式存储实体的数据。
现在参见图3,描绘了可以实现说明性实施例的数据处理系统网络的图形表示。网络数据处理系统300是其中可以实施说明性实施例的计算机网络。网络数据处理系统300包含网络302,网络302是用于在网络数据处理系统300内连接在一起的不同设备和计算机之间提供通信链路的介质。网络302可以包括连接,例如有线、无线通信链路或光纤电缆。
在所描绘的示例中,服务器计算机304和服务器计算机306与数据存储库307和数据存储库308一起连接至网络302。此外,客户端设备310连接到网络302。如所描述的,客户端设备310包括客户端计算机312、客户端计算机314和客户端计算机316。客户端设备310可以是例如计算机、工作站或网络计算机。在所描绘的示例中,服务器计算机304向客户端设备310提供信息,诸如引导文件、操作系统映像和应用。进一步,客户端设备310还可包括其他类型的客户端设备,诸如移动电话318、平板计算机320和智能眼镜322。在该说明性示例中,服务器计算机304、服务器计算机306、数据存储库307、数据存储库308和客户端设备310是连接到网络302的网络设备,其中网络302是这些网络设备的通信介质。客户端设备310中的一些或全部可以形成物联网(IoT),其中,这些物理设备可以连接到网络302并且通过网络302彼此交换信息。
数据存储库307和数据存储库308是硬件系统并且充当用于存储、管理、或分发信息中的至少一者的储存库。这些数据存储可以存储信息,如顾客信息、交易、库存信息、组合、商业计划、和其他信息。信息可被存储在位于数据存储库307和数据存储库308中的数据库中。这些数据库可以采取不同形式。例如,数据库可选自图形数据库、非关系型分布式数据库、关系数据库或其他类型的数据库中的至少一个。
在这个实例中,客户端装置310是服务器计算机304的客户端。网络数据处理系统300可以包括附加的服务器计算机、客户端计算机和未示出的其他设备。客户端设备310利用有线连接、光纤连接或无线连接中的至少一个连接到网络302。
位于网络数据处理系统300中的程序代码可以存储在计算机可记录存储介质上并且被下载到数据处理系统或其他装置中以供使用。例如,程序代码可以存储在服务器计算机304上的计算机可记录存储介质上,并且通过网络302下载到客户端设备310,以在客户端设备310上使用。
在所描绘的示例中,网络数据处理系统300是互联网,其中网络302表示使用传输控制协议/互联网协议(TCP/IP)协议组来彼此通信的网络和网关的全球集合。互联网的核心是主节点或主计算机之间的高速数据通信线路的主干,该主计算机由数千个路由数据和消息的商业、政府、教育和其他计算机系统组成。当然,网络数据处理系统300也可以使用许多不同类型的网络来实现。例如,网络302可以包括互联网、内联网、局域网(LAN)、城域网(MAN)或广域网(WAN)中的至少一个。图3旨在作为实例,而不是作为对于不同说明性实施例的架构限制。
如本文使用的,“多个”当参考项目使用时意指一个或多个项目。例如,“多个不同类型的网络”是一种或多种不同类型的网络。
进一步地,短语“至少一个”当与一系列项目一起使用时,意味着可以使用所列出的项目中的一个或多个的不同组合,并且可能仅需要该列表中的每个项目中的一个。换言之,“至少一个”意味着可以使用列表中的项目和多个项目的任何组合,但是不需要列表中的所有项目。项目可以是特定对象、事物或类别。
例如但不限于,“项目A、项目B、或项目C中的至少一个”可以包括项目A、项目A和项目B、或项目B。该示例还可以包括项目A、项目B和项目C或者项目B和项目C。当然,可以存在这些物品的任何组合。在一些说明性实例中,“至少一个”可以是,例如但不限于,两个项目A;一个项目B;和十个项目C;四个项目B和七个项目C;或其他合适的组合。
如所描绘的,信息管理器321可操作以管理位于数据存储库307和数据存储库308中的信息。在这个说明性示例中,信息管理器321可以识别信息的重复副本、执行数据去重复或确认信息的不同副本之间的准确度。例如,信息管理器321可以比较和匹配这些不同位置中的信息以在管理信息时执行数据去重以及其他功能。该信息可以存储在数据库中的记录或其他类型的信息集合中。在这个说明性实例中,信息管理器321使用元数据数据库323来执行诸如识别数据记录的候选选择、执行候选数据记录的比较以及确定是否链接数据记录的步骤。
在这个说明性实例中,元数据记录324被配置成用于增加可以执行这些步骤的速度和效率。例如,元数据记录324被设计成减少表或数据库的数量,这些表或数据库在执行步骤(如候选选择、比较、以及链接或非链接步骤)时被访问。例如,元数据记录324中的元数据记录326包括桶式成员资格328、比较字符串330和实体成员资格332。桶式成员资格328包括使用比较串330生成的桶式散列。实体成员资格332是标识彼此链接的记录的唯一标识符。
换言之,元数据记录324中彼此链接的所有元数据记录对于实体成员资格332具有相同的唯一标识符。链接的记录可以用于实体,例如人、组织、公司、政府实体、家庭、账户或一些其他类型的实体。
在这个所描绘的示例中,在元数据记录324中的单个元数据记录中找到标识候选、比较候选以及链接或不链接数据记录所需的信息。以此方式,避免了对不同数据库的多次访问。因此,访问次数的减少可增加可处理数据记录的速度。时间节省随着数据记录数量的增加而增加。例如,当处理大量记录(诸如3,000,000,000个记录)时,可节省大量时间。
图3中的示例的图示并不意味着限制可以实施其他说明性实例的方式。例如,信息可被定位在除了数据存储库307和数据存储库308之外或代替数据存储库307和数据存储库308的其他位置中。例如,由信息管理器321管理的信息还可位于服务器计算机304、服务器计算机306或一组客户机设备310中的至少一者中。
现在参见图4,描绘了根据说明性实施例的信息管理环境的框图。在这个说明性的示例中,信息管理环境400包括可在硬件(诸如图1中的网络数据处理系统100中所示的硬件)中实现的组件。
如所描绘的,信息管理系统402可操作以管理数据存储库406中的信息404。在该示例中,数据存储库406是用于持久地存储和管理信息集合404的硬件系统。数据存储库406可包括从数据库、文件、文档、电子表格或一些其他合适的形式中的至少一个选择的信息存储库。数据存储库406可以位于单个位置或可以分布在不同计算机或存储系统上的许多位置。
在一个说明性实例中,以数据记录408形式的信息404被存储在数据存储库406中的一组数据库410中。如所描绘的,数据库是以有组织的方式存储信息的数据结构。该数据库可以包括多个表格。不同的表格可以表示不同类型的信息,诸如产品、财务记录、雇员或其他信息。在这个实例中,数据记录408被存储在该组数据库410中的不同表格中。
如所描绘的,信息管理系统402包括计算机系统412和信息管理器414。信息管理器414位于计算机系统412中。
信息管理器414可以在软件、硬件、固件或其组合中实现。当使用软件时,由信息管理器414执行的操作可以在被配置为在诸如处理器单元的硬件上运行的程序代码中实现。当使用固件时,由信息管理器414执行的操作可以在程序代码和数据中实现,并且存储在持久性存储器中以在处理器单元上运行。当采用硬件时,硬件可包括操作以执行信息管理器414中的操作的电路。
在说明性示例中,硬件可以采取选自以下各项中的至少一项的形式:电路系统、集成电路、专用集成电路(ASIC)、可编程逻辑器件、或被配置成用于执行多个操作的一些其他合适类型的硬件。利用可编程逻辑器件,该器件可以被配置为执行多个操作。该装置可以在稍后被重新配置或者可以被永久地配置为执行多个操作。可编程逻辑设备包括例如可编程逻辑阵列、可编程阵列逻辑、现场可编程逻辑阵列、现场可编程门阵列和其他合适的硬件设备。此外,该过程可以在与无机组件集成的有机组件中实现,并且可以完全由除人类之外的有机组件组成。例如,这些方法可以被实现为有机半导体中的电路。
计算机系统412是物理硬件系统并且包括一个或多个数据处理系统。当多于一个数据处理系统存在于计算机系统412中时,那些数据处理系统使用通信介质彼此通信。通信介质可以是网络。数据处理系统可以选自计算机、服务器计算机、平板计算机或一些其他合适的数据处理系统中的至少一个。
在这个说明性实例中,信息管理器414可以在管理信息404(如该组数据库410中的数据记录408)中执行多个不同步骤。数据记录408的管理可以使用元数据数据库416来形成。
例如,信息管理器414可识别数据记录408中的数据记录422的一组桶式散列418和比较信息420。在这个实例中,数据记录422的该组桶式散列418和比较信息420在元数据数据库416的元数据记录426中形成元数据记录424。在这个说明性实例中,信息管理器414可通过接收从索引服务428接收的数据记录422的桶式散列集合418和比较信息420来识别这个信息。
在这个说明性实例中,索引服务428可以是可以针对大量数据记录408生成桶式散列418的大量索引服务。索引服务428还可以从数据记录408中识别比较信息420。如图所示,在一个说明性示例中,索引服务428可以是当前可用的主数据管理系统中的功能或过程。
在这个实例中,从比较信息420生成该组桶式散列418。桶式散列418中的桶式散列是通过将散列函数应用于一条或多条比较信息420而生成的值。在该示例中,该组桶式散列418可以基于比较信息420,该比较信息420选自以下中的至少一个:第一名字、姓氏、地址、街道名称、州、邮政编码、居住城市、电话号码、职业、企业名称、生日、账号、职业、企业电话、企业地址或税收标识号。
进一步地,可以在针对单个数据记录的该组桶式散列418中生成多个桶式散列,并且该多个桶式散列中的每个桶式散列可以仅表示该数据记录中的字段或属性的一部分。例如,利用12345的邮政编码,可以生成三个桶式散列。例如,第一桶式散列可以通过将散列函数应用于“123”来生成,第二桶式散列可以通过将相同的散列函数应用于“234”来生成,并且第三桶式散列可以通过将相同的散列函数应用于“345”来生成。这种类型的桶式散列生成可以被称为基于n元语法的装桶。
因此,可以在单个数据记录中的字段或属性的该组桶式散列418中生成多个桶式散列,其中每个桶式散列仅表示数据记录中的字段或属性的一部分。以此方式,可以识别部分匹配以考虑潜在的数据输入错误。这种类型的多桶式散列生成可应用于数据记录中的其他类型的信息,诸如电话号码、生日或其他合适的信息。
比较信息420可以采用多种不同的形式。例如,比较信息420可以是表示数据记录422中的信息404的比较串430或文本串432中的至少一个。在这个说明性示例中,比较串430可以是具有添加的格式化或语法的文本,其由特定比较或匹配过程使用或识别。例如,比较串430内的文本的位置或方位可以指示数据记录422中的特定类型的信息。特定类型的信息也可以被称为属性。
进一步地,可以添加具体比较或匹配过程所期望的语法。如所描绘的,文本串432可以是从数据记录422获得的文本,而无需格式化或任何特定语法。
在这个说明性实例中,该组桶式散列418和比较信息420形成可以存储在元数据数据库416中的元数据记录424。元数据数据库416还可以被称为索引。因此,感兴趣的数据记录中的每个数据记录可以被处理以在元数据数据库416中生成元数据记录426。
如所描绘的,信息管理器414可以使用该组桶式散列418识别元数据数据库416中的多个候选元数据记录434。例如,信息管理器414可搜索包括元数据记录424中的桶式散列的元数据记录426以识别多个候选元数据记录434。可以针对元数据记录424中的该组桶式散列418中的每一个执行这种类型的搜索,以找到多个候选元数据记录434。以此方式,可以使用元数据记录426执行对可以与数据记录422相关的数据记录408的搜索。多个候选元数据记录434可以包括一组候选桶式散列436和候选比较信息438。
此外,信息管理器414可以从元数据记录424中的比较信息420与多个候选元数据记录434中的候选比较信息438的比较442确定数据记录422的实体成员资格440。比较442可包括指示在元数据记录424与元数据记录426中的其他元数据记录之间存在匹配的可能性的评分。
以此方式,可以做出关于由数据记录422表示的数据记录422与数据记录408中的其他数据记录相同或足够相似的可能性的确定。当可能性是数据记录422与数据记录408中的其他数据记录相同或足够相似时,认为存在匹配。
评分可以包括指示数据记录422的不同部分之间的匹配概率的子部分或子评分。这些不同部分可以是数据记录422中的字段或属性。例如,一部分可以是以下各项中的至少一项:名字、姓氏、地址、街道名称、州、邮政编码、居住城市、电话号码、职业、企业名称、生日、账号、职业、企业电话、企业地址、税务标识号、或在数据记录的一部分中找到的某条其他合适的信息。
例如,在确定实体成员资格440中,信息管理器414可以将元数据记录424中的比较信息420与多个候选元数据记录434中的候选比较信息438进行比较以形成比较442。信息管理器414可以从比较442生成一组比较评分444。信息管理器414可以基于该组比较评分444与该组阈值446的比较来确定实体成员资格440。
在这个说明性的示例中,该组阈值446可以是一组值,诸如一组百分比。如果比较评分444具有指示对于特定属性或对于所有比较信息存在匹配有多接近匹配的百分比,则元数据记录424中的比较信息420可以被认为是与多个候选元数据记录434中的多个候选元数据记录中的每个候选元数据记录的匹配,其中该组比较评分444满足或超过该组阈值446。
在这个说明性示例中,数据记录422的元数据记录424中的实体成员资格440可以被更新以具有与被认为是匹配的数据记录408的元数据记录426中的一个或多个其他元数据记录相同的唯一标识符。在另说明性实例中,元数据记录424中的实体成员资格440可具有指示对应于元数据记录424的数据记录422是唯一的并且不与数据记录408中的另一数据记录匹配的值。在这个说明性例子中,数据记录408的这种链接可以由信息管理器414执行,所述信息管理器更新元数据记录426中的实体成员资格以指示数据记录408之间的链接。例如,信息管理器414可以利用从与候选元数据记录434的比较442为数据记录422确定的实体成员资格440来更新元数据记录424。更新可以包括用于匹配元数据记录424的候选元数据记录434的唯一标识符。
使用元数据数据库416中已经被处理以确定实体成员资格的元数据记录426,该数据库可用于搜索数据存储库406中的该组数据库410中的数据记录408。可以使用搜索请求中的输入数据记录或搜索项目来进行类似的过程。
例如,信息管理器414可以从请求者450接收搜索请求448。在这个实例中,请求者450可以是人类操作员形式的用户或在计算机上运行的过程或程序。
信息管理器414可以使用在从请求者450的搜索请求448中接收的搜索项456创建一组搜索桶式散列452和搜索比较信息454。信息管理器414可使用该组搜索桶式散列452搜索元数据数据库416以寻找该组候选元数据记录434。
信息管理器414可基于该组候选元数据记录434的该组比较评分444确定来自该组候选元数据记录434的候选元数据记录458是否是搜索项456的匹配,该组比较评分444表示该组候选元数据记录434中的候选比较信息438与搜索比较信息454有多相似。信息管理器414可使用候选元数据记录458中的源标识符462将对应于元数据记录424的数据记录408中的所识别的数据记录460返回给请求者450。
在一个说明性实例中,克服与分析信息(如数据记录)所需要的时间和处理资源有关的问题的特征可以存在于其他类型的储存库的一个或多个数据库中。在一个说明性示例中,信息管理器414可以操作以执行用于数据去重复的过程以匹配信息(诸如位于数据记录408中的信息404)。元数据数据库416可用于减少数据库或表中的搜索量以匹配数据记录408。
在说明性示例中,元数据(如桶式散列418和比较信息420)存在于元数据数据库416中的元数据记录426中。在所描绘的示例中,为期望比较的数据记录408生成元数据记录426。在这个实例中,元数据记录426中的每个元数据记录包括和已经为数据记录408中的对应数据记录生成的一组桶式散列418比较信息420。
在说明性示例中,可以在元数据记录426中执行搜索匹配元数据记录426中的桶式散列418以识别可以潜在地彼此链接的候选元数据记录434。每个候选元数据记录包括一组桶式散列418和比较信息420。当进行比较信息420的比较时,对数据库的附加查询是不必要的,因为比较信息420连同该组桶式散列418一起存在于数据记录422中。
进一步地,当比较结果为数据记录408的比较信息420之间匹配时,可更新对应元数据记录426中的这些数据记录的实体成员资格440,以将数据记录408中的两个数据记录彼此链接。进一步,该过程还可用于更新元数据记录426中的实体成员资格440,以对数据记录408中的对应数据记录解除链接。
以此方式,与当前使用的技术相比,发生数据库访问的数量的减少。因此,元数据数据库416中的元数据记录426形成可以用于匹配数据记录408的元数据的索引。
这些元数据数据记录可以用于搜索数据记录408。例如,当接收到搜索请求448时,信息管理器414可从搜索请求448中的搜索项456生成搜索桶式散列452和搜索比较信息454。该信息可用于找到候选元数据记录434,然后使用搜索比较信息454和候选比较信息438执行比较。当发现与候选元数据记录434中的一个或多个匹配时,那些候选元数据记录中的源标识符可由信息管理器414用于执行响应于搜索请求448的定位或返回数据记录408中的至少一个。
计算机系统412可以被配置成用于使用软件、硬件、固件或其组合来执行在不同说明性实例中描述的步骤、操作或动作中的至少一个。因此,计算机系统412作为专用计算机系统来操作,其中计算机系统412中的信息管理器414允许管理信息404,包括使用减少执行比较所需的时间和资源的过程来更新实体成员资格以链接或解链接数据记录408。具体地,与不具有使用元数据数据库416来比较信息404和数据记录408的信息管理器414的当前可用的通用计算机系统相比,信息管理器414将计算机系统412转换成专用计算机系统。
在说明性示例中,计算机系统412中的信息管理器414的使用将处理集成到用于管理增加计算机系统412的性能的信息404的实际应用中。换言之,使用计算机系统412中的元数据数据库416的信息管理器414针对集成到计算机系统412中的信息管理器414中的过程的实际应用,该过程的实际应用使用元数据数据库416中的元数据记录426来识别被认为是彼此匹配的数据记录408。在这个说明性实例中,计算机系统412中的信息管理器414提供信息管理的实际应用,使得计算机系统412的功能与当前技术相比得到改善。
因此,说明性示例提供了促进候选项的更有效选择和候选项的比较的元数据架构。进一步,元数据记录的结构减少了当前技术的大桶问题并且实现获得具有多个桶之间的相关性的数据。进一步,这种设计还使得能够在单次通过中基于桶式散列从多个桶中检索候选元数据记录,而不是用当前的技术一个接一个地执行。
现在转向图5,描绘了根据说明性实施例的用于使用信息管理器对记录进行匹配的数据流的图示。在说明性实例中,在多于一个的附图中可以使用相同的参考标号。不同附图中的参考标号的这种再利用表示不同附图中的相同元件。
在这个说明性实例中,信息管理器414包括多个不同部件。如所描绘的,信息管理器414包括元数据记录管理器500和匹配和链接服务502。
在这个说明性实例中,数据存储库406中的数据记录408可由索引服务428处理。索引服务428可以是可以处理数据记录408的大部分或全部的大块索引服务。在这个说明性例子中,索引服务428包括标准化器504、比较信息生成器506和桶式散列生成器508。
标准化器504可以生成比较信息,并且作为比较信息生成的一部分,可以使数据记录408中的信息标准化。例如,名称可以由标准化器504来标准化。在一个示例中,名称“Bob”、“Robert”和“William”可以被标准化为“Bob”,使得“Robert”和“William”的每个实例被改变为“Bob”,以便生成桶式散列和比较信息。作为另示例,可以执行语音标准化,其中“Richard”和“Richard”可以由标准化器504标准化为“r IH ch er d”的语音表示。如所描绘的,比较信息生成器506可以针对每个数据记录生成比较信息,如包括由比较过程使用的格式化或语法中的至少一者的比较字符串。
在这个说明性实例中,桶式散列生成器508可以基于比较信息420生成桶式散列。例如,桶式散列生成器508可以使用由标准化器504生成的标准化项来生成每个数据记录的桶式散列418,并且比较信息生成器506可以用于由比较信息生成器506在比较信息420中生成比较字符串。
索引服务428向信息管理器414中的元数据记录管理器500发送桶式散列418和比较信息420。如所描绘的,元数据记录管理器500可以使用桶式散列418和比较信息420生成元数据记录426。因此,通过索引服务428,元数据数据库416中的元数据记录426中的元数据记录针对每个对应的数据记录过程而存在。
在这个说明性示例中,元数据记录管理器500可以使用多个不同类型的过程来实现。例如,元数据记录管理器500可以包括诸如ElasticSearch搜索引擎的搜索引擎。这种类型的搜索引擎可在元数据数据库416中生成元数据记录426的索引。元数据的这种索引可增加可执行搜索候选元数据记录的速度和效率。
在这个说明性示例中,匹配和链接服务502包括多个不同的组件。如图所示,匹配和链接服务502包括候选选择器510、比较器512和连接器514。
候选选择器510可以搜索候选元数据记录434,这些候选元数据记录是用于链接至被处理以标识匹配元数据记录的元数据记录的候选。可以使用桶式散列418来执行该搜索。例如,元数据记录中的每个桶式散列可以用于搜索包括该桶式散列的其他元数据记录。具有匹配桶式散列的数据记录是从元数据数据库416中的元数据记录426返回的候选元数据记录434。
如所描绘的,比较器512可以将候选元数据记录434中的候选比较信息438与正被处理的数据记录422的元数据记录424中的比较信息420进行比较。该比较被执行而无需执行对元数据数据库416或另一数据库的另一访问以获得比较信息。在这个实例中,候选比较信息438与候选桶式散列436一起位于候选元数据记录434中。因此,在这个实例中,使用元数据记录426搜索比较信息的额外数据库访问是不必要的。在该示例中,比较器512可以考虑具有相同含义的不同数据记录之间的句法相似性。可以使用等价函数来执行该比较。
当标识一个或多个匹配时,链接器514可以更新与正被处理的元数据记录匹配的一个或多个候选元数据记录的实体成员资格。该更新可以在图4中在初始搜索桶式散列418时返回的候选元数据记录434中进行。结果,对于实体成员资格的对数据库的附加访问是不必要的。该更新可以是通过更新正被处理的元数据记录中的实体成员资格来将数据记录408彼此链接或不链接。
以此方式,可以以减少数据库访问的数量或处理数据记录408所需的时间中的至少一者的方式来处理和链接数据记录408。当识别重复数据记录时,然后可以执行数据去重或其他步骤。
图4和图5中的信息管理环境400以及信息管理环境400中的不同部件的展示并不意味着暗示对可以实施说明性实施例的方式的物理或架构限制。可使用除了或代替所说明的组件的其他组件。一些部件可能是不必要的。此外,呈现方框以说明一些功能部件。当在说明性实施例中实施时,这些方框中的一个或多个可以组合、划分、或组合并划分成不同的方框。
例如,元数据记录424可以包括除了该组桶式散列418和比较信息420之外的其他字段中的其他信息。例如,元数据记录424可包括实体成员资格、客户标识符、记录类型、概率自评分、时间戳或其他合适的信息中的至少一个的属性或字段。实体成员资格是可以用于链接记录的标识符。客户标识符可识别客户。在该示例中,记录类型是记录(诸如人或组织)的类型或类别的标识符。基于记录的类型,可以使用不同的比较函数。结果,记录类型可以用于确定如何对该类型的数据执行匹配。
在所描绘的示例中,概率性自评分是记录的自比较评分。该评分可显示记录的强度。例如,如果记录具有更多属性,则该记录的自比较评分可以比具有较少数量属性的记录更高。此评分可以用于对源数据质量执行一些分析。具有较高自评分的记录的源比具有较低自评分的记录的源更丰富。时间戳指示元数据记录424何时被最后更新。
在另一个说明性示例中,信息管理器414可以通过从数据记录408生成信息来识别桶式散列418和比较信息420。作为另一示例,数据存储库406可位于除了计算机系统412之外的另一计算机系统中。
参见图6,根据说明性实施例描绘了元数据记录的图示。元数据记录600是可以实现图4中的元数据记录424的一种方式的实例。
在说明性示例中,元数据记录600包括多个不同属性。如图所示,元数据记录600包括内部记录标识符602、源标识符604、桶式散列606、比较字符串608、实体成员资格610和文本搜索612。
内部记录标识符602是唯一地标识元数据数据库内的元数据记录600的唯一标识符。源标识符604可用于定位对应于元数据记录600的数据记录。例如,源标识符604可包括例如源的标识符和记录标识符。记录标识符和其他信息(诸如储存库标识符、数据库标识符、IP地址或其他合适的信息)可用于定位对应于元数据记录600的数据记录。
桶式散列606是使用比较信息(如比较字符串608或文本搜索612中的至少一个)生成的桶式散列。如图所示,元数据记录600中的桶式散列606可针对其他元数据记录中的桶式散列被搜索。
在所描绘的示例中,比较字符串608是比较信息的示例。比较串608包含具有格式化或语法中的至少一者的文本,所述文本由可用于比较数据记录的过程使用。比较串608可以是数据记录的连接文本表示。利用比较串608,用于元数据数据库的搜索引擎中的基于文本的搜索功能可被利用来执行具有足够匹配水平的候选元数据记录的更快识别。本文说明性实例中,可形成匹配,使得比较评分被生成并用于确定是否足够数量的词语匹配以将元数据记录视为与候选元数据记录的匹配。
在本示例中,文本搜索612包含不是任何特定格式化或语法的词语。文本搜索612可以用于由诸如ElasticSearch搜索引擎的搜索引擎搜索。
在这个说明性的示例中,实体成员资格610包括将元数据记录彼此链接并且进而链接由那些元数据记录表示的数据记录的标识符。匹配的数据记录的每个元数据记录对于实体成员资格610具有相同的值。在一些情况下,数据记录可以是唯一的并且不具有任何匹配的数据记录。在那种情况下,对应于数据记录的元数据记录中的实体成员资格610在元数据记录内是唯一的。
接下来转到图7,描绘了根据说明性实施例的用于管理信息的过程的流程图。图7中的过程可以在硬件、软件或这两者中实现。当以软件实现时,过程可以采取由位于一个或多个计算机系统中的一个或多个硬件设备中的一个或多个处理器单元运行的程序代码的形式。例如,该过程可以在图4中的计算机系统412中的信息管理器414中实现。
该过程开始于识别数据记录的一组桶式散列和比较信息,其中该组桶式散列是从比较信息生成的,并且其中该组桶式散列和比较信息形成元数据记录(步骤700)。该过程使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中多个候选元数据记录包括一组候选桶式散列和候选比较信息(步骤702)。该过程从元数据记录中的比较信息与多个候选元数据记录中的候选比较信息的比较来确定数据记录的实体成员资格(步骤704)。此后该过程终止。
参见图8,描绘了根据说明性实施例的用于管理信息的过程的流程图。图8中的过程描绘了可以在图7中的过程执行以管理信息的附加步骤。
该过程使用一组桶式散列和比较信息为数据记录创建元数据记录(步骤800)。步骤800可以在图7中的不同步骤期间的任何时间执行。
该过程用为数据记录确定的实体成员资格来更新元数据记录(步骤802)。此后该过程终止。步骤802可以在图7中的步骤704中确定实体成员资格之后执行。
现在转向图9,描绘了根据说明性实施例的用于确定实体成员资格的过程的流程图。该图中的过程是可以实现图7中的步骤704的一种方式的实例。
该过程开始于将元数据记录中的比较信息与多个候选元数据记录中的候选比较信息进行比较以形成比较(步骤900)。该过程根据比较生成一组比较评分(步骤902)。在该说明性示例中,可以针对所识别的每个候选记录生成比较评分。进一步,该组比较评分可以包括子比较评分,其中每个子比较评分是针对可以在候选比较信息中标识的特定属性或字段。例如,可以使用其中字符串或标签的顺序可以存在的语法来识别用于比较的属性或字段,以生成比较评分中的子比较评分。然后可以通过加权来聚集评分,以生成针对整体元数据记录的比较评分。权重可被分配以在确定是否存在匹配时给予一些属性更多的权重。
该过程基于该组比较评分与一组阈值的比较来确定实体成员资格(步骤904)。此后该过程终止。
参见图10,描绘了根据说明性实施例的用于管理信息的过程的流程图。图10中的过程可以在硬件、软件或这两者中实现。当以软件实现时,过程可以采取由位于一个或多个计算机系统中的一个或多个硬件设备中的一个或多个处理器单元运行的程序代码的形式。例如,该过程可以在图4中的计算机系统412中的信息管理器414中实现。在这个流程图中,该过程可以用于使用元数据数据库中的元数据记录来搜索数据记录。
该过程开始于从请求者接收搜索请求(步骤1000)。该过程使用在来自请求者的搜索请求中接收的搜索项创建一组搜索桶式散列和搜索比较信息(步骤1002)。使用搜索请求中的搜索项来生成该组搜索桶式散列。以类似的方式,也可以使用搜索请求中的搜索项来生成比较信息。
该过程使用该组搜索桶式散列在元数据数据库中搜索一组候选元数据记录(步骤1004)。该过程基于该组候选元数据记录的一组比较评分从该组候选元数据记录中选择候选元数据记录,该组比较评分指示该组候选元数据记录中的候选比较信息与搜索比较信息有多相似(步骤1006)。
该过程使用候选元数据记录中的源标识符将对应于候选元数据记录的所标识的数据记录返回至请求者(步骤1008)。此后该过程终止。可以使用候选元数据记录中的信息来识别所识别的数据记录。例如,候选元数据记录可以包括源标识符。源标识符包括可以用于识别要返回的数据记录的位置的信息。该信息可以包括例如储存库标识符、用于数据记录位于其中的数据库的记录标识符、或其他合适的信息。
接下来转向图11,描绘了根据说明性实施例的用于生成元数据数据库以链接数据记录的过程的流程图。这个元数据数据库还可以被称为匹配索引。
图11中的过程可以在硬件、软件或这两者中实现。当以软件实现时,过程可以采取由位于一个或多个计算机系统中的一个或多个硬件设备中的一个或多个处理器单元运行的程序代码的形式。例如,该过程可以在图4中的计算机系统412中的信息管理器414中实现。
该过程开始于从数据存储库中接收传入的数据记录(步骤1100)。数据存储库可以是任何合适的后端存储或数据库。例如,该数据存储库可以是Janus Graph、Cloudant、Hbase或DB2数据库。本文描绘的示例中,步骤1100可由网络应用1120执行。web应用1120可以作为持久层操作,并且独立于索引服务1130和批量匹配服务1150。
该过程为传入的数据记录生成桶式散列和比较信息(步骤1102)。在该示例中,步骤1102通过索引服务1130来执行,该服务可从web应用1120接收数据记录。例如,web应用1120可以进行表示性状态传输(REST)应用接口(API)调用以请求批量索引服务以生成用于数据记录的元数据。在这个示例中,索引服务1130可以是能够读取传入记录、标准化数据、创建比较字符串和为每个传入数据记录创建桶式散列以支持下游统计匹配的可扩展批量驱动过程。此外,索引服务1130还可以创建传入数据记录的文本表示以用于基于文本的索引或快速搜索。
该过程将桶式散列和比较信息作为元数据记录存储在元数据数据库中(步骤1104)。在该示例中,步骤1104可由数据存储库管理器1140执行,该数据存储库管理器1140可操作来管理元数据数据库中的元数据记录。元数据数据库可以是遵循特定数据存储格式(诸如列格式或基于行的格式)的数据存储库。在这个说明性实例中,列格式数据库可以与索引支持一起使用,并且所生成的针对传入数据记录的信息被存储在同一行中。如所描述的,数据存储库管理器1140可在下游分析之前执行针对传入数据记录的类似数据记录的搜索以改善效率。在这个说明性的示例中,初步搜索可以基于任何搜索引擎,例如,ElasticSearch或SOLR搜索引擎。
在说明性示例中,批量匹配服务1150执行步骤1106至1116。批量匹配服务1150可以是部署在容器化环境中的可扩展的基于火花的匹配引擎。
该过程在元数据数据库中搜索包含与从传入数据记录生成的桶式散列相匹配的桶式散列的元数据记录,以标识候选元数据记录(步骤1106)。在步骤1106中,候选元数据记录包含用于对应的数据记录的元数据。例如,候选元数据记录包含桶式散列和比较信息,其可与从输入数据记录生成的比较信息中的桶式散列进行比较。
该过程将候选元数据记录中的比较信息与从传入数据记录中生成的比较信息进行比较(步骤1108)。在这个说明性示例中,可以在候选者的比较信息与从传入数据记录生成的比较信息中的数据记录之间进行成对比较。传入数据记录的比较信息和元数据记录中的比较信息可以进行比较以形成比较。
该过程基于该比较生成比较评分(步骤1110)。然后,该过程将评分与一组阈值进行比较(步骤1112)。在这个说明性的示例中,步骤1112中的阈值可以是预定义的阈值。该阈值可以是在系统级定义的可配置值。可以基于数据管理员的不同的试验和测试来选择阈值的最佳值。
使用该比较,比较评分满足或超过预定义的阈值的候选元数据记录可以被认为是匹配,以用于将对应于候选元数据记录的数据记录与正在处理的传入的数据记录相链接。该过程使用识别为匹配的候选元数据记录来识别用于匹配数据记录的实体成员资格的一组唯一标识符(步骤1114)。
该过程然后为被处理的传入数据记录生成元数据记录(步骤1116)。在步骤1116中,元数据记录包括从传入数据记录生成的批量散列和比较信息。进一步,该元数据记录还包括用于实体成员资格的唯一标识符,其中,唯一标识符是与候选元数据记录中的唯一标识符相同的标识符,候选元数据记录中的唯一标识符已经被标识为来自比较的匹配。元数据记录还可以包括标识传入数据记录的源的源标识符。该源标识符可以是用于从源检索数据记录的信息。
该过程将传入数据记录的元数据记录存储在元数据数据库中(步骤1118)。此后该过程终止。该步骤可由数据存储库管理器1140执行。
不同描绘的实施例中的流程图和框图展示了说明性实施例中的设备和方法的一些可能实现方式的架构、功能和操作。在这点上,流程图或框图中的每个框可表示模块、片段、功能或操作或步骤的一部分中的至少一个。例如,一个或多个框可被实现为程序代码、硬件、或程序代码和硬件的组合。当以硬件实现时,硬件可例如采取被制造或配置成执行流程图或框图中的一个或多个操作的集成电路的形式。当被实现为程序代码和硬件的组合时,该实现可以采取固件的形式。流程图或框图中的每个框可以使用执行不同操作的专用硬件系统或专用硬件与由专用硬件运行的程序代码的组合来实现。
在说明性实施例的一些替代实现方式中,框中指出的一个或多个功能可以不按照图中指出的顺序发生。例如,在一些情况下,取决于所涉及的功能,连续示出的两个框可以基本上同时执行,或者这些框有时可以以相反的顺序执行。此外,除了流程图或框图中示出的框之外,可以添加其他框。
现在转向图12,描绘了根据说明性实施例的数据处理系统的框图。数据处理系统1200可用于实现图1中的服务器计算机104、服务器计算机106和客户机设备110。数据处理系统1200还可用于实现计算机系统412。在这个说明性的示例中,数据处理系统1200包括通信框架1202,其提供处理器单元1204、存储器1206、永久性贮存器1208、通信单元1210、输入/输出(I/O)单元1212和显示器1214之间的通信。在该示例中,通信框架1202采用总线系统的形式。
处理器单元1204用于执行可以被加载到存储器1206中的软件的指令。处理器单元1204包括一个或多个处理器。例如,处理器单元1204可以选自多核处理器、中央处理单元(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、数字信号处理器(DSP)、网络处理器或一些其他合适类型的处理器中的至少一个。进一步,处理器单元1204可以使用一个或多个异构处理器系统来实现,在所述异构处理器系统中,主处理器与次级处理器存在于单个芯片上。作为另一说明性示例,处理器单元1204可以是对称多处理器系统,其在单个芯片上包含相同类型的多个处理器。
存储器1206和持久性存储装置1208是存储设备1216的示例。存储设备是能够存储信息的任何硬件,所述信息诸如,例如但不限于,数据、函数形式的程序代码或者在临时基础上、在永久基础上或者在临时基础和永久基础上的其他合适的信息中的至少一种。在这些说明性示例中,存储装置1216还可以被称为计算机可读存储装置。在这些示例中,存储器1206可以是例如随机存取存储器或任何其他合适的易失性或非易失性存储设备。永久性贮存器1208可以采取各种形式,这取决于特定的实施方式。
例如,永久性贮存器1208可以包含一个或多个组件或装置。例如,永久性贮存器1208可以是硬盘驱动器、固态驱动器(SSD)、闪存、可重写光盘、可重写磁带或上述的一些组合。永久性贮存器1208使用的介质也可以是可移除的。例如,可移动硬盘驱动器可以用于永久性贮存器1208。
在这些说明性示例中,通信单元1210提供与其他数据处理系统或装置的通信。在这些示例性实例中,通信单元1210是网络接口卡。
输入/输出单元1212允许与其他可以连接至数据处理系统1200的装置进行数据的输入和输出。例如,输入/输出单元1212可以通过键盘、鼠标或一些其他合适的输入设备中的至少一个提供用于用户输入的连接。此外,输入/输出单元1212可以将输出发送到打印机。显示器1214提供向用户显示信息的机构。
操作系统、应用或程序中的至少一个的指令可以位于存储装置1216中,该存储装置通过通信框架1202与处理器单元1204通信。不同实施例的过程可以由处理器单元1204使用计算机实施的指令来执行,这些指令可以位于存储器(如存储器1206)中。
这些指令被称为程序代码、计算机可用程序代码或计算机可读程序代码,它们可以由处理器单元1204中的处理器读取和执行。不同实施例中的程序代码可实施在不同的物理或计算机可读存储介质上,诸如存储器1206或永久性贮存器1208。
程序代码1218以功能形式位于计算机可读介质1220上,该计算机可读介质是可选择性地移除的并且可以被加载到或转移到数据处理系统1200上以便由处理器单元1204执行。在这些说明性示例中,程序代码1218和计算机可读介质1220形成计算机程序产品1222。在说明性示例中,计算机可读介质1220是计算机可读存储介质1224。
在这些说明性例子中,计算机可读存储介质1224是用于存储程序代码1218的物理或有形存储设备,而不是传播或传输程序代码1218的介质。如本文中所使用的计算机可读存储介质1224不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
可替代地,可以使用计算机可读信号介质将程序代码1218转移至数据处理系统1200。计算机可读信号介质是信号,并且可以是例如包含程序代码1218的传播的数据信号。例如,计算机可读信号介质可以是电磁信号、光信号或任何其他合适类型的信号中的至少一个。这些信号可通过连接(诸如无线连接、光纤电缆、同轴电缆、电线或任何其他合适类型的连接)来传输。
进一步地,如本文使用的,“计算机可读介质1220”可以是单数或复数的。例如,程序代码1218可以位于以单个存储设备或系统的形式的计算机可读介质1220中。在另一示例中,程序代码1218可以位于分布在多个数据处理系统中的计算机可读介质1220中。换言之,程序代码1218中的一些指令可以位于一个数据处理系统中,而程序代码1218中的其他指令可以位于一个数据处理系统中。例如,程序代码1218的一部分可以位于服务器计算机中的计算机可读介质1220中,而程序代码1218的另一部分可以位于一组客户端计算机中的计算机可读介质1220中。
针对数据处理系统1200所展示的不同组件并不意味着对可以实施不同实施例的方式提供架构限制。在一些说明性实例中,一个或多个组件可以结合在另一个组件中或以其他方式形成另一个组件的一部分。例如,在一些说明性实例中,存储器1206或其部分可并入处理器单元1204中。不同的说明性实施例可以在包括除了或代替为数据处理系统1200示出的那些组件的组件的数据处理系统中实现。图12中所示的其他部件可以不同于所示的说明性实例。不同的实施例可以使用能够运行程序代码1218的任何硬件设备或系统来实施。
由此,本发明的说明性实施例提供了一种用于管理信息的计算机实现的方法、计算机系统和计算机程序产品。在一个说明性实例中,由计算机系统识别数据记录的一组桶式散列和比较信息。根据比较信息生成该组桶式散列,其中该组桶式散列和比较信息形成元数据记录。计算机系统使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中多个候选元数据记录包括改组候选桶式散列和候选比较信息。计算机系统根据元数据记录中的比较信息与多个候选元数据记录中的候选比较信息的比较,识别数据记录的实体成员资格。
元数据数据库中的元数据记录使得能够在比较数据记录以确定数据记录是否是匹配时进行更快搜索或更少数据库访问中的至少一项。在说明性示例中,元数据记录包括桶式散列和比较信息。此外,元数据记录还可以包括实体成员资格信息。因此,可执行搜索以识别具有与正被处理的元数据记录匹配的桶式散列的元数据记录。返回的元数据记录是用于比较的候选元数据记录。在说明性实例中,这些元数据记录还可以包括比较信息。结果,可以与初始搜索中已经返回的结果进行比较,而无需执行另一搜索以获得比较信息。进一步,当匹配被标识时,可对正被处理的元数据记录或已被返回的候选元数据记录进行更新以链接元数据记录,而不形成另一搜索。
此外,说明性示例还可以在元数据记录中包括诸如源标识符和源记录标识符之类的信息,以便提高该数据记录可以被定位的速度。因此,搜索次数减少,并且还可节省处理许多数据记录所需的时间。
为了说明和描述的目的,已经呈现了对不同说明性实施例的描述,并且不旨在是详尽的或限于所公开形式的实施例。不同的说明性示例描述了执行动作或操作的组件。在说明性实施例中,组件可以被配置成用于执行所描述的动作或操作。例如,组件可以具有为组件提供执行在说明性示例中描述为由组件执行的动作或操作的能力的结构的配置或设计。此外,在本文中使用术语“包括”、“包含”、“具有”、“含有”及其变体的范围内,这些术语旨在以类似于术语“包括”作为开放式过渡词的方式为包含性的,而不排除任何另外的或其他元素。
已经出于说明的目的呈现了本发明的各个实施例的描述,但并不旨在是详尽的或限于所公开的实施例。并非所有的实施方式都将包括在说明性实例中描述的所有特征。此外,与其他说明性实施例相比,不同的说明性实施例可以提供不同的特征。在不脱离所描述的实施例的范围的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims (20)

1.一种用于管理信息的方法,所述方法包括:
由计算机系统识别数据记录的一组桶式散列和比较信息,其中该组桶式散列是从所述比较信息生成的,并且其中该组桶式散列和所述比较信息形成元数据记录;
由所述计算机系统使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中所述多个候选元数据记录包括该组候选桶式散列和候选比较信息;以及
由所述计算机系统根据所述元数据记录中的所述比较信息与所述多个候选元数据记录中的所述候选比较信息的比较,确定所述数据记录的实体成员资格。
2.根据权利要求1所述的方法,进一步包括:
由计算机系统使用该组桶式散列和所述比较信息为所述数据记录创建元数据记录;以及
由所述计算机系统利用为所述数据记录确定的所述实体成员资格来更新所述元数据记录。
3.根据权利要求1所述的方法,其中,由所述计算机系统根据所述元数据记录中的所述比较信息与所述多个候选元数据记录中的所述候选比较信息的比较,确定所述元数据记录的所述实体成员资格包括:
由所述计算机系统将所述元数据记录中的所述比较信息与所述多个候选元数据记录中的所述候选比较信息进行比较,以形成比较;
由所述计算机系统根据所述比较生成一组比较评分;以及
由所述计算机系统基于该组比较评分与一组阈值的比较来确定所述实体成员资格。
4.根据权利要求1所述的方法,进一步包括:
由所述计算机系统从请求者接收搜索请求;
由所述计算机系统使用从所述请求者接收的所述搜索请求中的搜索项创建一组搜索桶式散列和搜索比较信息;
由所述计算机系统使用该组搜索桶式散列在所述元数据数据库中搜索一组候选元数据记录;
由所述计算机系统基于该组候选元数据记录的该组比较评分从该组候选元数据记录中选择候选元数据记录,该组比较评分指示该组候选元数据记录中的所述候选比较信息与所述搜索比较信息有多相似;以及
由所述计算机系统使用所述候选元数据记录中的源标识符将对应于所述候选元数据记录的识别的数据记录返回给所述请求者。
5.根据权利要求1所述的方法,其中,能够在针对单个数据记录的该组桶式散列中生成多个桶式散列,并且所述多个桶式散列中的每一个仅表示所述数据记录中的属性的一部分。
6.根据权利要求1所述的方法,其中,所述比较信息包括表示所述数据记录中的信息的比较串或者文本串中的至少一个。
7.根据权利要求1所述的方法,其中,该组桶式散列基于以下中的至少一个:第一名称、姓氏、地址、街道名称、州、邮政编码、居住城市、电话号码、职业、企业名称、生日、账号、职业、企业电话、企业地址或税收识别号。
8.根据权利要求1所述的方法,其中,所述元数据记录进一步包括以下中的至少一个:实体成员资格、客户标识符、记录类型、概率自评分或时间戳。
9.根据权利要求1所述的方法,其中,从索引服务接收所述数据记录的该组桶式散列和所述比较信息。
10.一种信息管理系统,包括:
计算机系统;以及
元数据数据库,其存储在所述计算机系统中,其中所述元数据数据库中的元数据记录的每个包括一组桶式散列、比较信息和实体成员资格,其中该组桶式散列是使用所述比较信息生成的,并且所述实体成员资格识别一组相关元数据记录。
11.根据权利要求10所述的信息管理系统,其中,所述计算机系统识别数据记录的该组桶式散列和所述比较信息,在所述数据记录中,从所述比较信息生成该组桶式散列,并且其中,该组桶式散列和所述比较信息形成元数据记录;使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中所述多个候选元数据记录包括候选桶式散列和所述候选比较信息;以及根据所述元数据记录中的所述比较信息与所述多个候选元数据记录中的候选比较信息的比较,确定所述数据记录的实体成员资格。
12.根据权利要求11所述的信息管理系统,其中,所述计算机系统使用该组桶式散列和所述比较信息为所述数据记录创建元数据记录,并且使用为所述数据记录确定的所述实体成员资格来更新所述元数据记录。
13.根据权利要求11所述的信息管理系统,其中,在从所述元数据记录中的所述比较信息与所述多个候选元数据记录中的所述候选比较信息的比较中确定所述元数据记录的所述实体成员资格中,所述计算机系统将所述元数据记录中的所述比较信息与所述多个候选元数据记录中的所述候选比较信息进行比较以形成比较;从所述比较生成一组比较评分;以及基于该组比较评分与一组阈值的比较来确定所述实体成员资格。
14.根据权利要求10所述的信息管理系统,其中,所述计算机系统从请求者接收搜索请求;使用在来自所述请求者的所述搜索请求中接收的搜索项创建一组搜索桶式散列和搜索比较信息;使用该组搜索桶式散列在所述元数据数据库中搜索一组候选元数据记录;基于该组候选元数据记录的一组比较评分从该组候选元数据记录中选择候选元数据记录,该组比较评分指示该组候选元数据记录中的候选比较信息与所述搜索比较信息有多相似;以及使用所述元数据记录中的源标识符将与所述候选元数据记录相对应的识别的数据记录返回给所述请求者。
15.根据权利要求10所述的信息管理系统,其中,所述比较信息包括表示信息的比较串或文本串中的至少一个。
16.根据权利要求11所述的信息管理系统,其中,所述元数据记录进一步包括以下中的至少一个:实体成员资格、客户标识符、记录类型、概率自评分或时间戳。
17.一种用于管理信息的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质;
第一程序代码,其存储在所述计算机可读存储介质上,可由计算机系统执行以使所述计算机系统识别数据记录的一组桶式散列和比较信息,其中该组桶式散列是从所述比较信息生成,并且其中该组桶式散列和所述比较信息形成元数据记录;
第二程序代码,其存储在所述计算机可读存储介质上,可由所述计算机系统执行,以使所述计算机系统使用该组桶式散列识别元数据数据库中多个候选元数据记录,其中所述多个候选元数据记录包括该组候选桶式散列和候选比较信息;以及
第三程序代码,其存储在所述计算机可读存储介质上,可由所述计算机系统执行,以使所述计算机系统根据所述元数据记录中的所述比较信息与所述多个候选元数据记录中的所述候选比较信息的比较,确定所述数据记录的实体成员资格。
18.根据权利要求17所述的计算机程序产品,进一步包括:
第四程序代码,其存储在所述计算机可读存储介质上,可由所述计算机系统执行,以使所述计算机系统使用该组桶式散列和所述比较信息为所述数据记录创建元数据记录;以及
第五程序代码,其存储在所述计算机可读存储介质上,可由所述计算机系统执行以使得所述计算机系统用利用为所述数据记录确定的所述实体成员资格来更新所述元数据记录。
19.根据权利要求17所述的计算机程序产品,其中,第三程序代码包括:
存储在所述计算机可读存储介质上的程序代码,所述程序代码可由所述计算机系统执行以使所述计算机系统将所述元数据记录中的所述比较信息与所述多个候选元数据记录中的所述候选比较信息进行比较以形成比较;
存储在所述计算机可读存储介质上的程序代码,所述程序代码可由所述计算机系统执行以使所述计算机系统根据所述比较生成一组比较评分;以及
存储在所述计算机可读存储介质上的程序代码,所述程序代码可由所述计算机系统执行以使所述计算机系统基于将所述该组比较评分与一组阈值进行比较来确定所述实体成员资格。
20.根据权利要求17所述的计算机程序产品,进一步包括:
第四程序代码,其存储在计算机可读存储介质上,可由计算机系统执行以使计算机系统从请求者接收搜索请求;
第五程序代码,其存储在计算机可读存储介质上,可由计算机系统执行以使计算机系统使用从所述请求者接收的的所述搜索请求中的搜索项创建一组搜索桶式散列和搜索比较信息;
第六程序代码,其存储在所述计算机可读存储介质上,可由所述计算机系统执行,以使所述计算机系统使用该组搜索桶式散列在所述元数据数据库中搜索一组候选元数据记录;
第七程序代码,其存储在所述计算机可读存储介质上,可由所述计算机系统执行以使所述计算机系统基于该组候选元数据记录的该组比较评分从该组候选元数据记录中选择候选元数据记录,该组比较评分指示该组候选元数据记录中的所述候选比较信息与所述搜索比较信息有多相似;以及
第八程序代码,其存储于所述计算机可读存储介质上,可由所述计算机系统执行以使所述计算机系统使用所述候选元数据记录中的源标识符将对应于所述候选元数据记录的识别的数据记录返回给所述请求者。
CN202180071405.2A 2020-11-25 2021-10-21 信息管理的元数据索引 Pending CN116348868A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/105,425 2020-11-25
US17/105,425 US20220164396A1 (en) 2020-11-25 2020-11-25 Metadata indexing for information management
PCT/CN2021/125194 WO2022111148A1 (en) 2020-11-25 2021-10-21 Metadata indexing for information management

Publications (1)

Publication Number Publication Date
CN116348868A true CN116348868A (zh) 2023-06-27

Family

ID=81658320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180071405.2A Pending CN116348868A (zh) 2020-11-25 2021-10-21 信息管理的元数据索引

Country Status (6)

Country Link
US (1) US20220164396A1 (zh)
JP (1) JP2023549594A (zh)
CN (1) CN116348868A (zh)
DE (1) DE112021005210T5 (zh)
GB (1) GB2616574A (zh)
WO (1) WO2022111148A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118034612A (zh) * 2024-04-09 2024-05-14 联想凌拓科技有限公司 一种数据处理方法、装置和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11921759B1 (en) * 2023-07-26 2024-03-05 Oramasearch Inc. Operating a distributed search index in a content delivery network

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701314B1 (en) * 2000-01-21 2004-03-02 Science Applications International Corporation System and method for cataloguing digital information for searching and retrieval
US6931390B1 (en) * 2001-02-27 2005-08-16 Oracle International Corporation Method and mechanism for database partitioning
US8229893B2 (en) * 2010-02-01 2012-07-24 Hitachi Data Systems Corporation Metadata management for fixed content distributed data storage
US8359339B2 (en) * 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US8335786B2 (en) * 2009-05-28 2012-12-18 Zeitera, Llc Multi-media content identification using multi-level content signature correlation and fast similarity search
US8402071B2 (en) * 2009-06-19 2013-03-19 Aptare, Inc. Catalog that stores file system metadata in an optimized manner
US10810218B2 (en) * 2011-10-14 2020-10-20 Transunion, Llc System and method for matching of database records based on similarities to search queries
US20130339310A1 (en) * 2012-06-13 2013-12-19 Commvault Systems, Inc. Restore using a client side signature repository in a networked storage system
US9256549B2 (en) * 2014-01-17 2016-02-09 Netapp, Inc. Set-associative hash table organization for efficient storage and retrieval of data in a storage system
US9268653B2 (en) * 2014-01-17 2016-02-23 Netapp, Inc. Extent metadata update logging and checkpointing
US9495478B2 (en) * 2014-03-31 2016-11-15 Amazon Technologies, Inc. Namespace management in distributed storage systems
US9727664B2 (en) * 2014-05-06 2017-08-08 International Business Machines Corporation Grouping records in buckets distributed across nodes of a distributed database system to perform comparison of the grouped records
US9934264B2 (en) * 2015-06-02 2018-04-03 Netapp, Inc. Technique for reducing metadata stored in a memory of a node
US9401959B1 (en) * 2015-12-18 2016-07-26 Dropbox, Inc. Network folder resynchronization
BR112018016212A2 (pt) * 2016-02-08 2018-12-18 Scott Guy sistema e método para verificação da autenticidade de informações de documento
CN106612320B (zh) * 2016-06-14 2019-10-18 深圳市中盛瑞达科技有限公司 云存储中一种加密数据的去重方法
US11182434B2 (en) * 2017-11-15 2021-11-23 Sumo Logic, Inc. Cardinality of time series
US11157497B1 (en) * 2018-04-30 2021-10-26 Splunk Inc. Dynamically assigning a search head and search nodes for a query
US11962625B2 (en) * 2018-11-30 2024-04-16 Steve Hummel System and method for remote storage device scanning for detecting restricted content therein
US11188397B2 (en) * 2019-10-18 2021-11-30 Splunk Inc. Mobile application for an information technology (IT) and security operations application
US11409711B2 (en) * 2019-12-03 2022-08-09 Western Digital Technologies, Inc. Barriers for dependent operations among sharded data stores
US20210165768A1 (en) * 2019-12-03 2021-06-03 Western Digital Technologies, Inc. Replication Barriers for Dependent Data Transfers between Data Stores
US11567899B2 (en) * 2019-12-03 2023-01-31 Western Digital Technologies, Inc. Managing dependent delete operations among data stores

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118034612A (zh) * 2024-04-09 2024-05-14 联想凌拓科技有限公司 一种数据处理方法、装置和存储介质

Also Published As

Publication number Publication date
GB2616574A (en) 2023-09-13
WO2022111148A1 (en) 2022-06-02
JP2023549594A (ja) 2023-11-28
US20220164396A1 (en) 2022-05-26
DE112021005210T5 (de) 2023-08-10

Similar Documents

Publication Publication Date Title
US10055410B1 (en) Corpus-scoped annotation and analysis
CN112384907B (zh) 与文本挖掘集成的规范编辑系统
US20180032587A1 (en) Methods and Apparatus for Incremental Frequent Subgraph Mining on Dynamic Graphs
US9940355B2 (en) Providing answers to questions having both rankable and probabilistic components
US10558687B2 (en) Returning search results utilizing topical user click data when search queries are dissimilar
US11250204B2 (en) Context-aware knowledge base system
US20230076923A1 (en) Semantic search based on a graph database
WO2022111148A1 (en) Metadata indexing for information management
US11080249B2 (en) Establishing industry ground truth
US9965558B2 (en) Cross-channel social search
US11120014B2 (en) Enhanced search construction and deployment
US20230153300A1 (en) Building cross table index in relational database
US11847121B2 (en) Compound predicate query statement transformation
US11755633B2 (en) Entity search system
US11720554B2 (en) Iterative query expansion for document discovery
US20220036006A1 (en) Feature vector generation for probabalistic matching
JP2022168859A (ja) コンピュータ実装方法、コンピュータプログラム、及びシステム(予測クエリ処理)
US10891324B2 (en) Weighting of unobserved terms in a language model for information retrieval using lexical resources
US10592568B2 (en) Returning search results utilizing topical user click data when search queries are dissimilar
US11841857B2 (en) Query efficiency using merged columns
US11947558B2 (en) Built-in analytics for database management
US11893032B2 (en) Measuring relevance of datasets to a data science model
US20220350782A1 (en) Data management configuration tuning through link preference detection
US20210082581A1 (en) Determining novelty of a clinical trial against an existing trial corpus
JP2024012091A (ja) 時系列データベースにおける記録管理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination