CN117396860A - 用于按需、安全、且前瞻性的增值数据市场的系统和方法 - Google Patents
用于按需、安全、且前瞻性的增值数据市场的系统和方法 Download PDFInfo
- Publication number
- CN117396860A CN117396860A CN202280038977.5A CN202280038977A CN117396860A CN 117396860 A CN117396860 A CN 117396860A CN 202280038977 A CN202280038977 A CN 202280038977A CN 117396860 A CN117396860 A CN 117396860A
- Authority
- CN
- China
- Prior art keywords
- data
- client
- record
- token record
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000002131 composite material Substances 0.000 claims abstract description 18
- 230000003190 augmentative effect Effects 0.000 claims abstract description 16
- 241000251468 Actinopterygii Species 0.000 claims description 2
- 241001627955 Tetraodon lineatus Species 0.000 claims description 2
- 230000003416 augmentation Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 16
- 230000010354 integration Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000012546 transfer Methods 0.000 description 11
- 238000013434 data augmentation Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000013329 compounding Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 101100203322 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SKS1 gene Proteins 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开针对用于扩充数据记录的数据市场。具体地,所公开的系统和方法使得能够经由匹配,确定复合数据记录,和利用参考源数据集来扩充数据。在一个示例方面,将客户数据令牌化并且随后传送到第三方数据市场平台。类似地,可以将参考源数据集令牌化并传送到数据市场平台。在数据市场平台上,可以比较客户数据和参考源数据,其中,某些数据属性(即,数据市场平台上的令牌)可以被确定为在客户数据集中缺失但存在于参考源数据集中。客户然后可以具有通过经由数据代理(例如数据市场平台)与参考源交易来获取缺失的和增值的数据属性的能力。
Description
相关申请交叉引用
申请号为16/844,927,发明名称为″CONTEXT DRIVEN DATA PROFILING″的专利申请;申请号为16/776,293,发明名称为″SYSTEMS AND METHOD OF CONTEXTUAL DATAMASKING FOR PRIVATE AND SECURE DATA LINKAGE″的专利申请;申请号为17/103,751,发明名称为″SYSTEMS AND METHODS FOR UNIVERSAL REFERENCE SOURCE CREATION ANDACCURATE SECURE MATCHING″的专利申请;以及申请号为17/103,720,发明名称为″SYSTEMSAND METHODS FOR DATA ENRICHMENT″的专利申请,均被通过引用整体并入本文。
技术领域
本公开涉及用于按需,安全,且前瞻性的增值数据市场的系统和方法。
背景技术
实体维护着可能杂乱无序和/或不完整的大量数据。例如,实体可以维护与诸如个体,产品,组织等对象(subject)相关的不止一个不完整的记录。一个记录可以包含对象的地址,电子邮箱,性别,和地理位置,而另一个记录可以包含对象的姓名,地址,电话号码,出生日期,和信用卡信息。这些记录中的每一个都可以是不完整的。产品和组织可以存在类似的不完整记录。目前,期望调谐(reconcile)这些杂乱记录的实体通常必须手动组合这些记录,这导致了效率低下且耗时的过程以及可能暴露个人身份信息。专利申请号17/103,751和17/103,720(均通过引用整体并入本文)旨在解决该问题。
然而,一旦组合了来自单一实体的记录,整合的记录中可能仍然缺失某些数据属性。例如,数据对象的记录可以包括姓名,出生日期,地址,和电话号码的数据属性,但是记录可能缺失性别数据属性。从同一数据对象采集数据的其他组织可能记录了性别数据属性。然而,缺失该数据属性的组织可能不知道哪个组织具有该数据属性或如何获得该缺失的数据属性。现代企业在准确的数据采集和创建繁琐而完整的数据记录方面受到阻碍。
因此,对能够应对现代数据采集和调谐(reconciliation)的挑战的系统和方法的需求不断增加,该挑战包括当其他组织(例如,可信命名源/实体)可以具有那些数据属性时拥有不完整数据记录的缺漏。
数据正在成为大多数企业的重要组成部分,并且有更多真实信息副本可用,这对许多外部利益相关者来说可能是有价值的。需要企业可以为其用例找到购买的数据并且还可以为其数据找到出售的用例的安全平台。独一无二的数据市场,使数据交易的需求和价值主动可见。
针对这些和其他一般考虑,作出了本文所公开的多个方面。此外,尽管可以讨论相对具体的问题,但应当理解,示例不应限于解决在本公开的背景技术或其他地方确定(identified)的具体问题。
附图说明
参照附图描述了非限制性和非穷举性示例。
图1示出了如本文所述的用于数据市场的分布式系统的示例。
图2示出了如本文所述的用于操作数据市场的示例性输入处理器。
图3示出了如本文所述的用于在数据市场中扩充数据记录的示例性方法。
图4示出了包括数据市场平台,客户环境,和参考源环境的分布式系统的示例。
图5示出了使用参考源进行传递匹配的示例。
图6示出了从外部可信源创建的整合的参考集的示例。
图7示出了提供数据质量(DQ)分数,整合多个令牌记录,和使用至少一个参考源来扩充记录的示例。
图8示出了使用可信源令牌记录来扩充整合的客户令牌记录的示例。
图9示出了示例性数据市场平台。
图10示出了在其中可以实施本实施例中的一个或多个实施例的适合的操作环境的一个示例。
具体实施方式
下文参照附图更全面地描述本公开的多个方面,该附图构成本文的一部分,并且示出了具体的示例性方面。然而,本公开的不同方面可以以许多不同的形式实施,且不应被解释为仅限于本文所述的方面;而是,提供这些方面使得本公开将是彻底和完整的,并将这些方面的范围完全传达给本领域技术人员。各个方面可以作为方法,系统,或设备进行实践。因此,各个方面可以采取硬件实施,完全以软件实施,或组合软件和硬件方面来实施的形式。因此,以下详细描述不应作为限制性的。
本申请的实施例针对与数据市场内的数据匹配,数据剖析,数据屏蔽,数据整合,和数据扩充相关的系统和方法。数据匹配过程可以用于生成可以提高数据质量的数据洞察。然而,一旦数据记录匹配,数据记录中可能仍然缺失某些数据属性。为了填补这些缺口,组织可以寻求经由数据市场获得某些缺失的数据属性。例如,组织可以具有关于某个业务实体的数据记录,但可能缺失某个数据属性(例如,员工人头数)。员工人头数数据属性可以被第三方可信源拥有,所述第三方可信源为可能参与获取缺失的数据属性的组织。为了获得该缺失的数据属性,组织可以经由数据市场与第三方可信源交互和交易。用例或组织需求的数据可用性可以经由令牌的使用在数据市场上可见。换句话说,在客户和可信源进入数据市场之前,客户和可信参考源可能需要″屏蔽″其数据,以创建可以分析和比较的私有和安全令牌。
数据屏蔽可以指对特定于客户端的信息的散列和/或加密。本申请通篇中,″客户端″可以指客户和/或参考源。为了使实体将敏感数据(例如,PII)传送到第三方(例如,数据市场平台),通常应将数据令牌化。在本文描述的一些示例中,特定于客户端的信息可以首先进行散列和加密并且然后上传到安全服务器。令牌化的信息可以从安全服务器取得并进行分析。令牌化的特定于客户端的信息(即,″客户端令牌″)可以使用散列(单向压缩函数)和/或加密的组合进行令牌化,其中,散列码可以包括附加的计算机生成的安全散列算法(SHA2 512/256)盐(salt)。可以使用其他散列和加密方法,包括但不限于SHA2 348,SHA3,三重DES,双鱼加密算法,河豚加密算法,高级加密标准(AEs),IDEA加密算法,MD5加密算法,和/或RSA安全加密算法。当第三方服务器接收到从客户或参考源传送的信息时,该信息是令牌的形式。换句话说,来自客户和/或参考源(即,″客户端″)的原始数据在被传送到第三方安全服务器之前被散列和加密。数据市场平台不接收或处理原始数据。
在一些示例方面,可以包括被包括在匿名化标签列表中的第一标签,该匿名化标签列表与基于被确定的分类器的令牌化属性化的信息类型相对应。标签可以提供属性中代表的信息类型的匿名化标识符。可以基于任何属性和分类器生成标签。例如,如果属性与姓名相关,则对应的标签可以是″La1″。在这些实施例中,只有有权接入与标签相对应的信息的列表的实体才能确定由每个标签确定的信息类型,从而对数据进行匿名化。对于第三方数据市场平台,由于数据的令牌化,实际的未加密的属性或分类器可以是未知的。例如,某个属性可以指数据对象的地址并具有″地址″标签,但一旦被标签化,该标签可以是第三方数据市场平台的令牌″La1″。该过程的进一步描述可以在美国专利申请号16/844,927中找到,其通过引用整体并入本文。
数据整合是指整合两个或多个数据记录以创建单一数据记录。例如,数据记录可以包括姓名,DOB,性别,和电子邮箱地址的数据属性。另一数据记录可以包括姓名,性别,家庭地址,和电话号码的数据属性。如果整合了这两个记录,则可以创建包括姓名,DOB,性别,电子邮箱地址,家庭地址,和电话号码的数据属性的单一数据记录。一旦被整合,整合的数据记录可以被称为″复合体(composite)″。
数据复合体对于可以具有与单一数据对象相关的多个数据记录的实体来说可能是有用的。例如,银行可以具有数据对象的支票账户的数据记录以及该同一数据对象的住房贷款的数据记录。这两个数据记录均可以包括重叠的信息,但一个数据记录可以包括另一个数据记录不包括的某些数据属性。因此,创建这些数据记录的复合体可能对实体有益,从而产生更高的效率和更高的数据完整性级别。
如本文所述,实体可以利用所提出的系统和方法来经由数据市场通过填入缺失的数据属性扩充其数据复合体。例如,银行可以具有与某些数据对象相关的某些数据复合体记录。每个数据属性可以接收数据质量(DQ)分数。DQ分数可以向实体表示数据属性的完整性程度。独立属性的汇总DQ分数可以构成每个数据记录的″价值分数″。例如,组织可以具有与单一数据对象相关的五个不同的数据记录。如果这五个数据记录中的每一个都具有针对数据记录中的每一个所列出的相同性别数据属性,性别属性的DQ分数可以相对较高(例如,90/100)。然而,如果这五个数据记录中的仅有一个具有社会安全号码(SSN)的数据属性,则该数据属性可以接收相对较低的DQ分数(例如,30/100),因为该实体可能没有其他确证数据来验证该特定数据对象的该数据属性的完整性。
为了应对低DQ分数的问题并提高数据完整性,本文提出的系统和方法利用可信参考源来确证数据记录并填补数据记录潜在的缺失的数据属性。参考源是具有用作参考点的数据的实体。例如,参考源可以是″可信″源(例如,可信命名组织),比如信用局,银行,和/或政府实体。然而,因为″信任″是主观的,就本申请而言,参考源是用作与其他源(例如,客户源)进行比较的参考项的任何源。例如,客户可以具有数据对象的多个数据记录,但可以缺失一些数据属性。客户可以对该数据进行散列和加密(即,将原始数据转换为令牌)并且然后将令牌上传到安全服务器,在该安全服务器处,第三方数据市场平台可以接入客户令牌。另外,参考源可以具有完整且经过验证的记录(即,″可信″记录),该记录被散列和加密(即,令牌化)并且然后上传到由数据市场平台管理的安全服务器。第三方数据市场平台可以接入参考源令牌。然后,第三方数据市场平台可以通过将客户令牌与参考源令牌进行匹配来扩充客户数据。
在一些方面,可以由系统接收客户令牌和参考源令牌。可以分析和比较客户令牌和参考源令牌。分析和比较的结果可以揭示客户令牌中的各个缺漏,如果当参考源将这些数据属性传送给客户时,这些缺漏可以通过参考源令牌进行弥补。可以将客户令牌的某些令牌化数据属性确定为具有低DQ分数和/或可能完全缺失。具有低DQ分数和/或可能缺失的数据属性可以由客户环境中的参考源令牌填充。具体地,第三方数据市场平台实现对数据的扩充和整合,但数据实际的扩充和整合发生在客户环境中。在其他方面中,可以在查询级别实现数据扩充。数据市场可以是客户端业务和技术查询的渠道,经由价值分数突出数据缺陷并从市场数据供应商选项中提出数据扩充的替代方案。数据市场选项可以具有基于某个客户端的用例的潜在增值的成本和排名。
因此,本公开提供了多种技术益处,包括但不限于:实现更高效地使用电子资源进行数据匹配,整合,和实现数据扩充;提供更高效的存储管理,因为数据集的匹配,整合,和扩充可以发生在单一第三方服务器处;减少敏感数据的潜在暴露,因为传送到第三方服务器的所有数据都被令牌化(即,被散列和加密);以及减少对电子设备的手动过载,因为数据匹配,整合和扩充是经由计算设备运行智能算法以确定数据集中的缺漏并从参考源数据集中弥补这些缺漏而发生的,等等。
图1示出了如本文所述的用于数据市场的分布式系统的示例。所提出的示例性系统100是相互依赖的部件的组合,该相互依赖的部件相互作用以形成用于在数据市场上整合和扩充数据的集成整体。系统的部件可以是硬件部件或者在系统的硬件部件上实施和/或由系统的硬件部件执行的软件。例如,系统100包括客户端设备102、104、和106,本地数据库110、112、和114,网络108,以及服务器设备116、118、和/或120。
客户端设备102、104、和106可以被配置为接收和传送数据。例如,客户端设备102、104、和106可以包含特定于客户端的数据。客户端设备可以经由网络108下载可应用于特定于客户端的数据的第三方令牌化软件程序。特定于客户端的数据可以存储在本地数据库110、112、和114中。一旦被令牌化,特定于客户端的数据就被转换成″令牌″,并且这些令牌可以经由网络108和/或卫星122传送到服务器116、118、和/或120。服务器116、118、和/或120可以是数据市场平台所拥有的第三方服务器。在其他示例中,特定于客户端的数据可以存储在服务器(除了或代替本地客户端设备和本地数据库)中,并且可以被令牌化并且然后经由网络108和/或卫星122从客户端服务器传送到第三方服务器。
在多个方面中,客户端设备(例如,客户端设备102、104、和106)可以有权接入包括特定于客户端的数据的一个或多个数据集或数据源和/或数据库。在其他方面中,客户端设备102、104、和106可以被配备为接收携带特定于客户端的令牌或未加密数据(或两者的混合)的宽带和/或卫星信号。客户端设备102、104、和106可以接收的信号和信息可以是从卫星122传送的。卫星122还可以被配置为与网络108通信,此外还能够直接与客户端设备102、104、和106通信。在一些示例中,客户端设备可以是移动电话,膝上型计算机,平板电脑,智能家居设备,座机,和可穿戴设备(例如,智能手表)等设备。
为了进一步阐述网络拓扑,客户端设备102、104、和/或106(以及它们对应的本地数据库110、112、和114)可以由参考源拥有。客户端设备102、104、和/或106可以下载第三方软件程序以将数据令牌化。来自参考源的令牌可以本地存储在本地数据库11O、112、和/或114中。在其他示例中,令牌可以存储在远程数据库/服务器116、118、和/或120中。在其他示例中,令牌可以存在于本地和外部数据库两者之中。在令牌化之后,参考源可以经由被配置为与本地数据库110、112、114以及服务器116、118、和120通信的客户端设备102、104、和/或106来传送数据。来自参考源的令牌可以经由网络108和/或卫星122传送。参考源令牌可以由第三方服务器接收。
用于令牌化和传送来自客户侧和参考源侧的数据的过程可以是类似的,因为数据可以最初存储在本地并且随后在客户拥有的和/或参考源拥有的客户端设备上进行散列和加密,并且一旦为令牌化形式,最后就被传送到第三方服务器以进行分析,整合,和扩充以及其他动作。换句话说,图1描绘了可以在客户环境和/或参考源环境(即,客户端设备102、104、和/或106可以在一个示例中属于客户端环境,而在另一个示例中属于参考源环境)中使用的网络拓扑。
图2示出了如本文所述的用于实施用于整合和扩充数据的系统和方法的示例性输入处理器。输入处理器200可以嵌入在客户端设备(例如,客户端设备102、104、和/或106),远程网络服务器设备(例如,设备116、118、和/或120),以及能够实施用于整合和扩充数据的系统和方法的其他设备中。输入处理系统包含一个或多个数据处理器,并且能够基于至少一个客户端源和/或参考源提供的处理数据来执行算法,软件例程,和/或指令。输入处理系统可以是出厂安装的系统或特定设备的附加单元。此外,输入处理系统可以是通用计算机或专门的专用计算机。对输入处理系统相对于客户端或远程网络服务器设备等的位置没有限制。根据图2所示的实施例,所公开的系统可以包括存储器205,一个或多个处理器21O,通信模块215,传递匹配模块220,评分模块225,和参考源复合模块230。本技术的其他实施例可以包括这些模块和部件中的部分,全部,或没有这些模块和部件,以及其他模块,应用程序,数据,和/或部件。然而,一些实施例可以将这些模块和部件中的两个或更多个合并到单一模块中和/或将这些模块中的一个或多个的一部分功能与不同的模块相关联。
存储器205可以存储用于在处理器210上运行一个或多个应用程序或模块的指令。例如,存储器205可以用于一个或多个实施例中,以容纳执行传递匹配模块220,评分模块225,和/或参考源复合模块230以及通信模块215的功能所需的全部或部分指令。通常,存储器205可以包括用于存储信息的任何设备,机制或填充的数据结构。根据本公开的一些实施例,存储器205可以涵盖但不限于任何类型的易失性存储器,非易失性存储器,和动态存储器。例如,存储器205可以是随机存取存储器,存储器存储设备,光存储器设备,磁性介质,软盘,磁带,硬盘驱动器,SIMM,SDRAM,RDRAM,DDR,RAM,SODIMM,EPROM,EEPROM,光盘,DVD,和/或类似物。根据一些实施例,存储器205可以包括一个或多个磁盘驱动器,闪存驱动器,一个或多个数据库,一个或多个表,一个或多个文件,本地缓存存储器,处理器缓存存储器,关系数据库,平面数据库,和/或类似物。此外,本领域普通技术人员将理解用于存储信息的许多附加设备和技术可以用作存储器205。
通信模块215与发送/接收信息(例如,通过传递匹配模块220进行匹配,经由评分模块225分配DQ和/或价值分数并经由参考源复合模块230复合),经由客户端设备或服务器设备,其他客户端设备,远程网络服务器等接收的命令相关。这些通信可以采用任何适合类型的技术,例如蓝牙,WiFi,WiMax,蜂窝(例如,5G),单跳通信,多跳通信,专用短程通信(DSRC),或专有通信协议。在一些实施例中,通信模块215将由传递匹配模块220(例如,匹配的数据集),评分模块225(例如,与特定数据属性相关的DQ分数,与特定数据记录相关的价值分数),和参考源复合模块230(例如,属性级别的整合视图,例如表,该表记录编号作为行以及在列标签中的属性填入0和1,以强调记录中某些属性的存在和/或不存在)向客户端设备102、104、和/或106,以及存储器205发送信息输出以存储供将来使用。在一些示例中,通信模块可以通过使用RESTful服务的安全REST服务器被构建在HTTP协议上。
传递匹配模块220被配置为接收至少两组数据,例如数据集A和数据集B。模块220也可以接收和维护参考数据集(例如,参考源数据集,整合的参考集等)。模块220可以被配置为将数据集A与参考数据集进行比较,并将数据集B与参考数据集进行比较。比较分析可以揭示数据集A与参考数据集充分匹配,以及数据集B与参考数据集充分匹配。如果数据集A与参考数据集匹配并且数据集B与参考数据集匹配,则数据集A经由传递性能与数据集B匹配。传递匹配模块220还可以接受单一数据记录,并将数据记录与来自由传递匹配模块220维护的至少一个数据集的数据记录进行比较。传递匹配模块220还被配置为在令牌上执行传递匹配分析。换句话说,可以将至少两个令牌集与参考源令牌集进行比较,并且如果令牌集A与参考令牌集匹配并且令牌集B与参考令牌集匹配,则令牌集A经由传递性能与令牌集B匹配。
评分模块225被配置为分析数据属性列,并将数据质量(″DQ″)分数分配给该数据属性。评分模块225还被配置为分析整个记录及其汇总的DQ分数,并将价值分数分配给该记录。如本申请所示,数据记录的汇编可以各自表示DOB(出生日期)数据属性的相同值。因此,DOB数据属性列可以接收高DQ分数,因为该列中没有缺失值,并且该列中的值全部相同。相对地,由于在没有差异的情况下无法确证数据属性质量,可能具有缺失(或空白)值和/或不同值的数据属性列可以接收较低的DQ分数。如前所述,参考源数据属性尽管缺失的数据属性也可以接收较高的DQ分数,因为该数据属性的源(例如,政府实体,信用局,银行等)的可靠性已经得到验证。
在示例中,客户拥有的数据复合体记录可以表示特定数据属性的低DQ分数。低DQ分数可以向客户建议,客户应当在数据市场上交易以从可以具有该数据属性的可信源(例如,该特定数据属性的可信且经过验证的记录)获得该数据属性。较低的DQ分数或DQ分数为″0″(即,缺失的数据属性)表示客户可能需要从数据市场平台上的可信参考源获得的数据属性,如本文所述。
参考源复合模块230被配置为分析客户拥有的令牌记录和参考源拥有的令牌记录,以确定客户令牌记录中可以由参考源令牌记录填入的潜在缺口。参考源复合模块230被配置为与传递匹配模块220和评分模块225通信。例如,参考源复合模块230可以使用由传递匹配模块220在客户令牌记录于参考源令牌记录之间生成的输出来标识缺失的(或不正确的,如通过低DQ分数证明的)特定数据属性。在其他示例中,参考源复合模块230可以依赖于分配给客户数据记录和/或数据属性的DQ分数和价值分数,以确定客户应当考虑经由数据市场获得的某些数据属性的排名。重要的是,尽管参考源复合模块230的描述使用了术语″数据″,但是数据市场平台不应付,处理,或存储原始″数据″。相反,数据市场平台仅应付令牌的比较,该令牌是多条经加密数据记录(如先前解释的)。因此,当参考源复合模块230确定客户的数据记录中的某些缺口时,模块230事实上正在确定客户的令牌记录中的缺口。然后将令牌记录中的确定的缺口传递回给客户,其中,客户(其持有解密方法,例如,私有密钥)可以将令牌记录与源索引进行比较,以理解参考源复合模块230标识为缺失的和/或可以由可信参考源经由数据市场验证和填入的关联数据属性。在一些示例中,填入数据属性或校正数据属性的成本可以与来自数据市场平台的对客户可见的经确定的数据属性缺口相关联。
图3示出了如本文所述的用于在数据市场中扩充数据记录的示例性方法300。方法300可以开始于步骤302,生成数据质量(DQ)分数。DQ分数可以分配给源(例如,客户或参考源环境)处的记录中的每个属性。例如,由各自针对″姓名″数据属性具有相同值的多个记录构成的复合记录可以针对″姓名″数据属性具有高DQ分数。另一方面,从仅单一数据记录得到(并且未通过其他数据记录确证)的复合体中的数据属性可以具有较低的DQ分数。数据属性可以拥有的确证越多,DQ分数可以越高。
此外,DQ分数可以受数据属性的源的影响。具体地,可以是数据属性的源的参考源相比于在从非参考源填充数据属性的情况可以针对那些数据属性接收较高的DQ分数。例如,复合体可以由五个不同的数据记录构成,并且数据记录中的仅一个数据记录具有被填充的某个数据属性(例如,社会安全号码)。通常,没有来自其他数据记录的任何确证的数据属性将接收较低的DQ分数。然而,如果数据属性是从可信参考源(例如,政府实体,信用局等)得到的,则该特定数据属性可以接收较高的DQ分数。重要的是要注意到,在数据市场平台处,″数据″属性被令牌化,因此数据市场平台正在查看,分析,和匹配″令牌″属性,而不是原始数据属性。请注意,每个令牌可以包括单一属性或多个属性。例如,单一令牌可以指五个属性的组,或者在一些示例方面,令牌可以指单一属性的一部分。令牌不限于与属性一对一地匹配。
另外,在步骤202处,可以为客户记录创建位图。位图可以表示记录中存在某些属性。例如,在个体的记录中,每列可以代表属性。在每列中,数字″1″或数字″0″可以被表示。″1″可以表示存在特定的数据属性,而数字″0″可以表示不存在特定的数据属性。例如,个体记录可以表示将地址属性呈现为″1″,但如果个体记录缺失电子邮箱地址,则该属性在该特定列中可以具有″0″。在特定数据属性被表示为存在或不存在时,位图可以用于实现数据扩充。对这样的位图的分析可以向客户表示可能从其他源(例如参考源)获得哪些数据属性。
在生成DQ分数和位图之后,在步骤304处,可以由第三方数据市场平台接收客户令牌,位图,和DQ分数。在步骤304之前,可以在客户侧处将客户数据令牌化。在接收客户数据之前,客户的客户端设备可能已经使用令牌化软件程序在传送之前将原始客户数据进行散列和加密(或″屏蔽″),因此实际传送到数据市场平台的是客户″令牌″。一旦被令牌化,就可以传送客户令牌,并在步骤304处由第三方数据市场平台接收客户令牌。请注意,在步骤304处接收客户令牌和DQ分数以及在步骤308处接收参考源令牌可以同时或以相反的顺序(接收参考源令牌发生在接收客户令牌之前)实施。
客户令牌可以由数据市场平台接收并存储在安全的服务器上。在接收到客户令牌之后,在步骤306处可以表示至少一个复合体(即,至少两个客户令牌记录的整合)。复合体是指整合多个令牌记录以创建单一令牌记录。例如,客户令牌可以构成与同一数据对象相关的多个令牌记录(尽管因为信息在第三方数据市场平台上被令牌化,第三方数据市场平台不能确定该数据对象)。可以通过整合与该同一数据对象相关的多个令牌记录来创建数据对象的复合体。具体地,一个令牌记录可以包括在被引用时代表诸如姓名,出生日期(DOB),性别,和物理地址的数据属性的令牌,而另一个令牌记录可以包括代表诸如姓名,电子邮箱地址,和年龄的数据属性的令牌。当经由至少一个查找表(例如,包含与客户和/或参考源记录ID具有一对一关系的第三方综合唯一记录ID表的表)或客户环境和/或参考源环境中的软件/算法引回时,复合记录将包括所有上述数据属性:姓名,DOB,性别,物理地址,电子邮箱地址,和年龄。最终结果是复合记录,其是与某个数据对象和/或实体相关的更完整的记录。这样的复合记录是在客户环境中创建的,因此,虽然第三方数据市场平台可以有助于确定要整合和/或扩充的某些记录,但实际的整合和扩充发生在将客户令牌传送到数据市场平台之前的客户环境中。如本文所用,″数据对象″可以是个人,产品,业务,实体等。本文所述的系统和方法不限于只与人类数据对象相关的个人数据,还可以应用于供应链数据,产品数据,业务实体数据等。
在其他示例方面中,在步骤308处数据市场平台接收到参考源令牌之后,可以创建数据对象的复合体。例如,如果来自客户令牌的记录A和记录B相匹配,却可能没有足够的相似之处来匹配成功。如果记录A和记录B确实是与同一数据对象相关的记录,这可能导致假阴性。通过使用参考源数据集,系统可以使用被称为传递闭包的技术来准确地判断记录A和记录B是否与同一数据对象相关,并且如果是,则创建这些记录的复合体。记录A可以与参考源令牌记录相匹配,以及记录B可以与参考源令牌记录相匹配。如果记录的比较达到了有把握地判断记录A与参考源匹配并且记录B与参考源匹配(即,A=R且B=R)的某个匹配阈值,那么我们知道由于传递性能,记录A和B一定匹配。此外,传递匹配还可以确定哪些令牌在客户令牌记录中缺失但存在于参考源令牌记录中。可以将存在于参考源但不存在于客户源中的这些令牌呈现给客户以供购买,以填写/完成客户的令牌记录。
可用于帮助生成客户令牌的复合体的参考源令牌可以从与在步骤308处接收的参考源令牌集不同的参考源令牌集得到,并最终与复合的客户令牌进行比较以填充缺失的和/或确认低DQ分数的数据属性。在其他示例方面中,用于创建复合体并匹配客户记录的参考源可以与在步骤308中接收的和用于填充客户令牌中缺失的或低DQ分数的数据属性的参考源相同。在进一步的示例中,可以使用多于一个参考源令牌集来匹配客户令牌集中的令牌并创建客户令牌的复合体。
在步骤308处,可以接收参考源令牌。如前所述,可以在步骤302处数据市场平台接收到客户令牌之前,同时,或之后接收参考源令牌。与在步骤302处的接收客户令牌步骤类似,参考源数据也可以在传送到数据市场平台之前令牌化。参考源设备可以使用第三方令牌化软件程序(例如,来自数据市场平台或另一第三方的令牌化软件)来在传送之前将其数据令牌化。一旦被令牌化,参考源令牌就可以被传送并由数据市场平台接收。数据市场平台现在将拥有客户令牌和参考源令牌两者。如关于图1所示,这些令牌可以存储在由数据市场平台拥有的安全服务器,第三方云服务器,和/或由数据市场平台管理的本地设备上。
在步骤310处,将客户令牌与参考源令牌进行比较。在该步骤处,客户令牌可以指单一客户令牌记录和/或复合客户令牌记录(即,先前已经经由例如传递闭包复合的个体客户令牌记录)。将客户令牌与参考源令牌进行比较可以表示某些客户令牌是否与参考源令牌相匹配以及客户令牌记录缺失哪些令牌。此外,位图可以表示客户令牌记录中可以使用参考源令牌记录来填补的某些缺口。请注意,参考源令牌可以包括单一参考源和/或多个参考源。匹配和扩充过程可以包括分析属性中的每一个属性的DQ分数。具有最低DQ分数的数据属性可以接收比具有较高DQ分数的其他数据属性更高的优先级。完全缺失的数据属性(例如,DQ分数为″0″)可以在310处的比较步骤期间接收最高优先级。
在一些示例方面,可以生成由参考源令牌填充和/或确认准确性的数据属性的排名。数据属性的排名可以发生在数据市场平台处,在该数据市场平台处,属性作为令牌被处理和排名。数据属性的排名可以以列表形式(客户有权接入查找表或软件/算法以与源和数据属性相关的地方)提供回给客户,并且排名列表中的每个数据属性可以具有与之相关的货币价格。例如,为了使客户接收某个填充的数据属性,客户可能需要支付一定数量的钱以从参考源和/或数据市场接收该数据属性。通过本文所述的系统和方法,数据市场平台可以有助于该交易。客户可以选择填充/更新某些数据属性,而放弃填充/更新其他数据属性。
在步骤310处完成匹配分析和位图洞察分析之后,可以实现客户的数据扩充。例如,来自步骤310的令牌匹配和位图洞察可能已经揭示了参考源可以拥有数据对象的包括电子邮箱地址的完整数据记录,而客户端记录A、B、和C没有与数据对象相关的电子邮箱地址。第三方数据市场平台通知客户某个参考源具有电子邮箱地址数据属性,并且因此,客户可以从参考源获得该数据属性。数据市场平台将认识到客户记录具有缺失的数据值并将表示可以用于在客户环境处填充缺失的记录的来自参考源的对应记录/数据。数据市场平台有助于客户与参考源之间的数据扩充过程,但缺失的数据属性或匹配数据记录的实际填充发生在客户环境处,而不是在第三方数据市场平台上。
图4示出了包括数据市场平台,客户环境,和参考源环境的分布式系统的示例。图4中的分布式系统是示例性数据登记400。数据登记400可以包括客户环境402,参考源环境404,和数据市场平台406。如客户环境402中所示,可以从多个客户数据库(例如,数据库客户端ABC和/或客户端XYZ)接收数据。数据可以包含与数据对象相关的多个数据属性,例如姓名,地址,电话,电子邮箱,SSN,DOB,性别等。客户数据可以在客户端环境402内部被令牌化。一旦被令牌化,客户端令牌就可以传送到数据市场平台406。
类似地,参考源环境404可以包括数据,该数据包括与数据对象相关的数据属性。数据可以在参考源环境内被屏蔽。在数据被屏蔽之后,可以将其传送到数据市场平台406。
数据市场平台406可以接收私有和安全令牌的形式的来自客户和参考源的令牌。应用于客户令牌的令牌化算法可以类似于参考源令牌,以有助于高效匹配和确定客户令牌集中的缺失的数据属性。在数据市场平台406内,可以比较来自客户和参考源的令牌。在比较步骤处,可以采用令牌来确定链接对(即,″重叠″)。在一些示例中,记录也可以由位字符串(即,1和0的字符串)组成。″1″可以表示某个数据属性存在,而″0″可以表示该数据属性不存在。当比较记录的令牌时,如果记录的一个或多个令牌具有相同的值,则基于已确立的阈值来确立链接对。每个匹配对的位图(带有0和1的位字符串)独立地强调该记录的数据属性的可用性。例如,如果匹配记录对中的位值不同,则令牌记录中的至少一个令牌记录具有数据属性,而其他令牌记录没有。如果两个令牌记录在列中均具有″0″,则该特定的对应数据属性缺失。
链接对可以表示某些记录相匹配(即,来自客户端的数据记录可以由参考源确证)。链接对的位图比较可以表示在客户位图中由″O″强调的数据属性缺失(并且因此,在客户端环境中的客户数据集中缺失)。在链接对中检测到0时,数据市场平台系统可以生成回到参考源的请求,以获得和/或确认记录集中的某个数据属性。参考源可以将经加密的有效载荷(明文数据属性)直接或经由数据市场平台传送给客户。数据市场平台406不存在未令牌化的客户端(例如,客户和/或参考源)数据。
为清楚起见,方框408表示用于数据匹配的系统和过程,而方框410表示用于数据扩充的过程,其从位图洞察得到。例如,如果客户希望填补数据记录中的缺口(即,获得客户目前没有的数据记录的数据属性),客户可以在方框408内在数据市场平台406上交易。在数据市场平台406上,如果参考源具有缺失的数据属性(其将在数据市场平台406上以令牌的形式确定),则数据市场平台406可以通知客户可信参考源具有缺失的数据属性。数据属性的实质内容的传送发生在方框410中,其中,将有效载荷直接从参考源环境404传送到客户环境402,使得原始数据不经由数据市场平台406传递或存储在数据市场平台406上。
图5示出了使用参考源的传递匹配的示例500。如示例500所示,数据记录A(502)和B(504)可以包含某些数据属性。记录A(502)可以包含地址,电子邮箱,性别,和执照类型。记录B(504)可以包含姓名,地址,电话,DOB,性别,和信用卡号。然而,当比较这两个记录以创建″复合″记录时,系统可以判断这两个记录之间没有足够的信息/重叠,以至于无法有把握地判断记录与同一数据对象相关。换句话说,仅比较记录A和记录B可能导致″假阴性″。
通过引入参考源数据(R)数据记录506,记录A和B可以经由传递性能进行匹配。也就是说,可以将记录A与记录R进行比较,并且可以存在足够的重叠,以有把握地判断记录与同一数据对象相关联。还可以将记录B与记录R进行比较,并且可以存在足够的重叠,以有把握地判断记录与同一数据对象相关。因此,如果记录A=记录R,记录B=记录R,那么记录A=记录B。
传递匹配示例500可以在创建数据记录的复合体时被应用,例如在方法300的步骤304中。可以利用至少一个参考源来判断某些客户数据记录是否与同一数据对象相关。
值得注意的是,在数据市场平台处,传递匹配经由令牌发生——图5中显示的数据属性仅用于理解目的,因为由数据市场平台实际接收和处理的″数据″被令牌化。换句话说,数据市场平台看不见令牌所代表的基础原始数据。例如,数据市场平台不知道客户数据记录A和客户数据记录B匹配地址的实际数据值。相反,数据市场平台知道客户令牌记录A和客户令牌记录B在这两个令牌记录之间具有匹配的令牌。
图6示出了从至少一个可信源创建的整合参考集602、604的示例600。整合参考集可以是来自可信源的多个数据集的复合体。整合参考集可以被数据代理用于高效地确定来自客户端数据集的哪些数据属性可以通过可信源确证和/或填充以及哪个可信源可以拥有相关数据。通过利用整合参考集,数据代理可以更容易地向客户端提供关于哪个可信源可以具有最相关数据来确证和/或填充某些数据属性的建议。
如图所示,参考集#1(602)显示已经由多个数据源(例如,源1,源2,源N,T源1,T源2,O源等)汇编的与数据对象相关的多个数据属性。然而,在数据市场环境(406,来自图4)中,参考集#1(602)将显现为参考集#2(604),其中,特定数据属性和源不是实际可确定的,因为它们在数据市场环境上被令牌化。
外部可信源1、2、和N可以代表个体可信源,例如银行,信用社,政府实体等。可以创建这些个体可信源的复合体以确立整合参考集(例如,参考集602/604)。整合参考集可以是存储在数据市场上并用于确定客户数据记录的缺失的令牌(基础数据属性)的令牌化的参考集。
图7示出了提供数据质量(DQ)分数,整合多个数据记录和使用至少一个参考源704来实现对数据记录的扩充的示例700。在示例700中,客户数据可以从银行账户数据库和/或住房贷款数据库得到(即,该示例中的客户是银行)。数据库可以包括与同一数据对象相关的数据记录。例如,个体可以在客户处已经开设了支票账户。在开设支票账户时,可以已经为该个体创建了数据记录。之后,同一个体可以已经向客户申请了住房贷款,并且可以已经为该个体创建了随后的数据记录。因此,同一个体存在至少两个单独的数据记录——一个在银行账户数据库中,而一个在住房贷款数据库中。这些数据记录中的每一个都可以包含重叠的信息,但记录中的任一个可以包含其他数据记录不拥有的某些数据属性。对于客户来说,将这些数据记录整合成单一复合数据记录可能是有利的。对于客户来说,经由数据市场填补数据记录的缺失的数据属性也可能是有利的。
客户端的选项A(706)是简单地组合来自银行账户和住房贷款的数据记录,但是,如前所述,系统可能没有足够的重叠来确定这些数据记录确实与同一个体相关。但万一它们确实匹配,选项A中可用于整合的记录的数据质量可能仍然不足。选项B(708)使用参考源来创建复合体。来自银行账户和住房贷款的数据记录可以使用传递性能与参考源进行匹配,如关于图5所述,并且可以为经整合的记录提供优越的数据质量。
如图所示,与银行账户相关的第一数据记录的DQ分数702总体上低于DQ分数710和712。选项A的DQ分数710示出了″地址″的数据属性的DQ分数在选项A的DQ分数710处从60(DQ分数702)增加到80,因为来自银行账户的数据记录和来自住房贷款的数据记录具有相同的地址数据属性,但住房贷款数据库中的地址属性的DQ分数高于银行账户数据库中的DQ分数。因此,系统选择较高的DQ分数数据属性。因此,该数据属性的数据质量提高,因为该数据属性至少具有一些确证。缺失的数据属性被分配″0″分。
在选项B中,通过使用传递性能和至少一个参考源704,可以扩充客户端数据,如通过DQ分数712的增加所证明的。在一些情况下,扩充是采用在客户端数据集中不可用但对于来自参考数据源的匹配数据记录来说可见的数据属性704(增值的服务和替代数据)。先前缺失的数据属性(例如,SSN和DOB属性)的DQ分数可以被增加,并最终由参考源数据集进行验证(分数为″100″)。
从数据市场平台的角度来看,数据记录的整合实际上是令牌的形式的。数据市场平台可以从客户接收多个令牌化的记录,并且数据市场平台可以比较令牌记录并提供来自同一客户数据源的数据整合选项。类似地,当来自客户的令牌记录与参考源令牌集进行比较和处理时,在客户环境处实现数据扩充选项。换句话说,数据市场平台只是经由令牌记录确定缺失的数据属性以及增值的数据属性,并实现客户令牌记录的数据扩充,但经过扩充的数据仅可以在客户环境中发生,客户能够使用至少一个查找表或软件/算法来使源记录相关并获得经过扩充的数据。
图8示出了使用可信源令牌记录来扩充整合的客户令牌记录的示例。在数据市场环境800中,客户数据记录(令牌化的记录)由令牌记录802示出。在示例中,客户具有与同一实体相对应的三个单独的数据记录。如果客户希望通过组合这三个单独的数据记录来创建数据实体的复合体,客户可以经由本文所述的系统和方法这样做。可以创建复合记录,如令牌记录804所示。生成客户的数据记录的复合体的过程可以被称为数据质量洞察过程。
另外,客户可能希望确定并填补数据记录的缺失的数据属性。数据记录可以是个体数据记录(例如,令牌记录802)或复合数据记录(例如,复合令牌记录804)。通过将客户令牌记录与可信源令牌记录进行比较,可以确定并填补缺失的令牌(即,经加密的数据属性)。在图8中的示例中,可以存在拥有某个数据实体的所有数据属性的可信源记录808。客户可以观察到,通过从可信源808购买缺失的数据属性,客户的数据记录802可以变得完整,如数据记录806中所示。在所示示例中,数据记录具有数据记录的缺失的三个部分(这可以表示至少三个缺失的数据属性或者更多或更少的缺失的数据属性,因为令牌不总是等于一个数据属性),如810和复合数据记录804所示。复合数据记录804的这三个白色令牌化的部分表示缺失的属性。当经由可信源记录808填补客户记录的缺失的令牌时,可以生成完整客户记录,如完成的客户数据记录806所示。如前所述,数据市场环境不存储原始数据或与原始数据交易。数据市场环境处理令牌。最终,客户将从数据市场环境接收信息,从而表示某些缺失的令牌。例如,客户将能够使用客户的私有密钥来解密该信息。客户然后可以向数据市场表示客户想要从可信源购买缺失的数据属性。数据市场然后可以向可信源提供该表示,并且可信源可以直接与客户交易,如图4中的方框41O所示。
图9示出了示例性数据市场平台。环境900示出了如本文所述的数据市场平台的两个单独的实例。在这两个实例中,数据市场实例902和数据市场实例904向客户A和B提供相同的数据实现服务。取决于客户A和B的需求,数据市场选项可以不同。例如,客户A可以正在搜索以填入关于特定产品的数据记录的数据属性。某些可信源(例如,外部数据源1,2和N)可以聚焦于提供产品的数据属性上。客户B可以正在搜索以填入业务实体的数据属性,并且因此,可以正在与不同于客户A的可信源交易。在一个场景中,客户A可以是客户B数据市场的外部源(可信参考源)中的一个,并且反之亦然。这被示出在数据市场实例904中,其将客户A数据示出为客户B在搜索以填入缺失的数据属性或扩充增值的数据属性时可以利用的外部源。基于多个因素,例如数据属性的稀缺性,可信源的声誉等,获得数据属性的成本可以变化。不同的用例和查询可能需要更昂贵或较不昂贵的搜索来填入缺失的数据属性或扩充增值的数据属性。最终,客户将能够查看缺失的数据属性或增值的数据属性是否可供购买,并且如果可以,在数据市场内选择从哪个可信源购买数据属性。在其他场景中,客户A和B正在同时为许多业务或技术用例搜索缺失的或增值的数据属性。
图10示出了在其中可以实施本实施例中的一个或多个实施例的适合的操作环境的一个示例。这只是适合的操作环境的一个示例,并不旨在对使用范围或功能有任何限制。可能适合使用的其他众所周知的计算系统,环境和/或配置包括但不限于个人计算机,服务器计算机,手持或膝上型设备,多处理器系统,基于微处理器的系统,可编程消费电子产品(例如,智能手机),网络PC,小型计算机,大型计算机,包括上述系统或设备中的任何系统或设备的分布式计算环境等。
在其最基本的配置中,操作环境1000通常包括至少一个处理单元1002和存储器1004。取决于计算设备的确切配置和类型,存储器1004(存储与检测到的设备相关的信息,关联信息,个人网关设置,以及执行本文公开的方法的指令等等)可以是易失性的(例如RAM),非易失性的(例如ROM,闪存等),或两者的某种组合。该最基本的配置在图1O中由虚线1006所示。此外,环境1000还可以包括存储设备(可拆卸的1008和/或不可拆卸的1010),包括但不限于磁盘或光盘或磁带。类似地,环境1000还可以具有输入设备1014,例如键盘,鼠标,笔,语音输入等,和/或输出设备1016,例如显示器,扬声器,打印机等。环境中还可以包括一个或多个通信连接1012,例如LAN,WAN,点对点等。
操作环境1000通常包括至少某种形式的计算机可读介质。计算机可读介质可以是可以由处理单元1002或包括操作环境的其他设备接入的任何可用介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实施的用于存储诸如计算机可读指令,数据结构,程序模块,或其他数据的信息的易失性和非易失性可拆卸和不可拆卸介质。计算机存储介质包括RAM,ROM,EEPROM,闪存或其他存储器技术,CD-ROM,数字多功能磁盘(DVD)或其他光存储,磁带盒,磁带,磁盘存储,或其他磁性存储设备,或者可以用于存储期望的信息的任何其他有形介质。计算机存储介质不包括通信介质。
通信介质体现非暂时性计算机可读指令,数据结构,程序模块,或其他数据。计算机可读指令可以在诸如载波或其他传输机制的调制数据信号中传输,并且包括任何信息递送介质。术语″调制数据信号″是指以对信号中的信息进行编码的方式设置或改变其特性中的一个或多个特性的信号。作为示例,而非限制,通信介质包括有线介质,例如有线网络或直接有线连接,以及无线介质,例如声学,RF,红外,和其他无线介质。上述各项中的任何项的组合也应包括在计算机可读介质的范围内。
操作环境1000可以是使用到一个或多个远程计算机的逻辑连接在联网环境中操作的单一计算机。远程计算机可以是个人计算机,服务器,路由器,网络PC,对等设备,或其他公共网络节点,并且通常包括上述元素中的许多或全部以及未如此提及的其他元素。逻辑连接可以包括受可用通信介质支持的任何方法。这样的联网环境常位于办公室,企业范围的计算机网络,内部网,和因特网中。
例如,上文参照框图和/或根据本公开的多个方面的方法,系统,和计算机程序产品的操作图示描述了本公开的多个方面。方框中标注的功能/动作可以不按任何流程图所示的顺序发生。例如,连续示出的两个方框事实上可以基本上并发执行,或者方框有时可以以相反的顺序执行,这取决于所涉及的功能/动作。
本申请中提供的一个或多个方面的描述和说明并不旨在以任何方式限制或约束所要求保护的本公开的范围。本申请中提供的多个方面,示例,和细节被认为足以传达对其的拥有,并使得其他人能够制作和使用所要求保护的公开的最佳模式。要求保护的公开不应被解释为仅限于本申请中提供的任何方面,示例,或细节。无论是以组合或单独地示出和描述,各种特征(结构和方法)旨在选择性地被包括或被省略,以产生具有特定特征集的实施例。在提供了本申请的描述和说明之后,本领域技术人员可以设想落入本申请所体现的一般发明构思的较宽泛方面的精神内的变化,修改,和替代方面,而不脱离所要求保护的公开的较宽泛的范围。
综上所述,应当理解,出于说明的目的,已经在本文中描述了本发明的具体实施例,但可以在不脱离本发明的范围的情况下进行多种修改。因此,除所附权利要求外,本发明不受限制。
Claims (20)
1.一种用于经由数据市场来扩充数据的系统,包括:
存储器,其被配置为存储非暂时性计算机可读指令;以及
处理器,其通信地耦合到所述存储器,其中,所述处理器在执行所述非暂时性计算机可读指令时被配置为:
从客户源接收至少一个客户令牌记录以及与所述至少一个令牌记录相关的至少一个客户位图;
从参考源接收至少一个参考令牌记录以及与所述至少一个参考令牌记录相关的至少一个参考位图;
比较所述客户位图和所述参考位图;
基于所述客户位图和所述参考位图的比较结果,从所述客户令牌记录中确定至少一个缺失的数据属性;以及
从所述参考令牌记录中确定与来自所述客户令牌记录的所述至少一个缺失的数据属性相对应的至少一个当前数据属性。
2.根据权利要求1所述的系统,还包括:将消息传送到所述客户源,其中,所述消息包括对所述至少一个缺失的数据属性经由参考令牌记录而存在的表示。
3.根据权利要求2所述的系统,其中,所述消息还包括与从所述参考源获得所述至少一个当前数据属性相关的至少一个价格。
4.根据权利要求1所述的系统,其中,所述参考源是整合参考源,其中,所述整合参考源包括多个参考源。
5.根据权利要求1所述的系统,还被配置为将至少一个数据质量(DQ)分数分配给客户数据记录中的每个数据属性。
6.根据权利要求5所述的系统,其中,所述客户令牌记录通过将所述客户数据记录中的每个数据属性令牌化来生成。
7.根据权利要求1所述的系统,其中,所述参考源是以下中的至少一个:可信命名组织,政府实体,信用局,和银行。
8.根据权利要求6所述的系统,还被配置为生成所述客户令牌记录中的缺失的令牌的排名,其中,所述排名基于与每个令牌化的数据属性相关的所述至少一个DQ分数。
9.根据权利要求1所述的系统,其中,所述客户令牌记录是复合客户令牌记录,其中,所述复合客户令牌记录包括至少两个非复合客户令牌记录。
10.根据权利要求1所述的系统,还被配置为从所述客户源接收对所述客户源期望从所述参考源获得所述至少一个当前数据属性的表示。
11.一种用于经由数据市场来扩充数据的方法,包括:
从客户源接收至少一个客户令牌记录;
从参考源接收至少一个参考令牌记录;
比较所述客户令牌记录和所述参考令牌记录;
基于所述客户令牌记录和所述参考令牌记录的比较结果,从所述客户令牌记录中确定至少一个缺失的数据属性;
从所述参考令牌记录中确定与来自所述客户令牌记录的所述至少一个缺失的数据属性相对应的至少一个当前数据属性;
将表示来自所述参考令牌记录的所述至少一个当前数据属性的存在的至少一个消息传送到所述客户源;以及
从所述客户源接收至少一个表示,其中,所述至少一个表示表示从所述参考源购买所述至少一个当前数据属性的期望。
12.根据权利要求11所述的方法,其中,所述客户令牌记录和所述参考令牌记录采用以下算法中的至少一种进行屏蔽:散列消息认证码(HMAC)协议,SHA2512/256令牌,三重DES,双鱼,河豚,高级加密标准(AES),IDEA加密算法,MD5,和RSA。
13.根据权利要求12所述的方法,其中,采用相同的加密算法加密所述客户令牌记录和所述参考令牌记录。
14.根据权利要求11所述的方法,其中,所述参考源是包括多个参考源的整合参考源。
15.根据权利要求14所述的方法,其中,所述参考源是以下中的至少一个:可信命名组织,政府实体,信用局,和银行。
16.根据权利要求11所述的方法,还包括:
生成与客户数据记录的至少一个数据属性相关的至少一个数据质量(DQ)分数;
将所述至少一个数据属性令牌化;以及
生成所述客户令牌记录。
17.根据权利要求16所述的方法,还包括:生成所述客户令牌记录中的缺失的令牌的排名,其中,所述排名基于与每个令牌化的数据属性相关的所述至少一个DQ分数。
18.根据权利要求11所述的方法,其中,所述客户令牌记录是经由传递匹配生成的复合客户令牌记录。
19.根据权利要求11所述的方法,其中,所述至少一个消息包括用于从所述参考源获得所述至少一个当前数据属性的价格。
20.一种计算机可读介质,其存储有非暂时性计算机可执行指令,所述非暂时性计算机可执行指令在被执行时使计算系统执行用于扩充数据的方法,所述方法包括:
从客户源接收至少一个客户令牌记录以及与所述至少一个令牌记录相关的至少一个客户位图;
从参考源接收至少一个参考令牌记录以及与所述至少一个参考令牌记录相关的至少一个参考位图;
比较所述客户位图和所述参考位图;
基于所述客户位图和所述参考位图的比较结果,从所述客户令牌记录中确定至少一个缺失的数据属性;其中,所述至少一个缺失的令牌由所述客户位图中的0位指定,并且其中,所述至少一个缺少的数据属性是增值的数据属性;以及
从所述参考令牌记录中确定与来自所述客户令牌记录的所述至少一个缺失的数据属性相对应的至少一个当前数据属性,其中,所述至少一个当前数据属性由所述参考令牌记录中的1位指定。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/219,340 | 2021-03-31 | ||
US17/219,340 US20220318418A1 (en) | 2021-03-31 | 2021-03-31 | Systems and methods for an on-demand, secure, and predictive value-added data marketplace |
PCT/EP2022/057331 WO2022207391A1 (en) | 2021-03-31 | 2022-03-21 | Systems and methods for an on-demand, secure, and predictive value-added data marketplace |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117396860A true CN117396860A (zh) | 2024-01-12 |
Family
ID=81344427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280038977.5A Pending CN117396860A (zh) | 2021-03-31 | 2022-03-21 | 用于按需、安全、且前瞻性的增值数据市场的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220318418A1 (zh) |
EP (1) | EP4315095A1 (zh) |
CN (1) | CN117396860A (zh) |
WO (1) | WO2022207391A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1217541A1 (en) * | 2000-11-29 | 2002-06-26 | Lafayette Software Inc. | Method of processing queries in a database system, and database system and software product for implementing such method |
US20020073099A1 (en) * | 2000-12-08 | 2002-06-13 | Gilbert Eric S. | De-identification and linkage of data records |
AU2012211167B2 (en) * | 2011-01-28 | 2014-08-21 | Ab Initio Technology Llc | Generating data pattern information |
US10210246B2 (en) * | 2014-09-26 | 2019-02-19 | Oracle International Corporation | Techniques for similarity analysis and data enrichment using knowledge sources |
US20180330428A1 (en) * | 2016-06-30 | 2018-11-15 | Guardian Life Insurance Company Of America | Enterprise data marketplace system and method |
EP3873023A1 (en) * | 2020-02-25 | 2021-09-01 | Thales Dis France Sa | Method for testing if a data element belongs to a list of reference data elements |
US10929441B1 (en) * | 2020-02-28 | 2021-02-23 | Capital One Services, Llc | System and techniques for data record merging |
-
2021
- 2021-03-31 US US17/219,340 patent/US20220318418A1/en active Pending
-
2022
- 2022-03-21 EP EP22717533.8A patent/EP4315095A1/en active Pending
- 2022-03-21 CN CN202280038977.5A patent/CN117396860A/zh active Pending
- 2022-03-21 WO PCT/EP2022/057331 patent/WO2022207391A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20220318418A1 (en) | 2022-10-06 |
EP4315095A1 (en) | 2024-02-07 |
WO2022207391A1 (en) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10564936B2 (en) | Data processing systems for identity validation of data subject access requests and related methods | |
US20190207751A1 (en) | Blockchain enterprise data management | |
US11004548B1 (en) | System for providing de-identified mortality indicators in healthcare data | |
US20220019901A1 (en) | Managing distributed ledger storage space | |
US11170130B1 (en) | Apparatus, systems and methods for storing user profile data on a distributed database for anonymous verification | |
US20230325351A1 (en) | Systems and methods for performant data matching | |
US20210377274A1 (en) | Distributed ledger data verification network | |
US11886414B2 (en) | One-way hashing methodology for database records | |
US20230298018A1 (en) | Extensible electronic payment schema | |
US8249945B2 (en) | Method and system of enabling electronic communication without knowledge of receiving party's electronic contact information | |
US11496316B1 (en) | System and method for identity verification for online dating | |
US11748515B2 (en) | System and method for secure linking of anonymized data | |
CN117396860A (zh) | 用于按需、安全、且前瞻性的增值数据市场的系统和方法 | |
US11645650B1 (en) | Systems and methods for blockchain-based transaction break prevention | |
US20220164873A1 (en) | Systems and methods for data enrichment | |
US11675754B2 (en) | Systems and methods for universal reference source creation and accurate secure matching | |
CN116567008A (zh) | 业务隐私数据传输方法、装置、计算机设备及存储介质 | |
US10942916B2 (en) | Fraud prevention via database referencing | |
US20210409204A1 (en) | Encryption of protected data for transmission over a web interface | |
US20210409381A1 (en) | Data transmission with encryption of protected data | |
CN116523612A (zh) | 一种测评信息共享方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |