CN102521226B - 比较并选择数据净化服务提供者 - Google Patents

比较并选择数据净化服务提供者 Download PDF

Info

Publication number
CN102521226B
CN102521226B CN201110307767.5A CN201110307767A CN102521226B CN 102521226 B CN102521226 B CN 102521226B CN 201110307767 A CN201110307767 A CN 201110307767A CN 102521226 B CN102521226 B CN 102521226B
Authority
CN
China
Prior art keywords
data
isp
action
reference data
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110307767.5A
Other languages
English (en)
Other versions
CN102521226A (zh
Inventor
N·哈比
E·齐克利克
E·胡迪斯
G·皮莱格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102521226A publication Critical patent/CN102521226A/zh
Application granted granted Critical
Publication of CN102521226B publication Critical patent/CN102521226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了比较并选择数据净化服务提供者。本发明涉及用于探查并选择数据净化服务提供者的方法、系统和计算机程序产品。本发明的实施例允许用户探查不同的数据净化服务提供者,并比较来自不同的数据净化服务提供者的质量结果。样本数据被映射到指定数据域。向用户提供用于为所选数据域净化数据的服务提供者列表。用户选择服务提供者子集。样本数据被提交给服务提供者子集,该服务提供者子集返回包括所谓已净化了的数据的结果。剖析结果,并将服务提供者子集的比较呈现给用户。当净化进一步的数据时,用户选择一个服务提供者来使用。

Description

比较并选择数据净化服务提供者
相关申请的交叉引用
不适用。
技术领域
本发明涉及数据净化,尤其涉及比较并选择数据净化服务提供者。
背景技术
1.背景和相关技术
计算机系统和相关技术影响社会的许多方面。的确,计算机系统处理信息的能力已转变了人们生活和工作的方式。计算机系统现在通常执行在计算机系统出现以前手动执行的许多任务(例如,文字处理、日程安排和会计等)。最近,计算机系统彼此耦合并耦合到其他电子设备,以形成计算机系统和其他电子设备可以在其上传输电子数据的有线和无线计算机网络。因此,许多计算任务的执行跨多个不同的计算机系统和/或多个不同的计算环境分布。
在一些计算环境中,各种不同类型的数据被存储在数据库中并从数据库中访问。一些数据库存储指定类型的数据,诸如,例如,客户地址、员工信息等。通常,数据是手动输入数据库的。手动数据输入易造成人为错误。此外,许多错误一旦输入就变得实际上无法检测到,因为一旦数据被输入,与数据的进一步人为交互如果有也很少。此外,一些错误,诸如,电话号码中多余数字,难以被标识。其他数据不一致性可能由不同存储中的相似条目的不同数据字典定义、或由传输和/或存储错误所导致。因此,数据库可能随时间积累了各种数据错误和不一致性。
管理地,不正确或不一致数据可导致在公共和私人范围上的错误的结论和方向错误的投资。例如,政府可能希望分析人口普查图来决定哪些区域需要在基础设施和服务上进一步花费和投资。在此情况中,访问可靠数据避免错误的财政决定将是重要的。
在商业世界,不正确的数据可能是代价昂贵的。许多公司使用客户信息数据库,其中记录了诸如联系信息、地址,和偏好的数据。如果例如,地址不一致,公司将付出重发邮件甚至丢失客户的代价。
因此,有时,数据库管理者可“净化”或“擦洗”数据。数据净化或数据擦洗包括,从记录集、表,或数据库检测和纠正(或移除)破坏的或不准确的记录。常常被用于数据库,数据净化或擦洗可标识不完整的、不正确的、不准确的、不相关的等数据部分,并随后替换、修改,或删除这些“脏”数据。在净化之后,数据集与其他类似数据集一致(至少更一致)。
数据净化的实际过程可涉及移除打字错误或相对于已知条目列表确认并纠正值。确认可能是严格的(诸如拒绝不具有有效邮政编码的任何地址)或模糊的(诸如纠正与现存已知的记录部分地匹配的记录)。
已知条目的列表可由配置用于净化指定类型数据的数据净化服务提供者提供。例如,数据净化服务可被配置为净化美国的邮政地址或电话号码。对于一些类型的数据,可存在多个(潜在大量)不同数据净化服务提供者。然而,来自不同数据净化服务提供者的结果的充分性可能显著变化。评估多个不同数据净化服务提供者以标识对于指定类型数据的“最佳”数据净化服务可能是手动的且劳动密集的过程。
发明内容
本发明涉及用于比较并选择数据净化服务提供者的方法、系统和计算机程序产品。在一些实施例中,标识用于净化的参考数据服务提供者。样本数据源被映射到所选数据域。数据域与具有指定数据安排的数据元素相关联。样本数据源具有已知的数据不一致性。
多个参考数据服务提供者的列表配置用于净化在所选数据域中的数据的数据元素。接收要对被探查的多个参考数据服务提供者的子集的选择。样本数据源被提交给参考数据服务提供者的子集中的每个参考数据服务提供者。从参考数据服务提供者的子集中的每个参考数据服务提供者接收回净化样本数据源的结果。对于每个参考数据服务提供者,该结果包括从样本数据源获取的所谓已净化了的样本数据源。
来自多个参考数据服务提供者的子集中的每个参考数据服务提供者的结果被剖析。剖析包括确定每个参考数据服务提供者如何处理样本数据源中的已知数据不一致性。在显示设备上显示多个参考数据服务提供者的子集间的比较。所显示的比较基于所剖析的结果。从所显示的比较接收对参考数据服务提供者的用户选择。将所选参考数据服务提供者指示为适合净化数据域中的进一步的数据。
提供本发明内容以便以简化的形式介绍将在以下的具体实施方式中进一步描述的一些发明内容。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明的附加特征和优点将在以下描述中叙述,且其一部分根据本描述将是显而易见的,或可通过对本发明的实践来获知。本发明的特征和优点可通过在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的这些和其他特征将通过以下描述和所附权利要求书变得更加显而易见,或可通过对下文中所述的本发明的实践来领会。
附图说明
为了描述可获得本发明的上述和其他优点和特征的方式,将通过参考附图中示出的本发明的具体实施例来呈现以上简要描述的本发明的更具体描述。可以理解,这些附图仅描述本发明的典型实施例,从而不被认为是对其范围的限制,本发明将通过使用附图用附加特征和细节来描述和说明,在附图中:
图1示出了便于比较和选择数据净化服务提供者的示例计算机体系结构。
图2示出了用于标识用于净化数据的数据净化服务提供者的示例方法的流程图。
具体实施方式
本发明涉及用于比较并选择数据净化服务提供者的方法、系统和计算机程序产品。在一些实施例中,标识用于净化的参考数据服务提供者。样本数据源被映射到所选数据域。数据域与具有指定数据安排的数据元素相关联。样本数据源具有已知的数据不一致性。
多个参考数据服务提供者的列表配置用于净化在所选数据域中的数据的数据元素。接收对要被探查的多个参考数据服务提供者的子集的选择。样本数据源被提交给参考数据服务提供者的子集中的每个参考数据服务提供者。从参考数据服务提供者的子集中的每个参考数据服务提供者接收回净化样本数据源的结果。对于每个参考数据服务提供者,该结果包括从样本数据源获取的所谓已净化了的样本数据源。
来自多个参考数据服务提供者的子集中的每个参考数据服务提供者的结果被剖析。剖析包括确定每个参考数据服务提供者如何处理样本数据源中的已知数据不一致性。在显示设备上显示多个参考数据服务提供者的子集间的比较。所显示的比较基于所剖析的结果。从所显示的比较接收对参考数据服务提供者的用户选择。将所选参考数据服务提供者指示为适合净化数据域中的进一步的数据。
本发明的各实施例可包括或利用专用或通用计算机,该专用或通用计算机包括诸如例如一个或多个处理器和系统存储器等计算机硬件,如以下更详细讨论的。本发明范围内的各实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这些计算机可读介质可以是通用或专用计算机系统能够访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。由此,作为示例而非限制,本发明的各实施例可包括至少两种完全不同类型的计算机可读介质:计算机存储介质(设备)和传输介质。
计算机存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置的且可由通用或专用计算机访问的任何其他介质。
“网络”被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链接。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链接。上述的组合也应被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(设备)(或反之亦然)。例如,通过网络或数据链接接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如,“NIC”)内的RAM中,然后最终被传输到计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质(设备)。因而,应当理解,计算机存储介质(设备)可被包括在还利用(甚至主要利用)传输介质的计算机系统组件中。
计算机可执行指令例如包括,当在处理器处执行时使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链接、无线数据链接,或者通过硬连线和无线数据链接的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备中。
图1示出了便于比较和选择数据净化服务提供者的示例计算机体系结构100。参考图1,计算机体系结构100包括计算机系统102和数据质量服务器103。数据质量服务器103还包括域映射器104、服务提供者选择模块106、服务提供者查询模块107,以及结果剖析器108。所描绘的计算机系统和组件中的每一个可通过诸如例如局域网(“LAN”)、广域网(“WAN”)或甚至因特网等网络(或作为网络的一部分)彼此连接。因此,所描绘的计算机系统及组件中的每一个以及任何其他连接的计算机系统及它们的组件都可以创建消息相关数据并通过网络交换消息相关数据(例如,网际协议(“IP”)数据报和利用IP数据报的其他更高层协议,诸如传输控制协议(“TCP”)、超文本传输协议(“HTTP”)、简单邮件传输协议(“SMTP”)等)。
如所描绘的,源数据121可被大约存储在某些类型的数据储存库中,诸如,例如,文件、表格、数据库等。源数据121可以是指定类型的数据,诸如例如,客户数据、员工数据、邮寄地址数据、电话号码数据、数学计算、统计数据、公司数据、财务数据、经济数据、地理数据等。
通常,数据质量服务器103帮助用户102探查不同参考数据服务提供者并比较数据质量结果。样本数据可被净化并针对不同参考服务提供者剖析,以提高质量。
域映射器104配置以接收样本数据源并将样本数据源映射到数据域。域映射器104具有对定义各种不同数据域(诸如,例如数据域112A、112B、112C等)的数据的访问。每个数据域可以对应于一种类型的数据,诸如例如,客户数据、员工数据、邮寄地址数据、电话号码数据、数学计算、统计数据、公司数据、财务数据、经济数据、地理数据等。数据域也可以是对特定国家、区域、主题,或分类专用的。例如,美国邮寄地址的数据域可不同于英国邮寄地址的数据域。
在接收样本数据源后,域映射器104可将所接收到的样本数据源中数据元素的安排和/或格式与定义每个不同数据域的数据进行比较。在数据元素的安排和/或格式类似(或匹配)于定义特定数据域的数据时,可为样本数据源选择该数据域。
服务提供者选择模块106配置用于接收数据域的指示,并标识为该数据域净化数据的数据净化服务提供者的列表。服务提供者选择模块106可参考服务提供者数据库113。服务提供者数据库113可为不同数据域维护数据净化服务提供者的列表。服务提供者选择模块106可将数据域与服务提供者数据库113中为该数据域净化数据的多个数据净化服务提供者进行匹配。服务提供者选择模块106可向计算机系统102返回多个数据净化(例如,在显示设备上)供用户102查看。
服务提供者查询模块107配置用于接收对一个或多个数据净化服务提供者的用户选择。响应于用户选择,服务提供者查询模块107将样本数据源提交给一个或多个数据净化服务提供者的每一个。
来自一个或多个数据净化服务提供者的每一个的净化结果被返回到结果剖析器108。结果剖析器108剖析净化结果。剖析可包括确定每个数据净化服务提供者如何解决样本数据源中的已知数据不一致性。结果剖析器108可生成服务提供者比较,以(例如,在显示设备上)呈现给用户。
图2示出了用于标识用于净化数据的数据净化服务提供者的示例方法200的流程图。方法200将参考计算机体系结构100的组件和数据来描述。
用户101是计算机系统102的用户。用户101渴望寻找服务提供者以净化源数据121。因此,计算机102(按用户101的指令)可将数据样本111提交给数据质量服务器103。数据样本111可以是源数据121的有代表性的部分或类似地格式化了的其他数据。样本数据111可包括已知数据不一致性(例如,不完整数据、不正确数据、不准确数据、不相关数据等)。
方法200包括将样本数据源映射到所选数据域的动作,该数据域与具有指定的数据安排的数据元素相关联,样本数据源具有已知的数据不一致性(动作201)。例如,域映射器104可接收数据样本111。域映射器104基于数据样本111中的数据元素的安排和内容,可为数据样本111标识合适的(例如,最接近地匹配的)数据域。例如,域映射器104可将数据样本111映射到数据域112B。
方法200包括提供配置用于净化所选数据域中的数据的多个参考数据服务提供者的列表的动作(动作202)。例如,域映射器104可将数据域112B发送到服务提供者选择模块106。服务提供者选择模块106可参考服务提供者数据库113,来获取配置用于为数据域112B净化数据的多个数据净化服务提供者的列表。服务提供者选择模块106可将该多个数据净化服务提供者的列表包括在服务提供者列表114中。服务提供者选择模块106可将服务提供者列表114发送到计算机系统102。
计算机系统102可接收服务提供者列表114。计算机系统102可将服务提供者列表114在显示设备上显示给用户102。使用输入装置,用户101可选择一个或多个(可能全部)包括在服务提供者列表114中的数据净化服务提供者,用于基于数据样本111的探查。例如,用户102可从服务提供者列表114中选择服务提供者109A、109B,和109C。计算机102(按用户101的指导)可将服务提供者选择发送回数据质量服务器103。例如,计算机102可将服务提供者选择116发送到数据质量服务器103。服务提供者选择116可标识服务提供者109A、109B,和109C用于探查。
方法200包括接收对要被探查的多个参考数据服务提供者的子集的选择的动作(动作203)。例如,服务提供者查询模块107可接收服务提供者选择116。
对于多个参考数据服务提供者的子集中的每个参考数据服务提供者,方法200包括将样本数据源提交给参考数据服务提供者的动作(动作204)。例如,服务提供者查询模块可将数据样本111提交给服务提供者109A、109B,和109C的每一个。
对于多个参考数据服务提供者的子集中的每个参考数据服务提供者,方法200包括从参考数据服务提供者接收回净化样本数据源的结果的动作,该结果包括从样本数据源获取的所谓已净化的样本数据源(动作205)。例如,结果剖析器108可从服务提供者109A、109B,和109C分别接收净化结果117A、117B,和117C。每个净化结果117A、117B,和117C可包括从数据样本111获取的所谓已净化了的数据样本。
方法200包括剖析来自多个参考数据服务提供者的子集中的每个参考数据服务提供者的结果的动作,包括确定每个参考数据服务提供者如何处理样本数据源中的已知数据不一致性(动作206)。例如,结果剖析器108可剖析净化结果117A、117B,和117C的每一个。从结果117A、117B,和117C,结果剖析器108可确定服务提供者109A、109B,和109C的每一个如何分别处理数据样本111中的已知数据不一致性。
剖析净化结果可包括以下各项中的一个或多个:标识净化结果中的假否定(未解决的不一致性),标识净化结果中的假肯定(对一致数据的改变),并确定是否包括补充的丰富数据(例如地理编码数据)。
从已剖析的结果,结果剖析器108可为每个数据净化服务提供者生成服务质量值。例如,结果剖析器108可从剖析的结果117A、117B,和117C为每个服务提供者109A、109B,和109C分别生成服务质量值。服务质量值提供服务提供者净化数据样本111有多好的总体评级。
结果剖析器108可在服务提供者比较118中包括每个服务提供者109A、109B,和109C的服务质量值和可能的其他剖析数据。结果剖析器108可将服务提供者比较118发送到计算机系统102。
方法200包括将多个参考数据服务提供者的子集间的比较显示在显示设备上的动作,所显示的比较基于剖析结果(动作207)。例如,计算机系统102可将服务提供者比较118在显示设备上显示给用户101。
方法200包括从所显示的比较接收用户对参考数据服务提供者的选择的动作,所选参考数据服务提供者被指示为适合净化数据域中的进一步的数据(动作208)。例如,计算机系统102可以从用户102接收服务提供者选择119。服务提供者选择119可指示服务提供者109C被选来净化源数据121。
响应于服务提供者选择119或在某些其他时间,计算机系统102可将源数据121提交给服务提供者109C。服务提供者109C可净化源数据121以生成已净化数据122。服务提供者109C可返回已净化数据122。已净化数据123可被合并回源数据121中。
因此,本发明的实施例允许用户探查不同的数据净化服务提供者,并以提高了的自动化来比较来自不同的数据净化服务提供者的质量结果。本发明可具体化为其它具体形式而不背离其精神或本质特征。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变被权利要求书的范围所涵盖。

Claims (8)

1.一种用于标识用于净化数据的参考数据服务提供者的方法,所述方法包括:
将样本数据源(111)映射到所选数据域(112B)的动作,所述数据域(112B)与具有指定的数据安排的数据元素相关联,所述样本数据源具有已知的数据不一致性;
提供配置用于净化所述所选数据域(112B)中的数据的多个参考数据服务提供者的列表(114)的动作;
接收对要被探查的多个参考数据服务提供者(109A,109B,109C)的子集的选择(116)的动作;
对于所述多个参考数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者:
将所述样本数据源(111)提交给参考数据服务提供者(109A,109B,109C)的动作;以及
从所述参考数据服务提供者(109A,109B,109C)接收回净化所述样本数据(111)源的结果(117A,117B,117C)的动作,所述结果(117A,117B,117C)包括从所述样本数据源获取所谓已净化了的样本数据源;
剖析(117A,117B,117C)来自所述多个参考数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者的结果的动作,包括:确定来自所述每个参考数据服务提供者的假否定的数量的动作,确定来自所述每个参考数据服务提供者的假肯定的数量的动作,以及确定所述参考数据服务提供者的任何一个是否用其他数据丰富了所述结果的动作,其中所述假否定表示未解决的不一致性,所述假肯定表示对一致数据的改变;
将所述多个参考数据服务提供者的所述子集间的比较(118)显示在显示设备上的动作,所显示的比较(118)基于剖析结果;以及
从所显示的比较接收对参考数据服务提供者的用户选择(119)的动作,所选参考数据服务提供者被指示为适合净化所述数据域中的进一步的数据。
2.如权利要求1所述的方法,其特征在于,将样本数据源映射到所选数据域的动作包括映射到从以下选出的数据域的动作:客户数据、员工数据、邮寄地址数据、电话号码数据、统计数据、公司数据、财务数据、经济数据,和地理数据。
3.如权利要求1所述的方法,其特征在于,将样本数据源映射到所选数据域的动作包括映射到对特定国家、区域、主题,或分类专用的数据域的动作。
4.如权利要求1所述的方法,其特征在于,提供配置用于净化所述所选数据域中的数据的多个参考数据服务提供者的列表的动作,包括提供配置用于净化从以下选出的所选数据域中的数据的多个参考数据服务提供者的列表的动作:客户数据、员工数据、邮寄地址数据、电话号码数据、统计数据、公司数据、财务数据、经济数据,和地理数据。
5.一种用于标识用于净化数据的参考数据服务提供者的系统,所述系统包括:
用于将样本数据源(111)映射到所选数据域(112B)的装置,所述数据域(112B)与具有指定的数据安排的数据元素相关联,所述样本数据源具有已知的数据不一致性;
用于提供配置用于净化所述所选数据域(112B)中的数据的多个参考数据服务提供者的列表(114)的装置;
用于接收对要被探查的多个参考数据服务提供者(109A,109B,109C)的子集的选择(116)的装置;
用于对于所述多个参考数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者执行以下的装置:
将所述样本数据源(111)提交给所述参考数据服务提供者(109A,109B,109C);以及
从所述参考数据服务提供者(109A,109B,109C)接收回净化所述样本数据(111)源的结果(117A,117B,117C),所述结果(117A,117B,117C)包括从所述样本数据源获取所谓已净化了的样本数据源;
用于剖析(117A,117B,117C)来自所述多个参考数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者的结果的装置,包括:用于确定来自所述每个参考数据服务提供者的假否定的数量的装置,用于确定来自所述每个参考数据服务提供者的假肯定的数量的装置,以及用于确定所述参考数据服务提供者的任何一个是否用其他数据丰富了所述结果的装置,其中所述假否定表示未解决的不一致性,所述假肯定表示对一致数据的改变;
用于将所述多个参考数据服务提供者的所述子集间的比较(118)显示在显示设备上的装置,所显示的比较(118)基于剖析结果;以及
用于从所显示的比较接收对参考数据服务提供者的用户选择(119)的装置,所选参考数据服务提供者被指示为适合净化所述数据域中的进一步的数据。
6.如权利要求5所述的系统,其特征在于,用于将样本数据源映射到所选数据域的装置包括,用于映射到选自以下的数据域的装置:客户数据、员工数据、邮寄地址数据、电话号码数据、统计数据、公司数据、财务数据、经济数据,和地理数据。
7.如权利要求5所述的系统,其特征在于,用于将样本数据源映射到所选数据域的装置包括,用于映射到对特定国家、区域、主题,或分类专用的数据域的装置。
8.如权利要求5所述的系统,其特征在于,用于提供配置用于净化所述所选数据域中的数据的多个参考数据服务提供者的列表的装置包括,用于提供配置用于净化所选数据域中的数据的多个参考数据服务提供者的列表的装置,所述数据域选自以下:客户数据、员工数据、邮寄地址数据、电话号码数据、统计数据、公司数据、财务数据、经济数据,和地理数据。
CN201110307767.5A 2010-09-29 2011-09-28 比较并选择数据净化服务提供者 Active CN102521226B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/893,791 2010-09-29
US12/893,791 US8510276B2 (en) 2010-09-29 2010-09-29 Comparing and selecting data cleansing service providers

Publications (2)

Publication Number Publication Date
CN102521226A CN102521226A (zh) 2012-06-27
CN102521226B true CN102521226B (zh) 2014-07-16

Family

ID=45871666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110307767.5A Active CN102521226B (zh) 2010-09-29 2011-09-28 比较并选择数据净化服务提供者

Country Status (3)

Country Link
US (2) US8510276B2 (zh)
CN (1) CN102521226B (zh)
HK (1) HK1170580A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176827B2 (en) * 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
CN103577240B (zh) * 2012-07-25 2018-12-11 腾讯科技(深圳)有限公司 系统自动清理方法、装置及存储介质
US9582555B2 (en) * 2012-09-06 2017-02-28 Sap Se Data enrichment using business compendium
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US9106536B2 (en) * 2013-04-15 2015-08-11 International Business Machines Corporation Identification and classification of web traffic inside encrypted network tunnels
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US9823811B2 (en) 2013-12-31 2017-11-21 Next It Corporation Virtual assistant team identification
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
US10726034B2 (en) * 2016-03-30 2020-07-28 Microsoft Technology Licensing, Llc Modular electronic data analysis computing system
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1695142A (zh) * 2002-09-03 2005-11-09 Sap股份公司 中央主数据管理
CN1987860A (zh) * 2005-12-22 2007-06-27 国际商业机器公司 表示数据的连续集的方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167405A (en) * 1998-04-27 2000-12-26 Bull Hn Information Systems Inc. Method and apparatus for automatically populating a data warehouse system
US7284021B2 (en) * 2004-06-28 2007-10-16 Microsoft Corporation Determining when a low fidelity property value has changed during a SYNC
US20060247944A1 (en) * 2005-01-14 2006-11-02 Calusinski Edward P Jr Enabling value enhancement of reference data by employing scalable cleansing and evolutionarily tracked source data tags
US20060235715A1 (en) * 2005-01-14 2006-10-19 Abrams Carl E Sharable multi-tenant reference data utility and methods of operation of same
US8224830B2 (en) 2005-03-19 2012-07-17 Activeprime, Inc. Systems and methods for manipulation of inexact semi-structured data
US20070198312A1 (en) 2006-02-21 2007-08-23 Sugato Bagchi Data quality management using business process modeling
US8219523B2 (en) * 2007-03-23 2012-07-10 Sap Ag Data quality enrichment integration and evaluation system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1695142A (zh) * 2002-09-03 2005-11-09 Sap股份公司 中央主数据管理
CN1987860A (zh) * 2005-12-22 2007-06-27 国际商业机器公司 表示数据的连续集的方法和装置

Also Published As

Publication number Publication date
US20130332427A1 (en) 2013-12-12
US8510276B2 (en) 2013-08-13
US8996479B2 (en) 2015-03-31
HK1170580A1 (zh) 2013-03-01
CN102521226A (zh) 2012-06-27
US20120078857A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
CN102521226B (zh) 比较并选择数据净化服务提供者
CN111949834B (zh) 选址方法和选址平台系统
US9129326B2 (en) System and method for service provider search
US11570214B2 (en) Crowdsourced innovation laboratory and process implementation system
US7885942B2 (en) Traffic production index and related metrics for analysis of a network of related web sites
US20210112101A1 (en) Data set and algorithm validation, bias characterization, and valuation
CN104714931A (zh) 用于选择用以代表表格式信息的方法和系统
CN1983210A (zh) 软件跟踪能力管理方法和装置
CN107491537A (zh) Poi数据挖掘、信息检索方法、装置、设备及介质
US7293003B2 (en) System and method for ranking objects by likelihood of possessing a property
CN112328802A (zh) 数据处理方法、装置和服务器
Hunter et al. Understanding spatial data usability
CN107295086A (zh) 集群会话防丢失方法及系统
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN111126071A (zh) 提问文本数据的确定方法、装置和客服群的数据处理方法
CN112131248A (zh) 一种数据分析方法、装置、设备及存储介质
US8250024B2 (en) Search relevance in business intelligence systems through networked ranking
Veglis Interactive Data Visualization
CN110543457A (zh) 轨迹类文档处理方法和装置、存储介质及电子装置
Ho et al. Artificial Intelligence, T-Shaped Teams, and Risk Management Post COVID-19 and Beyond
CN111400373B (zh) 一种在联盟链中实现区块信息可视化的方法和装置
Muhammad et al. Visualizing web server logs insights with elastic stack–a case study of ummail’s access logs
CN111800409A (zh) 接口攻击检测方法及装置
Yang et al. Applying MMD Data Mining to Match Network Traffic for Stepping-Stone Intrusion Detection
JP2002328893A (ja) ネットワークセキュリティに関する被害評価システムおよびその方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1170580

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1170580

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150423

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150423

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.