CN104769585A

CN104769585A - 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法

Info

Publication number: CN104769585A
Application number: CN201380052519.8A
Authority: CN
Inventors: 安东尼·J·斯克里菲尼亚诺; 迈克尔·克莱内; 唐·Q·霍安; 温德拉·拉姆保罗; 罗宾·戴维斯; 安贾莉·雷迪
Original assignee: Dun and Bradstreet Inc
Current assignee: Dun and Bradstreet Corp; Dun and Bradstreet Inc
Priority date: 2012-10-09
Filing date: 2013-10-07
Publication date: 2015-07-08
Anticipated expiration: 2033-10-07
Also published as: AU2013329525C1; AU2013329525A1; TW201421395A; US9390176B2; US20140101124A1; AU2013329525B2; TWI556180B; WO2014058805A1; HK1211720A1; CN104769585B

Abstract

一种用于根据查询进行数据发现的系统和方法，其中对可以是网站或其他数据源的多个源进行检查，以找到与查询有关的数据。处理和方法使用来自多个源的数据和元数据以次数不定的迭代递归地执行以证实所发现的来自其他源的数据和元数据，直到没有另外的相关数据或源被发现为止或直到评判规则或例外规则被满足为止。使用优先级规则和出处对所发现的数据和元数据进行管理、评判以评估可靠性、进行合成以及聚类到复合记录中，以确定最可靠的数据源以及每个源的使用条款。关于每个搜索的数据、元数据和信息被保留，并且可以用于随后的目的，例如随后的搜索或其他下游活动。

Description

递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法

技术领域

本公开涉及创建使用一个或多个源来发现、识别、收集、管理(curate)、评判和鉴定(qualify)企业实体身份及相关数据的递归的和灵活的能力。

背景技术

这一部分描述的方法是可以实行的方法，但一定不是之前已想到或者已实行的方法。因此，除非另有说明，否则这一部分描述的方法对于本申请的权利要求而言不是现有技术，并且不会因为包含在这一部分中而承认是现有技术。

经由搜索、匹配以及其他解析功能的有效数据访问，对于发现和评判与企业和其他类型实体有关的身份和相关信息是非常重要的。对于该目标而言，关键是能够有效地访问、检索和关联来自一个或更多个数据源的信息的能力。此外，重要的是具有评估和鉴定该处理(通过该处理来访问这种数据)、源(从该源访问这种数据)以及该数据本身的能力。这包括对数据和源的分析，从该分析可以生成可操作反馈，然后使所述可操作反馈可用于确定：处理、数据、关于所发现的数据的元数据、从其发现数据的源、关于这些源的元数据以及来自整个处理的可操作反馈。

可在当前市场中获得发现产品和功能，其经由批处理能力或交互能力来获取关于实体或实体集团的查询，例如所述查询由用户通过下述不同的方法输入，例如(a)人通过键入或从其他源“搜罗”数据将数据输入到查询字段中，(b)机器生成查询值，或(c)系统直接与另一系统交互，然后针对包含查询属性或关于这些属性的推断信息的条目来询问网站或其他数据源。在其他情况下，在传统网络发现方式中，技术可以检索数据，该数据可以是自由形式或固定本体(或逻辑结构)。

目前的这些发现产品和功能通常受限于几个方面，包括：其中对查询数据进行分析和消歧以限定能够用于识别来自现有数据源的数据的属性的方式；访问这样的数据源的方式；使用来自所访问的源的数据以发起或支持后续的解析查询的方式；所提供的与访问数据的解析处理和特征有关的信息(例如，质量、完整性和延迟)；以及这样的信息可用作监管处理的一部分的方式，所述监管处理包括发现、鉴定、评判和管理，以及对使用条款和主要约束的遵从。

目前的这些发现产品和功能通常将数据直接提供给发出查询的最终用户和系统，而不会为了后续使用而存储与解析处理成功及其结果有关的信息。此外，目前的这些发现产品和功能通常不保持与所发现数据和数据源有关的元数据。此外，目前的这些发现产品和功能不通过递归学习处理将从一个搜索获得的数据和元数据用作另一个搜索的输入。

目前的这些发现产品和功能在以下方面能力有限：自动使用与每次体验的数据和数据源的真实性、出处、以及内容有关的经验学习，以便形成意见，该意见在未来会影响对这些源及其数据进行访问和使用的可能性，或者会改变这些源的操作性特征或性质方面。

发明内容

所公开的实施例包括一种处理，该处理递归地执行，以便利用一个查询的结果或目标属性的集合来从同一数据源以及从其他数据源发起随后的查询，使得发现的数据变成查询数据。

在所公开的实施例中，生成、管理、合成以及自动归类与每次体验的数据和数据源的真实性、出处以及内容有关的经验信息，以形成意见，该意见在未来会影响对这些源及其数据进行访问和使用的可能性。

在所公开的实施例中，生成关于每次体验的反馈，以使得终端用户(可以是人、计算机系统或其他接收者或下游处理)能够利用商业规则来驱动对处理和最终结果的使用和消费，从而在这些相同商业规则被应用于不同技术、产品或解决方案的情况下以一致且可重复的方式并且以可扩展的方式做出关于对信息的使用的决定。

在所公开的实施例中，处理可以在不受限于环境、地理位置、语言或书写系统的情况下执行。此结果可通过能够使用任何种类和数目的标准网络语言标签的语言无关功能来实现，并且不受限于于环境、地理位置、语言或书写系统所特有的编码和逻辑。

本文档公开了一种自动化系统和方法，所述自动化系统和方法用于执行不需要人干预的自动递归发现处理，以识别、鉴定、管理、评判以及合成数据例如企业身份或行为以及从多个源访问的相关元数据信息。

本公开涉及一种用于搜索与查询有关的数据的系统，包括：存储装置，该存储装置包含种子源的列表，该种子源的列表指定所述查询的初始搜索目标；搜索引擎，该搜索引擎基于从初始搜索目标和现有附加搜索目(prioraddition search target)标识别的数据和元数据来对初始搜索目标进行搜索以找到与查询有关的数据；存储装置，该存储装置存储来自初始搜索目标和附加搜索目标的数据和元数据；并且其中，搜索引擎对所述附加搜索目标进行搜索，以至少找到与查询有关的附加数据以及找到指定另外的附加搜索目标的数据和元数据。

搜索引擎搜索附加搜索目标并且发行了另外的搜索目标。指定该另外的搜索目标的数据和任何相关元数据被存储在存储装置中，以由搜索引擎在访问另外的目标时使用。对附加搜索目标进行搜索以及对另外的搜索目标进行发现，直到对附加搜索目标的搜索不再产生要搜索的另外的搜索目标为止或者直到满足了可接受的评判规则或例外规则为止。

另外的搜索目标通过递归和穷举处理被发现，由此基于来自现有搜索的结果和搜索目标的数据和元数据来识别搜索目标。

搜索引擎被配置成搜索网站或其他源，并且种子源的列表是网站或其他源的列表。

处理器被配置成对从每个搜索目标获得的数据进行净化。净化可以包括下述步骤中的至少一个步骤：解析数据，去除数据的错误值或不适当的值，以及从数据中去除预定标记。

处理器可以被配置成通过执行下述步骤来执行对给定数据的数据验证，所述步骤包括：对来自已搜索的搜索目标的给定数据进行比较，以及基于一组优先级规则和使用规则，将来自被认为是最可靠和可用的源的数据选择为有效。处理器还可以被配置成对来自不同搜索目标的相关数据进行管理、评判、合成和聚类，以形成聚类数据记录。处理器可以根据聚类数据记录来生成复合数据记录。

本公开还涉及一种用于搜索与查询有关的数据的方法，包括：检查在初始搜索目标的集合中发现的数据；在存储装置中存储来自初始搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及(b)指定要搜索的附加搜索目标的数据和元数据中的至少一个；对附加搜索目标进行搜索，以找到(a)与查询有关的数据和元数据中的至少一个，以及(c)指定要搜索的另外的搜索目标的数据和元数据中的至少一个；以及在存储装置中存储来自另外的搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及(c)指定另外的搜索目标的数据和元数据中的至少一个。

当附加搜索目标被搜索时，如果另外的目标被发现，则该方法还包括：使用(c)指定另外的搜索目标的数据和元数据中的至少一个来访问另外的目标；以及在存储装置中存储来自另外的搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及(d)指定要搜索的其他搜索目标的数据和元数据中的至少一个。

该方法在对另外的搜索目标的搜索不再产生要搜索的附加搜索目标时终止。

根据该方法，搜索引擎可以被配置成搜索网站或其他源。种子源的列表是网站或其他源的列表。

从搜索目标获得的数据可以被净化。可以通过如下步骤来执行对数据的净化，所述步骤包括：解析数据，去除数据的错误值，以及从数据去除预定标记。

可以通过执行下述步骤来执行数据验证，所述步骤包括：对来自已搜索的各个源的数据进行比较，以及基于一组优先级规则，将来自被认为是最可靠的源的数据选择为有效。

该方法还可以包括对来自不同源的相关数据进行管理、评判、合成和聚类，以形成聚类数据记录。可以根据聚合数据记录的集合生成复合多源数据记录。该方法还可以包括但并不以限制的方式包括例如执行从包括下述操作的组中选择的至少一个操作：将通过搜索与查询有关的数据而获得的结果写到数据库，将所述结果在数据库中存档，将所述结果生成报告，以及发布所述结果。

方法还可以包括应用分析方法，以关于所述数据做出确定，以及确定是关于继续执行该方法还是终止该方法，该分析方法是从包括规则、算法、启发式方法和其他分析功能的组中选择的至少一个。

本公开还涉及一种计算机可读非暂态存储介质，所述计算机可读非暂态存储介质存储计算机程序的指令，该计算机程序的指令在由计算机系统执行时执行下述步骤：检查在初始搜索目标的集合中发现的数据；在存储装置中存储来自初始搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及(b)指定要搜索的附加搜索目标的数据和元数据中的至少一个；对附加搜索目标进行搜索以找到：(a)与查询有关的数据和元数据中的至少一个，以及(c)指定要搜索的另外的搜索目标的数据和元数据中的至少一个；以及在存储装置中存储来自另外的搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及(c)指定该另外的搜索目标的数据。

计算机可读非暂态存储介质可以存储计算机程序的附加指令，所述算机程序的附加指令在由所述计算机系统执行时执行下述步骤：使用(c)指定另外的搜索目标的数据和元数据中的至少一个来访问另外的目标；以及在存储装置中存储来自该另外的搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及(d)指定要搜索的其他搜索目标的数据和元数据中的至少一个。

计算机可读非暂态存储介质能够存储计算机程序的附加指令，所述算机程序的附加指令在由计算机系统执行时，当附加搜索目标被搜索并且指定另外的搜索目标的数据被发现时，重复执行该方法直到对该另外的搜索目标的搜索不再产生要搜索的搜索目标为止，或直到满足了可接受的评判规则或者例外规则为止。

附图说明

图1是用于从源的最初集合搜索和收集数据的方法的框图。

图2是用于校验和合并记录的方法的框图。

图3是用于实现所公开的实施例的计算机系统的图示。

在每个图中，用相同的附图标记表示多个图公共的部件或特征。

具体实施方式

定义

递归定义了多步骤语言无关或多种语言发现处理，其中，前面的步骤的输出变成后面的步骤的输入，这意味着，端到端行为和结果在开始时不可预测，而是由发现的数据、执行过程和中间结果来确定。该活动可以包括使用从前一步骤检索的处于原状态的输入数据或可能因清理或其他数据变换而修改的输入数据。

解决方案定义了根据查询值识别数据的处理。查询可以使用不同的方法来解决，例如，相对于各种形式的参考，通过匹配、搜索或查找能力来解决。

发现是识别和鉴定根据查询从数据源检索的信息的处理。

灵活性表示：处理可以基于用法和与该处理如何被执行有关的信息或其他元数据自动地进行调整，并且可以容易地进行修改，以支持不同的目的。

非确定性意味着：灵活的方法是基于与数据、元数据和访问该数据和元数据的先前处理有关的信息来动态地定义，并且不能够用代数方法预先估计执行时间或结果。

例如，经验学习涉及出于一系列的原因对信息的使用，该信息是关于每次体验的数据、数据源以及与数据和数据源有关的元数据的真实性、出处以及内容，以便形成意见，该意见在未来会影响对这些源及其数据进行访问和使用的可能性。

反馈是与发现体验和处理有关以及与那个处理的结果有关的信息。该反馈可用于使终端用户(终端用户可以是人、计算机系统或其他接收者)能够利用商业规则来驱动对处理和最终结果的使用和消费，以做出决定。反映推测质量的反馈是可以由终端用户用来确定该结果满足终端用户的基于质量的标准的程度的数据。

替选标记是可以用作解析处理的一部分的数据或作为该处理的结果来检索的信息，该数据和信息与其主题的身份或其他方面有关。标记可以包括先前已知的数据或在发现处理的执行期间发现的数据，然后所述数据可以用于后面的推理(例如)以进行管理、评判和合成，以便实现未来的发现体验。

管理处理和评判处理定性地评估每个发现体验和结果，并且基于这些评估来确定后面的动作。根据所描述的实施例，该处理包括保留和评估在方法的执行期间访问的每个源的出处和真实性，以便提供在随后的执行中使用的与每个源的总共定性收益和可从该源访问的每种类型数据有关的信息。管理通常指对数据的整理、存储和维护。评判通常指确定出数据的质量以及可以如何最有效地使用数据。

术语模块在本文中用于表示可实现为独立组件或者多个从属组件中的集成配置的功能操作。因此，下面所述程序模块可被实现为单个模块、或者可被实现为彼此合作地操作的多个模块。

搜索引擎是解析功能的示例，并且通常是硬件与对硬件的操作进行控制的软件的组合，其目的在于发现和收集与查询的结果有关的数据或者作为查询的结果而发现的数据。

术语搜索在本文中用于表示对可能感兴趣的信息进行识别的任何方法。

在本公开中使用的具体术语应用意味着在方法的执行中以及在系统的实现中使用的处理和商业规则的不同集合被定义成满足本文中公开的具体目标。

可发布意味着由本发明执行的处理的最终结果可以用于随后的使用，例如，写入数据存储库，用作为对系统或应用的输入，或写入报告。

如本文中进一步描述的，数据存储装置可以是计算机技术中用于通常以非暂态的方式存储数据的任何装置。用于存储不同种类的数据的数据存储装置的不同部分可以在同一物理装置上或可以在不同的物理装置上。

图1和图2是描述示例性处理的功能框图，该示例性处理用于使用递归处理(包括访问已知网站和发现的网站)从万维网(也称为因特网)收集数据并将所述数据变换为可发布企业数据，并且重复该处理多次以使用先前已知的数据和通过该处理发现的数据来发现附加网站，以识别、鉴定、评判、管理、合成数据以及将数据保存在一个或更多个数据库中(该数据以一定的方式文档化以使得能够生成数据报告，使用其他视觉介质或介质来访问或显示)，或者以便于将发现的数据集成在软件应用内用于后面的使用。所公开的实施例是包括搜索引擎的部件以及关联的处理的装置，所述关联的处理用于处理企业实体数据，但是也可以用于其他类型的数据例如媒体数据。数据库可以包括用于新实体以及先前在数据库中的实体的修改二者的数据，这是所公开的实施例的一部分。

在图1中，处理100的一部分(主要是处理的数据发现部分)从通过Web站点地址或统一资源定位符(URL，uniform resource locator)标识的源的最初有限集合(包括要使用的预定义列表中的源以及在处理100的执行期间识别的其他源)搜索和发现数据。在本实施例中，当所有的最初网络地址被搜索到时，处理100将检查其他新发现的网络地址的存在，但是网络地址被搜索的顺序在不同的实施例中可以不同。该发现处理对所公开的实施例的非确定性方法相当重要，因为该处理将继续访问新的网站并收集数据，直到基于预定的标准没有所关注的其他信息可被发现或可被收集为止。对于所发现的网络地址的每个新集合，处理100利用一组规则、算法，启发式方法或其它分析方法来决定处理100是调用其自身来继续下一循环的发现和收集还是终止这一系列活动。该自调用(self-invocation)对于所公开的实施例的递归性是相当重要的，并且是区别于传统网络挖掘和搜索的一个限定特征。

可使用的算法的示例是通过分离出每个单独单词的首字母然后合并所述首字母而产生缩写作为企业名称的替代值。例如，根据该算法，International Business Machines会变为IBM，或用该算法的微小的变型，International Business Machines Corporation也会变为IBM。

可以使用的启发式方法的示例是基于行业类型来识别地理人口统计细分。例如，对于在芒廷维尤(Mountain View)中的多个技术公司，CA可能代表四十岁以下员工比例很高的倾向以及具有第二学位或博士学位的个体的比例很高的倾向。

在步骤101处，对发现作业的接收启动处理100。在步骤110处，基于种子源列表111来访问网站。种子源列表111中的每条记录包括网站地址(URL)。这可以包括遵循标准格式规则的任何URL，例如但不限于以“www”开头的那些URL。

处理100进行到步骤130，在步骤130处，使用处理规则列表126来识别相关网站记录，处理规则列表126将期望的数据类型定义为输入值。处理规则列表126限定在种子源列表111中搜索的数据元素。

下面的表提供了处理规则列表126中的数据元素限定规则的一些示例

在步骤130中，使用在处理规则表126中定义的规则，由URL在种子源列表111中标识的源站点上找到的数据被系统地读取，其中种子源列表111通过步骤110提供。对于从网站读取的每条数据，在步骤130处确定数据是否符合在处理规则表126中限定的任何规则。如果一条数据符合给定元素的规则，则将该数据以由数据元素列表165限定的适当元素存储在输入企业记录136中。例如，基于上面详细说明的示例规则，999-999-9999的字符串值满足美国电话号码标准。该值会被写进输入企业记录136中的电话号码字段。

通过使用应用特定规则(例如，处理规则列表126)，处理100能够保持灵活和非确定性实现方式，该实现方式满足改变该处理的最终使用的需要。通过利用这些规则，处理100能够发现满足一组特征的特定类型的实体(例如，企业实体)，该一组特征能够以处理100的每个单独执行所特有的方式来限定。

输入企业记录136是用于存储在步骤130中发现和收集的数据的数据结构。每个记录包括在数据元素列表165中限定的数据元素。数据元素列表165实质上是用于实体的主要部件的容器，例如在企业记录的情况下，实体的主要部件是姓名、地址和电话号码。

在步骤135中，使用搜索领域中熟知的方法，使用输入企业记录136作为输入值，将所获得的记录数据中的每个元素被解析成其子成分、被净化、归一化和标准化。使用在参考数据列表146中的参考数据，输入企业记录136中的每个数据元素的值被解析。由于每个元素被解析，所以基于数据元素列表165来识别实体例如企业所特有的一组成分。这些成分提供关于企业的特性的见解；作为企业实体的示例，这可以包括公司结构和物理位置(地址)。例如，基于参考数据列表146中的参考数据对地址成分进行标准化。还净化掉数据的非期望值，例如空白、过多的标点符号或通常被称为“噪声”的其他字符或字符集；所得到的元素值是应用可用的企业信息。修改的数据被写入到输出企业记录137。输出企业记录137的结构与如数据元素列表165所限定的输入企业记录136的结构相同。

下面是可发现的参考数据的一种形式的示例，但在列表146中不包括所有可能类型的参考数据。

在输入企业记录列表136中的示例输入企业记录为：

在数据被解析、净化、归一化和标准化的情况下，输出企业记录列表137中的输出企业记录则为：

参考数据列表146是在步骤135中使用的一组参考数据。参考数据列表146包含字符串标记和地理参照数据。在步骤135的解析阶段中，这些标记被用于标识所收集的数据中的关键数据元素。标记的示例是“街道”。“街道”的存在表示数据元素是地址。

参考数据表146中的标记还包含非期望值。净化处理搜索这样的标记，并将其从数据元素列表165的值中去除。非期望标记的示例是亵渎字。

参考数据表146中的地理参考数据在步骤135的标准化操作中被使用，例如，以将地址数据修改成符合当地的邮政标准。标准化数据创建地址数据的更一致的表示。

在下面的示例中，原始的非标准化的值丢失了邮政编码并具有不完整的街道地址。步骤135中的标准化处理将原始地址与存储在参考数据列表146中的参考数据进行比较，并输出完整的地址输出企业记录列表137。

在步骤140(如上所述，在输入企业记录136中的数据被净化、标准化和写出到输出企业记录137之后)中，关于输出企业记录137的状态被确定，这限定了随后的动作。输出企业记录137和下一动作的处理规则列表148是在步骤140中使用的输入。

处理规则列表148包括用于确定对输出企业记录137进行的下一组动作以及处理100中要采取的下一逻辑步骤(B)的一组处理规则(A)。例如，在下一动作处理规则列表148中的一种类型的规则是一组记录验证规则。如上所述，处理规则列表148还可以包括算法、启发式方法，或其它分析方法。

实际验证规则和标准不受限且对于具体实施例的每个实现方式是特有的。可能规则的示例为：“验证规则1：企业名称、街道、城市、邮编和电话号码必须填写”。

如果输出企业记录137通过了下一动作处理规则列表148的一组验证规则，则其被写出到单源记录列表141。

单源记录列表141存储了输出企业记录137的所有验证实例。单源意味着针对来自URL源的每个所访问和所选择的记录保留单独的数据记录。在这一点上，在处理100中，每个输出企业记录137是拷贝到新查询数据值列表147的单源记录。因此，输出企业记录表137中的每个输出企业记录和新查询数据值列表147中的新查询数据值包含来自仅一个网站的数据。在单源记录列表141中，可以有表示相同企业的多个记录，但是数据的源可以不同。单源记录列表141的示例性视图如下：

在上面的示例中，记录1具有来自仅一个网站www.companylisting.com的企业信息。而记录2可以指相同的企业，其信息是从www.abccompany.com收集的。每个记录具有仅单个网站作为其数据的源。

在通过步骤130、步骤135和步骤140执行处理100的过程中，与企业记录有关的新的源的URL可以被发现；这些新的源被写入到新查询数据值列表147。仅尚未被访问的URL被写入到新查询数据值列表147。新查询数据值列表147在结构上与种子源列表111相同，并包含在处理100中进一步检查的站点。

例如：

·源站点www.companylisting.com是种子源列表111中的原站点。

·在读取www.companylisting.com上的数据的过程中，发现了企业“ABC公司”及其关联的网站www.ABC-Company.com。

·www.ABC-Company.com被写出到新查询数据值列表147。

在步骤140中，基于截至处理100中的这一点的对检索和分析的数据的评价来确定方法100中接下来的步骤。用于确定附加数据存在的标准是应用所特有的，并且如下面的条件和步骤中所描述的那样被确定。为描述在的条件和下面的步骤。一些示例包括，但不限于，存在附加的企业名称条目和/或链接至可以具有附加相关数据的附加网站的链接。这些应用所特有的条件和标准被存储在下一动作处理规则列表148中。

处理规则列表148包括一组处理规则，所述一组处理规则用于确定对记录137进行的下一个动作，以及处理中要采取的下一逻辑步骤。处理规则列表148中的两种示例性类型的规则是一组记录验证规则或评价网站使用条款的处理。方法140使用这些规则来验证记录137中的数据，以确认存在完整企业记录。验证规则和标准的数量是应用所特有的。

处理规则列表148也可以具有保持处理100持续而没有任何终止的规则。例如，在从处理开始已过去固定量时间之后，或在已执行了给定次数的CPU操作之后，处理100可以终止。

存在会确定随后动作的多个潜在条件。在本示例中，描述了两个条件。条件1涉及的情形是：可能存在要从初始URL或者在处理100执行期间发现的附加URL访问的更多相关数据。条件2涉及的情形是：不存在在初始URL或附加URL上找到的更多相关数据。

对于条件1，在步骤150处，存在要从当前网站读取的附加数据。处理100通过步骤149返回步骤130，在步骤149中，针对下一记录遍历要检查的网站。该循环将重复进行，直到不存在要从当前被检查的网站上读取的附加数据为止。

继续条件1，经由步骤149到步骤130的该循环是所公开的实施例的公开、彻底和重复性质的一个成分。该重复使得处理100能够为非确定性的性质，从而不需要被检查网站的现有知识或网络发现之前存在的企业实体的数量的现有知识。

继续条件1，在经由步骤149到步骤130的循环的每次执行时，单源记录列表141，新查询数据值列表147保存在数据存储介质中，该数据存储介质保留经由步骤149到步骤130的循环的每个前次执行期间收集的所有信息。相对于图1，单源记录列表141具有在如上所述的发现阶段期间对其追加的附加企业记录。新查询数据值列表147具有在数据发现阶段期间对其追加的附加URL。单源记录列表141和新查询数据值列表147中的数据用作从步骤149至步骤130的循环的输入，直到整个处理100完成并且没有可以从网站读取的其他数据为止，如下面的情况2所描述的。

对于条件2，处理100从步骤140前进至步骤150。如果在步骤150处确定出已从当前检查的网站读取了所有的数据，则处理100从步骤150前进至步骤160。

继续条件2，在步骤160中，对当前检查的网站的访问完成，并且至当前检查的网站的连接被关断。当步骤160完成时，处理100前进到步骤161，在步骤161处确定在种子源111中的所有网站是否已被检查，如果还没有检查完在种子源列表111中的所有网站，处理100前进到步骤151，在步骤151中，开启连接至种子源列表111中的下一个网站的连接。处理100返回步骤110。

在该点处存在多个潜在子条件。这本示例中，描述了确定随后动作的两个潜在子条件(在下面称为条件2A和条件2B)。基于这些条件中的一个来确定步骤的下一进程。

对于条件2A，如果已访问了在种子源列表111中的所有原始源站点，处理100从步骤161前进至步骤162。在步骤162中，首先，确定出是否任何新的查询数据(例如，URL)被添加至新查询数据值列表147。如果有新的查询数据被添加至新查询数据值列表147，则处理100前进至步骤154，步骤154通过步骤110再调用处理100，以使用新查询数据值列表147中的数据作为输入来访问另一网站。在对步骤110的该调用中，新查询数据值列表147实质上担当的角色是种子源列表111先前的角色。返回步骤100的该循环是所公开的实施例的重复性质的另一成分。重复该循环使处理为非确定性的性质，使得不需要的网站的现有知识或网络发现之前存在的企业实体的数目的现有知识。搜索循环被执行，单源记录列表141和新查询数据值列表147保留在数据存储介质的一部分上，该数据存储介质保留通过经由步骤154的循环的每个进程期间收集的所有信息。单源记录列表141具有在如上所述的该发现阶段期间对其追加的附加企业记录。新查询数据值列表147具有在如上所述的该发现阶段期间对其追加的附加URL。数据继续留存在单源记录列表141和新查询数据值列表147中。单源记录列表141和新查询数据值列表147中的数据在步骤110处用作处理100的输入，直到在步骤162处确定出没有新的查询数据值被添加至新查询数据值列表147。此处理以递归的方式和穷举的方式继续，直到不再有其他要处理的URL为止，如由下面的条件2B所描述的。

对于条件2B，在种子源列表111中的所有原始源站点都已被检查，并且来自新查询数据值列表147的所有新查询数据，如果有的话，也已被检查。处理100前进至子处理300。

下面，参照图2描述子处理300。在子处理300结束后，处理100前进至步骤170，在步骤170中，处理100结束。

图2是子处理300的框图，其中详述了用于对在上述处理100(图1)的数据发现部分期间发现的数据进行分析和评价，以将所述数据转变成可发布数据的方法。子处理300开始于如在处理100中发现的一组可能相关但尚未关联数据记录。子处理300为每条数据创建唯一的关键字，然后确定非关联数据元素之间的相关性。通过基于规则的审查处理，子处理300建立数据元素之间的关系，并且根据预定的标准将实体分组到聚类中。然后，这些聚类被合成为一系列唯一的单实体，所述唯一的单实体中的每个代表该聚类的元素值的“最佳视图”(由应用所特有的商业规则所确定的)。

在步骤301中，子处理300开始，其中读取来自单源记录列表341的一个记录作为输入值。单源记录列表341是在处理100执行时收集的单源记录的数据库。单源记录列表341中的记录具有输入企业记录136(图1)的记录的形式，例如，其为如下形式：

在步骤302中，从企业记录列表346(单企业记录的列表)中的企业记录读取以数据元素列表165(图2)的形式的数据元素360。针对企业记录列表346中的数据元素360中的每个字段生成匹配关键字。匹配关键字是用于唯一地标识数据元素的上下文值的标识符。例如，“ABC公司”和“Abc公司”不是每字节(byte-for-byte)都相同的字符串。然而，根据上下文，它们是同一名称。这样的评价也可以通过检查同义词、替代名称样式，或允许的其它变换来进行。针对这两个值生成的匹配关键字可以是相同的，下表给出了具有相同匹配关键字的记录以及具有唯一匹配关键字的记录(如通过列“名称匹配关键字”所指示的)的示例。

企业名称	名称匹配关键字
		ABC公司	X
Abc公司	X
		ABC公司	X
MyCorp	A
		John Doe,Inc.	B

在步骤302中，匹配关键字与企业记录列表346中的原始数据一起被写出至匹配关键字列表342。

在步骤303中，确定出在企业记录列表346中是否存在任何附加的记录。如果存在附加的记录，则经由步骤304执行循环，并针对下一记录生成匹配关键字。在经由步骤304执行循环的过程中，在步骤301中读取要读取的下一记录。当在单源记录列表341中的所有记录已被读取并且针对它们生成了匹配关键字时，子处理300在步骤303处退出循环300，并且处理前进至步骤305。

在步骤305中，用匹配关键字列表342作为输入，匹配的记录基于其匹配关键字被分组成聚类。每个分组被分配一个聚类标识，该聚类标识被称为聚类ID。分配了聚类ID的每个记录连同其聚类ID被写出至聚类记录列表343。

企业名称	匹配关键字	聚类ID
			ABC公司	X	Y
Abc公司	X	Y
			John Doe,Inc	A	<无聚类id>
MyCorp	B	<无聚类id>

在上面的示例中，“ABC公司”和“Abc公司”具有相同的匹配关键字，因此它们都分配了相同的聚类ID。无论是“John Doe,Inc”还是“MyCorp”均不与任何其他记录匹配。因此，他们没有被分配聚类ID。

聚类记录列表343包含在步骤305处生成的聚类。聚类记录列表343中的每个记录包含单个企业记录和与该单个企业记录关联的聚类ID。

聚类记录列表343中的两个聚类的示例：

子处理300接下来从步骤305前进到步骤306，在步骤306处，接收聚类记录列表343以及优先级规则列表344中的优先级规则作为输入。

在步骤306中，通过利用优先级规则列表344中的优先级规则，聚类的记录集被合并成单个复合记录。该合并处理针对所收集的每个数据元素选择最期望的值。步骤306的合并处理可以基于在处理100的数据发现部分(图1)中进行的源和实体发现来进行。随着每个实体被发现，源站点信息，包括关于此站点的元数据，被捕获。利用发现的每个新的元数据集，与可用数据的源有关的一条新信息被发现。该元数据连同优先级规则列表344中的优先级规则一起用于判断从各个源收集的数据的质量，以及用于确定聚类记录中的数据的最佳视图。

有关源站点的通用元数据的示例是用于向搜索引擎描述该站点的HTML标签。用于标识记录的源的这些HTML标签的示例可以是“商业贸易目录”、“黄页”，或者“在线电话簿“。

另外，优先级规则列表344中的规则规定了哪些网站可以用来证实所发现数据的真实性的标准。基于特定企业应用，基于优先级规则列表344中，某些站点的可信度足以确认其他站点的真实性。例如，电话公司的网站会被视为电话号码的权威来源，并可以证实在非电信站点上发现的电话号码的真实性。

下面是优先规则列表344中的优先级规则可以如何使用的一个例子。

例如：规则1：已知电信网站会被视为电话号码的首要来源。

根据“规则1”和上面的示例记录，来自yellowpages.com的电话号码会被认为是最可靠的值。所得到的复合记录可以是：

在针对给定元素没有任何优先级规则的情况下，可以利用默认选择，其中步骤306的合并过程从聚类中的第一记录选择值。该值被写到复合记录数据元素365。应指出，关于记录如何布局在数据元素360中以及记录如何布置在复合记录数据元素365中不一定存在差异。复合记录数据元素365被写出至多源记录列表345。

多源记录列表345保持所有多源记录。多源记录是在至少两个源站点上发现企业数据的记录。在步骤306处，当所有的聚类被读入并被处理时，子处理300移动至步骤307，在步骤307，子处理300结束并且控制返回处理100。在处理100的步骤170之后，由所公开的实施例提供的结果可以被存储、被写入和/或被发布。作为示例，结果可以在数据库中存档、写入数据库、用于生成报告或发布，以调用对处理100进行调用的应用。结果可以用于这些目的中的任何目的或所有目的或其他目的，利用结果的方法是应用所特有的，并且与由所公开的实施例生成的结果的预期未来使用无关。

图3是用于使用本发明的系统400的框图。系统400包括耦接至网络420例如因特网的计算机405。

计算机405包括用户接口410、处理器415和存储器425。计算机405可以在通用微型计算机上实现。尽管计算机405在本文中被表示为独立装置，但是不限于此，而是可以经由网络420耦接至其他装置(未示出)。

处理器415是由逻辑电路构成的，其响应于并且执行指令。

存储器425存储用于控制处理器415的操作的数据和指令。存储器425可以实现为随机存取存储器(RAM，random access memory)、硬盘驱动器、只读存储器(ROM，read only memory)、或其组合。存储器425的组件之一是程序模块430。

程序模块430包含用于控制处理器415以执行本文中描述的方法的指令。例如，作为程序模块430的执行结果，处理器415(a)检查在初始搜索目标的集合中发现的数据；(b)将来自初始搜索目标的与查询有关的数据和指定要搜索的附加搜索目标的数据存储在数据存储装置中；(c)针对与查询有关的数据和指定要搜索的其他搜索目标的数据来搜索附加搜索目标；以及(d)将来自其他搜索目标的与查询有关的数据和指定其他搜索目标的数据存储在数据存储装置中。

本文中使用术语“模块”表示如下功能操作：该功能操作可被具体实施为独立组件或者多个从属组件中的集成配置。因此，程序模块430可被实现为单个模块、或者可被实现为彼此以协作方式操作的多个模块。此外，尽管程序模块430在本文中描述为安装在存储器425中，因此被实现为软件，但是程序模块430可以被实现为硬件(电子电路)、固件、软件或其组合中的任何一个。

用户接口410包括输入装置例如键盘或语音识别子系统，用于使用户能够向处理器415传达信息和命令选择。用户接口410还包括输出装置，例如显示器或打印机。光标控制，例如鼠标、跟踪球、操纵杆，使得用户能够操纵显示器上的光标以向处理器415传达附加的信息和命令选择。

处理器415将本文中描述的方法的执行结果输出至用户接口410。可替代地，处理器415可以经由网络420将输出引向远程装置(未示出)。

当指示出程序模块430已载入存储器425中时，程序模块430可被配置在存储介质435上，以便随后载入到存储器425中。存储介质435可以是存储有程序模块430的有形形式的任何传统存储介质。存储介质435的示例包括软盘、光盘、磁带、只读存储器、光存储介质、通用串行总线(USB，universal serial bus)闪速驱动器、数字多功能盘、或者压缩驱动器。可替代地，存储介质435可以是位于远程存储系统并且经由网络420耦接到计算机405的随机存取存储器或者其他类型的电子存储器。

因此，本实施例改进了现有发现产品和功能，这包括但不限于下述处理中的任何一个处理或所有处理：(1)在访问万维网和其他数据源之前进行查询的处理，(2)在查询的环境中对万维网和其他源进行访问的处理，(3)将查询数据与万维网和其他源上的数据进行比较以便识别、评价、管理、评判和选择包含被确定为与查询类似的数据和与这些数据有关的元数据的记录的处理，(4)保持和鉴定与发现处理和源有关的信息的处理，(5)来自所发现的源的数据和元数据通过递归处理被用于访问其他数据源的处理，(6)所得到的数据可以被进一步管理、评判和合成的处理，包括对新数据库或现有数据库上的数据进行初始填充以及更新，(7)鉴定所发现结果(包括数据和元数据)以确定查询与发现的结果之间的相关相似度的处理，然后，可以将相关相似度(包括用于做出该确定的数据)提供给查询者或查询系统，以确定是否使用该结果或如何使用该结果。

为了满足需要，提供了一种方法，该方法包括但不限于如下步骤中的任何一个步骤或所有步骤：(a)接收查询以发起针对企业实体和相关信息的发现处理，(b)基于该查询确定一个或更多个递归策略，以基于查询中包含的特定数据来访问万维网和其他数据源的，(c)针对与查询相似的数据，根据策略递归地访问和分析在万维网和其他数据源上的数据，(d)判断数据和相关元数据的精确度以及鉴定所述数据和相关元数据，以及(e)输出数据结果、反馈和与下述处理有关的其他相关信息，通过该处理数据被访问并确定为有价值。还提供执行该方法的系统和包含控制处理器执行该方法的指令的存储介质。

本文中描述的技术是示例性的，并且不应被解释为暗示对本公开的任何特定的限制。应理解的是，本领域的技术人员可以想到各种替代、组合以及修改。例如，与本文中描述的处理相关联的步骤可以以任何顺序执行，除非步骤本身另有指定或者指示。本公开旨在包含所有这样的替代、修改以及变型。

Claims

1.一种用于搜索与查询有关的数据的系统，包括：

存储装置，所述存储装置包含种子源的列表，所述种子源的列表指定所述查询的初始搜索目标；

搜索引擎，所述搜索引擎基于从所述初始搜索目标和任何现有附加搜索目标识别的数据和元数据来对所述初始搜索目标进行搜索，以找到与所述查询有关的数据；

所述存储装置存储来自所述初始搜索目标和所述任何附加搜索目标的数据和元数据；并且

其中，所述搜索引擎对所述附加搜索目标进行搜索，以至少找到与所述查询有关的附加数据以及找到指定另外的附加搜索目标的数据和元数据。

2.根据权利要求1所述的系统，其中，当所述搜索引擎搜索所述附加搜索目标并且发现了另外的搜索目标时，指定所述另外的搜索目标的数据和任何相关元数据被存储在所述存储装置中，以由所述搜索引擎在访问所述另外的目标时使用。

3.根据权利要求1所述的系统，其中，对所述附加搜索目标进行搜索以及对另外的搜索目标进行发现，直到对所述附加搜索目标的搜索不再产生要搜索的另外的搜索目标为止或者直到可接受的评判规则或例外规则被满足为止。

4.根据权利要求1所述的系统，其中，所述另外的搜索目标通过递归和穷举处理被发现，由此基于来自现有搜索的结果和搜索目标的数据和元数据来识别搜索目标。

5.根据权利要求1所述的系统，其中，所述搜索引擎被配置成搜索网站或其他源，并且所述种子源的列表是所述网站或其他源的列表。

6.根据权利要求1所述的系统，其中，处理器被配置成对从每个搜索目标获得的数据进行净化。

7.根据权利要求6所述的系统，其中，所述处理器被配置成通过一些步骤来净化数据，所述步骤包括下述步骤中的至少一个步骤：解析所述数据，去除所述数据的错误值或不适当的值，以及从所述数据去除预定标记。

8.根据权利要求1所述的系统，还包括处理器，所述处理器被配置成通过执行下述步骤来执行对给定数据的数据验证，所述步骤包括：

对来自已搜索的搜索目标的所述给定数据进行比较，以及

基于一组优先级规则和使用规则，将来自被认为是最可靠和可用的源的数据选择为有效。

9.根据权利要求1所述的系统，还包括处理器，所述处理器被配置成对来自不同搜索目标的相关数据进行管理、评判、合成和聚类，以形成聚类数据记录。

10.根据权利要求9所述的系统，其中，所述处理器被配置成根据所述聚类数据记录来生成复合数据记录。

11.一种用于搜索与查询有关的数据的方法，包括：

检查在初始搜索目标的集合中发现的数据；

在存储装置中存储来自所述初始搜索目标的：(a)与所述查询有关的数据和元数据中的至少一个，以及(b)指定要搜索的附加搜索目标的数据和元数据中的至少一个；

对所述附加搜索目标进行搜索，以找到：(a)与所述查询有关的数据和元数据中的至少一个，以及(c)指定要搜索的另外的搜索目标的数据和元数据中的至少一个；以及

在所述存储装置中存储来自所述另外的搜索目标的：(a)与所述查询有关的数据和元数据中的至少一个，以及(c)指定所述另外的搜索目标的数据和元数据中的至少一个。

12.根据权利要求11所述的方法，其中，当所述附加搜索目标被搜索时，如果另外的目标被发现，则所述方法还包括：

使用(c)指定所述另外的搜索目标的数据和元数据中的至少一个来访问所述另外的目标；以及

在所述存储装置中存储来自所述另外的搜索目标的：(a)与所述查询有关的数据和元数据中的至少一个，以及(d)指定要搜索的其他搜索目标的数据和元数据中的至少一个。

13.根据权利要求11所述的方法，其中，当附加搜索目标被搜索并且指定另外的搜索目标的数据和元数据中的至少一个被发现时，所述方法在对所述另外的搜索目标的搜索不再产生要搜索的搜索目标时终止。

14.根据权利要求11所述的方法，其中，搜索引擎被配置成搜索网站或其他源，并且所述种子源的列表是所述网站或其他源的列表。

15.根据权利要求11所述的方法，还包括对从搜索目标获得的数据进行净化。

16.根据权利要求15所述的方法，其中，通过下述步骤来执行对数据的净化，所述步骤包括：解析所述数据，去除所述数据的错误值，以及从所述数据去除预定标记。

17.根据权利要求11所述的方法，还包括通过执行下述步骤来执行对数据的数据验证，所述步骤包括：

对来自已搜索的各个源的所述数据进行比较，以及

基于一组优先级规则，将来自被认为是最可靠的源的数据选择为有效。

18.根据权利要求11所述的方法，还包括对来自不同源的相关数据进行管理、评判、合成和聚类，以形成聚类数据记录。

19.根据权利要求18所述的方法，还包括根据所述聚类数据记录的集合生成复合多源数据记录。

20.根据权利要求11所述的方法，还包括执行从包括下述操作的组中选择的至少一个操作：将通过搜索与所述查询有关的数据而获得的结果写到数据库，将所述结果在数据库中存档，将所述结果生成报告，以及发布所述结果。

21.根据权利要求11所述的方法，还包括应用分析方法，以关于所述数据做出确定，以及确定是关于继续执行所述方法还是终止所述方法，所述分析方法是从包括规则、算法、启发式方法和其他分析功能的组中选择的至少一个。

22.一种计算机可读非暂态存储介质，所述计算机可读非暂态存储介质存储计算机程序的指令，所述计算机程序的指令在由计算机系统执行时执行下述步骤：

检查在初始搜索目标的集合中发现的数据；

对所述附加搜索目标进行搜索以找到：(a)与所述查询有关的数据和元数据中的至少一个，以及(c)指定要搜索的另外的搜索目标的数据和元数据中的至少一个；以及

在所述存储装置中存储来自所述另外的搜索目标的：(a)与所述查询有关的数据和元数据中的至少一个，以及(c)指定所述另外的搜索目标的数据和元数据。

23.根据权利要求22所述的计算机可读非暂态存储介质，所述计算机可读非暂态存储介质存储计算机程序的附加指令，所述计算机程序的附加指令在由所述计算机系统执行时使得执行下述步骤：

24.根据权利要求23所述的计算机可读非暂态存储介质，所述计算机可读非暂态存储介质存储计算机程序的附加指令，所述计算机程序的附加指令在由所述计算机系统执行时，当附加搜索目标被搜索并且指定另外的搜索目标的数据或元数据中的至少一个被发现时，重复执行该方法直到对所述另外的搜索目标的搜索不再产生要搜索的搜索目标为止或者直到可接受的评判规则或例外规则被满足为止。