CN107077640A

CN107077640A - 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理

Info

Publication number: CN107077640A
Application number: CN201580059999.XA
Authority: CN
Inventors: 安东尼·J·斯克里菲尼亚诺; 耶姆·森伯哈尼奇; 罗宾·弗莱·戴维斯; 沃威克·马修斯
Original assignee: Dun and Bradstreet Inc
Current assignee: Dun and Bradstreet Corp; Dun and Bradstreet Inc
Priority date: 2014-09-03
Filing date: 2015-09-03
Publication date: 2017-08-18
Anticipated expiration: 2035-09-03
Also published as: EP3189478A4; BR112017004341A2; WO2016036940A1; RU2017110788A3; JP2017527913A; AU2015311934A1; PH12017500366A1; RU2017110788A; RU2674331C2; US10621182B2; JP6605022B2; KR20170046772A; AU2015311934B2; SG11201701613YA; CN107077640B; EP3189478A1; SG10201901913XA; US20160063001A1; KR101991086B1; CA2959651A1

Abstract

本发明提供了一种方法，其包括：(a)从数据源接收数据；(b)根据规则对数据源进行归属，从而产生属性；(c)分析数据以识别数据中的混杂特性；(d)计算属性的定性度量，从而产生加权属性；(e)计算混杂特性的定性度量，从而产生加权混杂特性，(f)分析加权属性和加权混杂特性，以产生处置；(g)根据处置过滤数据，从而产生提取的数据；以及(h)将提取的数据发送至下游处理。本发明还提供了一种执行该方法的系统以及一种包含用于控制处理器执行该方法的指令的存储装置。

Description

经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理

相关申请的交叉引用

本申请要求于2014年9月3日提交的美国临时专利申请序列号62/045,398的优先权，其内容通过引用并入本文中。

技术领域

本公开内容涉及一种采用新的、经验的、即科学的和可再现的归属和鉴别处理(在本文中也称为能力)的系统，以生成来自不良策展或不良结构的非结构化或半结构化来源且特别是社交媒体来源的数据的描述性上下文属性。然后，使用超出现有递归完善处理和形态的方法，将这些属性用于表征、审议、区分和最终作出关于数据最合适处置或对待的决策。本公开内容所解决的一个固有问题是，在没有足够的本体或规范形式来构建摄取和策展处理情况下，当前不可能以一定规模一致地审查、裁定和摄取数据。

本文描述的能力可以用于处理从文件获取的数据，所述文件直接从在线源下载或者响应于由终端用户、系统、应用或提供要摄取、处理和用于某些目的的数据的任何其他方法发起的查询。在这种情况下，“处理和用于某些目的”可以是充分利用数据的任何下游系统或功能，并且将受益于能力，即导出推断，辅助观察模式，执行得更好、更快速、更高效或者倾向于在该系统或功能的上下文中增加该数据的价值的方式。

该能力可以在上下文级别、源文件级别或内容级别上操作，并且可以由所收集的处理本身的先前迭代的经验来通知。“上下文级别”归属在围绕数据源的获取和摄取的环境的级别上运行。“源文件级别”归属通常但不排他地在由源提供或从源获取的数据文件的级别上操作。“内容级别”归属在基本数据级别上操作，并且通常但不排他地基于对各个数据元素和/或它们之间的关系的分析。

“上下文级别”归属的示例将创建元数据以描述来自特定源的数据被递送的频率和该源中的数据的“保存期限”，即在多长时间内数据将通常被认为是“当前的”。“源文件级别”归属的示例将要检查来自文件本身的元数据，例如创建日期。“内容级别”归属的示例将检测用于表示数据的书写系统，例如简体中文。

业内估计表明，超过80％的新数据创建是非结构化的。为了从将越来越多地是非结构化的或仅宽松了解的格式的数据中得到充分的价值，或者在被添加到现存的策展数据语料库或馈送到特定的用例如决策业务功能的情况下相反地为了避免增加最终被证明是不准确、令人误解或不利的数据，重要的是能够针对重要但不一定是预定的标准和/或沿已知的维度测量来预先筛选该数据。预筛选的好处是，特定测试失败的数据或者没有达到充分高的质量水平的数据将被拒绝，并且有害影响的风险得到缓解。当资源限制或其他考虑因素不允许摄取所有可用来源的新数据时，另外的好处将是协助或甚至引导策展工作。注意，这里使用“质量”这个词来表示适用于特定用途的任何度量，并不一定意味着特定的固有价值。

出现了各种技术来对非结构化数据执行消歧和辨别功能，所述技术包括：

a)实体提取——从文本中得到关注的各个组分，如名词、动词和修饰语。

b)情绪分析——将归属归于内容的有意的音调和情感。

c)语义消歧——将文本减少成更可计算的结构(例如，断词)。

d)语言转换——包括通过自然语言处理(NLP)的音译、翻译和解释。

上述风险和缓解需求尤其适用于数据本身是社交媒体数据(其总是具有主要非结构化的或“自由文本”的组分)、大小有限、是“大众来源”(也就是源自一组无限制的参与者，并且可能包含一个或更多个“混杂特性”)的情况。

这些混杂特性的一些示例是：

a)讽刺：以传达与来自粗略解释的含义相反的隐含含义的方式并列的词语或述语。

·例如：如果你喜欢摧毁自然的话，XYZ石油公司是做生意的优秀的公司。

b)新词：新构建并集体采取具有某种共同意义的词语或短语。

·示例：Hashtags(主题标签)

c)语法变异或不恰当措辞的文本：有意或无意的不正确从而导致歧义或非决定性的解释的词汇使用。

·例如：FBI is Hunting Terrorists With Explosives(联邦调查局追捕携有爆炸物的恐怖分子，或者联邦调查局使用爆炸物追捕恐怖分子)

d)标点符号：非标准或不一致的方式、或缺乏标点符号进而导致歧义或矛盾的解释的标点符号的使用。

·例如：“Eats shoots and leaves(吃芽和叶子)”与“Eats,shoots,and leaves(吃、射击和离开)”

e)多语种数据：插入来自外语的词语和短语。包括官方、非官方和非正式的外来词、外来短语和借译语。

·示例：He had a certain je ne sais quoi(法语)that made it difficultto understand his meaning completely.(他有难言之处，使得难以完全理解他的意思。

f)拼写：导致不一致、不正确或非决定性的解释的发明的、不正确的或采纳的拼写

·示例：RU那里？

g)模糊/加密：有意将数据转换为混杂的推理或解释

h)上下文：由于缺乏数据本身提供的上下文而对外部连续性或外部保留的上下文的依赖性增加。

·示例：“他有一个很棒的薄片(slice)！”[蛋糕？比萨？网球拍？]

i)多媒体：文本和其他媒体形式被组合在创造不明确或不可知的意义而不了解整体的一个消息或数据片段中。

·示例：伴有“这就是我们对XYZ饮料公司的新风味的看法！”的图片

背景技术

本节中描述的方法是可以追求的方法，但不一定是先前构想或追求的方法。因此，本节中描述的方法不一定是本申请中的权利要求的现有技术，并且不应因包含在本节中而被认为是现有技术。

现有系统可以尝试执行上述功能(实体提取、情感分析、语义消歧、语言转换等)，并且因此测量和测试数据，但是很难知道在没有来自特定来源的数据的先验经验的情况下使用什么测试和度量。因此，为了产生充分有效和可重现的辨别和决策水平，寻求摄取非结构化数据、社交媒体和其他类似数据的系统可以以递归方式进行该操作，其中系统可以基于以前的经验进行重新配置。这样的系统也可以实现闭环，也称为“主机反馈”场景，其使用事后质量反馈来影响未来的结果。然而，因为甚至当采用“机器学习”时上述实现也总是手动的，所以这些系统在可扩展性和自动化方面遇到限制，它仅处于最基本的体验层面，即基于详细数据本身的频率和语义分析。还存在由于上述语言的混杂特性的影响而导致的限制。

发明内容

提供了一种方法，其包括：(a)从数据源接收数据；(b)根据规则对数据源进行归属，从而产生属性；(c)分析数据以识别数据中的混杂特性，(d)计算属性的定性度量，从而产生加权属性；(e)计算混杂特性的定性度量，从而产生加权混杂特性；(f)分析加权属性和加权混杂特性，以产生处置；(g)根据处置过滤数据，从而产生提取的数据；以及(h)将提取的数据发送至下游处理。还提供了一种执行该方法的系统以及一种包含用于控制处理器执行该方法的指令的存储装置。

本文描述的技术包括现有技术未解决的能力。具体来说，本文描述的技术提供了一种使用归属的新维度的方法，这转而实现数据摄取决策的新的自动化实现，允许构建比基于现有技术可能使用的方法更快、更可扩展、更灵活且更一致的系统。

附图说明

图1是用于经由经验归属来摄取、归属、创建处置策略并导出数据源的系统的框图。

图2是由图1的系统执行的方法的功能框图。

图3是源归属级别及其层次关系的图形表示。

图4是作为图2所示方法的一部分的处理的功能框图。

在每个附图中以相同的附图标记表示不止一个附图所共有的部件或特征。

具体实施方式

需要改进在摄取之前寻求分析和资格化数据源的现有处理。为了实现这一需要，提供了一种执行方法的系统，该方法包括：(a)在多个级别上将属性归属于来自源的输入数据，(b)基于在多个维度上测量所归属的属性的标准来创建处置规则以从源中提取有资格的数据子集(如果有的话)，从而产生有资格的数据，(c)摄取有资格的数据，以及(d)获得反馈，并且基于反馈引起系统的改变。

因此，本文件公开了一种自动化系统和方法，其用于将属性归属于源数据，除其他之外，基于属性进行决策，摄取数据，以及基于系统的摄取经验(该经验将由系统记录并且存储为处理本身的新属性)获得反馈。该方法在没有人为干预的情况下进行，从而允许一致性和可扩展性，并且使得人能够专注于需要洞察力或额外研究来影响恰当的数据管理的情况。术语“可扩展性”意味着该方法不限于特定技术或技术方案。

在下文中，提供了本文使用了若干术语的定义。

归属：当用作动词时，该术语是指元数据(即，描述性数据)或其他数据(例如，经验数据)到现有数据的计算和关联。以这种方式附加的数据是“属性”。

语料库：事物如数据文件的实质部分区别于关于该事物的数据如其创建的日期。除非上下文另有明确所指，否则语料库是指整个事物。

策展：分类、转换、存储和管理事物，即本公开内容中的数据。

摄取：摄入和储存数据。摄取处理通常涉及转换或重构为目标格式或分类法。

经验归属：基于科学方法的属性归属。在本公开内容的情况下是算法和数学处理。

方法：

1.基于要考虑诸如以下因素建立的商定的标准来选择若干数据来源：

a.包括成本和允许使用的数据的可用性；

b.内容丰富，能够观察充分的示例来形成经验结论；

c.与已经包含在研究中的已有来源的交叠程度；以及

d.数据源中已知的偏差。

2.构建自动或手动/混合A/B/C测试以测量：

a.存在；

b.决定性归属；以及

c.跨越外推全体的观察程度。

3.执行测试并评估结果，其包括：

a.简单描述性统计；以及

b.基本可视化。

4.对评估者的偏见如乐观/悲观的测量。

5.就每个假设的观察程度以及针对并不表现出假设标准的全体的其余部分对整体评估的影响程度形成结论。

结果评估：

a.评估每种假设对所选样本的影响。

b.假设我们可以证明相关性，开发得分系统以根据假设的维度评估不同的来源。

在观察期间可能出现另外的混杂方面，例如：

a.其他语言的影响；

b.群体讲话的同质化的影响；

c.群体讲话之间的共同隐喻(由环境或由共同体验引入)；

d.从一种语言到另一种语言的借词；以及

e.讲话者的多模态(例如，母语人士与非母语人士、数字时代原住民与数字时代移民)。

社交媒体的研究是对非结构化数据的更广泛调查的一部分。总体努力是用于发现、策展和综合与企业和企业背景下的人有关的数据的持续开发能力的一部分。

本公开内容主要集中于帮助全面了解总体风险和/或总体机会的能力。相关的需求涉及法定遵从、独立和道德、以及违法检测。

图1是用于经由经验归属来摄取、归属、创建处置策略和导出数据源的系统100的框图。系统100包括耦接至网络135的计算机105。

网络135是数据通信网络。网络135可以是私有网络或公共网络，并且可以包括以下中的任何一个或全部：(a)个人区域网络，例如覆盖房间，(b)局域网，例如覆盖建筑物，(c)校园区域网络，例如覆盖校园，(d)城域网，例如覆盖城市，(e)广域网，例如覆盖跨越大都市、区域或国界的区域，或(f)互联网。经由网络135借助于电子信号和光信号进行通信。

计算机105包括处理器110和耦接至处理器110的存储器115。虽然计算机105在本文中被表示为独立设备，但并不限于此，而是可以在分布式处理系统中耦接至其他设备(未示出)。

处理器110是由响应并执行指令的逻辑电路系统构成的电子装置。

存储器115是编码有计算机程序的有形的计算机可读存储介质。在这方面，存储器115存储可以由处理器110读取和执行的数据和指令即程序代码，用于控制处理器110的操作。存储器115可以在随机存取存储器(RAM)、硬盘驱动器、只读存储器(ROM)或其组合中实现。存储器115的部件之一是程序模块120。

程序模块120包含用于控制处理器110执行本文所描述的处理的指令。在本文中，虽然描述了由计算机105或者通过方法或处理或其下级处理来执行的操作，但是处理器110实际上正在执行操作。

术语“模块”在本文中用于表示可以被实施为独立部件或多个从属部件的集成配置的功能操作。因此，程序模块120可以被实现为单个模块或者彼此协作操作的多个模块。此外，尽管程序模块120在这里被描述为安装在存储器115中，并且因此以软件方式实现，但是它可以在硬件(例如，电子电路系统)、固件、软件或其组合中的任何一个中实现。

虽然程序模块120被指示为已经加载到存储器115中，但是其可以被配置在存储装置140上，以便随后加载到存储器115中。存储装置140是其上存储有程序模块120的有形计算机可读存储介质。存储装置140的示例包括压缩盘、磁带、只读存储器、光学存储介质、硬盘驱动器或由多个并行硬盘驱动器组成的存储单元以及通用串行总线(USB)闪存驱动器。可替选地，存储装置140可以是位于远程存储系统(未示出)上并经由网络135耦接至计算机105的随机存取存储器或其他类型的电子存储装置。

系统100还包括数据源150A和数据源150B，其在本文中统称为数据源150，并且通信地耦接至网络135。实际上，数据源150可以包括任何数量的数据源，即，一个或更多个数据源。数据源150包含非结构化数据，并且可以包括社交媒体。

系统100还包括由用户101操作并经由网络135耦接至计算机105的用户装置130。用户装置130包括用于使用户101能够将信息和命令选择传送至处理器110的输入装置，如键盘或语音识别子系统。用户装置130还包括如显示器或打印机或语音合成器的输出装置。如鼠标、轨迹球或触敏屏幕的光标控制使得用户101能够操纵显示器上的光标，以将另外的信息和命令选择传送到处理器110。

处理器110向用户装置130输出执行程序模块120的结果122。可替选地，处理器110可以经由网络135将输出引导到存储装置125，例如数据库或存储器或远程设备(未示出)。

其中可以应用系统100的工作流程涉及非结构化数据源例如数据源150的接收、发现和策展。该接收、发现和策展可以是服务任何数量用例的练习的一部分，包括但不限于：形成关于社交媒体中集体情绪的意见，了解营销态度相对于索赔的转变，检测导致发现身份盗窃或其他违法行为的细微差别，推断预示即将到来的事件或行为的社交信号，或者简单地评估将新的非结构化源摄取到预先存在的处理中的增量值。

图2是由系统100执行的、更具体地根据程序模块120由处理器110执行的方法200的功能框图。方法200是以下总体处理：接收数据，对数据源及其多个级别(即上述上下文级别、源级别和内容级别)的数据进行归属，并且对数据源和数据的处置作出决定，将将数据例如其特定子集传送到一个或更多个下游系统，启动提供关于处置的反馈的功能，以及启动另外的数据源的发现和摄取的功能。方法200访问和处理来自一个或更多个源150的数据，但是为了便于解释，我们此后将使用单个数据源的示例即数据源150A来描述方法200的执行。方法200开始于处理205。

如上所述，处理205对多个级别即“上下文”级别、“源文件”级别和“内容”级别的数据源150A进行访问、分析和归属，并且决定数据源150A中包含的数据的最适当处置以产生处置212。

图3是源归属级别及其层次关系的图形表示。

在任何源归属级别上，特别是在内容级别上，归属可以包括在上述维度即实体提取、情感分析、语义消歧和语言转换上操作的消歧和辨别功能。此外，使用这些消歧和辨别功能，处理205将试图解决除其他之外由上述混杂特性即讽刺、新词等引起的归属挑战。

图4是处理205的功能框图。处理205开始于处理405。

处理405从数据源150A接收数据，并且使用归属逻辑410中存储的规则和参考信息来对数据源150A进行归属，从而产生属性表403。规则和参考信息是例如一组算法，其扫描数据以确定数据是文本还是多媒体。例如，处理405分析数据源150A，并且确定它是第三方例如购买的数据源，并且其创建日期是2015年1月1日。

表1是属性表403的示例性表示，并且包括若干示例性属性及其值。

表格1

(属性表403的示例)

属性	值
		文件类型	文本
分隔	是的
		源(来自文件属性的作者)	ACME数据文件
格式	DFC001
		创建日期：	2015年1月1日
Web发现ID：	-不存在-
		编码	UTF-8
检测到的脚本	C0控制符和基本拉丁文

“文件类型”是源级别属性，并且是作为扫描数据文件的元数据和内容的处理的结果进行的确定，以便表征文件的数据类型。其他值可能是“图像”、“视频”、“二进制”、“未知”等。

“分隔”是表示在扫描文件以确定数据是否包含在离散分离的行中时作出的结论的是/否标志。

“源”在该示例中表示文件的供应者；在这种情况下，从数据文件的“作者”元数据(或“属性”)中读取。

还可以从文件的元数据中读取“创建日期”。

作为通过由功能210(下面描述的)发起的发现处理插入到文件中的显式标记，将“Web发现ID”呈现为未找到的属性的示例。

“编码”也从文件元数据中读取，并且是指文件构造方式的表征。其他值可能包括“ASCII”、“BIG5”、“SHIFT-JIS”、“EBCDIC”等。

在示例中提供“检测到的脚本”以示出不是从元数据而是从数据本身的语料库的扫描中得到的属性，以便了解该文件中存在什么Unicode范围。值“C0控制符和基本拉丁文”实际上是标准的拉丁数据集。

表格1所示的属性类型和值是仅示例，并且不一定表示系统100将附加到特定文件或数据的属性类型或值。系统100可以被配置成创建被认为有用的任何元数据。

处理415分析数据源150A的语料库，以便生成多个维度上的属性，所述维度包括(但不限于)：

a)实体提取

b)语义消歧

c)情绪分析

d)语言提取

e)基本元数据

处理415还对数据源150A中“混杂特性”的存在和流行性进行归属和测量，并且因此产生列出混杂特性Q1,Q2,Q3...Qn的混杂特性表420。上面提到了混杂特性的若干示例。

表格2是混杂特性表420的示例，并且包括度量及其值的若干示例。

表格2

(混杂特性表420的示例)

度量	值
		新词流行性	AX2
语法变异	0.56
		标点符号得分	0
情绪	-0.5
		拼写特质	低
模糊得分	0
		媒体同质性	1.0
片段变异	0.01

在表格2中的示例中，值的尺度和范围是独立的。一些可以是数值型，其他可能是需要非算术手段以产生可操作得分的代码。

注意，这里列出和示出的混杂特性的度量是完全独立的，并且由于系统将具有在新的混杂特性被识别时添加新的混杂特性的能力，所以该类不是封闭的。例如，在上面的表格2中，由于在系统的示例实现中尚未识别“多语种数据”的度量和影响，所以没有这种混杂特性的条目。

“新词流行性”表示通过以下操作而计算的得分：扫描数据源150A的实例，并且生成测量在数据源150A的语料库中存在多少新词，即新词和/或非常规词的得分。在该示例中，“AX2”可以代表绝对存在众所周知的新词，“ZA9”可以代表缺乏新词，但在这组不同寻常或不为人知的新词中流行。

“语法变异”是对语法风格的同质性的度量。用于建立度量的算法可以是行业标准方法，如Cocke-Younger-Kasami算法、或定制的算法和度量、或将几种度量组合的算法。这些子度量本身可以作为度量存储在混杂特性表420中，然后组合以产生混杂特性表420中的其他条目。

“标点符号得分”是对标点符号的存在的度量。在该示例中，检测到的标点符号很少或可以忽略，因此该度量值为零。

“情绪”表明文本中的“讲话者”是在传达关于主题(即，赞成、推荐、赞许等)的积极情绪、消极情绪(即，批评或不赞成)还是中性情绪(既不积极也不消极，或者可能不确定)。负数表示负面情绪(批评)，零表示中性情绪，而正数表示积极情绪(认可)。这里的情绪的示例值为-0.5，其表示可能被描述为“中度负面情绪”。

“拼写特质”是对作为不识别新词的拼写错误的流行性的度量。这里的“低”值表示低拼写错误率。注意，这里使用“拼写错误”仅表示偏离已知词汇；“高”得分可能表示例如无法识别的专有名词的高流行性，而不是真正的排印或拼写错误。

“模糊得分”是对看起来有意尝试隐藏含义(文本的加密将是其简单示例)的程度的度量。这里的值为零，表示没有检测到模糊。

“媒体同质性”指示数据看起来是单一类型的数据(例如，文本)还是混合媒体(例如，具有嵌入图像或超链接的文本)。在该示例中，得分为1.0，指示文件是仅一种类型的媒体。该信息可以通过处理435(下面描述的)与由处理405得到并在表格1中示出的属性相结合，以得出完全由结构化柱状文本组成的示例数据文件。

“片段变异”是从0到1的得分，其描述文件的离散单元的大小的总体一致性。在表格2中，0.01的得分表示片段非常均匀。该示例是非常结构化的数据文件，因此这是一个期望值，因为片段将表示文件中的行。因为片段将变化，但往往大约为128个字符，所以充满来自在线社交网络服务的消息的文件(其使得用户能够发送和读取短的例如140个字符的消息)可能具有中等得分。对于来自允许更大帖子的社交网络服务的数据，因为这种数据可能存在巨大的变化，所以会预期这些片段的得分非常高。

表格2所示的度量和值是仅示例，并不一定表示系统100将附加到特定文件或数据的值。

如上所述，处理415可以考虑到针对每个度量的多次测量。例如，可以采用若干算法来测量“语法变异”度量的值。例如，一个或更多个度量实际上可以是混杂特性表420中的其他度量，其他可以是属性表403中的值或者使用属性表403中的值来导出。

下面的表格3示出了情绪的算法测量的三个示例。这些测量可以合并到表格2中的上述总体情绪得分中。

表格3

(情绪混杂特性的算法测量的示例列表)

度量
	情绪简单平均值
情绪加权平均值
	情绪标准偏差

在完成处理405和处理415之后，处理205进行至处理425。

处理425是启发式/确定性加权处理，其接收属性表403和混杂特性表420，并且对属性表403中列出的属性和混杂特性表420计算定性度量，从而产生质量表432。参考加权资源430生成质量表432中的定性度量，并且质量表432中的定性度量可以是在多个维度上测量数据源150A的得分、系数或权重。

表格4是质量表432的示例性表示。在表格4中，“权重”是定性度量，并且从加权资源430中获得。处理425将权重分配给度量。

表格4

(质量表432的示例)

度量	值	权重
			新词流行性	AX2	10
语法变异	0.56	50
			标点符号得分	0	1
情绪	-0.5	77
			拼写特质	低	30
模糊得分	0	70
			媒体同质性	1.0	60
片段变异	0.01	44
			语言	1	80
源	S1	55
			年龄	76	44

表格4是简单示例。实际的定性度量可能考虑到相当复杂的因素组合。

表格4A示出了组合因素的使用的示例。

表格4A

度量	值	权重
			源	S1	10
源>年龄	S1:25	76

在表格4A中的示例中，在另一个表格(未示出)中查找了源的度量，该另一个表格列出了已知数据源和分别分配给这些数据源的权重。在这种情况下，被识别为源“S1”并由处理425分配给该源的权重为10。然而，处理425能够计算更复杂性质的权重。“源>年龄”权重(缩进以显示它在“源”权重族中)表明存在另一个权重，其对源S1进行操作，并且应用基于源S1中数据的年龄(即，文件多久以前创建，或者如果存在的话可替选地是明确指定的日期)的特定系数(即25)以产生76的权重。

在完成处理425之后，处理205进行至处理435。

处理435是审查/裁定处理，其接收质量表432、混杂特性表420和属性表403，并且使用规则440来裁定数据源150A的适当处置，并且因此产生处置212。规则440可以采用矩阵、查找表、记分卡、非确定性有限状态自动机、决策树或者这些或其他决策逻辑的任意组合的形式。

处置212可以包括指令或建议，用于：

a)设置与数据源150A类似的文件被全然摄取的规则。

b)分割来自数据源150A的文件，并且仅摄取符合特定标准的部分。

c)从数据源150A摄取整个文件，但是使用特定于源的质量等级指示符来标记数据。

d)设置来自数据源150A的文件总是被拒绝的规则。

e)暂且从数据源150A中摄取文件，但保留该文件以待另外的确证，并且经由功能210触发目标web发现。

还要注意，表格4中所示的表432的示例是具有值和权重的二维参考表，但这仅是示例性的。处理435可以经由规则440采用其他处理，如表驱动查找和非确定性有限状态自动机，以便实现处置212。

再次参照图2，方法200，在完成处理205之后，方法200进行至处理215。

处理215接收数据源150A和处置212的形式的数据，并且执行对接收到的数据进行细分和过滤的处理，以产生提取的数据217。在这点上，处理215使用由处理205即处置212生成的数据，用于：

a)使数据源150A有资格；

b)将数据源150A的内容划分成有意义的子集；以及

c)将来自数据源150A的数据摄入至作为数据的消费者的下游处理220中。

处理220接收提取的数据217，并且将提取的数据217发送至下游处理(未示出)。

方法200还执行功能225以生成经验性的例如统计和定性的例如用户接受的反馈，并且将反馈返回到处理205，以便改进处理205。功能225由处置212、质量表432、混杂特性表420和属性表403通知(即，从其获取输入)。功能225由处理215的处置212的处理触发。

方法200还执行功能210作为异步和潜在的连续处理。功能210使用在处理205中生成的数据即处置212、质量表432、混杂特性表420和属性表403，例如经由自动化web发现来探索新的和现有的数据源150。该数据将是功能210的输入，以便触发、引导或约束自动化数据源发现处理。例如，该智能可以采取“差距识别”(其识别其中迄今为止摄取的语料库中的数据被观察到(除其他之外)不足、质量低下或由于“老化”而价值递减的区域)或“模拟生成”(其基于相似或类似的数据源类别的识别以及类别的功效、一致性或真实性的确定来将数据源类别作为目标)的形式。

功能210配置和执行外部数据发现例程、应用和功能。功能210为这些数据发现处理提供输入，使得它们用于增加由方法200先前接收的数据。这种输入的示例是可以从其获得期望数据的网站的统一资源定位符(URL)，以及基于数据源150A的内容的搜索项的列表。

系统100允许对新数据源特别是非结构化数据的自动化、可配置、可重复和适应性利用。由于系统100在运行时完全自动化，因此可扩展，并且因此允许大幅提高数据摄取管理的效率、速度和一致性。

为了说明方法200的执行的示例，我们将从源文件EX1开始，如下表5所示。

表格5

(源文件EX1)

表格6示出了源文件EX1的属性表403。

表格6

(源文件EX1的属性表403的示例)

属性	值
		文件类型	文本
分隔	是的
		源	GNIP
格式	GNIP01
		创建日期：	2015年7月1日
编码	UTF-8

表格7示出了源文件EX1的混杂特性表420。

表格7

(源文件EX1的混杂特性表420的示例)

度量	值
		新词流行性	AG7
语法变异	0.88
		标点符号得分	55
讽刺/诚意范围	-3
		情绪	-0.95
拼写特质	高
		模糊得分	0
媒体同质性	1.0

在混杂特性表420到数据片段“去尝试新的可乐风味。不。”的填充中，处理415将执行包括沿表格8所示的行的内容的语义分析的分析。

表格8

(为填充混杂特性表420而执行的分析示例)

表格8中呈现的分析是由处理415执行的算法和统计分析的“简单英语”解构。该分析将被用于填充新词流行性，因为词“去(Gonna)”和“不(NOT)”是他们所使用的方式下的新词，但实际上本身并不是新词。这也显示了为什么新词流行性的得分不仅仅是简单的数字。新词是关于新词和旧词的新用法两者。标点符号得分也将受到示例中标点符号的使用的影响，即句号和大写一致使用。讽刺/诚意范围在此非常相关，并且受到使用“NOT”的重大影响，以否定前面的陈述并表示讽刺。虽然总体构想是“诚意的”，但是该数据整体来说具有非常低的诚意，因为意在明确传达消极的意图。

注意，表格8中给出的分析是为本示例的目的而创建的“简写”。处理415将使用多个复杂的功能来隔离短语，执行语义分析并且补偿混杂特性。还要注意，处理415执行分析并且记录整个文件或数据源上的结果。

表格9示出了具有最右列中示出的源文件EX1的得到的“百分比得分”的质量表432的结果，以便允许对处理435的执行和规则440的简单表示。在实践中，计算处理和算法将是可配置的，并且通常比表格9中的示例复杂得多。

表格9

(源文件EX1的质量表432的示例)

度量	值	权重	得分
				新词流行性	AG7	10	34
语法变异	0.88	50	44
				标点符号得分	55	1	55
讽刺/诚意范围	-3	77	23
				情绪	-0.95	30	33
拼写特质	高	70	80
				模糊得分	0	60	0
媒体同质性	1.0	44	44
				语言	1	80	80
源	S1	55	23
				年龄	76	44	50

表格10示出了处置212的“简明英语”解释。

表格10

(源文件EX1的处置212的示例)

1	用作原始种子记录	假
			2	用作确证记录	真
3	与商业数据库匹配	假
			4	与联系人数据库匹配	真
5	根据表面所见的真实性指数	0.1
			6	用作用于自动发现的种子	假
7	用作用于[方法100]规则调整的种子	真

注意，在表格10中，条目6指示功能210将不被该数据(或将来来自该源的数据)触发，并且条目7指示功能225将由处理源文件EX1的方法100中生成的数据催化。

本文描述的技术是示例性的，并且不应被解释为暗示对本公开内容的任何特定限制。应当理解，本领域技术人员可以设计出各种替代方案、组合和修改。例如，除非另有说明或由步骤本身规定，否则可以以任何顺序执行与本文所述处理相关联的步骤。本公开内容旨在包括落入所附权利要求的范围内的所有这样的替代方案、修改和变化。

术语“包括(comprises)”或“包括(comprising)”将被解释为指定所述特征、整体、步骤或部件的存在，但不排除存在一个或更多个其他特征、整体、步骤或部件或者其群组的存在。术语“一(a)”和“一个(an)”是不定冠词，因此不排除具有多种冠词的实施方式。

Claims

1.一种方法，包括：

从数据源接收数据；

根据规则对所述数据源进行归属，从而产生属性；

分析所述数据以识别所述数据中的混杂特性；

计算所述属性的定性度量，从而得到加权属性；

计算所述混杂特性的定性度量，从而产生加权混杂特性；

分析所述加权属性和所述加权混杂特性，以产生处置；

根据所述处置过滤所述数据，从而产生提取的数据；以及

将所述提取的数据发送至下游处理。

2.根据权利要求1所述的方法，还包括：

基于所述处置生成反馈；以及

基于所述反馈改进所述方法。

3.根据权利要求1所述的方法，还包括：

基于所述处置来配置和执行自动数据发现处理以发现新的数据源；以及

探索所述新的数据源。

4.根据权利要求1所述的方法，其中，在选自实体提取、语义消歧、情感分析、语言提取、语言转换和基本元数据的维度上进行所述分析。

5.根据权利要求1所述的方法，其中，所述混杂特性选自讽刺、新词、语法变异、不恰当措辞的文本、标点符号、多语种数据、拼写、模糊、加密、上下文以及媒体组合的使用。

6.根据权利要求1所述的方法，其中，所述处置选自：(a)设置与所述数据源类似的文件被全然摄取的规则，(b)分割来自所述数据源的文件并仅摄取符合特定标准的部分，(c)从所述数据源中摄取整个文件，但是使用特定于源的质量等级指示符来标记数据，(d)设置来自所述数据源的文件总是被拒绝的规则，以及(e)暂且从所述数据源中摄取文件，但保留所述文件以待另外的确证。

7.一种系统，包括：

处理器；以及

存储器，其包含能够由所述处理器读取以使所述处理器执行以下操作的指令：

从数据源接收数据；

根据规则对所述数据源进行归属，从而产生属性；

分析所述数据以识别所述数据中的混杂特性；

计算所述属性的定性度量，从而产生加权属性；

计算所述混杂特性的定性度量，从而产生加权混杂特性；

分析所述加权属性和所述加权混杂特性，以产生处置；

根据所述处置过滤所述数据，从而产生提取的数据；以及

将所述提取的数据发送至下游处理。

8.根据权利要求7所述的系统，其中，所述指令还使所述处理器：

基于所述处置生成反馈；以及

基于所述反馈改进所述方法。

9.根据权利要求7所述的系统，其中，所述指令还使所述处理器：

探索所述新的数据源。

10.根据权利要求7所述的系统，其中，使所述处理器分析所述数据的所述指令使所述处理器在选自实体提取、语义消歧、情感分析、语言提取、语言转换和基本元数据的维度上分析所述数据。

11.根据权利要求7所述的系统，其中，所述混杂特性选自讽刺、新词、语法变异、不恰当措辞的文本、标点符号、多语种数据、拼写、模糊、加密、上下文以及媒体组合的使用。

12.根据权利要求7所述的系统，其中，所述处置选自：(a)设置与所述数据源类似的文件被全然摄取的规则，(b)分割来自所述数据源的文件并仅摄取符合特定标准的部分，(c)从所述数据源中摄取整个文件，但是使用特定于源的质量等级指示符来标记数据，(d)设置来自所述数据源的文件总是被拒绝的规则，以及(e)暂且从所述数据源中摄取文件，但保留所述文件以待另外的确证。

13.一种存储装置，包括能够由处理器读取以使所述处理器执行以下操作的指令：

从数据源接收数据；

根据规则对所述数据源进行归属，从而产生属性；

分析所述数据以识别所述数据中的混杂特性；

计算所述属性的定性度量，从而产生加权属性；

计算所述混杂特性的定性度量，从而产生加权混杂特性；

分析所述加权属性和所述加权混杂特性，以产生处置；

根据所述处置过滤所述数据，从而产生提取的数据；以及

将所述提取的数据发送至下游处理。

14.根据权利要求13所述的存储装置，其中，所述指令还使所述处理器：

基于所述配置生成反馈；以及

基于所述反馈改进所述方法。

15.根据权利要求13所述的存储装置，其中，所述指令还使所述处理器：

探索所述新的数据源。

16.根据权利要求13所述的存储装置，其中，使所述处理器分析所述数据的所述指令使所述处理器在选自实体提取、语义消歧、情感分析、语言提取、语言转换和基本元数据的维度上分析所述数据。

17.根据权利要求13所述的存储装置，其中，所述混杂特性选自讽刺、新词、语法变异、不恰当措辞的文本、标点符号、多语种数据、拼写、模糊、加密、上下文以及媒体组合的使用。

18.根据权利要求13所述的存储装置，其中，所述处置选自：(a)设置与所述数据源类似的文件被全然摄取的规则，(b)分割来自所述数据源的文件并仅摄取符合特定标准的部分，(c)从所述数据源中获取整个文件，但使用特定于源的质量等级指示符来标记数据，(d)设置来自所述数据源的文件总是被拒绝的规则，以及(e)暂且从所述数据源中摄取文件，但保留所述文件以待另外的确证。