CN105393263A

CN105393263A - 计算机-人交互式学习中的特征完成

Info

Publication number: CN105393263A
Application number: CN201480039790.2A
Authority: CN
Inventors: P·Y·西马德; D·M·奇克林; D·G·格朗吉耶; D·X·查理; L·布特欧; C·卡西亚胡拉多苏亚雷斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-07-12
Filing date: 2014-07-11
Publication date: 2016-03-09
Anticipated expiration: 2034-07-11
Also published as: US9355088B2; CN105393263B; EP3020005A1; US9779081B2; CN105393265A; WO2015006254A3; EP3020005B1; US20190213252A1; US20150019204A1; WO2015006631A2; US20150019463A1; US20160239761A1; US20150019460A1; EP3020008A2; WO2015006253A1; WO2015006254A2; WO2015006632A2; CN105378764B; US9582490B2; US20170039486A1

Abstract

非常大的数据集合很难进行搜索和/或分析。可以通过将查询和网页自动地分类成有用的类型，并使用这些分类评分作为相关特征，来显著地提高相关性。一种彻底的方法可能需要构建很大数量的分类器，它们对应于各种类型的信息、活动和产品。关于较大的数据集，提供分类器和架构器的生成。分类器和架构器关于数以亿计的项目进行练习，可以通过增加可使用的元数据来揭示该数据固有的值。一些方面包括主动标注探索、自动正则化和冷启动、随着项目数量和分类器数量进行扩充、主动特征化、以及分割和架构化。

Description

计算机-人交互式学习中的特征完成

背景技术

非常大的数据集合很难进行搜索和/或分析。例如，在网页的情况下，相当大的一部分的数据是未结构化的，并且值锁定在数据本身之中。存储服务提供商的网页是不够的。由于该信息是有用的，因此需要进行理解。根据上下文，数字串可以是模型编号、银行账号或者电话号码。例如，在滑雪产品的背景下，字符串“长度：170、175、180cm”指代3个不同的滑雪板长度，而不是1700公里的滑雪长度。该数据的不正确解释可能导致无用的信息。

举例而言，如果用户在互联网搜索引擎中输入两个词语“mtor”和“stock”，结果主要由与药物mTor有关的网页来构成，搜索引擎没能将该搜索识别成股票报价查询。再举一个例子，如果用户在互联网搜索引擎中输入两个词语“西雅图”和“寿司”，结果主要是由与位于西雅图的酒店有关的网页来构成，搜索引擎没能将该搜索识别成餐馆查询。虽然互联网搜索引擎通常执行合理的工作来进行标题查询和文档，但由于搜索引擎不能自动地理解该信息，因此准确性在尾部快速地下降。

发明内容

如果可以将查询和网页自动地分类在诸如股票报价或餐馆之类的有用类型中，并且如果这些分类评分被使用成相关特征，则可以显著地提高搜索结果的相关性。一种彻底的方法可能需要构建很大数量的分类器，它们对应于各种类型的信息、活动和产品。可以进一步将分类器的数量与语言的数量和上下文(查询、网页、广告片段、产品提要等等)的数量进行相乘。可以期望将分类和架构化任务中的计算机准确性带入到人类水平，使普通人能够容易地生成他们自己的计算机克隆(clone)，以成规模地执行这些任务。举一个例子，可以提供一种工具，该工具被优化，以允许关于数小时之内的大数据集合来生成分类器和架构器。当这些分类器和架构器关于数以亿计的项目(item)进行练习时，它们可以通过增加可使用的元数据来揭示该数据固有的值。这种工具的一些应用包括搜索、广告和商业。

如本文所使用的术语架构化(schematization)指代识别和填充Schema中的字段的动作。例如，一个食谱(recipe)的架构可以由四个字段构成：标题、描述、用料和制法。网页的针对该食谱架构的架构化是将该网页分割成该食谱架构的一个或多个实例，并相应地填充这些字段的动作。

互联网搜索引擎已尝试构建数百的分类器和实体提取器，以理解查询、网页和广告。不幸的是，当前方法的功效受到机器学习专家数量、编程人员的数量和任务复杂度的限制。

人类善于从数据中提取语义含义。特别是当该数据为他们撰写由他们撰写时，这种情形尤其成立。例如，他们可以容易地对网页、查询或者产品提要进行标注(或分割)。不幸的是，人们不能成规模地做这些事情。按照每一网页十秒钟，一个人也不具有足够长的生命时间来筛选1亿个网页，以识别与给定的主题有关的所有网页。计算机具有恰好相反的能力。它们在语义理解方面很弱，但它们在成规模地做事情方面很突出。本文所描述的方法背后的哲学理念是构建利用人类和计算机二者的优势的高度互动和直觉的系统。“高度互动”意味着人类输入的标记或特征应当对于计算具有立即的影响。在数秒之内，其应当影响哪些错误发生或者被避免，下一次应当标注哪一项，用户应当聚焦于哪个特征，以及应当增加或者删除架构中的哪个字段。“直觉”意味着用户应当理解他们的动作的效果，以及在不需要机器学习或者编程专门知识的情况下，如何实现他们的目标。该方法需要来自计算机和人类的循环。这些循环可以通过快速的机器学习“修订”来紧密地交织。人指导计算机，反之亦然。

效率的另一个方面是在其他人的工作之上进行构建的能力。对于网络的爆炸式发展的重要贡献是“查看源”和复制粘贴能力。在机器学习中，复制粘贴能力来自于以下的事实：经训练的分类器对于其它分类器而言可以被使用成特征。通过生成可搜索和文档化的分类器仓库，人们能够在彼此的工作之上进行构建。这应用于分类器和架构器二者。

附图说明

图1根据本发明的实施例，描述了一种示例性操作环境；

图2根据本发明的实施例，描述了表示可搜索数据项语料库的示例性数据集；

图3根据本发明的实施例，描述了一种示例性概率图；

图4根据本发明的实施例，描述了一种示例性主动标注探索信息流；

图5根据本发明的实施例，描述了示例性采样分布；

图6根据本发明的实施例，描述了示例性主动标注探索扩充的概括；

图7根据本发明的实施例，描述了一种示例性分类功能；

图8根据本发明的实施例，描述了一种示例性界面；

图9根据本发明的实施例，描述了街道地址的示例性分割；

图10根据本发明的实施例，描述了分割器的示例性网格表示；

图11根据本发明的实施例，描述了从网页中已提取的地址的示例性部分；

图12根据本发明的实施例，描述了用于提取地址的示例性有限状态机；

图13根据本发明的实施例，描述了用于计算路径概率的示例性有限状态机网格；

图14根据本发明的实施例，描述了示例性网格边权重函数；

图15根据本发明的实施例，描述了示例性有限状态机模块；

图16根据本发明的实施例，描述了一种示例性有限状态机；

图17根据本发明的实施例，描述了用于地址的二进制标注的系统的示例性屏幕截图；

图18根据本发明的实施例，描述了在用于地址的二进制标注的系统中的示例性搜索结果；

图19根据本发明的实施例，描述了用于地址的二进制标注的系统的示例性屏幕截图；

图20根据本发明的实施例，描述了用于地址的二进制标注的系统的示例性屏幕截图；

图21根据本发明的实施例，描述了标注查看面板的示例性屏幕截图；

图22根据本发明的实施例，描述了用户标注的文档中的模型预测的示例性屏幕截图；

图23根据本发明的实施例，描述了一种标注工具的示例性屏幕截图。

具体实施方式

本文所描述的方法产生大量的工程和科学挑战，下面将进行讨论。这些挑战包括：

●主动标注探索

●自动正则化和冷启动

●随着项目数量和分类器数量进行扩充

●主动特征化

●分割和架构化

在第一方面，提供了包含计算机可使用指令的计算机可读介质，以有助于实现用于机器学习的特征完成的方法。存储第一组数据项，其中，每一个数据项包括词语的文本流。访问字典，其中，该字典包括词语的列表，该词语定义可作为用于训练机器学习模型的输入特征来使用的概念，以利用数据项成为特定类型的数据项的正面(positive)例子或者负面(negative)例子的概率来对数据项进行评分。提供特征，其中该特征已经被训练以用于确定位于给定词语位置的词语与由字典中的词语所定义的概念在语义上相对应的概率。利用该字典作为输入特征，对机器学习模型进行训练。该训练包括：A)针对数据项中的文本流中的给定词语位置，使用所提供的特征来计算位于该给定词语位置的词语与由字典中的词语所定义的概念在语义上相对应的第一概率，B)检查该给定词语位置的上下文，其中，上下文包括挨在该给定词语位置之前的多个词语和跟在该给定词语位置之后的多个词语，C)基于该给定词语位置的上下文中的词语的一函数，计算位于该给定词语位置的词语与由字典中的词语所定义的概念在语义上相对应的第二概率，以及D)基于所计算的第一概率，修改所述函数以调整所计算的第二概率。

所述给定词语位置的上下文可以不包括所述给定词语位置。修改所述函数以调整所计算的概率可以包括：A)当位于所述给定词语位置的词语处于字典之中时，修改所述函数以增加所述概率；B)当位于所述给定词语位置的词语不处于字典之中时，修改所述函数以减小所述概率。所述机器学习模型可以包括分类器和架构器中的至少一个。所述上下文可以是包括紧挨在所述给定词语位置之前的多个词语和紧跟在所述给定词语位置之后的多个词语的滑动窗。所计算的第一概率可以是第一概率的估计量。

另外，该方法可以包括以下操作中的一项或多项：A)确定来自给定列表的任何词语是否出现在所述给定词语位置周围的文本窗的中心，其中该文本窗中的中心词语已被删除；B)确定在所述窗中存在动词还是不存在动词；C)确定存在后面跟着形容词的名词还是不存在后面跟着形容词的名词；或者D)确定给定词语在所述窗中出现的数量。

在第二方面，提供了包含计算机可使用指令的计算机可读介质，以有助于实现用于机器学习的特征完成的方法。存储第一组数据项，其中，每一个数据项包括词语的文本流。访问字典，其中，该字典包括词语的列表，该词语定义可作为用于训练机器学习模型的输入特征来使用的概念，以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分。利用该字典作为输入特征，对机器学习模型进行训练，其中，所述训练包括：针对第一组数据项中的每一个数据项，A)针对数据项中的文本流中的第一词语位置，检查以该文本流中的第二词语位置为中心的文本窗，其中，该文本窗包括一个或多个词语，B)基于该文本窗中的所述一个或多个词语，使用一概率函数来计算在第一词语位置处存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法(n-gram)的概率，C)确定在第一词语位置处实际存在或者不存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法，以及D)基于所确定的实际存在或者不存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法，修改所述概率函数以在正方向或负方向上调整所述概率。

当所述文本窗重叠第一词语位置时，可以从所述文本窗中排除位于第一词语位置的一个或多个词语，并且第二词语位置可以与第一词语位置不同或者与第一词语位置相同。

所述文本窗可以是包括紧挨在给定词语位置之前的多个词语和紧跟在该给定词语位置之后的多个词语的滑动窗。

修改所述概率函数以调整所述概率可以包括：当所述分离的一个或多个n元语法与由字典中的词语所定义的概念在语义上相对应时，修改所述概率函数以增加所述概率。修改所述概率函数以调整所述概率可以包括：当所述分离的一个或多个n元语法与由字典中的词语所定义的概念在语义上不相对应时，修改所述概率函数以减小所述概率。

在第三方面，提供了包含计算机可使用指令的计算机可读介质，以有助于实现用于机器学习的特征完成的方法。存储第一组数据项，其中，每一个数据项包括词语的文本流。提供字典，其中，该字典包括词语的列表，该词语定义可作为用于训练机器学习模型的输入特征来使用的概念，以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分。提供特征，其中该特征被训练以用于计算在一个或多个词语的流中，存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法的第一概率。使用该特征来确定在一个或多个词语的流中，存在分离的一个或多个n元语法的第一概率，其中在该数据项中的给定词语位置处，所述一个或多个n元语法与由字典中的词语所定义的概念在语义上相对应。提供机器学习模型，其中该机器学习模型可被训练以基于在确定第一概率时所述特征没有使用的数据项中的一个或多个词语，来计算在给定词语位置处的一个或多个词语的流中，存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法的第二概率。使用该机器学习模型以基于在确定第一概率时所述特征没有使用的数据项中的一个或多个词语，来确定在给定词语位置处的一个或多个词语的流中，存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法的第二概率。确定在给定词语位置处实际存在或者不存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法，并基于所确定的实际存在或者不存在与由字典中的词语所定义的概念在语义上相对应的、分离的一个或多个n元语法，修改所述机器学习模型以在正方向或负方向上调整第二概率。

所述特征可以确定在文本流中的每一个考虑的位置处存在分离的一个或多个n元语法，而机器学习模型输入可以包括所考虑的位置周围的文本窗，其中删除了该文本窗中的中心词语。另外，该特征可以是在字符串上操作的正则表达式，以便在每一个考虑的位置处语义地预测字符串中的文本的匹配位置，而机器学习模型输入可以包括所考虑的位置周围的文本窗，其中删除了该文本窗中的中心词语。

修改所述机器学习模型以调整所计算的概率可以包括：当存在所述分离的一个或多个n元语法时，在正方向调整所计算的概率。修改所述机器学习模型以调整所计算的概率可以包括：当不存在所述分离的一个或多个n元语法时，在负方向调整所计算的概率。

所述特征可以确定以下中的一项或多项：A)来自给定列表的任何词语是否出现在所述给定词语位置周围的文本窗的中心，其中该文本窗中的中心词语已被删除；B)在所述窗中存在动词还是不存在动词；C)存在后面跟着形容词的名词还是不存在后面跟着形容词的名词；或者D)给定词语在所述窗中出现的数量。使用所述特征没有利用的数据项中的一个或多个词语可以包括：使用包括紧挨在给定词语位置之前的多个词语和紧跟在该给定词语位置之后的多个词语的文本窗。该文本窗可以是滑动窗。

在简要描述了本发明的一些方面的概述之后，下面将描述适合于在实现本发明的一些方面时使用的示例性操作环境。

具体而言，首先参见图1，通常将用于实现本发明的一些实施例的示例性操作环境示出并指定成计算设备100。计算设备100仅仅只是适当的计算环境的一个例子，其并不是旨在建议关于发明实施例的使用或者功能的范围的任何限制。也不应当将计算环境100解释成具有任何依赖性，或者具有与所示出的组件中的任意一种或组合有关的需求。

可以在由计算机或其它机器(例如，个人数据助理或其它手持设备)执行的计算机代码或者机器可使用指令(其包括诸如程序模块之类的计算机可执行指令)的通常背景下，描述本发明的一些实施例。通常，包括例程、程序、对象、组件、数据结构等等的程序模块，指代执行特定任务或者实现特定的抽象数据类型的代码。可以在各种各样的系统配置下(其包括手持设备、消费电子产品、通用计算机、特殊用途计算设备等等)，实现本发明的一些实施例。此外，本发明的一些实施例还可以在分布式计算环境下实现，其中在分布式计算环境下，任务由通过通信网络来连接在一起的远程处理设备来执行。

参见图1，计算设备100包括对下面的设备进行直接或间接耦合的总线110：存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口118、输入/输出组件120和示例性电源122。总线110表示其可以是一个或多个总线(例如，地址总线、数据总线或者其组合)。虽然为了清楚说明起见，利用线来示出图1中的各个块，但在现实中，描绘各个组件并不是如此清晰，打个比方，这些线更准确地是灰的和模糊的。例如，可以认为诸如显示设备之类的呈现组件是I/O组件。此外，处理器具有存储器。应当认识到，这是本领域的本质，并且重申一下，图1的图形描述只是可以结合本发明的一些实施例使用的示例性计算设备的举例。不在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等等的类别之间进行区分，所有这些都预期落入图1的范围之中，并引用为“计算设备”。

通常，计算设备100包括各种各样的计算机可读介质。举例而言而非做出限制，计算机可读介质可以包括随机存取存储器(RAM)；只读存储器(ROM)；电可擦除可编程只读存储器(EEPROM)；闪存或者其它存储器技术；CDROM、数字多功能光盘(DVD)或者其它光或全息介质；盒式磁带、磁带、磁盘存储或其它磁存储设备、载波波形、或者可以用于对期望的信息进行编码并由计算设备100进行访问的任何其它介质。

存储器112包括具有易失性和/或非易失性存储器的形式的计算机存储介质。该存储器可以是可移动的、不可移动的或者二者的组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器。呈现组件116向用户或其它设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。

I/O端口118允许计算设备100逻辑地耦合到包括I/O组件120的其它设备，这些组件中的一些可以内置。示例性组件包括麦克风、操作杆、游戏平板、卫星接收器、扫描仪、打印机、无线设备等等。

I.ALE(主动标注探索)挑战

关于非常大的数据集构建分类器(或架构器)带来独特的挑战：应当从哪个分布中提取训练集？在观察了数百万样本之后，从真实分布中随机地选择项目并不能产生任何正面例子。有偏采样可能产生更多的正向性，但可能不是真实分布的这样特性，当部署到真实世界时，所获得的分类器可能不能很好地执行。考虑一虚构场景，在该虚构场景中任务是构建分类器以便在网络上寻找烹饪食谱网页。网页的随机选择可能不能返回任何食谱(即使在观看了一百万网页之后)。针对词语“食谱(recipe)”的搜索将返回食谱的有偏样本(其将找到“数值算法(NumericalRecipes)”，并遗漏“烹饪冒险”)。具有四个阶段(数据收集、标注、训练和特征化及调整、部署)的传统开发是次优的，其可能导致一些灾难。例如，可能在部署期间发现分类器遗漏了很多民族食谱，而返回了水泥搅拌页面作为烹饪食谱。分类器没有过错。问题在于采样和问题形成。利用均匀采样进行训练的分类器将快速地学习到：不变的回答“非食谱”对于该分布足够好。聪明的操作者可以稍稍调整该分布以构建更有用的分类器，但这将引入暴露该操作者的无知的偏差。例如，操作者可能不具有非洲食谱的知识，直到该系统被部署并且用户开始抱怨为止。从操作者的观点来看，世界看起来类似图2中的图片。图2示出了用于表示要搜索的数据语料库的示例性数据集210(“大数据”)。(整个椭圆之中的)区域212表示操作者了解的正面例子。区域214(两个椭圆中的全部区域)表示语料库210中的所有正面例子。(整个椭圆之中的)区域216表示分类器标注成正面例子的例子。区域218(区域216中的区域214的相对补集，即，区域216的不包含在区域214中的部分)表示被分类器误标注成正面的例子(假正面)。

问题是如何对系统进行部署，其中该系统能关于人们不知道存在的数据进行很好地执行。一种观察在于只要操作者能按需地对项目进行正确分类，他/她可以对该分布一无所知。主动标注探索(ALE)算法是基于该观察。标注是将数据或者数据的模式分类成属于特定的类型的过程，例如，标注“321市场街”作为地址的一部分。使用从真实分布中提取的很大的未标注数据集(还没有对其执行标注过程的数据)，来执行主动标注探索。在每一个标记(或者几个标记)之后，利用新标记对分类器进行重新训练，对很大的未标注数据集(例如，数千万或数亿的未标注模式)进行重新评分。随后，系统根据它们的评分，选择接着要进行标注的模式。为了该方法进行工作，需要解决冷启动问题(即，发现正面“供给”)。

在一个方面，集成的交互式标注系统包括标注组件、训练组件、评分组件、采样组件和搜索引擎组件。集成的交互式标注系统还可以包括一个或多个其它特征，例如，其中搜索引擎是基于关键词搜索；搜索引擎使用特征评分作为过滤器；在无需操作者进行触发的情况下，自动地进行训练和评分；或者其中可以异步地执行评分和采样。

在另一个方面，集成的交互式标注系统包括标注组件、训练组件、评分组件和采样组件，其中可以将标注作为服务进行卸载，用泛化增益(generalizationgain)来衡量标注质量。集成的交互式标注系统还可以包括其它特征，例如，其中多类型标注包括多个二进制标注；或者其中近似同时地使用系统生成的预标记来标注多个样本，在系统中包括验证模式以查看根据置信度来分类的近似标注。

考虑构建用于网页的分类器的例子(该方法可以工作于查询、图像或者其它类型)。假定用户访问1亿个网页(本文称为工作集)。这些网页可以根据重要性进行偏置(例如，高页面排名)，但不根据要旨在构建的分类器的本质来进行偏置。既不对这些网页进行标注，也不进行排序。假定存在较小的并且有偏的正面和负面例子集合，可以利用具有合理泛化性能的这些例子对分类器进行训练。(下面将讨论对于利用具有良好泛化性能的小数据集合来训练分类器来说的“冷启动”挑战)。训练的结果称为“计分器”。计分器具有反映它们所训练的集合的版本号。只要第一计分器是可用的，则工作集的“评分操作”开始。该过程需要很大数量的计算能力。作为评分的结果，可以根据成为“X”的相应概率，来对项目进行排序，其中“X”是要构建的分类器的类型，即，其中“X”是该特征或者标记的正面例子。

图3示出了项目310的数量对比一个项目是“X”的概率P312的示例性图300。如图3中所示，如果基于给定的计分器所产生的评分来采样工作集，则可以进行下面的观察：

●标注P＝0周围的项目产生较小的价值。存在很多的这些项目，已经知道它们不是期望的类型。

●标注P＝1周围的项目产生多一点的价值，但这些项目是非常稀少的。找到它们要花费较长的时间(可能需要对整个工作集进行评分)，需要浸入更低的概率来发现要标注的项目。这种情况假定类似上面所示出的情形的分布(如果该分布偏重于另一个方向，则反转P＝0和P＝1)。

●在P＝0.5周围进行标注有时可能是高代价的，其可能产生较少的信息(如果类型边界是固有地模糊的话)。

●在P＝0.75周围进行标注，在每4个项目中发现一个假正面。这种区域下的标注提高查准率。

●在P＝0.25周围进行标注，在每4个项目中发现一个假负面。这种区域下的标注提高查全率。

图5示出了分别在0.25和0.75的概率周围的采样分布的例子。例如，为了在0.75周围采样，可以根据相应的评分，将所有的例子放置在1000个桶(bucket)中。第一个桶具有评分在0和0.001之间的所有例子，下一个桶具有评分在0.001和0.002之间的所有例子，等等。随后，可以向每一个桶分配采样概率，例如，图5的右侧。这种分布的例子会导致比率为25％的假正面。

ALE(主动标注探索)的目标是利用在数分钟或数秒之内运行的交互式循环，来替代时间较长并且艰巨的“数据收集、标注、训练和调节、部署”循环。

ALE具有同时进行运行的三个过程。它们是采样+标注、训练和评分，如表1中所示：

表1：3个并行的ALE过程(采样、训练和评分)

第一过程(采样+标注)由用户进行驱动。用户的任务是通过对系统所选择的项目进行标注，来提高查准率和查全率。用户对于训练和评分过程是不在意的。从用户的观点来看，系统简单地选择良好的模式来标注，分类器增加其关于日益增加的不同集合的泛化能力。用户可以选择针对查准率或者针对查全率来标注，或者该选择可以由系统来做出。

在这些场景背后发生的事稍微更加复杂。当收集到足够新的标记时，对(不同复杂度的)分类器系列进行重新训练。该系列中的最佳分类器变成最新计分器。评分是一项密集型计算过程。如果评分过程没有完成前一计分器的评分，则中断正在进行的评分，新的计分器首先以最旧评分为开始来继续对项目进行评分。根据任务和数据的大小，评分过程将花费数分钟或数小时。但是，期望的是，操作者应当不需要等待查询过程：在任何时间点，每一个项目应当具有评分(这些评分可以来自于具有不同版本的计分器)，所有评分应当位于存储器之中。由于查询是通过独立过程来进行的(分布在几个机器之上)，应当在亚秒时间之内完成所有这些评分之上的完全线性扫描(假定十亿个项目和100个机器)。训练和评分过程由独立的过程进行异步地运行，所以它们并不影响查询响应时间。如果自从产生上一次计分器以来，只对很少的项目进行了重新计分，则下一次应当对哪个项目进行标注的选择的质量降级。在图4中概括了ALE信息流。用户输入标示成“虚线”箭头。系统参数标示成点线箭头。一次上传数据416。标记418由用户提供，其为用户在训练期间所标识的词元(token)提供语义含义。

给定新的训练数据420和相应的标记418，训练422产生新的计分器424。新的计分器产生新的评分426，在过滤428之后，该新的评分426产生新的训练数据420。过滤器432可以包括下面将讨论的字典，还可以包括先前生成的分类器。

该循环继续，直到操作者确定计分器的性能提高与标注成本相比是不再值得的。结果是新分类器430。

在主动特征化的讨论中，下面将讨论图4中描述的“特征函数”输入410。图4中所描述的“探索查询”输入412的目的是针对冷启动问题和针对探索(重复的冷启动)，如下面参照冷启动所描述的。系统的“超参数”输入414与自动正则化有关，其也在下面进行讨论。

返回到图3，在一个实施例中，通过对P＝0.75周围的数据进行过滤以提高查准率和对P＝0.25周围的数据进行过滤以提高查全率，系统来进行采样。这些门限是可调整的。如先前所提及的，图5描述了根据评分520的采样分布510的示例性图500。与针对0和1之间的所有评分进行例如均匀采样相比，这种交替的策略证明是更有用的。

A.交互式问题定义精练

分类化的语义含义可以根据探索来改变。ALE提供对于在执行期间的任务进行演化的灵活性。例如，起始目标可以是构建“主页”分类器。但随着系统发现诸如社交媒体页面、讣告、事件、以及在探索期间以单个个体为中心的其它页面，则需要对什么是主页的定义进行精练。这可以在运行ALE循环时，容易地交互式执行。

在任务启动时，构建能关于不知道的数据进行很好地执行的分类器，看起来像是一项难以达到的目标。但是，经验显示当开始标注时，人是值得信任的(即使在开始估计分布的形状时，他们是无知的)。如果人与经由探索方式来聪明地探查分布的系统进行配对，则可以构建非常健壮的系统。ALE算法利用计算机的规模化能力和人类能力，通过标注来提供语义含义。

主动学习具有挑战。在主动学习算法中通常遇到的潜在问题，包括：不确定性采样的脆弱性、模型选择(调整针对可用数据的容量)、探索、主动特征化、分离的类型和冷启动。本文所描述的ALE系统并不具有不确定性采样的脆弱性，这是由于其并不聚焦于判别边界。下面将讨论自动正则化(模型选择)和冷启动。在后续章节中，将描述主动特征化和其如何补充主动标注。

1.不均衡数据和可达性

通常将主动学习视作为增加在具有固定数量特征的固定大小集合上的标注效率的方式。在典型的机器学习设置中，目标是提高准确性。本文所描述的重点不同，因为其涉及：提供一种探索工具，该探索工具将帮助用户增加标记和特征，以生成有价值的分类器或架构提取器。利用具有不均衡类型的大数据，仅仅将观察一小部分的数据，而一些有价值的正面或负面可能从未被发现。当它们被发现时，也可以假定分布发生了改变。当在运行中发现该分布时，违反了机器学习所依赖的基本假定(针对训练和测试集的IID采样)。如果正面的数量是T，数据的大小是N，则不能在没有对多个模式(其数量与N/T成正比)进行标注的情形下，对查全率进行估计。如果T<<N，则可能从不知道查全率是多少。不能够证明在整体分布上的学习收敛。

但是，可以通过称为可达性的测量方式，对整体分类器进度进行测量。如本文所定义的，可达性是被分类器分类成正面的正面数量。令S是分类器所估计的正面集合(图2中的椭圆216中所描述的)：

S＝{d：分类器输出是正面}

令T是总数据集中的真实正面的集合(图2中的椭圆216中所描述的)：

T＝{d：d是正面}

转而，可达性(R)是分类器所估计的正面集合中的真实正面的数量(如图2中的椭圆216和214的交叉部分所描述的)：

R＝[S∩T|

可以依据查全率或者查准率来表示可达性，如ρ＝r|T|＝φ|S|，其中r是分类器的查全率，φ是分类器的查准率。但是，由于集合T是未知的，因此在该情况下，不能直接计算查全率。但是，由于T是固定的，因此可达性直接与查全率成比例。为了增加分类器的查全率，可以替代地增加可达性。因此，分类器构建任务的目标，可以依据可达性和查准率来用公式表达。

例如，令是S中的查准率，即，将S中的真实正面的数量(图2中的椭圆216和214的交叉部分)除以S的大小：

并且令r是S中的查全率，或者S中的真实正面的数量除以数据集中的真实正面的总数量：

r = \frac{| S \cap T |}{| T |}

可以通过对S中的例子的随机子集(或者全部)进行标注，来计算的估计量数量估计系统所发现的正面的数量。由于T是未知的，因此不能计算查全率但是，使用查准率的估计量和与查全率成正比的估计量可以跟踪系统的前向整体进度。按照固定的(或者非降低的)查准率，增加可达性将增加查全率。按照固定的(或者非降低的)可达性增加查准率，也增加不变(或者增加的)查全率的查准率。

存在也可以用于测量进度的其它标准。例如，如果通过探索发现的大部分误分类的模式是模糊的，则分类器能关于查准率进行很好地工作；如果通过增加特征能容易地处理大部分误分类模式，则分类器也很好地探索。

a.估计可达性

可以基于标注策略和未标注示例的评分分布，对可达性进行估计。举一个它的例子，令L是标记集合，U是总体，S是评分≥τ(设置的门限)的模式(图2中的椭圆216中的全部区域)。假定根据以样本的评分为条件的概率分布，通过采样来定义标注策略，则可以针对每一个文档w∈U，计算采样的概率p_s＝Pr[w∈L|score(w)＝s]。

令

n_s＝｜T∩{w：score(w)＝s}|

是具有评分s的正面的数量，并且令

m_s＝|L∩T∩{w：score(w)＝s}|

是具有评分s的已标注正面的数量。针对已标注正面的数量的期望值，可以写成：

E[m_s]＝n_sp_s

因此，由于ρ＝|T∩S|＝∑_s≥τn_s，所以可达性可以通过下式来估计：

ρ = \underset{s &GreaterEqual; τ}{Σ} \frac{E [m_{s}]}{p_{s}} = E [\underset{s &GreaterEqual; τ}{Σ} \frac{m_{s}}{p_{s}}]

例如，通过对标记集合进行子采样，可以对期望值进行估计。

注：可以通过以不相交的间隔来覆盖间隔[τ...1]，以多种不同的方式来执行上面的估计。不是所有的分解都相等，其在于：一些在估计时具有更小的误差条。

利用具有不均衡分布的大数据集，提高准确性，同时假定均匀采样的固定分布快速地达到减少返回的状态。更感兴趣的问题是将该分布视作为移动目标，并涉及操作者对其进行跟踪。从机器学习理论角度来看，这两个问题是非常不同的。工程挑战(规模化、处理、用户体验(UX))和科学挑战(探索度量、采样策略、修订训练等等)均会遇到。ALE算法解决这些挑战。

II.ARCS(自动正则化和冷启动)挑战

为了良好地工作，ALE算法需要一些标记、一些特征和早期分类器的良好泛化属性。这需要解决两个问题。首先，需要正面和负面例子，以及启动特征。这是冷启动问题。其由于处于不均衡分布而变得困难，正面(或者负面)例子可能是非常的稀少。例如，如果正面情形是小于百万分之一，则发现足够的它们来使分类器工作将是费时的(使用随机采样)。在不具有特征或者工作分类器的情况下，ALE算法是无帮助的。第二个问题是自动正则化。在只具有几个标记时，分类器需要进行大量地正则化以避免过度训练。正则化需要进行自动地调整，使得算法的复杂度可以与日益增加数量的标记相匹配。这可称为“热启动”问题。

A.冷启动

可以对该问题进行如下概括：假定在系统中已输入了相同类型T的通用例子的大型数据库，如何对它们进行区分？为了实现训练，需要一些特征(其中这些特征用于使项目进行彼此区分)，需要用于发现正面和负面例子的方式。通过提供实现IScorer<T>接口的模块，来解决该问题。IScorer模块可以由系统来提供，或者由工程人员来输入(例如，当收集数据时)。实现该接口的模块可以计算函数T→ScoreType，其中ScoreType是系统针对数据库中的所有项目所理解的类型(例如，0和1之间的浮点数)。随后，可以关于一些或者所有项目来计算评分，并可以对评分进行查询和分类。这允许操作者发现每一种类型的第一例子，照此对它们进行标注。IScorer模块还可以使用成分类器的第一特征。通过ALE算法，发生下一个循环。

如果数据类型是先验已知的，则可以提供特定于数据的一些标准系统特征。特定于数据的特征甚至可以从操作者接受参数。随后，这些特征可以用于区分、过滤、标注或者探索该数据。例如，如果这些例子是网页，则系统IScorer<WebPageType>可以是计算网页关于查询的相关性的模块。该查询是该特征的参数，并由操作者来提供。一旦该查询参数是固定的，则该模块在ALE算法下运行，因此针对每一个网页的相关性来评估每一个网页。与反向索引相比，这种实现是非常不高效的，但其具有通用的优点。不管数据类型T如何，操作者可以提供下面的内容：

●类型T的N个项目的收集。

●支持IScorer<T>接口的模块(例如，DLL)。

系统不需要理解类型T。可以在系统之外，对该模块进行参数化(所提供的dll包含查询项)，或者系统可以提供用于操作者在运行时间设置这些参数的方式(例如，查询)。

鉴于对文本理解的普遍需求，可以支持通用API(其中操作者可以输入实现IScorer<T>的模块)和内置文本特征。

特征的定义可能是混乱的。特征的严格定义是将其输出使用成分类器(或架构器)的输入的函数。由于查询是一种形式的分类器，因此特征可以用于查询。由于一个分类器的输出可以使用成另一个分类器的输入，因此分类器自身是特征。特征来自于三个位置：内置、操作者生成(无需训练)和经训练的分类器。一些内置特征可以由操作者进行参数化(混合)。一些内置特征可能仅仅可用于某些数据类型。

为了启用文本特征，在数据库中输入的类型T的项目必须支持IWordCollection接口。该接口允许自动建立反向索引，实现针对数据库的高效的类似查询接口。对于支持该接口的数据库而言，冷启动问题得到非常恰当的解决。当这是不足够时，对于不支持IWordCollection的数据库而言，操作者可以提供支持IScorer<T>接口的其它模块。一旦系统具有能够足够强以有效地区分数据库中的项目的IScorer<T>模块，则冷启动问题已得到解决。

B.AR(自动正则化)

在交互式机器学习中，标记和特征的数量随时间发生变化(这是由于增加了标记和特征)。随着标记进入，可以连续地利用10、20、40、80、160的示例性计数来对分类器进行(重新)训练。对于每一个训练会话而言，最佳正则化将是不同的。期望的是，即使在具有很少例子的情况下，系统也能很好地执行，这是由于找到接着要标记的良好例子，将帮助系统更快速地学习。由于这转而将使系统能够接着选择哪些例子来标注，因此关于泛化的效果是复杂的(每一次迭代增加后续标记的值)。本文将在存在较少标记时能很好执行的问题，称为“热启动”问题。

要求操作者手工地调整正则化引入了复杂度，并且其是不需要的。对于不熟悉机器学习的操作者来说，正则化的概念令人费解。幸运的是，给定标记和充足的计算能力，可以对很小系列的不同复杂度的分类器进行训练，并使用交叉验证来确定哪一个分类器在泛化方面做得最好。

例如，如果任务是识别手写的数字，则可以具有两个分类器：线性分类器和最先进的四层卷积神经网络(二者以像素为输入，输出每一种类型的概率)。当使用每一类型1000个例子来训练时，第二分类器比第一分类器工作效果更好，但在每一类型小于30个例子时，其评分是比较糟糕的。当利用少如每一类型只有一个或两个例子来训练时，线性分类器产生相当好的分类器和计分器。如果利用交叉验证来训练和测量两种分类器，则可以非常容易地自动决定使用哪种分类器。在具有足够的例子来使两个分类器可比较时，操作者无法容易地区分哪种分类器更好(它们具有相同的泛化性能)。这意味着在具有适当定时的情况下，具有不同正则化的分类器之间的切换可以透明地、自动地执行，并且无需操作者知道。

本文将正则化解释成：将可学习函数系列约束为更可能进行泛化的函数子集。这可以在输出层级、在体系结构层级或者在输入层级实现：

●输出(标记生成)：通过生成或者改变标记，可以控制能通过训练来实现什么功能。该约束可以用于正则化。例如，不是关于具有标记的集合进行训练，而是生成新的集合，其中关于该新集合，使用先验知识来提供标记。对于网页而言，这可以通过使用点击图形以寻找类似页面，并向它们分配相同标记来扩充正面(负面亦然)例子来进行。对于图像来说，这可以通过应用转换(例如，旋转或平移)，并假定所获得的图像与它们所源自的图像具有相同的标记来进行。在两种情况下，可以调整集合的大小和失真的强度。每一个正则化值定义一个分类器。使用交叉验证来挑选获胜的分类器。

●体系结构：可以通过改变学习算法(例如，SVM、神经网络、判决树)或者容量参数(权重衰减、训练时间、隐藏单元数量)，来影响可学习函数系列。

●输入：可以改变输入特征。通过改变输入特征的辨别力，可以实现不同水平的正则化。例如，可以具有用于计算网页的各种有用属性的一组系统特征。通过控制这些输入特征何时是可用的，可以自动地调整容量和正则化。对于由输入特征所招致的容量的例子，考虑对网页大小的对数进行测量的特征(或者特征集)。该特征可以具有有用的信息，但太早地使用可能会出错。当标注的例子的数量较少时，每一个例子可以具有不同的长度，可能有足够的容量对训练集上的正面和负面例子进行分类。随后，所获得的计分器会建议基于页面的长度来标注页面(这可能是浪费时间)。通过仔细地选择输入特征，可以构建具有不同正则化特性的分类器系列。这可以视作为“反正则化”的例子。选择性地增加容量。

III.扩充挑战

ALE算法在两个不同的方向扩充。一种是根据项目的数量，进行查询、评分和训练的能力。第二种是随着贡献者所提供的分类器和架构器的数量进行扩充的能力。图6中示出了其的一种示例性概括，其通常称为扩充600。

A.随项目数量进行扩充

图6的最左边列将多个特征描述成项目610(“项目1”...“项目n”)，其表示随项目的数量进行扩充。随项目的数量进行扩充是一种计算挑战。为了ALE变得有效，需要三种类型的计算：训练、评分和查询。可以在单一机器上进行训练(一个线性分类器可以在几秒之内关于1M+个例子进行训练)，或者可以在多个机器上进行训练(如果同时地训练多个分类器的话)。评分是一项固有的并行任务，该任务可以分布在多个机器上。典型的“采样”通常是根据评分的过滤操作，例如，返回其作为X的概率在0.70和0.80之间的项目。可以利用mapreduce(并行计算框架)来进行这种过滤，但其应当是快速响应的(这是由于系统的用户正在等待对下一个项目进行标注)。这种情形建议针对过滤操作而优化的分布式存储器内列存储。

B.随分类器的数量进行扩充

图6中的三个最右边列描述了用于对项目610中的每一个进行评分的多个分类器612(“C₁”...“C₂”)。随着分类器或架构器的数量进行扩充是一项人机交互(HCI)挑战。机器学习专家可以构建几十个分类器。招聘和留住100个机器学习专家是困难和昂贵的。在不改变游戏的情况下，构建10,000个分类器是不现实的。ALE允许公司快速地构建10,000+个高性能的分类器和/或架构器。

●可访问性：减少构建分类器所需要的专业知识。不需要机器学习背景知识。

●动机：使构建分类器容易、感兴趣和神奇。

●效率：就操作者的时间而言，极大地提高构建分类器的效率。

可访问性产生能够构建分类器的一大批人。动机增加该人群中的人构建分类器的动机。效率使生成率翻倍。下面最后描述动机，这是由于从UX角度来看，其包含其它二者。

1.可访问性

普通人不理解机器学习。如果系统需要机器学习专业知识，则可用机器学习专家的数量变成一个瓶颈。为了绕开该瓶颈，可以将界面限制于仅仅几个动作，这些动作不需要工程技巧。该界面具有阻碍与改善泛化不相兼容的行为的护栏。可以将操作者的动作限制为下面动作：

●生成新分类器/架构器任务

●标注

●特征化

○生成具有词项的字典

○从现有的分类器中发现和选择特征。

应当注意，“训练”、“评分”和“正则化”并不是标准动作。这些计算隐含和透明地发生。作为这些动作的结果，操作者将观察到向他或她呈现的错误类型的改变。这是提高查准率的效果，其对于下一次的查准率提高具有贡献。类似地，将提取新模式来进行标注。这是提高查全率(在一些情况下，查准率)的效果，其对于下一次的查全率(查准率亦然)提高具有贡献。

将存在类似于查准率的一些进度度量，或者系统发现的多个正面或负面例子的估计器，或者分类器的类型边界周围的改进率。将显示具有误差的度量，鼓励数据聚焦的训练方法。自动特征的使用被限于鼓励操作者提供有价值的概率和标记。为了显式地阻碍过度训练，不断地重新循环测试集，使得在修改单一错误时没有益处，相反在修改多种类型的错误时具有益处显现。操作者可以不具有机器学习背景知识来开始，而是对UX进行优化以训练他/她提高泛化性。

2.效率

可以根据花费操作者多少精力来生成具有给定查准率和查全率的分类器，来对效率进行测量。由于不知道查全率是多少(关于具有一些正面情形的大数据集，可能很难知道存在多少正面情形)，因此这种定义可能是有问题的。甚至在发现一些例子之前，也不能对类型定义进行很好地定义：讣告是主页？鸡尾酒混合烹饪食谱？这些问题可能只在分类器的构建期间才出现。采取两种假定：首先，假定可以对两个分类器进行比较，并明确地确定一个比另一个更好(更佳的查全率、更佳的查准率)。第二，假定提高分类器可以包括具有多个“修订周期”。

修订周期被定义成操作者输入(其取决于计算)，跟着取决于操作者的上一次输入的计算。在每一个周期，以三种方式中的至少一种来修改该问题：类型定义发生改变、要标注的例子的分布发生改变、或者输入空间发生改变。问题的这些快速和有针对性的修订不同于传统机器学习。在传统机器学习中，该分布通常是不变的(固定训练集上的特征的优化)。即使在主动学习论文中，在固定分布上测量进度：重点在于减少标记的数量以在固定分布上实现给定的差错率，而不是探索和发现该分布。真实周期(或者修订)通常具有数月。相比而言，在单一一天之内具有数十或者数百周期的能力，从根本上改变分类器构建的效率。这种周期效果是复杂的。例如，当一个分类器作为一个周期的结果而变得更佳时，其在下一个周期发现正面或假正面时变得更佳。

在本文所描述的系统中，循环可分为三类：主动标注探索(ALE)、主动特征化和字典精练。首先，在前一节已讨论了ALE。主动特征化是为了使分类器能够在正面(负面亦然)和假正面(假负面亦然)之间进行区分，而生成特征的活动。其类似于治愈“色盲”的分类器。主动特征化是下一节的目标。最后形式的循环特定于概念的定义。本文将概念定义成一组词语或者一字典，其中当这些词语被视作为一个组时，它们定义一个概念(例如，通过“本田”、“福特”、“标致”等等之类的词语列表，来定义汽车品牌的概念)。字典精练的循环源自于操作者给出正面和负面例子，计算通过这些例子来提供概念泛化性候选。随后，操作者可以校正该泛化(通过剔除词语或者增加新词语)等等。在后面的章节中将描述字典精练循环。

每一个循环需要在大量的计算之后来自于操作者的有针对性的语义输入。从计算的观点来看，这可能是不高效的，但从操作者的观点来看，这是高效的。操作者只需要在系统未能进行适当地泛化时进行工作。对整体体系结构(主动标注和主动特征化)进行组织，以便早期地显露这些缺陷。

3.动机

可访问性开放可以写分类器的人的数量。但是，这是不足够的。某种“魔力”是必要的，以产生病毒式采纳。当前的机器学习工具是工程师为工程人员所设计的。它们没有魔力。本节是关于通过仔细地设计UX，来增加构建分类器的动机。

对于大部分人而言，机器学习是复杂的和神秘的。构建使没有机器学习知识的操作者能够教导机器学习系统执行识别和架构化任务的用户界面是一项挑战。下面描述了简单的UX原则，其被设计为使系统是可理解和值得信任的：

●透明性：系统的状态是操作者可访问的，并可直接操作(推论：没有隐藏的状态/变量)。

●响应性：每一个操作者动作都产生中间和可视效果。

●进度：始终存在从当前状态更靠近期望状态的清晰动作。

透明性原则使系统不那么神秘和危险。响应性原则使用户能够具有关于其动作的即时反馈，并了解其动作的“衍生物”。进度原则识别用于遵循的以达到期望状态的方向。

为了实现学习，需要来自操作者的标记和特征。如果这些标记和/或特征改变系统的状态，则第一原则隐含着这些标记和特征应当是可访问和可编辑的。这具有几个含义：

●可以观看和编辑由操作者输入的标记。撤消是一项平凡的操作。

●可以观看和编辑由操作者输入的特征。撤消是一项平凡的操作。

●系统生成的标记和特征是高度不鼓励的。它们会损害透明性。

●系统的执行应当是独立于输入标记或特征的顺序。顺序依赖不可能是可容易观看和操作的。

z相同的标记和特征集合应当始终产生相同的结果。学习是一项半确定性的功能。如果学习算法对于特征的稍微改变敏感，则有些违反第一原则(操作者不能够区分输入变化)。

●数据应当是“经处理的”。例如，并不期望网页中的链接具有能够改变系统的行为的悬挂指针(当这些链接过期时)。

第一原则可能会偶尔违反，但希望这不会影响系统中的操作者的信任。例如，某些特征可以被自动地提供成系统服务，类似于同义、拼错、点击图等等。应当冻结这些功能，但更佳的是冻结它们的语义，使这些特征能定期地和透明地更新(对于可预测性具有很小代价)。如果分类器学习到依赖于特征的语义含义，则该特征的定期更新将改善该分类器。令人惊讶的是，甚至可以在系统中引入人为噪声，以驱动机器学习只提供统计保证(而非单一模式保证)的概念。所造成的非确定性并不影响整体性能，但其阻止新手用户进行过度训练。

响应性原则使用户能够快速地学习到如何操作该系统(反馈)。此外，其还通过将动作转换成进度来产生回报。每一个标记和每一个特征应当产生明显更佳的分类器。这由于三种原因而变得困难：在每一次动作之后对分类器进行重新训练是高成本的。利用每一个新分类器对所有项目进行重新评分甚至是更加高成本的。最后，对于分类器显示可视和统计的显著改善，可能需要很多的操作者干预。如果探索显著地改变了分布，则全局度量可能以不可预测方式被影响。重新训练和重新评分应当是透明的事实使这些挑战复杂化。在不具有无限的资源的情况下，设计原则的即时性和可见性方面将受到损害(例如，不是关于每一个操作者输入都进行重新训练)。这可以通过以下方式来缓解：增加专用于训练和评分的资源数量，按照定期和频繁的间隔(例如，每50个标记)来进行重新训练，以及利用部分评分(在ALE算法中，查询/过滤在无需等待每一个项目都要进行评分的情况下返回)。不出意料，通过增加资源数量(计算能力)和智能管理(部分计算)来最佳地解决响应性原则。

a.错误分类

进度原则隐含着操作者始终知道何时执行该工作，以及怎样做能使系统变得更好。这两件事件中的任何一件都不是简单的。何时应当停止改善分类器？如何知道怎样来改善分类器？为了帮助回答该问题，将系统产生的错误分类到三个桶：

●模糊错误：标注者在该标记是什么上无法达成一致的错误。

●色盲错误：系统不具有必需的输入信息来区分该模式与属于该出错类型的其它模式的错误。

●无知错误：系统具有用于区分该模式与该出错类型的模式的输入信息，但不具有能够学习该输入信息和模式类型之间的关系的足够标记信息的错误。

这种错误的分类假定系统具有学习问题的容量，并进行适当地正则化。这种假定并不约束用户界面。如果系统不具有学习该问题的容量，则将具有以下类型的错误：

●低容量错误：系统具有用于进行正确地分类所必需的输入和标记，但由于低容量而不能正确分类的错误。

由于可以通过增加良好特征来简化学习问题，并且对于大部分机器学习算法来说增加特征都增加容量，因此人们不需要关注于这种情况。因此，人们可能由于特征限制而只遇到这种错误，这使得其成为“色盲”错误。相反，可能存在容量太高的情况。在该情况下，征兆是在甚至增加了很大数量的标记之后，仍观察到很大数量的“无知错误”。

机器学习算法的选择、特征的表达力以及自动正则化的质量，影响要花费多长时间来学习，什么是系统可以实现的最佳结果。但是，可以在无需重新设计用户界面的情况下，对这些进行修改和改善。

错误分类帮助我们解决进度原则，例如，第一类型的错误(模糊)建议期望的状态：如果大部分的错误落入到“模糊错误”分类，则操作者来执行。系统具有很小的希望能超越操作者。如果大部分的错误是由于色盲或者无知，则操作者知道做什么：通过增加用于区分正面与假正面或者用于区分负面与假负面的特征，来修正色盲错误。可以设计一个界面来实现该工作(下一章节)。通过增加标记来修正无知错误。在任何时间点，系统可以建议应当解决什么类型的错误以实现最大效率。如果学习算法的训练和测试错误曲线是靠近的，则需要更多的特征。否则，更多的标记将是更有效的。

b.不变性

由于从目前状态到期望状态的路径是明确无误地清晰，因此应当保证进度是始终向前。这应当获得操作者的信任。其需要一些警惕。一旦对分类器进行了训练，则其可以变成特征。一旦其变成特征，则不允许将其重新训练成更大模型的一部分。将一个特征重新训练成更大分类器的一部分，可能具有一些负面影响：首先，其可能改变该特征的语义含义。这可能造成操作者混淆和关于其它特征的向后进度。其次，与更大分类器上可用的标记的数量相比，在该特征被训练时它的容量可能更高。这种非预期的容量注入可能造成向后退步。机器学习专家可能提出从机器学习立场来看，冻结这些参数是次优的。但是，如本文所描述的，系统稳定性和可预测性比最优性重要。

可以利用一些度量，对进度进行测量。例如，分类器所发现的正面的数量乘以查准率，可以获得关于该系统达到的正面数量的估计。该度量与查全率成正比。关于边界执行的每一标记的查准率进度(例如，是X的概率在0.25和0.75之间的所有模式)是对功效的感兴趣测量。

动机源自于魔力。魔力源自于系统产生三种事情：

●共鸣：操作者应当理解系统所产生的错误。对系统生成的标记和特征(例如，“词袋(bag-of-words)”)进行阻止，保持系统是可判断的。色盲错误应当造成操作者急切地提供新特征。无知错误应当造成操作者急切地提供更多的标记。系统错误应当视作为是有用的。透明性、响应性和进度原则全部都贡献于使系统行为表现为天才学习者。

●惊讶：系统应当通过推动其已被教示的边界来使操作者留下印象。其错误应当对丢失的特征/概念进行放大。其针对标记的请求应当挑战操作者发现未预料到的示例类型，并对类型概念进行重新定义。惊讶的能力来自于：1)概念特征的简化；2)对非常大数据集进行评分。

●功效：随着系统针对每一项操作者输入进行特别地计算，分类器应当进步地非常快速。

在具有可访问性、效率和魔力的情况下，构建分类器将产生价值和惊奇。这使得分类器和架构器能被成规模地构建。

IV.主动特征化

A.特征化

机器学习中的通用活动是搜索正确的特征。人们通常以自主方式来进行该动作：通过编程或者对数据进行处理来增加特征，开始一个完全独立的过程以使系统关于修改的数据进行重新训练，随后查看错误等等。通常，它们中没有任何一个集成在系统中，其中在该系统中可以浏览错误，并在无需退出应用的情况下，对特征进行共享和搜索。如本文所描述的，主动特征化实现交互式特征生成、编辑和精练。

用于帮助用户选择特征以精细地调谐系统的性能的一些方法，自动地选择特征(例如，词袋)或者从多个预先存在的特征中进行选择(模型选择、特征选择等等)。主动特征化鼓励用户交互式地生成有用的特征，并将机器学习算法的复杂度保持为最小。其想法是：与通过增加机器语言算法的复杂度和特征选择来避免错误相比，通过增加特征和标记来交互式地修正错误要更好。复杂的学习算法和很大数量的特征很可能在初始阶段能很好地工作，但其可能快速地向实践者留下复杂系统(其中该系统没有可以提高的明显决定)；在该情况下，去除错误是令人望而却步的困难。相比而言，允许用户增加特征和标记并同时依赖于简单的学习算法的交互式循环，可能产生更加可操作的系统。当用户贡献了每一个标记和每一个特征时，错误可能变得更加清晰和容易进行修正(通过生成/编辑/精练特征或者增加标记)。

如本文所描述的，特征可能源自于：1)预先存在的系统特征；2)在系统上由其它用户生成的预先存在的特征；以及3)由用户即时生成的特征。对于情形3)而言，区分两种类型：3a)本身是使用主动标注来交互式构建的分类器和实体提取器的特征；以及3b)通过输入词语列表(其还称为字典)而捕捉“概念”来生成的词语特征。例如，月份列表(一月、二月、...)捕捉到“月份”的概念。字典中的词语一起构成一个特征，其中通过计算文档和给定的字典之间的统计来使用该特征(字典中的多少词语出现在该文档中、字典中的多少不同词语出现在该文档中、等等)。

在一个方面，集成的主动学习系统包括浏览组件、训练组件、评分组件和用户操作的特征生成组件。集成的主动学习系统可以包括一个或多个其它方面，例如，当可搜索特征是在集成的主动学习系统中生成的分类器时，利用标记和分类器评分来指导针对特征的搜索并由操作者进行验证，对分类错误进行组织并显示以建议和修正分类特征盲点，或者多个操作者生成和共享特征并存储在公共可访问的系统中。

在另一个方面，集成的系统包括浏览组件、训练组件、评分组件和基于用户提供的字典的特征生成组件。该集成的系统可以包括一个或多个其它方面，例如，用于特征字典的参数数量独立于字典中的词语的数量，或者用户可以指定这些参数是否通用于字典中的所有词语，还是个别地针对字典中的各个词语。

通过设计，本文所描述的接口对使用哪一个学习算法并不可知。在该章节中，将讨论特征的生成。

考虑输入空间D。对于每一个数据项d∈D，从输出空间O中计算分类值y。为此，使用分类函数g，其将点d∈D和参数空间W的参数向量w映射到向量y∈O。将这些函数的空间标记成G：

G：D×W→O

g：d，w→g(d，w)＝y

例如，数据空间可以是网页的空间，参数空间W可以是机器学习算法所计算的真实值的间量，输出空间O可以是0和1之间的数，其表示各个网页成为期望的类型的概率。使用这种公式化的一个问题在于空间D可能极端地复杂，将D×W映射到O的函数集合G可能太大以至于不能通过很少的标注例子来训练。例如，如果d是被截短到至多100K个词语的网页，则给定至多10M个词语的字典，输入空间的维度可以仍然是10¹²。为了简化该问题，将空间D投影到较少维度空间I，本文称为“特征空间”。投影集合表示为F。在参数的训练期间，对投影f∈F：D→I进行修正。现在，可以将可学习函数从G限制到空间G’，其中G’检验：

G^{'} (f, h) = {g &Element; G | &Exists; w &Element; W, g (., w) = h (f (.), w)}

其中，h是将特征空间和参数向量映射到输出的两数。两数H：I×W→O的空间通过学习算法来确定。对F所引起的空间I和可学习函数空间H进行选择，以使参数w的学习更容易，并且只需要尽可能少的例子。例如，对于网页分类来说，特征函数f可以是针对用于该分类任务的k个最相关项(例如，k＝1000)，来抽取通过逆文档频率(tf*idf)来归一化的项频率f_i。换言之，给定网页的数据d，则特征化函数计算特征向量x＝f(d)＝(f₀，f₁，...，f_k)，其中f_i是第i项在文档d中出现的归一化数量并且f₀＝1。分类器可以使用logistic回归来计算分类函数：

h(x，w)＝logistic(w^Tx)

一旦定义了f和h，可以利用训练例子集合(x_j，l_j)，使用传统机器学习算法来估计参数w，其中，x_j＝f(d_i)和l_j分别是第j个特征化例子和训练集中的其标记。这里感兴趣的是下面的场景：允许构建分类器的操作者贡献标记l和特征函数f。图7示出了示例性信息流700，示例性信息流700将分类函数710表示成特征化函数f(项712)和函数h(项714)的组合(其是可训练的(项716))。操作者可以输入特征718和标记720，以便影响分类函数710。

在先前的章节中，将主动标注讨论成用于探索和提高分类空间的过程。下面将讨论主动标注的输入侧等同物：“主动特征化”。

B.色盲

大量的文献都涉及特征的自动选择。其有时称为“特征选择”。自动特征选择的隐含目标是在给定训练集的情况下，提高泛化性。如本文所描述的目标是不同的：向操作者提供用于贡献等同于标记的特征的方式。这遵循上面所描述的原则，人应当贡献语义含义，计算机应当提供规模化。在前一章节中，区分三种类型的错误：模糊、无知和色盲。模糊错误是不修正的(它们源自于操作者或者该问题的内在噪声)。通过增加标记来修正无知错误。通过使用“颜色过滤器”或者遵循机器学习术语，增加使系统能够“看到”一种类型的成员和不同类型的成员之间的差别的特征，来修正色盲错误。

用于特征化的接口可以是特定于问题的。例如，特征可以是图像识别中的像素的函数、查询分类中的词语的函数、或者语音识别中的倒谱系数的函数。不需要操作者理解像素、倒谱或者词袋来构建分类器。但需要用于建立该问题的人员。因此，区分两种类型的用户：

●工程人员：该用户可以进行编程，知道机器学习的基本原理。工程人员负责做下面四件事情：

○将数据上传到系统。

○提供用于将数据转换成训练算法可以用的一组特征的通用特征化器。

○提供用于将数据转换成可以被系统显示的内容的视觉化器。

○选择训练算法并设置其超参数(如果需要的话)。

●操作者：该用户不具有工程或者机器学习背景。操作者负责生成和训练分类器和架构器。

一旦工程人员设置了问题，操作者就可以构建多个分类器和架构器。在开始时，新分类器的输入是工程人员或系统所提供的通用特征。一旦一些操作者建立和训练了一些分类器，可以将它们凝固成特征。如上面所描述的，特征是不变的。随后，这些新特征变成可用于输入以构建更高层级分类器，并因此生成生态系统。

操作者可以通过选择几个特征，随后转到ALE算法来增加标记，来构建分类器。事实上，很多机器学习中的系统从固定的特征集进行操作。但是，对于具有不均衡分布的大数据而言，人们没有先验地知道将需要哪些特征。针对新特征的需求能够通过探索来表现自身。例如，当构建烹饪食谱分类器时，拥有识别在非洲食谱中发现的用料的特征会是有用的。操作者可能不知道非洲食谱以及它们的特定用料的存在，直到通过探索发现它们为止。当构建汽车检测器时，将车轮(或者圆形)检测器作为特征将使分割问题变得容易很多。操作者可能不知道该问题在不具有该另外特征的情况下有多难，直到其尝试构建分类器为止。为了解决这种限制，操作者应当能够根据需要来灵活地增加特征。在主动特征化中，操作者检查分类器所产生的错误，并且对使分类器能够容易地区分正面的部分与假正面或者相反，以及区分负面的部分与假负面的特征进行搜索。换言之，操作者在分类器的部分上寻找“色盲”。一旦识别出色盲，操作者就可以聚焦于生成特征来提供“颜色过滤器”，以便治愈这种盲点。

主动特征化过程是一个循环过程，在该过程中，操作者检查错误，生成特征和/或编辑/精练特征，对系统进行重新训练，以及对标注的例子进行重新评分以用于下一次迭代。但是，生成新特征通常需要新标记。所以主动特征化过程自身嵌入在一个大循环中，其涉及主动特征化和ALE，本文称为RAFALE(重复主动特征化主动标注探索)循环。在表2中进行了概括：

表2RAFALE(重复主动特征化主动标注探索)循环

为了生成特征，该操作者具有3个选择：1)寻找系统特征或者另一个操作者所产生的特征(使用搜索引擎)；2)生成定制的分类器来实现期望的特征；或者3)生成特定于域的特征。第一个选择利用群体的力量。第二个选择利用了使用集成工具来快速生成分类器的能力。该能力通常是不可用的，这是由于标注、训练、评分和特征化通常是使用不同的工具并通常由不同的人来执行的。第三个选择依赖于域。下面将描述用于针对包含词语列表的项目，输入特定于域的特征的界面。

C.词语和字典

在机器学习的很多应用中，基本特征是词语，其可以包括单个词语、词干化版本的词语(例如，已删除表示复数、过去时等等的变形的词语)以及n元语法(连续词语或词干序列)。通常，选择的表示是词袋。在该表示中，特征是在某种归一化(IDF：逆文档频率)下，基于文档中的各个词语的频率(TF：项频率)。当可以利用这些特征来获得良好结果时，它们缺少表达和泛化成概念的能力。例如，虽然可以对文档中的本田和丰田的频率进行计数，但优选的是具有泛化到所有汽车品牌的特征。

下面将描述用于交互式地构建表示概念的字典的工具，以便使用成进行分类或实体抽取的特征。作为主动特征化循环的一部分，交互式地生成概念以解决机器学习算法所产生的错误。

在该节中，假定数据库中的项目是由词语构成的文档。但是，如本文所描述的文档和字典的概念并不限于词语的使用，其可以包括其它类型的数据。还可以假定位于文档之内的词语不具有相互关系(词袋模型)，将TF*IDF向量表示使用成基本特征向量。在引入字典的概念之前，需要清晰地描述这种表示。

假定C是数据库中的文档的集合，T是与要建立的分类器具有相关性的项的集合。例如，T可以是在语料库C中出现的所有词语的集合。对于每一个文档d和项t，可以计算项频率tf(t，d)，其是词语t在d中出现的数量除以文档的长度。直觉上，项计数表示词语的语义空间的指示。其根据文档的长度来归一化，以便针对冗长性是不变的。所有项并不携带相同量的信息。具体而言，通过下式来给出语句“项t出现在文档d中”所传输的比特的数量：

i d f (t, C) = \log \frac{| C |}{| {d &Element; C : t &Element; d} |}

其中，|C|是C的基数，|{d∈C：t∈d}|是项t出现的文档的数量。该量还称为逆文档频率。对于每一个文档d，文档d的tf*idf特征向量表示被定义成：

x(d)＝＝(tf(t，d)*idf(t，C))_t∈T

其具有两个有用的属性：其对于文档的长度是不变的，每一个词语特征的变化与其信息内容成正比。表3概括了如何来计算tf*idf表示：

表3：各个文档中的各个词语的计数

通过将计数除以文档长度(最后一列)，并将结果乘以逆文档频率(最后一行)，来计算tf*idf值。所获得的行向量是各个文档的特征表示。

如果logistic回归用于分类，则期望对权重进行正则化，而不对输入进行重新调整以调整它们的变化。这是由于在词语空间中，问题是非常高维的，并且存在很少的标记。对于logistic回归而言，分类函数是：

y^{p} = h (x^{p}, w) = \log i s t i c (\underset{i}{Σ} w_{i} x_{i}^{P} + w_{0})

其中，x^p是模式p的特征表示，y^p是分类器的输出，i是T中的项上的索引。目标函数是：

E (w) = \underset{p}{Σ} L o g L o s s (\log i s t i c (\underset{i}{Σ} w_{i} x_{i} + w_{0}), l^{p}) + λ | w |^{2}

其中，l^p是用于模式p的标记，p和λ是正则化参数。应当认识到，|T|在幅度上可以比标记的数量更大几个量级。正则化项可以是|w|²或|w|。如果不存在正则化项(即，λ＝0)，则在训练期间，可以将idf归一化吸收到w中。

如果给定字典中的每一个词都被给出其自己的权重，则系统变得更等同于词袋。其想法在于，操作者可以通过指示捕捉语义含义的特征，来向分类器传输价值无法衡量的信息。允许操作者选出小型组中的词语，个别小型组可以仍然具有共享权重，这对于其它的正则化约束是重要的。如果字典中的所有词语都共享相同的参数，则也共享它们的语义。

例如，当构建用于汽车的分类器时，特征可以是所有汽车品牌名称的字典，例如{“丰田”、“福特”、“标致”、...}。特征化的另一种解释是操作者“关联(tie)”该模型的参数。设想仍然使用tf*idf表示，但用于字典{“丰田”、“福特”、“标致”、...}中的项的参数被关联到一个公共值。该泛化值是直接的：如果字典包含稀有汽车品牌(例如，玛莎拉蒂)，则分类器可以在关于该汽车品牌的文档上很好地执行(即使在训练中标注的文档没有提及该品牌的汽车)。例如，如果词语“本田”和“玛莎拉蒂”出现在汽车品牌字典中，并且如果词语“本田”出现在很多训练例子中，则系统能够泛化到“玛莎拉蒂”(即使在训练集中没有出现“玛莎拉蒂”的例子)。

可以具有一种系统，该系统处于在字典中的每一个词语都具有权重，以及整个字典具有单一权重之间。这通过每一词语一个权重，但利用正则化约束来限制字典中的权重来实现。只要输入了字典，相应的权重具有共同的共享值(很多梯度下降学习算法容易地泛化到权重共享概念)。期望进行项频率贡献的idf扩充，这是由于携带较少信息的项不应当关于共享权重的值具有相等的加权。在扩充之后，所有参数w_j贡献量是可比较的。可以放松权重共享约束，并且可以类似地导致成组的权重。举一个例子，可以将一组权重限制于靠近它们的平均值。在该情况下，可以使用正则化项来将该组权重关联到它们的平均值，使得字典中的词语的权重被约束为不与它们的平均值偏离太多。一种示例性正则化约束可以具有形式：

γ \underset{c &Element; E}{Σ} \underset{j &Element; J_{c}}{Σ} | w_{j} - \overset{&OverBar;}{W_{J_{c}}} |^{2}

其中，E是字典集合，J_c是用于字典c中的项的索引集合，是用于J_c所索引的项的参数的平均值，γ是正则化参数。在该设置中，通过正则化约束来关联与共同字典相对应的权重。对于较大值的γ，上面的约束严格地强制近似相等(其是相等的权重共享)，或者等同于每一个字典具有一个权重。很有可能，正则化项γ将大于λ，这是由于操作者所传输的先验知识比大部分w_i很小的先验知识强得多。

可以在应用正则化约束之前，根据文档频率或者字典大小，对用于各个字典的权重进行缩放，以便将每一个权重保持在可比较的尺度。实质上，在先前的例子中，通过正则化约束，这允许词语“本田”将其知识转换到词语“玛莎拉蒂”上，但是仍然允许词语“玛莎拉蒂”具有不同的权重(如果存在足够的“玛莎拉蒂”数据来朝不同的方向拉引权重的话)。

D.交互式概念编辑(主动概念化)

举一个生成分类器的例子，假定目标是生成用于“主页”的分类器：

●正面：个人页面、社交媒体页面、学术页面等等

●负面：搜索结果、目录、事件、讣告、公司、商业页面等等

●模糊：虚构的人、逝去的名人、简历等等。

可以以该顺序来生成字典(在建立工具之前，其很难进行猜测)：

●主页：[“主页”、“Bio”、“简历”、“爱好”、“Facebook”等等]

●联系信息：[“联系信息”、“地址”、“电话”、“电子邮箱”等等]

●名字：[“John”、“Steven”等等]

●姓氏：[“Smith”、“Dupont等等]

●搜索/目录：[“搜索”、“登陆”、“注册”等等]

●讣告：[“讣告”、“离世”、“死亡”、“心爱的”等等]

前四个字典有助于发现正面(删除假负面)。接着的两个减少假正面的数量。该过程是高度交互的。在不构建分类器的情况下，很难知道哪个字典将是有用的。用户可以决定是生成用于讣告的分类器，还是即时地生成用于事件的分类器。该过程是递归的。即时生成的特征/分类器不需要是优异的。为了有用，它们仅仅需要优于偶然性，并带来新信息。

1.问题

●如果字典的数量很大，则可以认为特征化类似于在传统“专家系统”和旧风格的“AI”中生成规则和例外。但是，有三件事件需要进行考虑：

○首先，字典仅仅是特征或者过滤器。如何对其进行组合则完全留给机器学习算法。从用户的观点来看，不存在复杂度的激增。特征化任务仅仅是向系统提供区分正面与假正面或者负面与假负面的方式。增加第一个字典或者第n个字典的复杂度是相同的。操作者提供传感器，而不是规则。

○高效和低效地构建分类器之间的差别，可能来自于依据语义含义来保持字典“干净”。例如，在上面的主页例子中，糟糕的想法是将主页线索的字典与检测在该页面中是否存在地址的字典进行混合。这将减少组合性。虽然向第一字典增加几个地址项比不具有地址字典更佳，但针对两种语义含义而具有两个字典是远远更佳的。其允许系统对它们的影响进行不同地加权，可以进行更容易地调试和特征字典的重用。“传感器”应当尽可能是正交和纯粹的。维持干净的字典还可以使其更适合于后续的重用。纯粹的字典是其它人更容易理解的，并且更可能有助于其它分类问题。

○优化是非参数的。这意味着通过交叉验证，自动地调整系统的容量以匹配可用数据的量。在具有相同数量的数据的情况下，本系统应当基于词袋，如同当前在用系统一样好地执行。特征提供的另外信息也是非常有用的，其可以节省操作者输入数千条标记。

●对于使用词袋的任何系统来说，字典编辑可以是有用的。当词语之间的关系很难进行提取时(例如，查询、广告文本、用户产品描述或者自由流式文本)，字典编辑能很好地工作于数据。对于具有架构结构的文档(例如，食谱、工作描述、产品和论坛)来说，位置信息以及词语之间的关系是重要的。这是下一章节的内容。

●输入字典可能是一项繁琐的任务。例如，先前例子中的名字和姓氏的字典可以具有很多条目。用于从freebase中提取的烹饪用料的字典，在本文的撰写时已具有1,709种用料。幸运的是，输入字典的过程可以自动化。这是下一子节的内容。

在一个方面，集成的系统包括：具有显示训练模式的单元的组件、训练组件、评分组件和字典编辑组件。在主动特征化循环中使用这四个组件。字典编辑组件包含交互式循环，以允许操作者编辑和精练以词语列表或者n元语法组为特性的概念。

在另一个方面，提供了一种字典特征，在该特征中，字典中的每一个词语或n元语法具有其自己的权重。可以根据频率和字典大小的函数，对字典的权重进行重新调整。重新调整后的权重通过正则化约束来关联，其将具有较少训练数据的词语的权重，拉向具有更多训练数据的词语所确定的缺省值。

在另一个方面，提供了用于构造分类器的特征或实体提取器的字典接口。该接口允许由较大列表的词语或n元语法所定义的概念，通过提供较小列表的正面或负面词语或n元语法例子来交互式指示。在每一次迭代时，使用算法的集合或者通过使用输入进行编辑，来自动地扩充概念列表。

在另一个方面，提供了用于构造分类器的特征或实体提取器的字典接口。每一个特征由词语或n元语法列表来组成。该接口允许操作者指定关于如何计算该特征的选项。在验证集和预览的基础上，计算各个选项替代者的泛化效果。

2.字典生成

可以将字典视作为概念。作为概念，其可以进行泛化。当操作者敲入用于字典的一些正面例子时，系统可以提供针对可能的泛化的建议。如果该泛化太积极，则操作者可以通过增加负面例子来提供反馈。这变成交互式过程，在交互式过程中操作者提供正面和负面例子来指导系统朝向目标概念的正确泛化。这遵循上面所描述的哲学理念：操作者提供语义含义，系统提供规模性的计算来精练该含义。本章节划分成两个部分：用于主动概念化的用户接口和用于概念泛化的算法的集合。

a.主动概念化接口(ACI)

本接口的目标是帮助操作者向系统传输概念以便生成字典。字典生成和编辑可以在反馈环中完成，其中在反馈环中，用户提供正面例子列表。图8示出了适用于结合主动概念化和字典编辑来使用的示例性界面800。当操作者点击刷新按钮822时，系统生成建议集810，使得每一个建议集810是意味着将用户输入的词语所隐含的概念进行泛化的新词语列表。每一个建议集810是使用不同的算法来生成的。随后，用户可以增加更多的词语作为正面例子816或者负面例子818(通过敲入它们，或者通过从提议列表中点击或拖拽它们)。

可以通过点击相应的增加按钮814，将来自建议集810中的词语增加到工作集812中。将建议集810上点击的词语或者之中选择的词语，增加到正面816中。将在工作集812中选择的词语增加到负面集818中。还可以使用用于增加正面816和负面818的其它方法，例如，点击建议集词语810来增加正面，按住shift点击建议集词语810来增加负面。对于大集合来说，操作者可以将整个建议集810都复制到工作集812。每一次编辑，都重新计算建议集810。点击完成按钮820来提交正面816和工作集812的联合作为新字典。替代地，点击清除按钮824来清空工作集812中的词语。

字典编辑界面可以呈现用于约束如何将它们使用成特征的机器学习选项(例如，复选框、门限)。例如，字典界面可以具有用于以下方面的复选框或对话框：

●用于指示每一个词语是否具有其自己的可训练参数的标志(与一个参数用于整个字典相比)，

●使特征值是量的函数(该字典特征可以具有0或1值(二进制)或者是该字典项频率的预定函数)的标志或选项，

●指示是否对项频率进行归一化(例如，乘以逆项频率IDF的函数)的标志，

●正则化门限，其建议在字典的权重之间进行关联的程度，以及

●用于有利于差异性的标志或选项：与多次出现的相同词相比，在文档中出现的不同词产生更高的特征值。

字典选项界面可以预览每一个选项的泛化效果(通过在具有或者不具有该选项的情况下，对分类器或实体提取器进行训练，并在验证集上测量其性能)。

当操作者完成时，将正面集和工作集的联合保存成新字典。该界面是非常交互的，其在于：系统向操作者提供关于其理解成概念的内容的直接反馈。操作者可以做出反应，并精练该系统的解释。

存在很多方式来生成根据词语列表所捕捉的有效概念。一些点是：

●用户可以通过只敲入一些正面例子，以及可选地敲入一些负面例子，来生成根据较长的词语列表所捕捉的概念。

●概念编辑是可经历几次精练的交互式过程。

●建议集可以具有多个本质。例如，一个本质来自于预先存在的字典的集合(基于在万维网或者诸如Freebase之类的数据库中发现的表)。另一个本质来自于基于较大的文献数据库而从聚类词中自动推导出的语义概念。第三本质来自于分析点击图(查询、URL)配对(在相同的页面上产生点击的查询很可能是相关的，它们的词语很可能是相关的概念)。即使建议集具有非常不同的来源，它们也可以共享用于概念编辑的共同界面。下面将更全面地描述用于主动概念化的一些算法。

b.主动概念化算法

可以使用ACI来使操作者能够与不同的主动概念化算法进行交互。例如：

●知识库：Freebase和Yago是包含很多人类输入的字典的知识数据库的例子。针对正面情形的包含和负面情形的排除，可以对每一个人类输入的字典进行测试。匹配的字典是建议集。

●点击图：该图是查询和网页之间的二分图，其中边意味着在提交了相应的查询之后，用户点击了特定的网页。这促成了查询的拓扑，以及按照词语进行扩展。例如，可以查找一组词语作为查询。关于这些查询的点击历史促成关于相关联的网页的点击的概率分布(沿着该图的边来进行查询)。随后，可以促成关于这些页面上的点击所产生的查询的概率。所导致的分布的顶部(最高概率)查询，可以使用成字典建议。

●链接图：超链接图通过嵌入在文档的HTML代码中的超链接，来使文档彼此连接起来。这提供了可以用与所提出的点击图技术相类似的方式来开发的另一种拓扑。

●万维网表：在万维网上发现的表格(或者表格的列或行)的分析，可以提供具有语义含义的字典列表。可以使用类似于Freebase的算法来建议字典。

●语义表示：分类器的内部表示促成关于英语单词的拓扑。在该拓扑中，靠近正面集并且还与负面集不同的词语是用于建议集的候选。

这些算法中的每一种提供不同形式的泛化。幸运的是，操作者可以使用共同的界面来与所有这些算法进行交互。ACI允许在具有相对较少的干预的情况下，操作者输入大字典所实现的概念。

3.字典平滑

使用字典来定义分类器的一个问题在于，字典很可能对于在多个无关的上下文中出现的词语误触发。例如，假定针对电影的字典是通过输入在万维网上发现的电影列表来构建的。但是，该列表包括名称为“它”的电影。具有名称为“它”的电影的问题是：词语“它”可能出现在数据库中的几乎每一个文档中。这可能显著地影响该字典的用于测量存在预定概念的能力。再举一个例子，假定一个字典是针对“月份”所生成的。其对于类似“我能帮你吗(MayIhelpyou)”和“我与April共进晚餐”的语句误触发。问题在于在该不正确的上下文中，词语误触发并引入错误。

这种潜在的误触发可以通过字典平滑的方式来解决。字典平滑的想法是可以使用特定词语的上下文，来尝试预测该字典是否应当关于该词语触发。给定词语的上下文包括紧挨在该词语之前和紧跟在该词语之后的一些数量的词语。关于“月份”字典，对于单词“May”，可以考虑贯穿整个语料库的“may”的所有实例。对于“may”的每一个实例来说，例如，可以检查在“may”之前的两个词语和之后的两个词语。基于这四个词语，可以关于中间的词(“may”)是否是月份来做出预测。

继续该使用给定词语之前的两个词语和之后的两个词语的例子，假定查看语料库中的每一个可能的五单词组。假定语料库包含1亿个页面，每一页面具有平均2000个词。对于每一个五单词组，可以根据其它四个上下文词语来预测中间词语是否是月份。这可以通过对在较大的语料库上的词语发生进行计数来实现。对于每一个词语，可以对在中间词语是月份字典时，该词在五单词组中的发生次数进行计数。类似地，可以对在中间词语不是月份字典时，该词在五单词组中的发生次数进行计数。利用这些计数值，可以通过只查看四个上下文词语，来估计一个五单词组包含字典词语的概率。

例如，可以预测“1998”是月份的良好预测者。所以，短语“May1998”帮助确定该字典应当关于“May”的出现触发。每一个四位数字都是月份的良好预测者。但是，在“我能帮你吗(MayIhelpyou)”的语句中，单词“I”可以是“may”(作为非月份)的良好预测者，但不是“二月(February)”的良好预测者，即“FebruaryIhelpyou”不是经常发生的短语(根本不发生)。

另外，可以选择不针对有问题词语，对系统进行训练，例如不关于单词“May”来对系统进行训练。在该情况下，只对系统进行训练以预测不具有“may”的期望概念，所有单词“I”根本不对“MayIhelpyou”具有贡献，但“1998”将具有贡献，这是由于在“1998”的上下文中，发生很多其它月份的例子。

描述字典平滑的另一种方式是查找词语替代能力，即，字典中的其它词是否可以替代给定的词语。在文本窗(即，给定词语的上下文)中，可以判断中间词语是否可以被字典词中的一些词语来替代性地替换。为此，可以针对每一个替代的词语，使用上面所定义的计数技术或者其它语言建模技术，来检查中间词语属于该字典的概率估计。

例如，假定汽车品牌字典包括项目本田、丰田和福特，则对语句“在1973年，总统福特进入办公室”进行评估。在不具有字典平滑的情况下，该字典将关于“福特”误触发。但如果其它汽车品牌来替代该语句中的“福特”(例如，“总统本田”或“总统丰田”)，则可以确定在整个语料库中，短语“总统本田”和“总统丰田”不会发生，或者很少发生，并因此确定“总统X”的上下文很可能不是对应于汽车品牌。结果，该字典不再关于短语“总统福特”触发，这是由于在该上下文中，该字典中的其它词语不能替换“福特”。这消除了很大数量的误触发。

下面将描述字典平滑的详细讨论。对上下文和字典的概念进行定义，随后描述根据上下文来估计词语属于字典的概率。

a.上下文

给定文档a和位置p，则将词语抽取函数定义为：

e：(a，p)→w

其返回文档a中处于位置p的词语。给定与p的相对位置的集合B＝(b₀，...，b_l-1)将上下文抽取函数e_B定义为：

e_B：(a,p)→e(a,p+b₀),...,e(a,p+b_l-1)

其中，e(a,p+b_r)是文档a中关于位置p处于第r个偏移b_r的词语。例如，对于B＝(-2，-1)，e_B(a，p)返回文档a中仅仅在位置p之前的两个词语。如果文档a是“Thequickbrownfoxjumpsoverthelazydog”，则e_(-2，-1)(a，4)＝(brown，fox)。应当注意，对于B＝(0)，e_B＝e。

注意：使用B＝(b₀，...，b_l-1)来标记有序的列表。有序的列表之间的等同性需要所有元素都是等同的以及尊重顺序。但是，在b∈B，类似于集合(b∈{b₀，...，b_l-1})来对待B。将符号e_i使用成的短形式。

给定上下文提取函数e_i,则将上下文断言(predicate)定义成：

c_{i}^{w} (a, p) = (w &Element; e_{i} (a, p))

其意味着观察的词语w位于文档a中的位置p的上下文i之中。这种断言假定词语w在该上下文中的位置是不重要的。

类似地，定义公式

c_{i}^{w_{0}, ..., w_{l - 1}} (a, p) = ((w_{0}, ..., w_{l - 1}) = e_{i} (a, p))

以意味着观察的词语(确切地)是文档a中的位置p的上下文i。为了简化计算，采取两个假定：假定上下文中的位置是不重要的，以及假定上下文中的每一个词语的存在是独立于其它词语的存在。这些假定导致：

P (c_{i}^{w_{0}, ..., w_{l - 1}} (a, p)) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p))

b.字典

将字典D＝{d₀，...，d_k-1}定义成k个词语的集合。

c.概率

给定字典D和一组m个上下文函数c_i,期望计算：

P (e (a, p) &Element; D | C_{0}^{o_{0}} (a, p), ..., C_{m - 1}^{o_{m - 1}} (a, p))

其是位于文档a中的位置p的词语处于字典D中的概率，给定在上下文0，...，m-1中观察到词语o₀，...，o_m-1为了简化符号，将c_r使用成的短形式。

贝叶斯：采用上下文是独立的并且上下文中的词语是独立的假定，可以写出：

P(e(a,p)∈D|c₀,...，c_m-1)＝KP(c₀,...,c_m-1|e(a,p)∈D)P(e(a,p)∈D)

P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) \approx \underset{i}{Π} P (c_{i} | e (a, p) &Element; D)

其中：

P (c_{i} | e (a, p) &Element; D) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p) | e (a, p) &Element; D)

其中，o_r＝w₀，...，w_l-1。结果是：

P (c_{i}^{w} (a, p) | e (a, p) &Element; D) = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w &Element; e_{i} (a, p) a n d e (a, p) &Element; D)}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &Element; D)}

其中，如果断言成立，则δ(predicate)＝1否则其为0。

可以对计数值进行预计算：

C o u n t W o r d C o n t e x t (i, j) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &Element; D)

C o u n t D i c t = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &Element; D)

S u m P o s i t i o n = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (t r u e)

其随后允许高效计算：

P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t (j, i)}{C o u n t D i c t}

P (e (a, p) &Element; D) = \frac{C o u n t D i c t}{S u m P o s i t i o n}

该计算是O(∑_i|B_i|)，其中|B_i|是上下文i的大小。

为了计算K，还需要评估：

P (e (a, p) &NotElement; D | c_{0}, ..., c_{m - 1}) = K P (c_{0}, ..., c_{m} | e (a, p) &NotElement; D) P (e (a, p) &NotElement; D)

同样，使用贝叶斯：

P (c_{0}, ..., c_{m} | e (a, p) &NotElement; D) \approx \underset{i}{Π} P (c_{i} | e (a, p) &NotElement; D)

其中：

P (c_{i} | e (a, p) &NotElement; D) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p) | e (a, p) &NotElement; D)

其中，o_r＝w₀，...，w_l-1。结果是

P (c_{i}^{w} (a, p) | e (a, p) &NotElement; D) = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &NotElement; D)}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &NotElement; D)}

可以对计数值进行预计算：

C o u n t W o r d C o n t e x t A l l (i, j) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p))

\begin{matrix} C o u n t W o r d C o n t e x t N o t (j, i) \\ = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p)) \\ - \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w &Element; e_{i} (a, p) a n d e (a, p) &Element; D) \\ = C o u n t W o r d C o n t e x t A l l (j, i) \\ - C o u n t W o r d C o n t e x t (j, i) \end{matrix}

应当注意，数量CountWordContextAll(j，i)独立于该字典。这意味着CountWordContextNot(j，i)实际并不需要用于该字典的表(其可以在运行中根据CountWordContext(j，i)来计算)。

C o u n t D i c t N o t = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &NotElement; D) = S u m P o s i t i o n - C o u n t D i c t

其随后允许高效计算：

P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t N o t (j, i)}{S u m P o s i t i o n - C o u n t D i c t}

P (e (a, p) &NotElement; D) = \frac{S u m P o s i t i o n - C o u n t D i c t}{S u m P o s i t i o n}

\begin{matrix} K = \\ = \frac{1}{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) P (e (a, p) &Element; D) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D) P (e (a, p) &NotElement; D)} \end{matrix}

根据此，可以计算：

\begin{matrix} P (e (a, p) &Element; D | c_{0}, ..., c_{m - 1}) = \\ \frac{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) P (e (a, p) &Element; D)}{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D) P (e (a, p) &Element; D) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D) P (e (a, p) &NotElement; D)} \end{matrix} .

i)处于字典词语层级的概率

可以期望的是，给定上下文，计算一个词语是字典的给定词语的概率：

P (e (a, p) = w_{k} | c_{0}^{o_{0}} (a, p), ..., c_{m - 1}^{o_{m - 1}} (a, p))

其中，w_k是该字典中的特定词语。

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) = w_{k}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w &Element; e_{i} (a, p) a n d e (a, p) = w_{k})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) = w_{k})} \end{matrix}

其中，如果断言成立，则δ(predicate)＝1，否则其为0。

可以对计数值进行预计算：

\begin{matrix} C o u n t W o r d C o n t e x t K (k, j, i) \\ = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) = w_{k}) \end{matrix}

C o u n t K (k) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) = w_{k})

S u m P o s i t i o n = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (t r u e)

其随后允许高效计算：

P (c_{0}, ..., c_{m - 1} | e (a, p) = w_{k}) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t K (k, j, i)}{C o u n t K (k)}

P (e (a, p) = w_{k}) = \frac{C o u n t K (k)}{S u m P o s i t i o n}

P(e(a，p)＝w_k|c₀，...，c_m-1)＝K_kP(C₀，...，c_m-1|e(a，p)＝w_k)P(e(a，p)＝w_k)

计算K还包括评估：

P(e(a，p)≠w_k|c₀，...，c_m-1)＝K_kP(c₀，...，c_m|e(a，p)≠w_k)P(e(a，p)≠w_k)

同样，使用贝叶斯：

P (c_{0}, ..., c_{m} | e (a, p) &NotEqual; w_{k}) \approx \underset{i}{Π} P (c_{i} | e (a, p) &NotEqual; w_{k})

其中：

P (c_{i} | e (a, p) &NotEqual; w_{k}) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p) | e (a, p) &NotEqual; w_{k})

其中，o_r＝w₀，...，w_l-1。结果是

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) &NotEqual; w_{k}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &NotEqual; w_{k})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &NotEqual; w_{k})} \end{matrix}

为此，需要下面的量：

\begin{matrix} C o u n t W o r d C o n t e x t N o t (k, j, i) \\ = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w_{j} &Element; e_{i} (a, p)) \\ - \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (w &Element; e_{i} (a, p) a n d e (a, p) &Element; D) \\ = C o u n t W o r d C o n t e x t A l l (j, i) \\ - C o u n t W o r d C o n t e x t K (k, j, i) \end{matrix}

\begin{matrix} C o u n t K N o t (k) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &NotEqual; w_{k}) \\ = S u m P o s i t i o n - C o u n t K (k) \end{matrix}

应当注意，数量CountWordContextAll(j，i)独立于该字典。这意味着CountWordContextKNot(k,j,i)实际并不需要用于该字典的表(其可以在运行中根据CountWordContextK(k,j,i)来计算)。随后，可以高效地执行下面的计算：

P (c_{0}, ..., c_{m - 1} | e (a, p) &NotEqual; w_{k}) \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t N o t (k, j, i)}{S u m P o s i t i o n - C o u n t K (k)}

P (e (a, p) &NotEqual; w_{k}) = \frac{S u m P o s i t i o n - C o u n t K (k)}{S u m P o s i t i o n}

\begin{matrix} K_{k} \\ = \frac{1}{P (c_{0}, ..., c_{m - 1} | e (a, p) = w_{k}) P (e (a, p) = w_{k}) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotEqual; w_{k}) P (e (a, p) &NotEqual; w_{k})} \end{matrix}

ii)具有遗漏的词语时的概率

可以期望的是，给定上下文，计算一个词语处于减去词语w_k的字典中的概率：

P (e (a, p) &Element; D - {w_{k}} | c_{0}^{o_{0}} (a, p), ..., c_{m - 1}^{o_{m - 1}} (a, p))

其中，w_k是该字典中的特定词语。应当注意，如果e(a，p)＝w_k，则上面的概率反映该字典中的所有其它词语的概率。例如，在语句“总统福特是美国第38任总统”中，利用字典中不同于“福特”的所有词语，对上面的概率进行训练。如果字典是{“本田”、“福特”、“丰田”}，则该概率将非常低，这是由于不存在很多的“总统本田”或“总统丰田”实例。所以，该概率将正确地预测该语句中的“福特”不是汽车品牌。

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) &Element; D - {w_{k}}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w &Element; e_{i} (a, p) a n d e (a, p) &Element; D - {w_{k}})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &Element; D - {w_{k}})} \end{matrix}

其中，如果断言成立，则δ(predicate)＝1，否则其为0。

可以对计数值进行预计算：

CountWordContextDictMinusK(k，j，i)

＝CountWordContext(j，i)-CountWordContextK(k，j，i)

CountDictMinusK(k)＝CountDict-CountK(k)

其随后允许高效计算：

\begin{matrix} P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D - {w_{k}}) \\ \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t D i c t M i n u s K (k, j, i)}{C o u n t D i c t - C o u n t K (k)} \end{matrix}

P (e (a, p) &Element; D - {W_{k}}) = \frac{C o u n t D i c t - C o u n t K (k)}{S u m P o s i t i o n}

P(e(a，p)∈D-{w_k}|c₀，...，c_m-1)

＝K_kP(c₀，...，c_m-1|e(a，p)∈D-{w_k})P(e(a，p)∈D-{w_k})

计算K还需要评估：

\begin{matrix} P (e (a, p) &Element; D - {w_{k}} | c_{0}, ..., c_{m - 1}) = K_{k} P (c_{0}, ..., c_{m} | e (a, p) &NotElement; D - {w_{k}}) P (e (a, p) \\ &NotElement; D - {w_{k}}) \end{matrix}

同样，使用贝叶斯：

P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D - {w_{k}}) \approx \underset{i}{Π} P (c_{i} | e (a, p) &NotElement; D - {w_{k}})

其中：

p (c_{i} | e (a, p) &NotElement; D - {w_{k}}) \approx \underset{w &Element; w_{0}, ..., w_{l - 1}}{Π} P (c_{i}^{w} (a, p) | e (a, p) &NotElement; D - {w_{k}})

其中，o_r＝w₀，...，w_l-1。结果是

\begin{matrix} P (c_{i}^{w} (a, p) | e (a, p) &NotElement; D - {w_{k}}) \\ = \frac{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (w_{j} &Element; e_{i} (a, p) a n d e (a, p) &NotElement; D - {w_{k}})}{Σ_{a &Element; T r a i n S e t} Σ_{p &Element; p o s i t i o n i n a} δ (e (a, p) &NotElement; D - {w_{k}})} \end{matrix}

为此，需要下面的量：

CountWordContextDictMinusKNot(k，j，i)

＝CountWordContextAll(j，i)

-CountWordContextDictMinusK(k，j，i)

\begin{matrix} C o u n t D i c t M i n u s K N o t (k) = \underset{a &Element; T r a i n S e t}{Σ} \underset{p &Element; p o s i t i o n i n a}{Σ} δ (e (a, p) &NotElement; D - {w_{k}}) \\ = S u m P o s i t i o n - C o u n t D i c t M i n u s K (k) \end{matrix}

应当注意，数量CountWordContextAll(j，i)独立于该字典。这意味着CountWordContextDictMinusKNot(k，j，i)实际并不需要用于该字典的表(其可以在运行中根据CountWordContextK(k，j，i)来计算)。随后，可以高效地执行下面的计算：

\begin{matrix} P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D - {w_{k}}) \\ \approx \underset{i}{Π} \underset{w_{j} &Element; o_{i}}{Π} \frac{C o u n t W o r d C o n t e x t D i c t M i n u s K N o t (k, j, i)}{S u m P o s i t i o n - C o u n t D i c t M i n u s K (k)} \end{matrix}

P (e (a, p) &NotElement; D - {w_{k}}) = \frac{S u m P o s i t i o n - C o u n t D i c t M i n u s K (k)}{S u m P o s i t i o n}

\begin{matrix} K_{k} = \\ \frac{1}{P (c_{0}, ..., c_{m - 1} | e (a, p) &Element; D - {w_{k}}) P (e (a, p) &Element; D - {w_{k}}) + P (c_{0}, ..., c_{m - 1} | e (a, p) &NotElement; D - {w_{k}}) P (e (a, p) &NotElement; D - {w_{k}})} \end{matrix}

4.特征完成

特征完成是字典平滑的更通用的方法。对文档进行自动分类的学习技术，根据标注的训练实例集合来推断分类器。推断出的分类器是一个函数，其使用一组输入特征(即，描述该文档的测量值)，并输出类型标记。可以通过捕获更多的标注的训练实例，或者通过依赖更佳的特征，主要沿着两个交替路径来提高分类器的准确性。特征完成针对于第二种方法，其目标在于促进更佳特征的设计。

特征是用于将文档的原始表示(例如，文本的字符序列、图像的像素图...)映射到分类器所依赖的中间表示(例如，给定词语的发生数量或者图像中存在特定的颜色)。大部分特征是根据关于分类器可以依赖的测量类型的简单人类直觉来构建的(例如，检测图像中的人脸的分类器可以使用皮肤颜色的存在性作为特征)。但是，将直觉转换成用于映射文档表示的函数是一项复杂的、不完美的任务。

特征完成有助于实现这种转换过程。其以人类给出的初始特征为输入，提供用于补充第一特征的补充特征，使得两项特征的组合更接近初始凭直觉获得的测量值。为此目的，其依赖于很大数据集的未标注文档。未标注文档的原始表示划分成初始特征使用的部分(表示A)和剩余部分(表示B)。给定关于未标注集合的该组配对的表示，应用学习算法以推断使用表示B，并预测关于相同文档的部分A的初始特征的输出的函数。该函数是补充特征，这是由于其表现类似于初始特征，但依赖于原始表示的补充部分(即，表示B)。初始特征和补充特征的组合可能更接近初始直觉，这是由于其使用文档中的初始特征实现没有设法开发的剩余部分。这两个特征的组合对于噪声还是更健壮的，这是由于损坏不可能以相同方式来影响表示A和表示B。

应当注意的是，分类器确定如何对初始特征和其补充对应物进行组合。这意味着学习算法针对用户来判断补充特征应当具有较少影响(由于初始特征已经是高质量)，还是具有更多影响(由于初始特征是较差的质量)。

在一个方面，提供了用于构建补充特征的系统和方法。各个补充特征是根据初始特征和较大的未标注数据集合来构建的。补充特征是以原始表示中初始特征未采用的部分为输入的函数。通过尝试根据未标注数据上的该补充表示而预测初始特征的输出来构建补充特征。

在另一个方面，该系统和方法可以包括一个或多个另外的特征，例如，初始特征对文本流中的各个位置处的分离的词语或n元语法(词语序列)的存在性进行测量，而补充特征输入由考虑的位置周围的文本窗来构成，其中的中间词语被去除；初始特征是在字符串上操作的正则表达式，以预测文本中的匹配位置，而补充特征输入由考虑的位置周围的文本窗来构成，其中的中间词语被去除；或者初始特征对较大的核苷酸序列(例如，DNA)中的各个位置处的分离的短核苷酸序列的存在性进行测量，而补充特征输入由考虑的位置周围的几个核苷酸的窗来构成，其中的中间核苷酸被去除。

下面的讨论描述用于特征完成的示例性算法。特征完成以初始特征和较大的未标注数据集来开始。补充特征是根据这些输入来构建的。一旦进行了构建，则可以结合在受监督学习设置中的初始特征，来使用该补充特征。

a.定义

●数据集是项目集合。例如，数据集可以是网页的集合、查询的集合、词语文档的集合、分子的集合、基因的集合等等。每一个项目通过其原始表示来表达。该表示是关于此项目所获得的测量值集合。这些测量值可以具有固定的长度(例如，指向网页的链接数量)，也可以具有可变的长度(例如，表示各个词语的词元列表)，以及可能的注释(例如，粗体、斜体、表位置、元数据等等)。原始表示的目的是将与项目有关的所有信息捕获成计算机可读形式，而不会先验地辨别哪个信息是相关的或无关的。特征表示是原始表示的函数，其捕获与机器学习算法有关的信息，以执行关于该项目的任务(例如，分类、抽取、回归、排序等等)。通常，特征表示丢弃原始表示中的大量信息，这是由于在具有较小数量的训练例子和有限的计算时间的情况下，原始表示空间对于机器学习算法要充分执行来说太庞大。

●初始特征表示f是起始使用的特征表示。其使用项目的原始表示的一部分，并计算值或者值向量。值的例子可以是项目的长度、特定的子组成部分在项目中存在的次数等等。向量值可以是在该项目上滑动一个窗，并计算该窗上的函数的结果。例如，对于文本窗而言，初始特征可以是：

○表示来自给定列表中的任何词语是否在该窗的中间出现的二进制值，

○表示在窗中存在或者不存在动词的二进制值，

○表示存在或不存在后面跟着形容词的名词的二进制值，

○对给定词语在该窗中发生的数量进行计数的整数特征，等等。

●补充特征g也是特征表示。其使用项目的原始表示的不同部分，并预测值或者值向量。其依赖于在下一章节中定义的算法来构建。

●该讨论区分项目的原始表示中的两个部分。表示A指代初始特征使用的部分。表示B指代补充特征使用的部分。应当注意，这两个部分可以重叠，也可以不重叠。

●受监督学习算法使用一组输入/输出对，并且预测一函数，该函数目标在于在给定输入的情况下预测输出。

b.用于构建补充特征的算法

i)通用算法构建补充

该算法计算另外的特征函数g。使用数据集D和函数f来生成(输入，目标)对作为用于g的训练例子。随后，使用一种训练算法来训练g。结果是新特征函数g，该新的特征函数g随后可以用于补充f。

●输入：初始特征f，数据集D

●输出：补充特征g

●算法

○将补充特征训练集P初始化为空集

○对于D中的每一个项目i

·提取a_i(用于i的表示A)，以及

·计算初始特征的输出f(a_i)

·提取b_i(用于i的表示B)

·将(b_i，f(a_i))增加到P。该(输入，目标)对是用于函数g的训练例子

○g＝SupervisedLearningAlgorithm(P)

○返回g

如果这些特征是在滑动窗上计算的，则可以将该算法修改成：

●输入：初始特征f，数据集D

●输出：补充特征g

●算法

○将补充特征训练集P初始化为空集

○对于D中的每一个项目i

·针对项目中的每一个位置p

·提取a_i，p(用于通过p来索引的初始窗中的i的表示A)，以及

·计算初始特征的输出f(a_i，p)

·提取b_i，p(用于通过p来索引的上下文窗中i的表示B)

·将(b_i，p，f(a_i，p))增加到P。该(输入，目标)对是用于函数g的训练例子

○g＝SupervisedLeamingAlgorithm(P)

○返回g

ii)针对二进制情形的特殊化

假定f是二进制特征，表示B是n个二进制测量值的集合。这意味着对于任何项目i，f(a_i)是0或者1，而b_i可以标记成向量(b_i1，...，b_in)，其中每一个b_ij是0或1。考虑仅仅依赖于来自P中的下面计数值(N(j，α，β)，其表示P中的使得f(a_i)＝α和b_ij＝β的配对(b_i，f(a_i))的数量)的受监督学习算法的类型，在该情况下，可以将补充特征构建算法重写成：

●输入：初始特征f，数据集D

●输出：补充特征g

●算法

○将N(j，α，β)初始化成零，其中j＝1..n，α＝0..1，β＝0..1

○对于D中的每一个项目i

·提取a_i(用于i的表示A)，以及

·预测初始特征的输出f(a_i)

·提取b_i(用于i的表示B)

·递增N(j，f(a_i)，b_ij)，其中j＝1..n

○g＝SupervisedLearningAlgorithm(P)

○返回g

c.针对分类的补充特征

如本文所使用的分类是在给定输入项目的情况下，预测类型标记的任务。为此目的，使用由受监督学习算法构成，其中该算法可以自动地推断用于根据标注项目集合(即，人类标注者已识别正确类型的项目)，来将输入特征表示映射到类型标记的函数。给出标记项目(x,y)，其中x代表其原始表示x，y代表其标记。

下面的算法使用标注的项目集合、未标注的数据集和初始特征集合f₁...f_n。该算法补充每一个特征，学习依赖于初始特征和其补充特征的分类器。

●输入：初始特征集合f₁...f_n、标注的项目集合L、未标注的数据集U

●输出：补充特征集合g₁...g_n、依赖于f₁...f_n和g₁...g_n二者的分类器C

●算法

○对于每一个初始特征f_i，

·根据未标注的数据，定义其补充

g_i＝BuildComplementary(f_i，U)

○将配对集P初始化为空集

○对于L中的每一个标注的项目(x,y)

·计算初始特征和其补充特征

v(x)＝f₁(x)，...，f_n(x)，g₁(x)...g_n(x)

·将(v(x)，y)增加到P中

○C＝SupervisedLearningAlgorithm(P)

○返回g₁...g_n和C

举例而言，考虑下面的表4中的文档的集合：

文档ID	内容
		0	“cut off date is May 18 2012”；
1	“Posted Thursday,May 24,2012at 10”；
		2	“Published on February 18 2001”；
3	“Customers Viewing This Page May Be Interested in”；
		4	“Posted Thursday,February 24,2012at 10”；
5	“He bought 24candles”；
		6	“May I suggest that you read”；
7	“Beatles-Let It Be-Lyrics”；

表4

假定初始特征是：词语属于集合{“February”、“May”}。初始特征尝试捕获的概念是月份的概念。不幸的是，其不能在文档3和6中很好地工作，这是由于即使这两个特定的“May”的实例并不指代月份，该特征也要触发。因此，依赖于初始特征的任何学习算法将受到该特征的“误触发”的阻碍。

为了补偿该问题，可以构建简单的补充特征。请参照上面所描述的关于窗的通用算法“构建补充”。形式上，初始表示a_i，p是以位置p为中心的项目i的长度为一(单一词)的固定长度窗。第二表示b_i，p也是长度为一的固定长度窗，但其以p+1处的词语为中心。本文将称为“上下文”窗。

在该例子中，补充特征g是尝试更佳地预测月份的概念。为了构建该特征，将非常简单的贝叶斯算法使用成用于计算g的学习算法。将函数g定义成：

g(w)≡P(f(wordatp)＝1|wordat(p+1)isw)

其中，词语w是从对g进行评估的位置p+1读取的。在该情况下，其帮助将表示b_i，p认为位于位置p周围。

应当注意，可以使用其它表示，而不是将“位于位置p+1的词语”用作针对g的输入，并且可以使用其它机器学习算法来训练g以模仿f的值。在该情况下，使用贝叶斯模型，这是由于可以给出闭合形式版本的g，通过给出显式的机器学习算法，来揭秘该处理。使用贝叶斯规则，可以得到：

\begin{matrix} g (w) = P (w o r d i n D i c t | f o l l o w i n g w o r d i s w) \\ = \frac{P (f o l l o w i n g w o r d i s w | w o r d i n D i c t) P (w o r d i n D i c t)}{P (f o l l o w i n g w o r d i s w)} \end{matrix}

举例而言，将针对位置3处的第二文档(w＝“24”)来计算g。查看语料库，可以推断：这是由于在语料库中存在54个词语，其中6个处于该字典之中。对于(文档1中的)May的第二实例而言，

P (f o l l o w i n g w o r d {is}^{''} 24^{''} | w o r d i n D i c t) = \frac{2}{6} = \frac{1}{3}

这是由于在字典中存在该词语的六个实例，并且在这些实例中的两个，后面的词是“24”。通过实现下式来计算P(后面的词是X)：

P(字典中的词|后面的词是X)+P(非字典中的词|后面的词是X)＝1

这导致

P(后面的词是“24”)

＝P(后面的词是“24”|字典中的词)P(字典中的词)

+P(后面的词是“24”|非字典中的词)P(非字典中的词)

或者

以及最后：

如果针对所有的实例进行该运算，则结果是：

文档0：P(字典中的“May”|后面的词是“18”)＝1.0

文档1：P(字典中的“May”|后面的词是“24”)＝0.6666

文档2：P(字典中的“February”|后面的词是“18”)＝1.0

文档3：P(字典中的“May”|后面的词是“Be”)＝0.5

文档4：P(字典中的“February”|后面的词是“24”)＝0.6666

文档5：P(字典中的“May”|后面的词是“I”)＝1.0

可以观察到，该补充特征是更佳的，这是由于：如果使用0.6的门限，则将检测到文档3中的May是动词而不是月份。但其不是完美的，这是由于其不能检测到文档5中的May也是动词而不是月份。

下面将给出在文档的较大语料库(500,000个网页)上计算更复杂的上下文函数的例子。主函数查找一个词，如果该词属于(“January”、“February”、...、“December”)，则主函数是1，否则其是零。补充特征查看之前的两个词和之后的两个词，并使用贝叶斯来计算处于该字典中的概率。为此，使用该算法的变形，本文称为“留一法”。在该版本中，在一个特定词语上使用的函数g，在除了该词语所定义的实例之外的数据集的所有实例上进行训练。

这是有用的是，因为当一个词具有双重含义时(例如，类似May，其可以是月份或者动词)，可以仅仅利用不包括其自己双重含义的实例来进行训练。双重含义的May可能潜在地破坏其它月，但通常这不是一个问题，这是由于针对f＝1的不同情形的双重含义的上下文通常是不相关的。例如，如果利用不包括February但包括所有其它月(其包含May)的所有实例的集合来训练g(February，.)，则类似“MayIhelpyou”的最坏情形对于February模型只有很小的损害，这是由于上下文“I”不太可能用于February(“FebruaryIhelpyou”)。

下面的表5中的清单示出了随机从数据集中抽取的100个实例，并根据补充特征g的值来进行排列。在具有标题“Prob.”的列中示出了该值。接着的4列是位于位置-2、-1、+1、+2(相对于位于位置0的May)的“证据”。每一个证据可以计算成：

\begin{matrix} E v i d e n c e (k) \\ = \frac{P (w o r d a t p o s i t i o n p + k | w o r d a t p o s i t i o n p i s i n (d i c t - M a y))}{P (w o r d a t p o s i t i o n p + k | w o r d a t p o s i t i o n p i s n o t i n (d i c t - M a y))} \end{matrix}

接着的列标记是“概念”值，或者该特定的发生是否真的是月份。只是为了评估的目的，手工地计算该值。检查表5中的列表显示出：初始特征将产生21％的差错率。相比而言，使用p＝0.0003的门限的补充特征，只具有2％的差错率。

表5

V.分割和规划

A.分割

通过构建，这些词袋表示忽略词语之间的所有关系。这可能是一种限制，其原因在于对信息进行排序和形成到组可能是有价值的。例如，将论坛网页分解成一系列的个别发布，对于发现比较两个产品的发布可能是有用的。在词袋表示中，可以每一次发现有两个发布提及这两个产品出现在同一网页中。将一个schema分解成各个的字段，允许以字段为目标的搜索和业务中心(pivoting)。这对于发现每一次食用低于500卡路里，并且烹饪时间低于20分钟的食谱是有用的。

为了实现这些能力，假定每一个项目包含排序的词元序列。这种基于词元的表示比词袋更丰富。词元的位置导致词元之间的排序和邻近性试题。两个词元之间的距离是它们的位置之间的绝对差值。(在该章节中，为了简化起见，假定一维拓扑。也可以是二维拓扑，但其更复杂(利用矩形来替换分割))。将分割定义成文档中的一对(b，e)位置。第一位置b(用于开始)指向该分割的第一词元。第二位置e(用于结束)指向该分割之外的第一词元。每一个分割以位于文档之中的一组相邻词元为特性。一个文档分割是k个分离的分割的集合(s₀，...，s_k-1)。更正式地说，通过下式来定义n个词元的文档的可能分割的集合：

\begin{matrix} S = {s : s = (s_{0}, ..., s_{k - 1}) : k \leq n, &ForAll; i &Element; 0.. k - 1, s_{i} = (b_{i}, e_{i}) : 0 \leq b_{0}, b_{i} < e_{i}, e_{i} \\ \leq b_{i + 1}, e_{k - 1} \leq n} \end{matrix}

特征f_j(i，d)是文档d的向量函数，其是在每一个词元位置i上定义的。将文档的特征化定义成f(d)＝(f₀(.，d)，...，f_J-1(.，d))，其中J是个体特征的数量。应当注意，位置i处的特征值取决于整个文档。特征的这种定义通常足够涵盖全局特征(在所有词元上不变)、词元特征(其在位置i处的值只取决于该位置处的词元的特征)或者网格(其将稍后在该节中介绍)。分割分类器h是计算下面概率的函数：

h：d，s，w→h(f(d)，s，w)

其中，d是原始数据，f(d)是词元数据的特征化，s是这些词元上的分割，w是可训练的参数向量。理想地，分割分类器应当验证：

\underset{s &Element; S}{Σ} h (f (d), s, w) = 1

图9示出了街道地址的示例性分割900。图9的顶部是数据910的可视化(网页的一部分)。在其下面是相同数据的词元表示912，在之下具有街道地址分割914：s＝((4,15),(21,34),(40,53))。

街道地址分割包含标记成“街道地址”的3个分割914(但是，由于页面的空间约束，没有示出第三分割)。餐馆名称分割将返回((0,3),(17,20),(36,39))。理想地，街道地址分割分类器将针对s＝((4,15),(21,34),(40,53))返回h(f(d)，s，w)＝1，针对任何其它s值则返回0。这将是目标信号或分割标记。

B.模块化和网格

schema具有递归结构。schema中的字段可以自身是一个schema。例如，街道地址schema可以由5个子schema构成：

●街道地址

○街道

○城市

○州

○Zip编码

○国家

如本文所定义的，模块化约束是独立于可以使用它们的上下文来构建分割器的能力。模块化的益处在于一旦构建了分割器，则其可以在底部的方式来使用成用于更高层级分割器的特征(类似于分类器的特征)。如先前所描述的，将特征约束为是不变的。这隐含着一旦构建了分割器，则在更高层级分割器之内不再进行训练，以充分利用上下文信息。这起初似乎是一个严重的限制。例如，如果街道提取器知道上下文，则其将发挥更大的作用。“Smithlane,1234”是街道地址还是名字？如果更低层分割器决定什么是街道，什么不是，则高层地址分割器不可能很好地执行。

网格：为了克服该问题，施加以下的约束，分割器不返回分割而返回网格。网格是各个词元的状态之间的转换图。图10示出的分割器1024的网格表示1000。对于给定的实体提取器，每一个词元1010具有三种状态：无用(Junk)1012(实体未被检测到)、开始1014(实体的第一词元)和继续1016(实体的后续词元1010)。边1018是从一个词元1010到下一个词元的转换概率。一个分割是从文档的开始到文档的结束的最可能路径。这些转换概率是词元特征窗上的卷积函数。令表示词元i的状态s₁和词元i+1的状态s₂之间的转换概率。那么

e_{s_{1}, s_{2}, i} = g (f {(d)}_{i}, w_{s_{1}, s_{2}})

其中，g是固定的可训练函数，f(d)_i是中心位于i的词元特征化窗，是针对各个转换s₁、s₂的可训练参数集合。如上所述，开始状态1014和继续状态1016是其中检测到该分割的状态，状态转换边1018是计算转换的概率的词元特征1020的函数。在不存在其它约束的情形下，分割是最佳转换路径1022(粗实线)。

网格表示的一种优点在于：其允许低层分割器向更高层分割器传输每一个可能分割的概率。在不存在其它约束的情形下，缺省分割是穿过该网格的最佳路径。这可以使用动态规划，在O(n)步内计算出。当更高层分割器使用低层分割时，该更高层分割器可以输出其分割，随后通过寻找服从约束的最佳转换路径来寻找最佳低层分割。例如，对于地址分割器而言，子分割(街道、城市、Zip编码、州和国家)不能穿过地址边界(父约束)，给定的词元可以只属于这些子分割中的一个(兄弟约束)。换言之，子分割器并不针对它们自己的分割进行最后的决定。它们提供该层级的每一个可能分割的概率，在该层级之上进行决定。计算高层级分割是一项自底向上的过程。之后是字段填充通道(或者回退分割)，此时使用当前网格以及来自父辈和兄弟的约束来计算各个层级处的新分割。

对于每一个子分割器来说，可能分割和其相应概率的总数对于n个词元来说是O(2ⁿ)。幸运的是，网格表示在O(n)空间中携带所有该信息。为了根据网格来计算特定分割的概率，可以简单地确定每一个词元处于这3个状态中的哪一个状态，并在沿着该网格上的相应路径时，对所有边进行相加。

当将网格使用成用于对更高层级分割器进行训练的特征时，其变成词元特征(每一个边值与其左边的词元相关联)。

C.标注分割

标注分割是极端枯燥乏味的。文档中的每一个词都需要标记。这种网格结构允许交互式分割标注。网格化的主要特征在于其能够在服从关于状态的约束的情形下，实现搜索最佳路径。缺省分割来自于没有约束的最佳网格路径。这种分割可以向每一个可见词元分配缺省的标记。当相应词元处于开始或者继续状态时，可以通过使相应词元的可视表示(例如，词语)进行高亮显示，来使这些标记是操作者可视的。

可视词元(例如，词语)的边框上的每一次点击，都切换该词元的状态。开始和继续之间的不同是相当微妙的；其允许长分割和两个相邻分割之间的区分。这是UX挑战。一旦可视词元被点击，则其受到约束。从未被点击的词元是无约束的。对于每一次操作者点击可视词元，都增加/改变/删除了约束。这触发关于网格的动态规划优化，以便用O(n)步来寻找新产生的最佳路径。这将可能改变剩余的无约束词元的缺省标记。换言之，在给定操作者约束的情形下，系统与操作者很好地工作以始终显示最佳的解决方案。例如，点击遗漏的地址上的任何地方，可能触发将整个地址正确地标注成分割。这是由于如果地址词元中的任何一个是地址分割的一部分，则相邻词元成为地址的一部分的可能性极大地增加。如果在每一次点击时都计算最佳网格路径，则词元趋向于在逻辑组中翻转。这使得标注分割不太枯燥乏味，只需要很少的手眼协调。应当注意，每一次点击都是前进，这是由于其导致增加的约束。可以提供可视的线索，以指示哪些可视词元缺省地达到它们的值，以及哪些可视词元通过标注达到它们的值。

置信度：类似于分类标记，期望对于标注准确性的重要性进行淡化。期望的是，操作者只查看具有低置信度的分割或者遗漏分割，并首先对它们进行标注。令人感兴趣的UX挑战是：应当怎样显示置信度？

给定具有一些识别的分割的文档，低置信度分割应当视觉地弹出，使得操作者可以放大这些，进行决定，并在无需阅读整个文档的情况下提交新标记。这对于遗漏的分割来说，甚至是更期望的。在给定的文档上，针对分割的最可能候选应当视觉地弹出，使得操作者可以放大这些，并采取适当的动作。如果不存在低置信度候选，则操作者应当能够忽略整个文档，而无需进行阅读。

显示分割置信度并不是那么简单。存在O(2ⁿ)个可能分割。在词元层级上显示置信度将会误导，页面看起来像深浅相间的。例如，词语“main”的每一数量或者实例都可能是遗漏地址的候选。

通过返回到网格表示来解决该问题。缺省路径提供文档层级的路径评分。将该评分称为缺省最佳路径得分(或者DOPS)。该全局评分在词元层级没有任何含义。如果一个词元被点击，则其标记发生改变，给定该约束条件下的新最佳路径提供不同的评分。将该新评分称为COPS(token)，对应于受约束的最佳路径评分。该新评分自身在词元层级没有任何含义。但是，差值

Conf(token)＝DOPC-COPS(token)

是对翻转给定词元的标记的效果的系统估计。如果该差值接近于0，则系统并不自信其具有正确的标记(翻转其没有效果)。应当注意，

0≤Conf(token)≤1

这是由于路径评分是概率性的，当没有状态是受到约束时，DOPC是最佳路径。如果评分接近于0，则系统对于相应的词元是否属于分割没有自信。从UX的角度来看，置信度可以是词元层级的颜色编码，或者可以高亮显示低置信度词元，其验证Conf(token)≤K，其中K是置信度门限。由于标记趋向于在组中翻转，相邻的词元很可能具有相同的评分差值，所以其可以向操作者指示当一个标记改变时，哪些词元将一起翻转。至少有道理的是，操作者可以通过仅仅查看低置信度分割(或者低置信度非分割)来标注文档，并且可以只在这些分割上采取动作，而无需阅读整个文档。这将明显地减少分割标注成本。

利用动态规划，使用O(n)步来计算给定约束时的最佳路径。如果针对每一个词元部计算Conf(token)，则实现将耗费O(2ⁿ)步。如果一个文档具有100,000个词元，则这将变成一个问题。幸运的是，可以在O(n)内，计算整个函数Conf(token)。技巧是进行两次动态规划通道，每一个万向一次，计算从当前词元到文档的每一个端的两个方向中的最佳路径。在O(n)中完成这两个通道。量Conf(token)是简单地将两个半路径的评分进行相加。

为了寻找最可能具有分割的文档，分割分类器可以转变成具有下面操作的正则分类器：

h^{'} : d, w &RightArrow; \underset{&ForAll; s s . t . s &NotEqual; ()}{Σ} h (f (d), s, w) = 1 - h (f (d), (), w)

换言之，h′是包含至少一个分割的所有分割的概率之和。其返回在该页面上存在至少一个分割的概率。

VI.分割提取

分割提取(AKA实体抽取或者EE)是识别文档中与给定的概念相对应的词元分割的过程。举例而言，假定用户有兴趣自动地从网页中提取地址和它们的组成部分(城市、州等等)，使得他或她能快速地在地图上查找它们。图11描述了网页1110的简化表示，其中网页1110包括连同标记1114的地址1112，以及从该网页中提取的该地址的相应构成部分1116。

通常，用于分割提取的统计方法使用训练数据来构建可以用于对文档进行解码的有限状态机(FSM)。图12中示出了用于提取地址的示例性有限状态机。节点1210、1212和1214是FSM的状态，边1216、1218、1220、1222、1224和1226是状态之间的转换。每一个虚线转换(1218和1216)“消费”文档词元，并将其标注成地址的一部分，而每一个点线边(1214和1224)消费词元，将其标注成不是地址的一部分。实线边是不消费任何词元的小量转换。

给定文档，“推出”FSM以生成相应的网格，该网格可以用于计算该文档中的路径概率，如图13中所示。图13包括网格1310、边1312、节点1314和文档词元1316。为了清楚说明起见，只对边和节点中的一些进行了标注。图13描述了每一个词元1316对齐在该词元的可能路径之下。

网格1310中的每一个边1312具有取决于该文档中的特征的权重。使用标记解码算法(例如，Viterbi)，可以识别出通过该网格1310的最高权重路径，并输出词元1316和转换(边)1312的相应标注。还可以训练权重函数，使得可以提取任何给定路径的概率。

通常，边权重函数取决于在感兴趣边“附近”的词元特征，但这并不是一种要求。在下面讨论的例子中，参见图14，假定存在两个词元特征，IsNumber和IsStreetType，它们被描述成词元特征1410。如果词元1412对应于数字(“1401”和“THIRD”)，则IsNumber是1，如果词元1412对应于街道类型(“STREET”、“ST”、“AVENUE”、“AVE”)，则IsStreetType是1。转而，每一个词元1412具有维度为2的相应特征向量1414，如图14中所示。

再次参见图13，考虑用于网格1310中的实线“水平”边的边权重函数。该函数可查看在转换之前的词元的特征和在转换之后的词元的特征。

Weight(Features)＝θ₁×IsNumber(tokenbefore)+θ₂×IsStreetType(tokenbefore)+

θ₃×IsNumber(tokenafter)+θ₄×IsStreetType(tokenafter).

对参数θ_i进行训练，以使关于训练集的某种损失函数最大化。通常，训练集包含与沿着网格的路径相对应的标记。直观上，训练算法尝试学习权重函数，使得与未标注的路径相比，训练数据中的标注的路径具有更高的整体权重。

此外，训练数据还可以在无需唯一地识别单一路径的情况下，指示关于通过网格的允许路径集的约束。在上面所描述的例子中，可以具有用于指示“1401”、“THIRD”和“AVENUE”都是地址词元的标记；由于网格的结构，因此其没有唯一地识别路径，而是将该路径约束到中间三个词元上的虚线词元消费边中。

A.分层状态机

在大部分分割提取域中，感兴趣的概念是分层的。在该地址示例中，地址具有诸如街道之类的子概念，而街道也可以具有子概念。可以将这种域表示成“概念层次”，其中根节点表示感兴趣的概念，子节点对应于相互排斥的子组成部分；相互排斥意味着单一词元可以属于这些子组成部分中的至多一个(因此，“Third”可以是街道的一部分或者Zip编码的一部分，而不可能是这二者的一部分)。

可以以多种不同的方式来分层地指定有限状态机，以简化该表示。考虑分层有限状态机(HFSM)，其中使用模块来递归地定义FSM；模块中的转换可以对应于“普通”状态转换，或者它们可以指代转换到子模块。

举例而言，图15示出了两个模块。左边的模块“X”1510具有转换到模块“Y”1514的模块边1512(其标注为“mY”)和转换边“tX”1516(其是消费词元的普通转换边)。模块Y1514具有消费词元的普通转换边“tY”1518和不消费任何词元的普通转换边1520。通过利用子模块来迭代地替换模块边1512，恢复标准的相应FSM，如图16中所描述的FSM1600所示。FSM1600包括转换边“tY”1610、转换边“tX”1612和转换边1614，它们分别对应于图15的转换边“tX”1516、转换边“tY”1518和转换边1520。

B.交互式构建分割提取模型

为了构建用于域的分割提取系统，通常需要机器学习专家：(1)定义底层有限状态机的结构；(2)定义用于边的特征函数，其需要调谐“窗”的大小以考虑每一个边的周围以及将使用哪些特征；(3)调谐所获得的模型，使得其满足该应用的性能需求。此外，机器学习专家通常以固定的标注的训练集和测试集来开始。下面将描述在无需机器学习专家的情况下，允许域专家构造实体提取模型的系统。

用于构建分割提取器的交互式系统可以包括：用于用户指定约束条件的单元，其中该约束条件管理词元是否属于特定的分割；用于将这些约束条件存储成标记(标注能力)的单元；用于系统交互式地使用最新的用户输入、当前文档信息和可训练函数(标记的交互式传播，不需重新训练)，重新计算和显示最可信的分割的单元；用于系统使用所有先前的输入标记(机器学习所需要的、慢非交互式训练)来训练可训练函数的单元；以及用于系统基于可训练函数所计算的评分，自动地选择下一次标注哪个例子的单元(主动标注)。

C.概念层次

利用本文所描述的技术，域专家可以交互式地提供与感兴趣域相对应的概念层次。在所述地址例子中，不用使机器学习专家能够将地址分解成其组成部分。通过提供允许域专家指定概念层次的用户界面，随后通过使用模块中的缺省结构来将该层次转换成HFSM，和/或通过使用标注的数据在候选结构之中进行选择，可以在无需域专家知道或者关心状态机的情况下，构建复杂的提取模型。

此外，域专家使用的“语言”可以进行扩展，以允许其在机器中提供另外的约束。例如，域专家可能想要说明一个地址至多包含一个zip编码，或者任何地址必须具有给出的街道部分。

另外，域专家可以构建用于某个概念的提取器，随后“将其插入成”用于另一个任务的子概念。这对应于具有HFSM中的模块，后者对应于先前训练的HFSM。在该例子中，一些人可以在地址的上下文之外，构建zip编码提取器。随后，当指定用于地址的概念层次时，人们可以说zip编码子概念对应于前一个概念。当执行这种“插入”时，可以决定要冻结该子机器的权重，使得它们不需要在新的域中进行训练。

用于构建分割提取器的交互式系统可以包括下面中的一个或多个：允许用户交互式地指定概念层次的用户界面，其可以是用户不再提供关于分层状态机的其它信息，系统使用缺省策略和/或模型选择策略来完成分层状态机的指定。用于构建分割提取器的交互式系统可以是使得用户能提供概念层次和关于该域的一个或多个其它约束(其中这些约束转换成关于分层状态机的约束)，还可以使得另外的约束在于：子概念实例在其父概念的实例中至多发生一次(例如，一个地址至多可以包含一个zip编码)。还可以存在其它约束，其包括：子概念实例必须在其父概念的实例中至少出现一次(例如，一个地址必须包含一个州)，关于子概念的部分顺序(例如，在地址中，城市必须在州之前)，两个兄弟子概念不能同时出现在它们的父概念的实例中(一个地址不能同时包含美国邮政编码和加拿大邮政编码)。

用于构建分割提取器的交互式系统还可以使得先前构建的用于概念的模型可以进行重用(例如，一些人构建zip编码提取器，你可以先告诉系统你想要使用相同的提取器，但是在你的地址提取器的上下文中)。还可以使得针对在模块中包含的边，对重用的提取器的参数进行冻结(即，边权重函数是固定的)，但关于与该模块的进入和出去转换边的边权重函数，要针对上下文进行训练。

D.标记模块化/二进制标注

当标注诸如地址之类的分层概念时，针对每一个文档都标注地址的所有组成部分是枯燥乏味的。更容易的是域用户一次只集中于该层次结构中的一个节点(“地址”或“Zip编码”)，快速地标注多个文档。

如本文关于标注所使用的标记模块化指代标记者聚焦，即，一次针对一个模块进行标注/优化的能力。应当注意，由于在HFSM中将所有模块连接在一起，所以针对一个模块的改进和标记可以同时提高其它模块；标记模块化专门用于意味着用户聚焦的模块化。

如本文所使用的，如果用户要引出的标记是通过模块上的“入”或“出”标记来描绘特性，则就说HFSM中的模块是二进制的。具体而言，标注成“入”的词元具有下面的限制：“消费”该词元的边必须与给定的模块或者其派生物中的一个包含在一起(例如，如果一个词元被标注“地址”，则其可以是其子概念或者隐式的“地址：其它”中的任何一个)。类似地，标注成“出”的词元具有下面的限制：“消费”该词元的边不能与给定的模块或者是其派生物中的任何一个包含在一起。

非二进制HFSM可以是有另外的标记可用的HFSM。例如，假定“街道”模块消费两个不同的标记，这两个标记并不对应于子模块：街道1和街道2。转而，标注工具能够根据用户来引出一个词元是哪种类型的街道。当然，这也可以转换成等同的二进制标注：“是街道1”和“是街道2”。

当HFSM中的每一个模块是二进制时，那么可以使用二进制标注工具，以便在每一模块的基础上，引出用于该HFSM的标记。图17描述了用于地址的二进制标注的系统的示例性屏幕截图1700。

概念层次1710示出在左边，其具有根节点1712(“地址”)和三个子节点(“街道”、“城市”和“Zip编码”)。如图所示，用户选择了根节点1712。在相应的HFSM中，存在没有显式地向用户示出的子概念“地址：其它”，这允许机器接受不属于这三个子节点的地址词元(例如，标点、填充文字等等)。作为搜索结果来返回的网页1716显示在右边。为了标注网页1716上的是地址的一部分的词元，在首先选择根节点1712时，用户点击第一词元1718(“15710NE24^THST.SUITEE”)，并将其拖拽到地址的上一个词元1720(“98008”)，从而选择整个地址部分。图18描述了来自图17的搜索结果的一部分，其通常称为搜索结果1800。图18示出了整个地址部分1810的用户选择。

应当注意，知道作为地址的一部分的词元，并不提供关于哪些词元是街道、城市或Zip编码的显式标记。随后，用户点击图17的提交按钮1722，显示出新文档。显示的新文档可以是基于用户提供的显式搜索词(例如，包含“98008”的页面)，或者是基于使用现有模型的主动学习算法(参见下文)。

在标注多个文档之后，系统对可以用于“预标注”地址的模型进行训练。此外，这种预标注可以考虑约束条件，以快速地引出标记；如果所提议的标记是不正确的，则用户可以点击具有错误标记的单一词元，该约束条件可以“传播”到文档中的其它词元。

用户可以通过点击概念层次中的相应节点(例如，“街道”、“城市”或“Zip编码”)，来改变要标注哪个概念。因此，如果用户接着想要标注城市，则其可以点击城市节点，转而对文档上的地址中的城市进行标注，如图19中所描述的。图19描述了可与图17相比较的，用于对地址进行二进制标注的系统的示例性屏幕截图1900，其通常称为屏幕截图1900。

概念层次1910示出在左边，其具有根节点1912(“地址”)和三个子节点：子节点1914(“街道”)、子节点1916(“城市”)和子节点1918(“Zip编码”)。如图所示，用户选择了“城市”节点1916。作为搜索结果来返回的网页1920显示在右边。如图所示，用户选择了词元1922(“BELLEVUE”)作为城市。参见图20，该图描述了可与屏幕截图1900的一部分相比较的示例性屏幕截图2000，应当注意，当用户将词元标注成是“城市”时，这隐含着它们是地址的一部分。如果用户在提交该标记之前，从城市改变成地址，则其将看到其城市标记隐含地址标记，如图20中所示。现在选择了根节点2010(“地址”)，词元2012(“Bellevue”)仍然被选中，这指示其与“地址”的标记相关联。

用于构建分割提取器的交互式系统可以允许域专家提供与概念层次中的节点相关联的二进制(入/出)标记。

E.作为特征的分割提取模型和分类模型

一旦构造了实体提取模型，则其可以使用成另一个实体提取器中的边权重函数的输入。例如，针对文档中的每一个词元，可以使用EE模型来预测该词元是地址的一部分的概率。随后，该概率或者该概率的某个函数可以使用成词元特征值以及其它“标准”特征值中的一个。

实体提取模型还可以用于为分类模型来生成文档层级特征。例如，一个人可以正在构建餐馆页面分类器，其具有在该页面上存在地址的概率>0.5的特征。实体提取模型还可以使用分类模型作为特征。用于构建分割提取器的交互式系统可以使用预构建的分割提取模型和/或预构建的分类模型，来生成用于分割提取模型的输入特征。

F.分割提取查看面板

当构建了分割提取模型时，查看该模型如何关于文档来预测用户已经进行了标注是有用的。预测的标记和实际标记之间的误匹配，可以指示标注错误，或者可以建议要增加新特征。图21示出了使用识别日期的提取问题，来执行该操作的查看面板的示例性屏幕截图2100。图21包括文档文本2110、词元2112(“02/21/07”)、词元2114(“JANUARY”)和词元2116(“BY”)。用户识别的标记通过词元2112下面的下划线2118来指示。模型预测2120通过放置在词元2112、2114和2116上的上面三个边的矩形来指示。如图21中所示，该模型将“02/21/07”正确地识别成日期，但将“JANUARYBY”错误地标注成日期。虽然“JANUARY”是一个月份，但在所示出的上下文中，其并不是实际日期的一部分。

图22示出了用户已标注的文档中的模型预测的示例性屏幕截图，其描述了该模型正确地识别词元2210(“JULY23”)，但遗漏了作为日期的词元2212(“7-23-12”)的情形。

用于构建分割提取器的交互式系统，可以具有用于同时地查看标记与现有的模型预测的界面。

G.小型文档

诸如网页或书中章节之类的文档可能非常长。结果，“标注文档”可能是简直枯燥乏味的，这是由于标注者需要扫描整个文档。为了缓解该问题，可以将文档分割成更多可管理的子文档，但不损失正被标注的分割的上下文。参见图23，该图示出了一种示例性标注工具的屏幕截图2300，其中描述了文档的高亮显示部分(其称为小型文档(minidoc))，其包含处于中间的“高亮”矩形。小型文档2310周围的上下文是标注者可见的，但在一个实施例中，当用户提交标记时，仅仅向系统提交小型文档2310中的文本部分。用户可以通过点击拖拽小型文档的边界，来改变小型文档2310的大小。替代地，如果用户标注小型文档2310之外的文本分割，则可以将小型文档2310扩展到包括该文本。

可以以多种方式来初始化小型文档。例如，给定现有的模型，人们可以识别可能(或者或许不确定)的感兴趣地址，随后定义包含该词元分割的小型文档。用于构建分割提取器的交互式系统可以将输入文档分割成更小的子文档。另外，可以基于预先存在的分割提取模型或者基于与特定的词元或词元特征的邻近性，对这些子文档进行自动初始化。

Claims

1.一种用于机器学习的特征完成的方法，包括：存储第一组数据项，其中，每一个数据项包括词语的文本流；访问字典，其中，所述字典包括词语的列表，所述词语定义能够作为用于训练机器学习模型的输入特征来使用的概念，以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分；提供特征，其中所述特征已经被训练以用于确定位于给定词语位置的词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的概率；以及利用所述字典作为输入特征，对所述机器学习模型进行训练，其中，所述训练包括：A)针对数据项中的文本流中的所述给定词语位置，利用所提供的特征来计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第一概率，B)检查所述给定词语位置的上下文，其中，所述上下文包括挨在所述给定词语位置之前的多个词语和跟在所述给定词语位置之后的多个词语，C)基于所述给定词语位置的所述上下文中的所述词语的函数，计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第二概率，以及D)基于所计算的第一概率，修改所述函数以调整所计算的第二概率。

2.根据权利要求1所述的方法，其中，所述给定词语位置的所述上下文不包括所述给定词语位置。

3.根据权利要求1所述的方法，其中，修改所述函数以调整所计算的概率包括：A)当位于所述给定词语位置的所述词语处于所述字典之中时，修改所述函数以增加所述概率；以及B)当位于所述给定词语位置的所述词语不处于所述字典之中时，修改所述函数以减小所述概率。

4.根据权利要求1所述的方法，其中，所述上下文是包括紧挨在所述给定词语位置之前的多个词语和紧跟在所述给定词语位置之后的多个词语的滑动窗。

5.根据权利要求1所述的方法，所述方法还包括以下操作中的一项或多项：A)确定来自给定列表的任何词语是否出现在所述给定词语位置周围的文本窗的中心，其中所述文本窗中的中心词语已被删除；B)确定在所述窗中存在动词还是不存在动词；C)确定存在后面跟着形容词的名词还是不存在后面跟着形容词的名词；或者D)确定给定词语在所述窗中出现的数量。

6.一个或多个计算机存储介质，所述一个或多个计算机存储介质具有实施在其上的计算机可使用指令，当所述计算机可使用指令被执行时，有助于实现用于机器学习的特征完成的方法，所述方法包括：存储第一组数据项，其中，每一个数据项包括词语的文本流；访问字典，其中，所述字典包括词语的列表，所述词语定义能够作为用于训练机器学习模型的输入特征来使用的概念，以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分；以及利用所述字典作为输入特征，对所述机器学习模型进行训练，其中，所述训练包括：针对所述第一组数据项中的每一个数据项，A)针对所述数据项中的所述文本流中的第一词语位置，检查以所述文本流中的第二词语位置为中心的文本窗，其中，所述文本窗包括一个或多个词语，B)基于所述文本窗中的所述一个或多个词语，使用概率函数来计算在所述第一词语位置处存在与由所述字典中的所述词语所定义的所述概念在语义上相对应的、分离的一个或多个n元语法的概率，C)确定在所述第一词语位置处实际存在或者不存在与由所述字典中的所述词语所定义的所述概念在语义上相对应的、分离的一个或多个n元语法，以及D)基于所确定的实际存在或者不存在与由所述字典中的所述词语所定义的所述概念在语义上相对应的、所述分离的一个或多个n元语法，修改所述概率函数以在正方向或负方向上调整所述概率。

7.根据权利要求6所述的介质，其中，当所述文本窗重叠所述第一词语位置时，从所述文本窗中排除位于所述第一词语位置的一个或多个词语，并且其中，所述第二词语位置与所述第一词语位置不同或者与所述第一词语位置相同。

8.根据权利要求6所述的介质，其中，所述文本窗是包括紧挨在给定词语位置之前的多个词语和紧跟在所述给定词语位置之后的多个词语的滑动窗。

9.根据权利要求6所述的介质，其中，修改所述概率函数以调整所述概率包括：当所述分离的一个或多个n元语法与由所述字典中的所述词语所定义的所述概念在语义上相对应时，修改所述概率函数以增加所述概率。

10.根据权利要求9所述的介质，其中，修改所述概率函数以调整所述概率包括：当所述分离的一个或多个n元语法与由所述字典中的所述词语所定义的所述概念在语义上不相对应时，修改所述概率函数以减小所述概率。