CN107004163A

CN107004163A - 机器学习中的错误驱动的特征构思

Info

Publication number: CN107004163A
Application number: CN201580066655.1A
Authority: CN
Inventors: S·阿默施; M·J·布鲁克斯; 李奉信; S·M·德鲁克; P·Y·西马德; J·A·苏; A·卡珀尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-12-07
Filing date: 2015-11-28
Publication date: 2017-08-01
Anticipated expiration: 2035-11-28
Also published as: CN107004163B; BR112017010035A2; WO2016094090A1; US10068185B2; EP3227838A1; US20160162803A1

Abstract

这里公开了涉及特征构思器的技术。特征构思器可以启动在分类过程中分析数据的训练集合的分类器。特征构思器可以生成与在分类过程期间被生成的错误有关的一个或者多个建议的特征。特征构思器可以生成输出以使得错误按照提供与用户的交互的格式被渲染。用户可以回顾错误的概要或者个体错误并且选择一个或者多个特征以增加分类器的准确度。

Description

机器学习中的错误驱动的特征构思

背景技术

通常，在文本分类问题中的特征化使用生成大量特征的自动化方式。最常用的是“词包”或者n-gram包，其中每个特征对应于文档中的具体词或者n词短语的存在或者频率。常规词包方式产生具有数千个到数百万个的维度的稀疏特征集合。大特征空间需要更多训练数据以减少过度拟合的风险(该风险使分类器对新数据的性能劣化)并且具有减少的可解释性。由于词包特征和其它自动地生成的特征没有运用人类输入，所以几乎没有机会来结合用户的域知识。这造成高标注和维护成本。

发明内容

这里公开了涉及一种特征构思器的实现方式的技术。特征构思器可以有助于对特征的构思和修改。可以应用创建和/或修改的特征以在机器学习(ML)过程中创建模型。在一些示例中，技术可以使用分类器。分类器可以接收训练数据作为输入并且输出错误集合。可以基于错误集合向教师提供有助于来自教师的输入的界面。来自教师的输入可以用来重新训练教师。分类器可以基于从教师的接收的输入更新错误集合。在一些示例中，为了增加错误集合对教师的可用性，可以在界面中渲染错误的可视概要。错误的可视概要在一些实例中可以增加用户对相对大的样本错误集合进行排序的能力。

提供这一发明内容以用简化形式介绍以下在具体实施方式中被进一步描述的技术的选集。这一发明内容旨在于在确定要求保护的主题内容时用作辅助。术语“技术”例如可以指代系统、方法、计算机可读介质/指令、模块、算法、硬件逻辑(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD))和/或如由以上描述的上下文和贯穿本文所允许的技术。

附图说明

参照附图描述具体实施方式。在不同图中的相同标号指示相似或者相同项目。

图1是描绘了特征构思器的示例可以操作于其中的示例环境的框图。

图2是描绘了能够实施这里呈现的实施例的各方面的说明性设备的框图。

图3至图6是描绘了对特征构思用户界面的使用的示图。

图7是描绘看示例特征构思例程的流程图。

图8是图示了用于生成用于用户界面(比如图3至图6的特征构思用户界面)的错误和对比部分的候选词项的示例过程的流程图。

具体实施方式

本公开内容涉及用于使用特征构思器来构思或者修改将被应用于模型的特征的技术。可以用多种方式来实施这里描述的技术和系统。以下参照下图来提供示例实现方式。可以组合这里描述的实现方式、示例和说明。

概述

本公开内容涉及用于在机器学习系统中的特征构思的技术。根据各种示例，机器学习系统利用用户界面以引起来自教师(或者学生)的输入。一些示例利用人类作为教师，而一些示例利用各种计算过程作为教师，并且一些示例利用它们的组合。根据一些示例，用户界面被设计为呈现候选特征以供用户考虑。

候选特征在机器学习系统对数据的训练集合分类时由机器学习系统生成。数据的训练集合可以包括但不限于文本数据、文档、视频数据、音频数据、图解数据以及它们的各种组合。经由用户界面向用户呈现产生自对数据的训练集合的分类的一个或者多个错误或者与错误关联的词项。在用户界面中显示的候选特征可以基于各种标准由机器学习系统选择。对一个或者多个候选特征的选择可以由机器学习系统接收。选择的候选特征由机器学习系统使用作为用于后续分类操作的输入。在一些示例中，候选特征选择的更多迭代和对机器学习系统的重新训练增加机器学习系统在对数据的训练集合分类时的准确度。

一些示例可以向用户(或者教师)提供辅助以确被应用以创建模型的一个或者多个特征。这样的辅助可以包括对候选特征的标识，这些候选特征可以帮助用户构想用于模型的特征。辅助也可以包括显示信息和提供帮助指导用户的可选择控件的用户界面。这些方面可以造成来自计算机的更准确的输出。示例也可以训练分类器，该分类器以降低计算使用和/或减少网络带宽的使用的方式而被应用于模型。

可以用多种方式来施这里描述的技术和系统。以下参照下图提供示例实现方式。可以组合这里描述的实现方式、示例和说明。

示例环境

图1是描绘了这里描述的示例可以操作于其中的示例环境100的框图。环境100可以包括用户设备102和服务器计算机104。用户设备102和/或服务器计算机104在一些示例是分布式计算架构的部分。在一些配置中，用户设备102和/或服务器计算机104是设备。虽然不限于任何特定配置，但是设备可以包括固定设备、移动设备或者嵌入式设备。

固定设备的示例包括但不限于台式计算设备、服务器计算设备、专用游戏控制台等。移动设备的示例包括但不限于膝上计算机、笔记本计算机、超便携计算机、上网本计算机或者计算设备(比“智能”移动电话、平板设备、托板设备、便携视频游戏设备)等。嵌入式设备的示例包括但不限于具有因特网功能的电视、汽车、电器等。就这一点而言，一般地应当认识到，包括用户设备102和服务器计算机104的硬件部件仅为说明性并且可以使用其它类型的硬件设备来实施这里描述的实施例。服务器计算机104可以具有经由总线110被可操作地连接到计算机可读介质108的处理单元106。计算机可读介质108存储用于实施这里描述的各种技术的计算机可执行指令。

用户设备102经由网络112与服务器计算机104通信。应当认识到，这里描述的技术不限于要求用户设备102经由网络112与服务器计算机104通信，因为可以完全地或者部分地在用户设备102上实施这里描述的方面而没有服务器计算机104。

这里描述的技术不限于用于网络112的任何特定类型的联网实现方式。例如，网络112可以包括公共网络(比如因特网)、私人网络(比如机构和/或个人内部网)或者公共和网络私人网络的某个组合。网络112也可以包括任何类型的有线网络和/或无线网络，包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、线缆网络、Wi-Fi网络、WiMax网络、移动通信网络(例如，3G、4G等等)或者它们的任何组合。网络112可以利用通信协议，包括基于分组和/或基于数据报的协议(比如网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP))或者其它类型的协议。另外，网络112也可以包括有助于网络通信和/或形成用于网络的硬件基础的多个设备，比如交换机、路由器、网关、接入点、防火墙、基站、重发器、主干设备等。

在一些示例中，网络112还可以包括实现连接到无线网络的设备，比如无线接入点(WAP)。示例支持通过WAP的连通，这些WAP通过各种电磁频率(例如，射频)来发送和接收数据，包括支持电气和电子工程师协会(IEEE)1302.11标准(例如1302.11g、1302.11n等等)的WAP)和其它标准。

在一个实现方式中，服务器计算机104执行特征构思器114。特征构思器114可以用来生成和/或修改一个或者多个特征以训练分类器116。分类器116可以接收数据的训练集合118作为输入。数据的训练集合118是由分类器116使用的数据全集。在一些示例中，数据是文本数据。在其它示例中，数据可以是音频数据或者可视数据。当前公开的主题内容不限于由特征构思器114使用的任何特定类型的数据。可以在数据存储库120或者远程数据存储库122或者它们的组合中存储数据的训练集合118。可以用多种方式生成数据的训练集合118。在一些示例中，数据的训练集合118可以是在远程数据存储库122中存储的文本数据的字典124的部分。在一些示例中，字典124(或者词典)可以是一起用来形成特征的一组词或者n-gram。例如，如果创建了包含用于每个词的一个词的字典，则字典特征可以与词包相同。在教师使用特征构思来选择词或者n-gram时，教师可以将这些词或者n-gram分组成字典以创建特征。例如，如果特征构思建议词“car”，则教师可以将“car”、“cars”、“automobile”和“automobiles”一起放在“字典”中。所得特征将可以对文档中的词“car”的词项频率计数，但是也可以对所有其它词项计数并且将它们一起求和以代表car“概念”。

向特征构思器114充当教师的用户125可以启动特征构思器114以生成将按照各种方式被应用于不同数据集合的模型126。模型126可以包括各种部件或者输入(比如分类器116)或者由这些部件或者输入构成。特征构思器114可以访问数据存储库120或者远程数据存储库122之一或者二者(如适用的那样)以接收数据的训练集合118。在一些示例中，数据的训练集合118包括已经被解构成组成分量的文本数据。例如，数据的训练集合118可以包括两个或者更多各词的短语。可以将短语的部分或者全部解构成短语的个别词而不是短语本身。然而，应当认识到，当前公开的主题内容不限于解构的数据的训练集合。在一些示例中，数据的训练集合118被标注。在一些示例中，标注可以包括标签、描述符、类或者适用于数据的其它信息。因此，在一些示例中，数据的训练集合118可以包括标注的文本数据。

特征构思器114可以引起分类器116分析数据的训练集合118的至少部分。由分类器116分析数据的训练集合118可能产生一个或者多个错误。如这里所用，在分类器116与如何标注数据的训练集合118的数据点不同地对数据点分类时生成错误。在一些实例中，可以优选减少分类器116在分析数据的训练集合118的部分时生成的错误的数目。减少错误数目可以增加模型126的有用性和有效性。

特征构思器114可以将候选特征生成器128初始化。候选特征生成器128可以分析错误并且确定可以纠正错误的一个或者多个词项。可以纠正错误的一个或者多个词项是候选特征。如果候选特征由教师(比如用户12)5选择，则可以将候选特征作为输入应用于模型126作为应用的特征。候选特征生成器128也可以用来生成对比词项。在一些示例中，对比词项是不生成错误的词项。

特征构思器114也可以启动概要生成器130。概要生成器130可以标识确定的数目的待显示的候选特征或者对比词项。显示的候选特征或者对比词项可以由概要生成器130使用各种标准来选择。在标准的一个示例中，如果选择了特定候选特征或者对比词项作为特征，则可以基于分类器的预计的准确度增加来选择显示的候选特征或者对比词项。以下在图8中描述了使用概要生成器130的示例过程。

如以上简要地指出的那样，特征构思器114可以用来生成特征。可以将特征应用于分类器116作为应用的特征以训练分类器116。训练分类器116可以增加使用由分类器116提供的信息的模型126的效率和准确度。特征构思器114可以接收由用户128提供的选择作为输入。特征构思器114可以提供信息以在用户设备102的显示器中渲染其示例在图3至图6中被描述的特征构思用户界面132。

特征构思器114可以将分类器116应用于数据的训练集合118以生成与在将分类器116应用于数据的训练集合118时生成的错误关联的一个或者多个词项(候选特征)。特征构思器114可以引起在特征构思用户界面132中渲染候选特征。特征构思器114可以接收对候选特征中的一个或者多个候选特征的选择的输入并且向分类器116输入选择的一个或者多个候选特征作为应用的特征以重新训练分类器116。下图用附加细节说明了特征构思器114的这些和其它方面。

示例架构

图2示出了可以代表用户设备102或者服务器计算机104的说明性设备200。可以利用说明性设备200以执行这里呈现的软件部件的任何方面。图2中所示的说明性设备200可以包括任何类型的计算设备，该计算设备具有可操作以连接到计算机可读介质203(比如计算机可读介质108)的中央处理单元(CPU)202，比如处理单元106。计算机可读介质203可以包括系统存储器204，系统存储器204包括随机存取存储器206(RAM)和只读存储器(ROM)208。系统总线210将计算机可读介质203耦合到CPU 202。在ROM 208中存储基本输入/输出系统，该基本输入/输出系统包含帮助比如在启动期间在说明性设备200内的单元之间传送信息的基本例程。计算机可读介质203还包括用于存储计算机可执行指令的海量存储设备212，这些计算机可执行指令用于实施包括但不限于特征构思器114的一个或者多个应用程序。海量存储设备212也可以已经在其中存储了用于实施模型126和数据存储库120的计算机可执行指令。可以在包括单处理器或者多处理器系统、单核或者多核处理器、小型计算机、大型机计算机、个人计算机、手持计算设备、基于微处理器、可编程消费者电子装置、它们的组合等的各种系统配置上实施计算机可执行指令。

海量存储设备212可以通过被连接到总线210的海量存储控制器(未示出)被连接到CPU 202。海量存储设备212及其关联的计算机可读介质可以提供用于说明性设备200的非易失性存储装置。虽然这里包含的对计算机可读介质的描述涉及海量存储设备(比如硬盘或者CD-ROM驱动)，但是本领域技术人员应当认识到，计算机可读介质可以包括可以由说明性设备200访问的任何可用计算机存储介质或者通信介质。

通信介质在调制的数据信号(比如载波)中包括计算机可读指令、数据结构、程序模块或者其它数据。如这里所用，术语“调制的数据信号”意味着如下信号，该信号让它的特性中的一个或者多个特性按照对信号中的信息编码这样的方式来设置或者改变。举例而言并且没有限制，实现通信介质的操作的物理介质包括有线介质(比如有线网络或者直接有线连接)以及无线介质(比如声、RF、红外线和其它无线介质)。也应当在计算机可读介质的范围内包括以上介质中的任何介质的组合。

举例而言并且没有限制，计算机存储介质可以包括在用于存储信息(比如计算机可执行指令、数据结构、程序模块或者其它数据)的任何方法或者技术中实施的易失性和非易失性、可拆卸和非可拆卸介质。例如，计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或者其它固态存储器技术、CD-ROM、数字万用盘(DVD)、HD-DVD、蓝光或者其它光学存储装置、磁盒、磁带、磁盘存储装置或者其它磁存储设备或者可以用来存储希望的信息并且可以由说明性设备200访问的任何其它介质。如这里所用，“计算机存储介质”没有包括“通信介质”。

根据各种实施例，说明性设备200可以使用通过网络(比如网络112)与远程计算机的逻辑连接来在联网环境中操作。说明性设备200可以通过被连接到总线210的网络接口单元214来连接到网络112。应当认识到，也可以利用网络接口单元214以连接到其它类型的网络计算机系统和远程计算机系统。说明性设备200也可以包括用于接收和处理从包括其它设备(比如键盘、鼠标、电子触笔、相机、触摸界面等)的多个来源的输入的输入/输出控制器216。相似地，输入/输出控制器216可以向显示屏幕、打印机或者其它类型的输出设备提供输出。

应当认识到，这里描述的软件部件可以在被加载到CPU 202中并且被执行时将CPU202和整个说明性设备200从通用计算机系统变换成被定制为有助于这里呈现的功能的专用计算系统。CPU 202可以由可以个别地或者共同地呈现任何数目的状态的任何数目的晶体管或者其它分立电路元件构造。更具体地，CPU 202可以响应于在这里公开的软件模块内包含的可执行指令、作为有限状态机来操作。这些计算机可执行指令可以通过指定CPU 202如何在状态之间转变来变换CPU 202，由此变换构成CPU 202的晶体管或者其它分立硬件元件。

对这里呈现的软件模块编码也可以变换这里呈现的计算机可读介质的物理结构。物理结构的具体变换可以在本描述的不同实现方式中依赖于各种因素。这样的因素的示例可以包括但不限于用来实施计算机可读介质的技术、无论计算机可读介质以主或者次存储装置等为特征。例如，如果计算机可读介质被实施为基于半导体的存储器，则可以通过变换半导体存储器的物理状态来在计算机可读介质上对这里公开的软件编码。例如，软件可以变换构成半导体存储器的晶体管、电容器或者其它分立电路元件的状态。软件也可以变换这样的部件的物理状态以便在其上存储数据。

作为另一示例，可以使用磁或者光学技术来实施这里公开的计算机可读介质。在这样的实现方式中，这里呈现的软件可以当在磁或者光学介质中对软件编码时变换介质的物理状态。这些变换也可以包括变更在给定的磁介质内的特定位置的磁特性。这些变换也可以包括变更在给定的光学介质内的特定位置的物理特征或者特性以改变那些位置的光学特性。物理介质的其它变换是有可能的而没有脱离本描述的范围和精神，其中提供前述示例仅有助于这一描述。

按照上文，应当认识到，许多类型的物理变换在说明性设备200中发生以便存储和执行这里呈现的软件部件。也应当认识到，说明性设备200可以包括其它类型的计算设备，包括手持计算机、嵌入式计算机系统、个人数字助理和本领域技术人员已知的其它类型的计算设备。也设想了说明性设备200可以没有包括图2中所示的所有部件、可以包括没有在图2中明示的其它部件或者可以利用与图2中所示的架构不同的架构。

示例用户界面

图3、图4、图5和图6图示了示例用户界面，这些用户界面描绘了用于机器学习中的错误驱动的特征构思的可视支持的各方面。图3是可以用来与特征构思器114交互以生成和/或修改应用的特征的特征构思用户界面330的示图。可以在显示器(比如用于图1的用户设备102的显示器)中渲染特征构思用户界面330。特征构思用户界面330可以包括特征化区域332。特征化区域332可以包括创建特征区段334和应用的特征区段336。应用的特征区段336可以包括已经被标识和选择以被应用于数据的训练集合118的一个或者多个特征。

创建特征区段334可以在创建一个或者多个特征以训练分类器116的过程中由用户使用。创建特征区段334可以包括名称区域338。在一些示例中，分类器116可以分析先前未分析的数据或者分析已经标识了未被应用特征的数据。为了向分类器116提供某个输入(或者指引)，可以提供名称(或者其它文本)。例如，可以希望训练分类器116以对与骑自行车关联的词项分类。用户可以向名称区域338中输入词项以“播种”或者开始分类。然而，应当理解，当前公开的主题内容的各种实现方式无需种子词项或者任何其它词项以开始对数据的训练集合118的分类。

名称区域338也可以用来标识待创建的特定模型126。例如，用户可以在名称区域338中输入“bicycle web pages”并且选择保存/更新特征342以将输入的“bicycle webpages”保存为正被创建或者修改的特定模型126。用户也可以在词区域340中输入可以有用于分类器116开始或者继续它的分类和错误标识过程的词项。例如，用户可以在词区域340中输入词项，比如“bicycle”、“mountain bike”和“pedal”。用户125(或者教师)可以选择保存/更新特征342以引起分类器116分析数据的训练集合18并且基于图4中进一步具体所示的在分析中确定的错误来生成一个或者多个候选特征。

图4是描绘了由特征构思器114生成的候选特征344的特征构思用户界面330的示图。在候选特征区段346中渲染候选特征334。候选特征344可以包括与在分类器116分析数据的训练集合118时被确定的错误关联的一个或者多个词项。可以通过各种过程(比如以下在图8中描述的例程)来生成候选特征344。然而，在一些示例中，候选特征344是与在分类器116对数据的训练集合118的指明的部分分类时被确定的错误关联的一个或者多个词项。包括候选特征344的词项可以是与错误关联的词项。当前公开的主题内容不限于生成候选特征344的任何特定方式。

在图4中所示的示例中，特征构思器114启动分类器116。分类器116被指引以对数据的训练集合118的至少部分分类。应当理解，在一些示例中，仅对数据的训练集合118的部分分类。

虽然可以存在仅对部分分类的各种原因，但是一个原因可以是数据的训练集合118的大小排除相对快速或者可接受的响应时间。当前公开的主题内容不限于数据的训练集合118的任何特定样本大小或者部分。另外，当前公开的主题内容不限于数据的单个训练集合，因为分类器116可以接收数据的若干不同训练集合作为输入。这些和其它变化被认为在当前公开的主题内容的范围内。

回到图4，在对数据的特定训练集合118分类时，候选特征生成器128分析分类器的结果并且生成用于在候选特征区段346中渲染的一个或者多个候选特征334。候选特征334是从更大组的候选特征选择的候选特征的部分。虽然不限于用于选择一个候选特征胜过另一候选特征的任何特定原因，但是可以存在用于这样做的各种原因。例如，一些候选特征344如果被选择为特征则可以纠正比其它候选特征更大数目的错误。在另一示例中，一些候选特征可以比其它候选特征与正被开发的特定模型更高度地相关。当前公开的主题内容不限于用于选择候选特征344以用于在候选特征区段346中显示的任何特定原因。

在一些示例中，可以按照指示排名的方式来渲染候选特征344。候选特征344可以从按照某个标准比在渲染的候选特征344的结束附近的候选特征更高排名的候选特征开始。例如，候选特征“Accessories”可以代表相对显著的错误，而候选特征“Account”可以代表相对更小的错误。排名可以帮助将用户的注意力引向更相关或者有影响的特征(例如，对纠正错误的影响大)而又仍然提供用于附加信息的更低排名的特征。可以用指示候选特征344的排名的方式对它们进行排名和显示。例如，可以比其它更低排名的候选特征344用更大字体渲染或者在列表的顶部渲染具有相对更高排名的候选特征344。当前公开的主题内容不限于任何特定排名方法或者在用户界面中表示排名的方式。

在一些示例中，特征构思器114也可以引起对比词项区段348被渲染。对比词项区段348可以包括一个或者多个对比词项350。虽然不限于任何特定分类，但是对比词项350可以是被恰当地分类的一个或者多个词项。这些对比词项350在一些示例中可以是用于用户确定用于以与候选特征344相似的方式作用来训练分类器116的附加信息源。

可以按照指示对比词项350的排名的方式来对它们进行排名和显示。例如，可以比其它更低排名的对比词项350用更大字体渲染或者在列表的顶部渲染具有相对更高排名的对比词项350。当前公开的主题内容不限于任何特定排名方法或者在用户界面中表示排名的方式。可以通过各种过程(比如以下在图7中描述的例程)来生成对比词项350。

在一些示例中，除了在各自的不同成员之间进行排名或者以别的方式区分之外，还可以提供关于候选特征344或者对比词项350的附加信息。在一个示例中，可以与候选特征344或者对比词项350中的词项中的一个或者多个词项邻近地渲染频率指示符352。

可以按照各种方式对文档(或者其它类型的数据)分类。在一些实现方式中，可以将文档分类为肯定或者否定。在一些示例中，肯定文档是分类器116确定满足模型126的要求的文档。在更多示例中，否定文档是分类器116确定没有满足模型126的要求的文档。频率指示符352可以包括具有某个长度的顶部栏，该长度指示肯定文档中的特定词项的频率。频率指示符352也可以包括具有某个长度的更低栏，该长度指示否定文档中的特定词项的频率。高频词项、具有更大栏的词项可以提供更佳广义化；栏长度大为不同的词项可以帮助分类器116辨别肯定和否定。

在一些示例中，候选特征344或者对比特征350中的特定抽象可以是可选择的或者是提供的另一界面，该界面在被选择时给予关于对特定栏长度的计算的附加信息。例如，对与描绘的频率指示符352关联的词项“Shoes”的选择可以带出示例网页，该网页具有用于选择的词的高词项频率倒数文档频率(tf-idf)值。在一些示例中，附加信息可以帮助向用户提供上下文以用于频率指示符352的特定栏长度的计算。在一些示例中，频率指示符352的特定栏长度可以用来显示添加候选特征作为应用的特征的所估计的影响。

在一些分类操作中，可以存在与使用分类器116而被确定的错误关联的不同错误类型。在一些示例中，错误的类型可以由二元分类器生成。在一些二元分类器中，错误可以被指明为“假肯定”或者“假否定”。假肯定可以是如下错误，其中在否定结果应当是结果时检测到肯定结果。假否定可以是如下错误，其中在肯定结果应当是结果时检测到否定结果。

由于肯定文档的空间可以具有定义的概念，而否定文档的空间通常地更开放式和多样，所以这两个类型的错误可能需要不同类型的特征来解决。例如，描述词项“is”的特征可以不同于描述什么事物“is not”的特征。聚焦选择控件354可以包括可以与假肯定对应的“错误类型A”。聚焦选择控件354也可以包括可以与假否定对应的“错误类型B”。用户可以在两个不同错误类型之间切换。在一些示例中，百分比可以与错误类型中的每个错误类型关联以在确定聚焦于哪个错误类型时指导用户。例如，百分比可以与分类器116在每个错误类型中正确地分类的文档的百分比关联。

在一些示例中，候选特征344或者对比词项350中的词项可以提供用于用户125向创建特征区段334添加的词的建议。在图4中所示示例中，已经在创建特征区段334中接收了用户125已经向应用的特征添加了词项“bicycle”这样的输入。

在一些实例中，用户可以尝试创建一词字典的大集合。尽管这一大集合可以引起对数据的训练集合118的改进，但是大集合可能引起将模型不良地广义化到数据的训练集合118以外的数据。因此，在一些示例中，可能希望提示用户探索语义有关词到被渲染在候选特征344或者对比词项350中的词。可以接收对词项的选择已经在候选特征344或者对比词项350中出现这样的输入。

在图4中所示示例中，已经接收了如下输入，该输入指示用户已经选择了候选特征344中的词项“Account”以用于附加探索。可以确定和在以下在图5中更具体描述的有关词项区段356中渲染有关字词的列表。

图5是描绘语义有关词生成的特征构思用户界面330的示图。在图5中，已经接收了对候选特征344中的词项“Account”的选择已经出现这样的输入。响应于接收对词项的选择，可以在特征构思用户界面330的有关词项区段356中渲染一个或者多个有关词项358。在一些示例中，可以使用在创建新特征区段334中从用户125接收的词项作为输入以生成在有关词项区段356中被渲染的词项。

在一些示例中，特征构思器114可以生成用于每个词的矢量，该矢量包括该词的用于数据的训练集合118中的每个文档的tf-idf值。在矢量之间的余弦距离然后可以用来测量在词之间的相似度。在一些实例中，可以在特征构思用户界面330的有关词项区段356中渲染具有与选择的词的最小余弦距离的某个编号，比如前25。有关词项区段356中的已经是特征的词可以有别于其它词。在图5中所示示例中，有关词项区段356中的词项“bikes”已经是特征并且已经被突出显示以减少构思多余特征的概率。

候选特征344、对比词项350或者有关词项358中的词项可以有助于用户构思(或者想出)将被应用于模型126的特征。在图5中所示示例中，用户已经确定了特征A 360将是模型126的应用的特征。在特征构思用户界面330的应用的特征区段336中渲染特征A360。随着用户进展，用户可以添加附加特征作为应用的特征，以下在图6中更具体描述。

图6是描绘添加特征作为应用的特征的特征构思用户界面330的示图。在图6中，已经用由用户标识的附加特征从图5更新了应用的特征区段336。附加的应用的特征是均在应用的特征区段336中与特征A一起被渲染的特征B和特征N。

在图6中，已经通过选择保存/更新特征342来重新训练了分类器116。在保存/更新特征342被选择时，可以在候选特征区段346中渲染候选特征的新的集合344。在一些示例中，在保存/更新特征342被选择时，可以在对比词项区段348中渲染对比词项的新的集合350。

在其它可能的使用之中，为了在特征构思过程中帮助指导用户，特征构思用户界面330也可以包括准确度百分比指示符362。准确度百分比指示符362可以图示分类器116的当前准确度。可以使用各种技术来确定分类器116的准确度。在一些示例中，分类器116的准确度可以是由分类器116根据向数据的训练集合118应用的标注而准确地分类的数据的训练集合118的数据的百分比。随着在由分类器116的分类中的错误的数目减少，分类器116准确度增加。用户(或者其它实体)可以使用准确度以确定增加分类器116的准确度的特征而避免应用减少分类器116的准确度的特征。

示例过程

图7和图8是描绘了用于机器学习中的错误驱动的特征构思的可视支持的各方面的流程图。未必按照任何特定顺序呈现这里公开的例程的操作，并且按照备选顺序执行操作中的一些或者所有操作是有可能的并且被设想。已经为了易于描述和图示而按照示范的顺序呈现了操作。可以添加、省略和/或同时执行操作而没有脱离所附权利要求的范围。

可以通过执行如这里定义的在计算机存储介质上包括的计算机可执行指令来执行例程的一些或者所有操作和/或基本上等效的操作。如在说明书和权利要求书中使用的术语“计算机可执行指令”及其变体这里扩展地用来包括例程、应用、应用模块、程序模块、程序、部件、数据结构、算法等。

因此，应当认识到，这里描述的逻辑操作被实施为(1)在计算机系统上运行的计算机实施的动作或者程序模块的序列和/或(2)在计算系统内的互连的机器逻辑电路或者电路模块。实现方式是视计算系统的性能和其它要求而定的选择事项。因而，这里描述的逻辑操作被不同地称为状态、操作、结构设备、动作或者模块。可以在软件中、在固件中、在专用数字逻辑中和在其任何组合中实施这些操作、结构设备、动作和模块。以下将例程的操作描述为至少部分由特征构思器114实施。例程700、800的操作和这里描述的其它操作中的一个或者多个操作可以备选地或者附加地至少部分由用户设备102或者服务器计算机104中的其它被相似地配置的部件实施，即使没有在各图中具体地指明这些部件。

图7描绘了示例特征构思例程700。在块702，特征构思器114接收数据的训练集合118。在一些示例中，数据的训练集合118被标注。数据的训练集合118可以包括由分类器116使用的文本数据全集。可以在数据存储库120或者远程数据存储库122或者它们的组合中存储数据的训练集合118。在一些示例中，数据的训练集合118可以是在远程数据存储库122中存储的文本数据的字典124的部分。

在块704，分类器116生成与数据的训练集合118关联的至少一个错误。在一些示例中，分类器116可以分析数据的训练集合118。分类器116可以对数据的训练集合118的一个或者多个词项分类。在由分类器116提供的对数据的训练集合118的一个或者多个词项的分类与如标注的对数据的训练集合118的分类之间的不同可以代表错误。在一些示例中，可以使用特征来精化(即，训练)分类器116以减少错误数目。

在块706，候选特征生成器128至少部分基于至少一个错误来确定至少一个候选特征。在一些示例中，候选特征可以包括词项(词)，该词项(词)说明、定义或者以别的方式代表由分类器116生成的错误。I/O控制器216可以向用户设备102提供输出以引起特征构思用户界面132被显示。可以按照提供用户128对特征构思器114的增加的可用性的方式来显示一个或者多个候选特征。例如，概要生成器130可以生成候选特征的概要，该概要包括选择的数目的候选特征，用于用户128查看而不是候选特征的完整清单。

在块708，I/O控制器216引起特征构思用户界面330在用户界面132中被渲染。特征构思用户界面330可以用来有助于在用户125与特征构思器114之间的交互以生成和/或修改应用的特征。

在块710，特征构思器114从用户接收对至少一个候选特征的选择并且应用候选特征作为应用的特征。在一些示例中，由于用户128可以具有的在机器学习环境中不容易被编程的大量知识的可能性，用户128可以被用作信息源。例如，用户128可以被更佳配备以在两个相似地分类的页面而不是分类器116之间散布。

在块712，特征构思器114用选择的候选特征来重新训练分类器。一旦被选择，就可以向分类器116应用候选特征作为应用的特征。分类器116可以让一个或者多个应用的特征作为向分类过程的输入。可以在选择候选特征为应用的特征时自动地训练分类器116。可以在接收重新训练提示时重新训练分类器116。例如，特征构思器114可以被配置为等待直至接收将应用候选特征集合作为应用的特征这样的输入。在这些示例中，更低计算使用或者减少的网络带宽使用可以是可达到的，因为在批量模式(即，在选择一批候选特征时)而不是个别模式(即，在选择每个候选特征时)中重新训练分类器。

在块714，特征构思器114确定是否将生成另一候选特征。可以具有其中确定对分类器116的训练完成的实例。例如，分类器116的准确度可以足以应用模型126的分类器116。在一些示例中，从用户125接收指示分类器116的准确度足够的输入。

可以使用各种技术来确定分类器116的准确度。在一些示例中，分类器116的准确度可以是由分类器116根据向数据的训练集合118应用的标注而准确地分类的数据的训练集合118的数据的百分比。随着在由分类器116的分类中的错误的数目减少，分类器116准确度增加。如果希望附加候选特征，则例程700可以继续操作704并且按照以上描述的方式继续。如果不希望附加候选特征，则例程700可以在块715结束。可以与特征构思用户界面(比如特征构思用户界面132)结合地使用例程700。

图8是图示了用于生成用于用户界面的错误部分和对比部分的候选词项(比如在图3至图6的特征构思用户界面330中渲染的候选特征344或者对比词项350的示例过程800的流程图。

在块802，特征构思器114确定在与错误或者对比关联的任何文档中出现的词的频率。在一些示例中，可以排除结束词和具有三个或者更少字符的词。虽然不限于任何特定定义，但是结束词可以是极为普遍并且在确定错误或者对比时几乎不具有或者没有价值的词。

在块804，特征构思器114为在块702中分析的每个词计算在错误与对比之间的词的频率差。

在块806，候选特征生成器128选择具有在块804中计算出的最大正差的词作为候选特征或者错误词项。在一些示例中，在操作806中选择的词的数目可以限于具体数目，比如一百。

在块808，特征构思器114选择具有在块804中计算出的最大负差的词作为对比词项。在一些示例中，在操作808中选择的词的数目可以限于具体数目，比如一百。

在块810，特征构思器114为每个候选词计算和评估如果词本身用来创建新特征则将获得的对数损失(log-loss)的改进。

在块812，特征构思器114按照每个候选词列表的准确度改进分数(对于错误和对比二者)来对每个列表排名。

在块814，特征构思器114生成输出以引起在操作812中确定的某个数目的最高词项被选择和显示作为候选特征344或者对比词项350。例程800随后可以结束。

示例条款

A.一种特征构思的方法，包括：确定标注的文本数据的训练集合中的多个错误；确定用于纠正多个错误中的至少一个错误的候选特征的集合；接收对将是应用的特征的候选特征的集合中的至少一个候选特征的选择；以及基于应用的特征来重新训练分类器。

B.如A段记载的方法，其中确定标注的文本数据的训练集合中的多个错误包括：接收包括多个标注的文本数据的数据的训练集合；以及启动分类器以检查标注的文本数据以确定多个错误。

C.如A或者B段记载的方法，还包括将多个标注的文本数据解构成组成成分。

D.如A-C段中的任一段记载的方法，还包括通过确定由分类器正确地标识的文本数据的百分比来生成错误百分比。

E.如A-D段中的任一段记载的方法，还包括：接收对用于进一步探索的特征候选的集合中的至少一个特征候选的选择；以及呈现与对用于进一步探索的特征候选的集合中的至少一个特征候选的选择关联的多个词或者n-gram。

F.如A-E段中的任一段记载的方法，还包括渲染包括应用的特征的特征化区域。

G.如A-F段中的任一段记载的方法，还包括：基于应用的特征来确定标注的文本数据的训练集合中的更新后的多个错误；基于训练集合来显示更新后的特征候选的集合以纠正更新后的多个错误中的至少一个错误；接收对将是第二应用的特征的特征候选的更新后的集合中的至少一个特征候选的选择；以及基于第二应用的特征来重新训练分类器。

H.如A-G段中的任一段记载的方法，还包括用由用第二应用的特征训练的分类器确定的候选特征的第二集合来更新特征化区域。

I.如A-H段中的任一段记载的方法，还包括与特征候选的集合的至少一个特征候选邻近地显示频率指示符，该频率指示符指示其中特征候选的集合的至少一个特征候选与错误关联的出现频率和其中特征候选的集合的至少一个特征候选与肯定匹配关联的出现频率或者添加特征候选的集合的至少一个特征候选作为应用的特征的估计出的影响。

J.一种计算机可读介质，包括用于执行如A-I段中的任一段记载的方法的计算机可执行指令。

K.一种计算机，包括：处理单元；以及计算机可读介质，包括用于执行如A-I段中的任一段记载的方法的计算机可执行指令。

L.一种用于特征构思的系统，包括：用于处理的装置；用于确定标注的文本数据的训练集合中的多个错误的装置；用于确定用于纠正多个错误中的至少一个错误的候选特征的集合的装置；用于接收对将是应用的特征的候选特征的集合中的至少一个候选特征的选择的装置；以及用于基于应用的特征来重新训练分类器的装置。

M.如L段记载的系统，其中用于确定标注的文本数据的训练集合中的多个错误的装置包括：用于接收包括多个标注的文本数据的数据的训练集合的装置；以及用于启动分类器以检查标注的文本数据以确定多个错误的装置。

N.如L或者M段记载的系统，还包括用于将多个标注的文本数据解构成组成成分的装置。

O.如L-N段中的任一段记载的系统，还包括用于通过确定由分类器正确地标识的文本数据的百分比来生成错误百分比的装置。

P.如L-O段中的任一段记载的系统，还包括：用于接收对用于进一步探索的特征候选的集合中的至少一个特征候选的选择的装置；以及用于呈现与对用于进一步探索在特征候选的集合中的至少一个特征候选的选择关联的多个词或者n-gram的装置。

Q.如L-P段中的任一段记载的系统，还包括用于渲染包括应用的特征的特征化区域的装置。

R.如L-Q段中的任一段记载的系统，还包括：用于基于应用的特征来确定标注的文本数据的训练集合中的更新后的多个错误的装置；用于基于训练集合来显示更新后的特征候选的集合以纠正更新后的多个错误中的至少一个错误的装置；用于接收对将是第二应用的特征的特征候选的更新后的集合中的至少一个特征候选的选择的装置；以及用于基于第二应用的特征来重新训练分类器的装置。

S.如L-R段中的任一段记载的系统，还包括用于用由用第二应用的特征训练的分类器确定的候选特征的第二集合来更新特征化区域的装置。

T.如L-S段中的任一段记载的系统，还包括用于与特征候选的集合的至少一个特征候选邻近地显示频率指示符的装置，该频率指示符指示其中特征候选的集合的至少一个特征候选与错误关联的出现频率和其中特征候选的集合的至少一个特征候选与肯定匹配关联的出现频率或者添加特征候选的集合的至少一个特征候选作为应用的特征的估计出的影响。

U.一种计算机，包括：处理器；以及与处理器通信的计算机可读介质，该计算机可读介质包括在由处理器执行时使得处理器执行以下操作的计算机可执行指令：启动特征构思器的分类器以确定标注的文本数据的训练集合中的多个错误；启动特征构思器的候选特征生成器以基于训练集合来确定特征候选的集合以纠正多个错误中的至少一个错误；以及启动特征构思器以接收对将是应用的特征的特征候选的集合中的至少一个特征候选的选择并且基于应用的特征来重新训练分类器。

V.如U段记载的计算机，还包括用于以下操作的计算机可执行指令：确定没有生成错误的对比词项；以及显示对比词项。

W.如U或者V段记载的计算机，其中显示的对比词项和显示的特征候选的集合由用于以下操作的计算机可执行指令概括：获得作为特征候选的集合的潜在成员和作为多个对比词项的潜在成员而出现的词的频率；计算在作为特征候选的集合的潜在成员和作为多个对比词项的潜在成员的词的出现之间的频率差；选择更经常作为错误而出现的多个词作为特征候选；以及选择更经常作为对比而出现的多个词作为对比词项。

X.如U-W段中的任一段记载的计算机，还包括用于执行以下操作的计算机可执行指令：计算如果选择的特征候选或者选择的对比词项用来创建新特征则将被获得的改进分数。

Y.如U-X段中的任一段记载的计算机，其中使用对数损失技术来执行用于计算改进的计算机可执行指令。

Z.如U-Y段中的任一段记载的计算机，还包括用于按照与特征候选和对比词项中的每个特征候选和对比词项关联的改进分数来对特征候选和对比词项排名的计算机可执行指令。

AA.如U-Z段中的任一段记载的计算机，还包括用于显示具有某个改进分数的多个特征候选作为特征候选的集合和具有某个改进分数的选择的多个对比词项作为对比词项的计算机可执行指令。

AB.一种计算机可读介质，在其上具有在由计算机执行时使得计算机执行以下操作的计算机可执行指令：确定与对数据的训练集合分类关联的多个错误；确定与多个错误中的至少一个错误关联的多个候选特征；以及渲染特征构思用户界面，该特征构思用户界面包括：特征化区域，包括用于接收用于启动特征构思过程的输入的创建特征区段和用于显示当前应用的特征的应用的特征区段；用于显示候选特征的特征候选区段；以及用于显示对比词项的对比词项区段，这些对比词项包括被恰当地分类的词项。

AC.如AB记载的计算机可读介质，其中特征构思用户界面还包括：聚焦选择控件，其被配置为接收向被显示在特征构思区段中的候选特征应用哪个错误类型的输入。

AD.如AB或者AC记载的计算机可读介质，其中特征构思用户界面还包括与候选特征中的至少一个候选特征或者对比词项中的至少一个对比词项邻近的频率指示符，该频率指示符包括具有用于指示候选特征中的至少一个候选特征或者对比词项中的至少一个对比词项在肯定文档中的频率的某个长度的顶部栏以及具有指示候选特征中的至少一个候选特征或者对比词项中的至少一个对比词项在否定文档中的频率的某个长度的更低栏。

AE.如AB-AD中的任一段记载的计算机可读介质，其中特征构思用户界面还包括显示分类器的准确度的准确度百分比指示符。

AF.一种计算机，包括：处理单元；以及如AB-AE段中的任一段记载的计算机可读介质。

结论

虽然已经用结构特征和/或方法动作特有的言语描述了主题内容，但是将理解，在所附权利要求中定义的主题内容未必限于描述的具体特征或者动作。实际上，具体特征和步骤被公开作为实施权利要求的示例形式。

可以在由一个或者多个通用计算机或者处理器执行的软件代码模块中体现和完全地经由这些软件代码模块自动化所有以上描述的方法和过程。可以在任何类型的计算机可读存储介质或者其它计算机存储设备中存储代码模块。可以备选地在专门化的计算机硬件中体现方法中的一些或者所有方法。

条件言语(比如“能够”、“可能”或者“可以”以及其它条件语言)除非另有具体地明示否则在上下文内被理解为呈现某些示例包括某些特征、单元和/或步骤而其它示例没有包括。因此，这样的条件言语一般地没有旨在于暗示某些特征、单元和/或步骤以任何方式对于一个或者多个示例是必需的或者一个或者多个示例必然地包括用于在有或者没有用户输入或者提示时决定在任何特定示例中是否包括或者将执行某些特征、单元和/或步骤的逻辑。

连接言语(比如短语“X、Y或者Z中的至少一个”)除非具体地明示否则将被理解为呈现项目、词项等可以是X、Y或者Z或者其组合。

这里描述和/或在附图中描绘的流程图中的任何例行描述、单元或者块应当被理解为潜在地代表模块、段或者代码部分，这些模块、段或者代码部分包括用于实施例程中的具体逻辑功能或者单元的一个或者多个可执行指令。在这里描述的示例的范围内包括备选实现方式，在这些示例中可以根据如本领域技术人员将理解的那样涉及到的功能、从示出或者讨论的实现方式删除或者不同顺序、包括基本上同步或者相反顺序执行单元或者功能。

应当强调，可以对以上描述的示例做出许多变化和修改，这些示例的单元将被理解为在其它可接受示例之中。所有这样的修改和变化旨在于这里被包括在本公开内容的范围内并且为所附权利要求所保护。

Claims

1.一种特征构思方法，包括：

确定标注的文本数据的训练集合中的多个错误；

确定候选特征的集合以纠正所述多个错误中的至少一个错误；

接收对将是应用的特征的、所述特征候选的集合中的至少一个特征候选的选择；以及

基于所述应用的特征来重新训练分类器。

2.根据权利要求1所述的方法，其中确定标注的文本数据的训练集合中的多个错误包括：

接收包括多个标注的文本数据的数据的训练集合；以及

启动所述分类器以检查所述标注的文本数据以确定所述多个错误。

3.根据权利要求2所述的方法，还包括将所述多个标注的文本数据解构成组成成分。

4.根据权利要求1至3中的任一权利要求所述的方法，还包括通过确定由所述分类器正确地标识的文本数据的百分比来生成错误百分比。

5.根据权利要求1至4中的任一权利要求所述的方法，还包括：

接收对用于进一步探索的、所述特征候选的集合中的至少一个特征候选的选择；以及

呈现与对用于进一步探索的、所述特征候选的集合中的所述至少一个特征候选的所述选择关联的多个词或者n-gram。

6.根据权利要求1至5中的任一权利要求所述的方法，还包括渲染包括所述应用的特征的特征化区域。

7.根据权利要求1至6中的任一权利要求所述的方法，还包括：

基于所述应用的特征来确定标注的文本数据的训练集合中的更新后的多个错误；

基于所述训练集合来显示更新后的特征候选的集合以纠正所述更新后的多个错误中的至少一个错误；

接收对将是第二应用的特征的、所述更新后的特征候选的集合中的至少一个特征候选的选择；以及

基于所述第二应用的特征来重新训练分类器。

8.根据权利要求1至7中的任一权利要求所述的方法，还包括利用候选特征的第二集合来更新所述特征化区域，所述候选特征的第二集合由利用所述第二应用的特征训练的所述分类器确定。

9.根据权利要求1至8中的任一权利要求所述的方法，还包括与所述特征候选的集合的至少一个特征候选邻近显示频率指示符，所述频率指示符指示其中所述特征候选的集合的所述至少一个特征候选与错误关联的出现频率以及其中所述特征候选的集合的所述至少一个特征候选与肯定匹配关联的出现频率或者添加所述特征候选的集合的所述至少一个特征候选作为所述应用的特征的估计出的影响。

10.一种计算机，包括：

处理器；以及

与所述处理器通信的计算机可读介质，所述计算机可读介质包括计算机可执行指令，所述计算机可执行指令在由所述处理器执行时，使得所述处理器：

启动特征构思器的分类器以确定标注的文本数据的训练集合中的多个错误；

启动所述特征构思器的候选特征生成器以基于所述训练集合来确定特征候选的集合以纠正所述多个错误中的至少一个错误；以及

启动所述特征构思器以接收对将是应用的特征的、所述特征候选的集合中的至少一个特征候选的选择，并且基于所述应用的特征来重新训练所述分类器。

11.根据权利要求10所述的计算机，还包括用于以下各项的计算机可执行指令：

确定没有生成错误的对比词项；

显示所述对比词项，其中显示的所述对比词项和显示的所述特征候选的集合由计算机可执行指令概括以：

获得作为所述特征候选的集合的潜在成员和作为所述多个对比词项的潜在成员而出现的词的频率；

计算在作为所述特征候选的集合的潜在成员和作为所述多个对比词项的潜在成员的所述词的所述出现之间的频率差；

选择更经常作为错误而出现的多个词作为所述特征候选；以及

选择更经常作为对比而出现的多个词作为所述对比词项。

12.根据权利要求11所述的方法，还包括用于以下各项的计算机可执行指令：计算如果选择的特征候选或者选择的对比词项被用来创建新特征则将被获得的改进分数，其中用于计算改进的所述计算机可执行指令使用对数损失技术而被执行。

13.根据权利要求11或者12所述的计算机，还包括用于以下各项的计算机可执行指令：按照与所述特征候选和所述对比词项中的每一个关联的改进分数对所述特征候选和所述对比词项排名。

14.根据权利要求11至13中的任一权利要求所述的计算机，还包括用于以下各项的计算机可执行指令：显示具有某个改进分数的多个所述特征候选作为特征候选的集合以及具有某个改进分数的选择的多个所述对比词项作为所述对比词项。

15.根据权利要求11至14中的任一权利要求所述的计算机，还包括用于以下各项的计算机可执行指令：启动所述特征构思器以确定显示所述分类器的准确度的准确度百分比指示符。