CN109643399B

CN109643399B - 多类别分类器的交互式性能可视化

Info

Publication number: CN109643399B
Application number: CN201780048861.9A
Authority: CN
Inventors: S·A·阿默施; 李奉信; J·苏; J·D·威廉姆斯; 任东昊
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-08-09
Filing date: 2017-08-04
Publication date: 2023-09-15
Anticipated expiration: 2037-08-04
Also published as: EP3497631A1; CN109643399A; US20180046935A1; US10460256B2; WO2018031379A1

Abstract

提供了用于改善多类别分类器的性能的方法、计算机系统、计算机存储介质和图形用户界面。交互式图形用户界面包括项目表示显示区域，其显示与由多类别分类器处理的多个项目相对应的多个项目表示。可以使用显示针对每个类别的真正例、假正例和假负例的双向条形图来将分类器的性能可视化。

Description

多类别分类器的交互式性能可视化

背景技术

机器学习技术是用于处理大量数据的重要工具。这种技术使得能够构建可以从特定数据集中学习并且基于该学习对新的看不见的数据准确地执行的系统。机器学习模型包括诸如二元分类模型和多类别分类模型的类别分类模型、实体提取模型和排名模型。例如，二进制分类器将数据项目分类到两个类别之一中。多类别分类器类似于二进制分类器，但是多类别分类器不是将数据项目分类到两个类别之一中，而是将数据项目分类到若干类别之一中。为实现此目的，向分类器提供训练数据集，其中每个训练数据项目自动或由人类操作员手动标记为属于若干类别之一。分类器从该已标记的训练数据中学习，然后基于其学习，通过向每个项目指派针对每个类别的分数来预测项目属于哪个类别。对于评估的每个项目，可以针对每个可用类别计算概率分数。该分数反映了由分类器评定的该项目属于特定类别的概率。因此，分数指示与分类器的预测相关联的置信水平。

实体提取模型将数据的项目定位并分类到预定义的类目中，诸如将人名定位和分类在文本文档中。排名模型将分数指派给一组数据项目以便对那些项目进行排序，诸如用于对网页搜索引擎中的搜索结果进行排名的模型。为了改善和精化这些或其他机器学习模型中的任何一个，重要的是用户能够评定机器学习模型的执行情况。

发明内容

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

本文描述的技术的各个方面一般涉及系统、方法和计算机存储介质，用于尤其通过提供性能的交互式可视化来改善多类别分类器的操作。通过帮助从业者了解附加的或不同的训练可以在哪些地方改善性能，各种性能度量的可视化可以帮助发现并解决多类别分类器问题。在各方面中，本文描述的技术包括同时表示在模型级别上的分类器的性能的视觉表示——在类别级别上跨越针对不同类别所处理的数据的所有项目以及在项目级别上针对经处理数据的每个项目。

可以通过使多类别分类器处理已标记的数据来测量性能。标记指示针对每个项目的基本事实。然后，可以通过将每个测试项目所指派到的类别与针对每个测试项目的类别标记进行比较来评估性能。当指派与标记匹配时，则出现真正例(true positive)。当指派与标记不匹配时，则出现假正例(false positive)和假负例(false negative)。假正例是关于项目被指派到的不正确类别。假负例是关于项目应该被指派到的类别。

在示例性方面中，所描述的技术通过双向条形图示出了在多个类别上的真正例、假正例和假负例。因此，可视化提供了分类器是否对数据作为整体一般性地进行准确预测的感知。同时，可视化描绘了项目级别的性能，包括由分类器做出的关于特定项目的预测是否与指派给项目的预定标记一致。以这种方式，本文描述的技术使用户能够快速标识、优先排序和检查不同类型的错误。

附图说明

该专利或申请文件包含至少一幅彩色附图。具有(一幅或多幅)彩色附图的本专利或专利申请公开的副本将在请求和支付必要费用后由主管局提供。下面参考附图详细描述本文所描述的技术，其中：

图1是适用于在实现本文描述的技术的各方面中使用的示例性计算环境的框图；

图2是适用于在实现本文描述的技术的各方面中使用的用于在视觉上表示多类别分类器的性能的示例性系统的框图；

图3是根据本文描述的技术的各方面的用于提供针对第一多类别分类器的性能的交互式可视化的示例性图形用户界面；

图4是根据本文描述的技术的各方面的用于提供针对第二多类别分类器的性能的交互式可视化的示例性图形用户界面；

图5是根据本文描述的技术的各方面的用于提供针对多类别分类器的性能的交互式可视化的示例性图形用户界面，其中提供了项目表示显示区域的详细视图；

图6是根据本文描述的技术的各方面的用于提供针对多类别分类器的性能的交互式可视化的示例性图形用户界面，其示出了针对特定类别的火花图(spark graph)的详细视图；

图7是根据本文描述的技术的各方面的用于提供针对多类别分类器的性能的交互式可视化的示例性图形用户界面，其示出了针对特定类别的双向条形图；

图8是根据本文描述的技术的各方面的用于提供针对多类别分类器的性能的交互式可视化的示例性图形用户界面，其示出了针对特定类别的双向条形图，其中将条形分段成已分类项目的条带；

图9是根据本文描述的技术的各方面的用于提供针对多类别分类器的性能的交互式可视化的示例性图形用户界面，其示出了针对特定类别的双向条形图，其中将条形分段成表示各个项目的方块；

图10是根据本文描述的技术的各方面的用于提供针对多类别分类器的性能的交互式可视化的示例性图形用户界面，其示出了针对若干不同类别的双向条形图以及示出针对双向条形图中描绘的项目的数据的表格；

图11是示出根据本文描述的技术的一方面的显示多类别分类器的性能的示例性方法的流程图；

图12是示出根据本文描述的技术的一方面的显示多类别分类器的性能的示例性方法的流程图；以及

图13是示出根据本文描述的技术的一方面的显示多类别分类器的性能的示例性方法的流程图。

具体实施方式

以满足法定要求的特定性描述本文描述的技术。然而，描述本身并不旨在限制本专利的范围。相反，发明人已经预期，结合其他现有或未来的技术，所要求保护的主题还可以以其他方式体现，以包括与本文档中描述的步骤类似的不同步骤或步骤组合。此外，尽管本文可以使用术语“步骤”和“块”来表示所采用的方法的不同元素，但是除非以及除了明确描述了个别步骤的顺序之外，否则这些术语不应被解释为暗示本文公开的各个步骤之中或之间的任何特定顺序。

本文描述的技术的各个方面一般涉及系统、方法和计算机存储介质，用于尤其通过提供性能的交互式可视化来改善多类别分类器的操作。通过帮助从业者了解附加的或不同的训练可以在哪些地方改善性能，各种性能度量的可视化可以帮助发现并解决多类别分类器的问题。在各方面中，本文描述的技术包括同时表示在模型级别上的分类器的性能的视觉表示——在类别级别上跨越针对不同类别所处理的数据的所有项目以及在项目级别上针对经处理数据的每个项目。

可以通过具有使多类别分类器处理经标记的测试项目来测量性能。标记指示针对每个项目的基本事实。然后可以通过比较每个测试项目所指派到的类别来评估性能。当类别指派与类别标记匹配时，那么出现真正例。当类别指派与类别标记不匹配时，那么出现假正例和假负例。假正例是关于项目被指派到的不正确类别。假负例是关于项目应该被指派到的类别。

在示例性方面中，所描述的技术通过双向条形图示出了跨多个类别的真正例、假正例和假负例。因此，可视化提供了分类器是否对数据作为整体一般性地进行准确预测的感知。同时，可视化描绘了项目级别的性能，包括由分类器做出的关于特定项目的预测是否与指派给项目的预定标记一致。以这种方式，本文描述的技术使得用户能够快速标识、优先排序和检查不同类型的错误。

另外，因为本文描述的技术的各方面提供了具有一致布置和取向的图形用户界面(GUI)，所以用户可以查看GUI，并且快速标识某些图案并了解分类器是否执行良好。换句话说，在本文描述的技术的实例中，以一致的方式可视地表示“良好”性能，并且类似地，以一致的方式可视地表示某些错误。因此，每次显示模型性能时，用户不需要花时间相对于GUI定向自己。这与散点图和将模型性能可视化的其他方法形成对照，散点图和将模型性能可视化的其他方法不能以一致的方式显示针对多类别分类器的性能。

由本文描述的技术所提供的模型性能的可视化本质上可以是交互式的。因此，用户可以通过选择个体项目表示来与可视化交互以查看关于对应项目的细节。用户还可以选择项目表示或项目群组表示以显露多个项目之间的关系。

本文描述的技术的各方面可以帮助从业者优化多类别分类器。本文描述的技术可以标识由分类器分析的针对测试数据的每个项目的真正例、假正例和假负例。除了简单地标识针对个体类别出现的假正例、假负例和真正例的量之外，该技术还标识假负例被分类到哪个类别以及每个假正例应该被分类到哪个类别。

在一个方面中，在双向条形图上描绘了针对个体类别的真正例、假正例和假负例。在一个方面中，针对个体类别的个体双向条形图可以在图的一侧上描写真正例和假正例，而在图的另一侧上描写假负例。可以将假正例、假负例和真正例划分成置信度分数范围。例如，由多类别分类器指派的置信度分数可以被分解成10个不同的范围、8个不同的范围、6个不同的范围、5个不同的范围、4个不同的范围等。然后，例如，可以将真正例分组到一个条形中，该条形表示针对落入对应置信度分数范围的类别的真正例的量。

在一个方面中，针对多类别分类器中可用的每个类别同时显示双向条形图。可以为每个类别指派不同的颜色。以指派有类别的颜色描写真正例。类似地，可以基于针对测试数据中找到的项目的标记，以与应该将该项目分类到的类别相关联的颜色显示假正例。此外，应该已被指派到类别的假负例以它们实际被指派到的类别的颜色来进行描写。在一个方面中，将真正例描写为纯色，将假正例描写为阴影颜色，并且给假负例指派中间干净的彩色框。以明显不同的方式区分真正例、假正例和假负例的其他方法也是可能的。

在一个方面中，示出了每个条形图，在其上方具有火花线。火花线是可以在没有轴或坐标的情况下绘制的小线图。火花线呈现在不同类别上针对单个项目或项目群组的置信度分数中的变化的一般形状。此外，原始数据的表格可以与双向条形图同时被示出。原始数据可以以表格以外的形式示出。通过选择双向条形图的一部分，可以在同时显示的表格中示出与条形图的所选部分中描绘的数据相关联的数据。

已经简要描述了本文描述的技术的各方面的概述，下面描述其中可以实现本文描述的技术的各方面的示例性操作环境，以便提供对于本文描述的技术的各个方面的一般上下文。

概括性地参考附图并且首先具体地参考图1，示出了用于实现本文描述的技术的各方面的示例性操作环境，并且通常将其指定为计算设备100。计算设备100仅是合适的计算环境的一个示例，并且不旨在关于本文描述的技术的使用范围或功能性提出任何限制。也不应将计算设备100解释为对所图示的组件中的任何一个或组合有任何依赖性或要求。

可以在计算机代码或机器可用指令的一般上下文中描述本文描述的技术，所述计算机代码或机器可用指令包括由诸如个人数据助理或其他手持设备之类的计算机或其他机器执行的诸如程序组件之类的计算机可执行指令。通常，包括例程、程序、对象、组件、数据结构等的程序组件是指执行特定任务或实现特定抽象数据类型的代码。可以在包括手持设备、消费电子产品、通用计算机、专业计算设备等的各种系统配置中实践本文描述的技术的各方面。也可以在由通过通信网络链接的远程处理设备执行任务的分布式计算环境中实践本文描述的技术的各方面。

继续参考图1，计算设备100包括直接或间接耦合以下设备的总线110：存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出(I/O)端口118、I/O组件120和说明性电源122。总线110表示可以是一个或多个总线(诸如地址总线、数据总线或其组合)的内容。尽管为了清楚起见用线条示出图1的各种块，但是实际上，勾画各种组件并不是那么清楚，并且比喻性地来说，线条更准确地将是灰色和模糊的。例如，可以将诸如显示设备的呈现组件视为I/O组件。此外，处理器也具有存储器。发明人关于此点认识到这是本领域的性质，并重申，图1的图示只是可以结合本文描述的技术的一个或多个方面来使用的示例性计算设备的说明。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等类别之间不作区分，它们全部都被认为是在图1的范围之内并且被称为“计算机”或“计算设备”。

计算设备100通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备100访问的任何可用介质，并且包括易失性和非易失性、可移动和不可移动介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序子模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。

计算机存储介质包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备。计算机存储介质不包括被传播的数据信号。

通信介质通常以诸如载波或其他传输机制之类的已调制数据信号来体现计算机可读指令、数据结构、程序子模块或其他数据，并且包括任何信息传送介质。术语“已调制数据信号”意指使得以在信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接之类的有线介质，以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述的任意组合也应被包括在计算机可读介质的范围内。

存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器112可以是可移动的、不可移动的、或其组合。示例性存储器包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如总线110、存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器114。(一个或多个)呈现组件116向用户或其他设备呈现数据指示。示例性呈现组件116包括显示设备、扬声器、打印组件、振动组件等等。(一个或多个)I/O端口118允许计算设备100在逻辑上耦合至包括I/O组件120的其他设备，其中某些设备可以是内置的。

说明性I/O组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、显示设备、无线设备、控制器(诸如键盘和鼠标)、自然用户界面(NUI)(诸如触摸交互、笔(或手写笔)手势和注视检测)等。在一些方面中，提供笔式数字转换器(未示出)和相随的输入仪器(也未示出但其可以例如仅包括笔或手写笔)，以便数字地捕获徒手用户输入。笔式数字转换器和(一个或多个)处理器114之间的连接可以是直接的或经由串行端口、并行端口和/或利用本领域已知的其他接口和/或系统总线的耦合。此外，数字转换器输入组件可以是与诸如显示设备的输出组件分开的组件，或者在一些方面中，数字转换器的可用输入区域可以与显示设备的显示区域共同延伸、与显示设备集成、或者可以作为覆盖或以其他方式附加到显示设备的单独设备而存在。预期任何和所有这样的变型及其任何组合都在本文描述的技术的各方面的范围内。

NUI处理由用户生成的空中手势、语音或其他生理输入。适当的NUI输入可以被解释为用于与计算设备100相关联地呈现的墨水笔划。可以将这些请求传输到适当的网络元件以进行进一步处理。NUI实现语音识别、触摸和手写笔识别、面部识别、生物识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、以及与计算设备100上的显示相关联的触摸识别的任何组合。计算设备100可以配备有用于手势检测和识别的深度相机诸如立体相机系统、红外相机系统、RGB相机系统、以及它们的组合。另外，计算设备100可以配备有能够检测运动的加速度计或陀螺仪。可以将加速度计或陀螺仪的输出提供给计算设备100的显示器以渲染沉浸式的增强现实或虚拟现实。

计算设备可以包括(一个或多个)无线电124。无线电124传输并接收无线电通信。计算设备100可以是适合于通过各种无线网络接收通信和介质的无线终端。计算设备100可经由诸如码分多址(“CDMA”)、全球移动系统(“GSM”)或时分多址(“TDMA”)等等之类的无线协议进行通信，以与其它设备进行通信。无线电通信可以是近程连接、远程连接、或近程和远程无线电信连接两者的组合。当提及“近”和“远”类型的连接时，不意指两个设备之间的空间关系。相反，通常将近程和远程称为不同类目或类型的连接(即主要连接和次要连接)。近程连接可以包括到提供对无线通信网络的访问的设备(例如，移动热点)的连接，诸如使用802.11协议的WLAN连接。到另一计算设备的蓝牙连接是近程连接的第二个示例。远程连接可以包括使用CDMA、GPRS、GSM、TDMA和802.16协议中的一个或多个协议的连接。

现在参考图2，提供了图示出示例性系统200的框图，其中可以采用本文描述的技术的各方面。通常，系统200图示出了适合于生成交互式GUI的环境，该交互式GUI尤其显示针对多类别分类器的性能。如上所提及，本文引用的“项目”包括由多类别分类器处理的数据的任何项目。项目可以包括例如文本、图像、视频、音频、字符、词语、文档、文档组合、网页、或数据的任何其他项目。此外，“项目”实际上可以包括项目或项目的群组的组合。

在未示出的其他组件和模块中，系统200通常包括多类别分类器220、训练数据存储库222、测试数据存储库224、测试结果集存储库226、分析工具228和可视化工具230。在一些方面中，可以将所图示的组件和模块中的一个或多个实现为独立应用。在其他方面中，所图示的组件和模块中的一个或多个可以经由客户端计算设备、作为基于互联网的服务、或经由另一种布置来实现。可以采用任何数量的组件和模块来实现其各方面的范围内的所期望的功能性。此外，组件和模块可以位于任何数量的计算设备上。仅作为示例，计算环境200可以作为单个服务器、服务器集群或远离一个或多个其余组件的计算设备而被提供。

多类别分类器220是机器学习模型，其将项目分类到至少三个可用类别之一中。多类别分类器220可以输出个体项目拟合到每个可用类别中的校准概率分数。可以使用决策树、朴素贝叶斯分类器、随机森林和许多其他算法来建立多类别分类器。此外，还可以通过训练二进制分类器、然后组合它们的输出来对各个实例进行预测，从而建立多类别分类器。例如，一对其它(one-vs-rest)方法(也称为一对多(one-vs-all))针对N类别问题训练N个二进制分类器，使得每个二进制分类器将其中一个目标类别与其余类别区分开。然后，产生最高one-rest-rest分数的分类器确定针对每个实例的预测类别。使用一对一(one-vs-one)(或多对多(all-vs-all))方法，在每对类别上训练二进制分类器，并且使用多数表决来选择每个实例上的获胜类别预测。本文描述的技术可以支持对这些以及可以至少在获胜类别上产生分数的任何多类别分类器的分析。

训练数据存储库222包括被用来训练多类别分类器220的数据。训练数据包括项目(或数据的实例)以及将数据指派给类别的标记。训练数据存储库222可以包括用于不同分类场景的训练数据。例如，在第一场景中，可以训练分类器以识别手写数字，并且在第二场景中，可以训练分类器以识别音频声音。在单个场景内，训练数据集可以专门用于帮助改善某些区域中的性能，诸如区分手写3和手写5。训练数据可以被用来初始化多类别分类器或重新训练或优化分类器。应注意，在一些方面中，训练数据可以被用作测试数据。

测试数据存储库224存储一个或多个测试数据集。测试数据集包括可分类的项目和指示项目属于哪个类别的对应标记。例如，项目可以是手写2，其具有指示该项目描绘2的标记。标记表示针对项目的基本事实。标记可以由对项目进行视觉检查然后将项目分类到可用类别中的人生成。测试数据可以采取与训练数据类似的形式。

测试结果集存储库226存储不同测试实例的结果。例如，可以在第一时间点生成第一测试结果组并将其存储在测试结果存储库中。在分析测试结果之后，可以通过以目标是减少通过分析所标识的错误的方式进行重新训练来进行多类别分类器的优化。然后可以通过重新训练的多类别分类器运行测试数据(可能是相同的测试数据)来生成第二组测试结果。然后可以将第一测试结果集与第二测试结果集进行比较，以查看更新的训练是否具有期望的效果。

分析工具228分析测试结果集以测量可以显示的性能。性能可以包括针对分类器能够将项目指派到的每个类别确定真正例、假正例和假负例的量。通过将多类别分类器所做出的类别指派和与测试数据中的项目相关联的标记进行比较，可以标识真正例、假正例和假负例。

多类别分类中的许多性能度量是从不同类目的预测计数导出的。例如，将准确度计算为正确预测数与预测总数(正确和不正确)之比。其他度量是从不同类型的正确(真正例和真负类)和不正确(假正例和假负例)预测导出的。针对类别X的真负类是被预测为不同类别并被标记为不同类别的实例。针对类别X的真正例是被预测为类别X并被标记为类别X的实例。针对类别X的假正例是被预测为类别X但被标记为另一类别的实例，而针对类别X的假负例是被标记为类别X但被预测为另一类别的实例。例如，将准确度计算为真正例数量与真正例和假正例数量之比，而召回率是真正例数量与真正例和假负例数量之比。为了支持各种各样的分类问题，通过使用框的位置以及颜色和图案编码，本文描述的技术使得正确预测和不正确预测相对显著，并且使得假正例和假负例错误二者相对显著。

分析工具228可以针对每个类别以及针对在各类别上的整体性能对被指定为真正例、假正例和假负例的项目的量进行计数。如随后所解释的，落入每个类目的项目量可以进一步细分为落入特定置信度分数范围的项目量。

可视化工具230从分析工具228接收性能数据并生成可视化，诸如随后参考图3至图10所描述的那些。可以用具有jQuery和D3的JavaScript将可视化工具230或其他组件实现为HTML5小部件(widget)，以便可以将其嵌入到Web和桌面应用二者中。嵌入该技术的用户可以处理实例选择事件并将可视化连接到其他视图(例如，可视化可以潜在地连接到所选属性值的多维缩放(MDS)图)。可以将可视化的状态保存到JSON文档中并加载回来。

可以使用数据流模型来实现该技术以管理中间计算结果(数字性能度量)和可视化状态(选择、书签和视图参数)。一旦可视化状态或数据集得到更新，数据流模型就算出可视化的哪些部分需要更新并且可以执行必要的更新。

不同的分类问题需要针对不同的性能度量进行优化。例如，在诊断疾病时，假正例诊断会导致不必要的和可能有害的治疗，而假负例可导致疾病的潜在恶化和缺乏治疗。关于针对什么进行优化的决策是取决于情景的，并基于指派给可能后果的相对成本。为了支持广泛的场景，可视化应该尝试与任何特定度量无关。例如，假正例可以比假负例更显著，以支持其中任何一种可能成本更高的场景。

该技术在颜色编码列中(例如，双向条形图)表示每个类别。每列可以包含由针对该类别的对应类别名称和可选摘要统计(例如，真正例/假正例/真负例/假负例和准确度/召回率)在下面进行注释的垂直轴。位于轴线右侧的框表示被预测为该轴的对应类别的实例。在任何轴线左侧的框表示被标记为该轴的对应类别(列)但被不正确地预测为不同类别的实例。因此在左侧的框标注假负例实例并且可以没有填充颜色，但是用被预测的类别的颜色勾勒出轮廓。相反，可以在右侧显示假负例，并且在左侧显示假正例。在另一方面中，在右侧显示真正例，并且在左侧显示假正例和假负例二者。上述右/左取向只是一个示例。在一个方面中，正类和负类被颠倒。也可以将结果布置在垂直双向条形图中，其中将结果示出在线条的上方或下方。因此，始终使用术语“第一侧”和“第二侧”来描述大多数的双向条形图。应该理解，第一侧和第二侧可适用于双向条形图的垂直或水平取向二者。

本文描述的技术可以被用来可视地估计若干常见的基于计数的总体和类别级别的性能度量。例如，通过出自轴线右侧的总框数中的实心框数量来估计分类器准确度(正确预测的实例数量与所有实例之比)。类似地，通过出自实心加上条纹框中的实心框数量(图5)来可视地估计类别级别准确度(真正例与所有正类预测的实例之比)，同时通过出自实心框加上勾勒框中的实心框数量来在视觉上估计召回率(真正例与所有正类标记的实例之比)。

一些性能度量考虑了实例(即，项目)上的预测分数。例如，对数损失会惩罚远离其真实标记的预测。为了支持也考虑置信度分数(在本文中可替代地被描述为预测分数)的度量的估计，在任何轴的任一侧上的框根据其预测分数沿着垂直维度而被定位，其中高分数在上部，低分数在底部(图3至图5和图7至图10)。以这种方式，朝向列顶部的条纹或勾勒框应该比朝向底部的条纹或勾勒框更受罚。类似地，朝向列底部的实心框应该比朝向顶部的实心框更受罚。

显示分数不仅支持估计基于分数的性能度量，而且它还允许通过预测置信度或错误严重性来对效果进行优先级排序。这与基于计数的度量和平等地对待所有错误(和平等地对待所有正确预测)的混淆矩阵形成对比。例如，具有非常相似准确度的两个分类器可以具有非常不同的分数分布(图3和图4)。利用本文描述的技术，分布是直接可见的并且允许从业者例如决定首先调试具有更严重错误的分类器或类别。

通过预测分数垂直地(或水平地(未示出)，如果使用垂直取向的图)分布框提供了项目(即，实例)级别性能。然而，一些多类别分类器也可以产生在所有类别上的针对实例的分数(在这些情况下，产生最高分数的类别，即获胜类别，被选择作为预测类别)。尽管最常见的性能度量和混淆矩阵忽略了这些分数，但它们可以显露对分类器性能的重要见解。例如，被正确预测为具有0.5分的一个类别的实例也可以在另一个类别上具有0.49分。虽然这个实例在技术上不会出错，但是分类器仍然可能被认为是混乱的，因为轻微的变化或噪声都可能很容易将预测从正确翻转到不正确(理想情况下，正确预测将具有针对正确类别的高分数并且具有针对所有其他类别的低分数)。

当用户悬停或点击显示器中的框时，本文描述的技术可以根据需要显露在所有类别上的针对实例的分数。使用平行坐标显示分数，其中折线与每条轴相交于针对该类别的对应分数级别处(参见图5中与类别C5列中的框相对应的折线)。请注意，折线交点可能与对应框的垂直位置不精确对齐，因为线在精确的分数位置处相交，而框是沿着分数轴放置(bin)的。

在所有类别上的实例分数还显露了在仅显示关于获胜类别预测的混淆的混淆矩阵中不可见的类别间混淆。当针对实例的平行坐标在多个类别中具有高峰值(即，在多个类别上具有高预测分数)时，指示类别间混淆。本文描述的技术经由在每个轴上方的火花线图来概括混淆信息，该火花线图显示被标记为对应类别的所有实例的平行坐标(图5和图6)。将火花线对齐，使得每个类别轴指向对应火花线中的相同轴。通过这种方式，与其他类别较少混淆的类别将在轴的上方具有单个峰值。例如，图6中的类别C5的列中的火花线具有多个峰值。两个最强的峰值对应于类别C3和C5，这指示C3和C5之间存在混淆。在C4上的山谷指示类别C5和类别C4之间的混淆较少。

现在转到图3，示出了根据本文描述的技术一个方面的多类别性能可视化300。可视化300示出了针对十个不同类别的性能。本文描述的技术的各方面不限于与十个类别的多类别分类器一起使用。在图3中所示的示例和随后的示例中，训练多类别分类器以将手写数字分类为0、1、2、3、4、5、6、7、8或9。每个可用数字表示一个类别。

每个双向条形图表示与个体类别相关联的性能。例如，类别0双向条形图320示出了在将项目分类为“0”时分类器的性能。类别1双向条形图322示出了将项目分类为数字1的分类器的性能。类别2双向条形图324示出了将项目分类为数字2的分类器的性能。类别3双向条形图326示出了将项目分类为数字3的分类器的性能。类别4双向图形328示出了将项目分类成数字4的分类器的性能。类别5双向条形图330示出了将项目分类为数字5的分类器的性能。类别6双向条形图332示出了将项目分类为数字6的分类器的性能。类别7双向条形图334示出了将项目分类为数字7的分类器的性能。类别8双向条形图336示出了将项目分类为数字8的分类器的性能。类别9双向条形图338示出了将项目分类为数字9的分类器的性能。

每个类别与颜色相关联。因此，类别0被指派浅蓝色。类别1被指派深蓝色。类别2指派浅绿色。类别3被指派深绿色。类别4被指派粉红色。类别5被指派红色。类别6被指派浅橙色。类别7被指派深橙色。类别8被指派浅紫色。类别9被指派深紫色。

每个类别还与火花线相关联。火花线包括类别0火花线321、类别1火花线323、类别2火花线325、类别3火花线327、类别4火花线329、类别5火花线331、类别6火花线333、类别7火花线335、类别8火花线337和类别9火花线339。简而言之，火花线示出了指派给被标记为一个类别的测试项目的置信度分数。因此，类别6火花线333示出了分类器针对被标记为类别6的项目指派给每个类别的置信度分数。将参考图6更详细地解释火花线。

如可以看出的，可视化300包括置信度分数标尺310。在该示例中，置信度分数可以在0到1的范围内。该标尺已经被分解成十份。该技术的各方面不限于将范围分解成十份。如可以看出的，在双向条形图上示出给出落入到每个范围中的分数的测试项目的数量。

仅以类别6条形图332为例，在标尺的右侧示出10个区间并且在标尺的左侧示出10个区间。在一个方面中，真正例在标尺的右侧以与图的类别相关联的相同颜色示出。例如，与类别6相关联的真正例在右侧以浅橙色示出。

并非每个置信度分数范围都包括数据。例如，标尺右侧的0.9到1范围340不包括任何数据，右侧的0到0.1范围358也不包括任何数据。0.8至0.9范围342、0.7至0.8范围344、0.6至0.7范围346、5.5至0.6范围348、0.4至0.5范围350、0.3至0.4范围352、0.2至0.3范围354、和0.1至0.2范围356全部都包括以浅橙色示出真正例的数据。另外，0.3至0.4范围352、0.2至0.3范围354和0.1至0.2范围356示出假正例。这些被描绘为散列并且以与每个项目或项目群组应被分类到的类别相关联的颜色进行描绘。例如，被标记为4的测试数据项目应被分类为4。但如果将其分类为6(假正例6)，那么将在类别6双向图332的右侧以与类别4相关联的浅粉红色描绘它。同样，浅粉色和散列指示假正例。

类别6双向图332的左手侧示出了假负例。假负例表示被标记为6但被分类器标识为不同数字例如8的测试项目。这些假负例用项目实际分类到的颜色来描绘——即使它应该是已被分类为6。被错误分类的各个项目的量在左手侧被描绘在与由分类器指派给错误分类的项目的置信度分数相关联的区间中。用于对项目进行分类的置信度分数是分类器指派给类别6的置信度分数。因为它最终没有被指派给类别6，所以将较高的置信度分数指派给不同的类别。

类别6双向图332的左手侧的可用区间包括0.9到1区间341、0.8到0.9区间343、0.7到0.8区间345、0.6到0.7区间347、0.5到0.6区间349、0.4至0.5区间351、0.3至0.4区间353、0.2至0.3区间355、0.1至0.2区间357和0至0.1区间359。参考图3仅详细解释了类别6双向图332。但是在其他双向图上示出的数据以类似的方式进行布置并且具有类似的含义，但是相对于在相应图上所描绘的类别的。

现在转向图4，与图3中描绘的结果对照而言，图示出了双向条形图在明显区分不同分类器的性能方面的有效性。与图3一样，图4示出了用于多类别分类器的性能可视化400。如图4中所示的性能是针对与图3所示的不同的分类器。例如，不同地训练的模型或不同类型的分类器。同样，该模型是用于将手写数字分类为0到9之间的数字。每个类别与之前在图3中描述的相同颜色相关联并且在双向条形图上示出针对每个类别的性能。

双向条形图包括类别0双向条形图420、类别1双向条形图422、类别2双向条形图424、类别3双向条形图426、类别4双向条形图428、类别5双向条形图430、类别6双向条形图432、类别7双向条形图434、类别8双向条形图436和类别9双向条形图438。每个条形图与火花线相关联，包括火花线421、423、425、427、429、431、433、435、437和439。类似地，将标尺410示出在最左侧。

与图3中所图示的性能对照而言，对于大多数类别，如0.9到1范围内的大条形可以看到的那样，通常将非常高的置信度分数指派给测试项目。尽管通过标识真正例所测量的整体性能是相似的，但是置信度分数却非常不同。

与图3一样，双向条形图的右手侧示出假正例和真正例，而左手侧示出假负例。参考类别6双向图432，针对假负例的区间包括区间441、区间443、区间445、区间447、区间449、区间451、区间453、区间455、区间457和区间459。右手侧的区间包括区间440、区间442、区间444、区间446、区间448、区间450、区间452、区间454、区间456和区间458。右手侧的区间示出了真正例和假正例的组合。

现在转到图5，在针对多类别分类器的性能可视化500中图示出了针对两个类别的更粒度化的性能视图。与图3和图4中所示的先前图示一样，示出了十个不同类别的性能。每个类别与将手写数字分类为0、1、2、3、4、5、6、7、8或9相关联。在双向条形图中示出每个类别的性能。双向条形图包括图形520、522、524、526、528、530、532、534、536和538。和前面一样，每个双向条形图与火花线相关联。所示的火花线包括火花线521、火花线523、火花线525、火花线527、火花线529、火花线531、火花线533、火花线535、火花线537和火花线539。可视化500包括置信度分数标尺510。

类别3双向条形图526和类别5双向条形图530都以比其他图更低的粒度级别而被示出。在一个方面中，可以通过选择图或通过选择负责粒度的界面控制来改变各个图的粒度级别。在此粒度级别，将测试数据内的每个可分类项目显示为个体方块。例如，个体方块541是深绿色，这是与类别3相关联的颜色。对照而言，个体方块544是散列红色，这是与类别5相关联的颜色。在这种情况下，由方块544表示的个体项目在测试数据中被标记为5，但被分类为3，导致针对类别3的假正例。此特定项目也将在类别5双向条形图530上被显示为假负例。个体方块545是深绿色，指示真正例，并且方块547是散列深红色，指示应该是类别5的假正例。

在最低粒度级别，比分配给界面的空间内容易示出的更多方块可以呈现在一个范围内。箭头或其他截断指示符可以被用来通过选择箭头来指示附加方块可用于显示。单箭头542指示比三箭头543更少的方块可用。

双向条形图526的左侧示出了假负例。方块550是浅橙色方块，指示应该被标记为类别6对象的项目却被标记为类别5对象。浅绿色方块551指示应该被分类为类别3的项目却被分类为类别2。深橙色方块552指示应该被分类为类别3的方块却被分类为类别7。类似地，浅紫色方块553指示应该被分类为类别3的项目却被分类为类别8。

在一个方面中，示出了针对单独选择的方块的线形图。例如，在选择方块560时，线形图561显现。线形图与个体双向条形图的分界线相交于由分类器针对每个类别指派给该项目的置信度分数处。在该示例中，可以看出针对560方块的最高置信度分数被指派给类别5，而第二高置信度分数被指派给类别3。这可以指示个体手写数字与5和3相像。在这种情况下，它被错误地预测为5，因为最高置信度分数被指派给类别5。

现在转向图6，示出了火花线600。可以在与类别5相关联的双向条形图上方示出火花线600。由在火花线下方示出的标尺605上的粗体C5示出火花线600与类别5相关联。在一个方面中，示出的火花线没有标尺。火花线示出指派给测试数据中被标记为类别5的项目的平均置信度分数。如所提及，可以在多个类别中为个体项目指派置信度分数，并最终将其指派给具有最高指派分数的类别。如可以看出的，第一峰值610显现在类别5标记上方，第二峰值612显现在类别3标记上方。第一峰值610是预期的并且反映真正例。第二峰值612指示分类器当前在某种程度上混淆了三和五，导致应该被指派给类别5的相对大量的假正例。如可以看出的，类别8也存在一些混淆。虽然没有示出，但是Y轴指示指派给该项目的置信度分数。峰值越高或离X轴的距离越大，对应的置信度分数越高。

现在转到图7，示出了类别3个体双向条形图526的详细视图。如所提及，可以以不同的粒度或细节级别示出条形图。在最高粒度级别，落入到个体类别中的项目的量被表示为单个条形。例如，在真正例类目中，将条形712、714、716、718、722和728全部都示为深绿色，指示它们表示真正例的量。

不同区间中的各种散列条形指示假正例。红色散列条形720表示具有类别5标记但是被指派给类别3的假正例的量。红色散列条形724和734指示处于不同置信度级别的来自类别5的附加假正例。浅紫色散列条形732指示来自类别8的假正例，并且深紫色散列条形730指示来自类别9的假正例。一系列不同颜色的条形737和一系列不同颜色的条形740指示处于相应置信度级别的真正例和假正例。注意，在0.9和1之间的针对置信度分数的上部区间710是空的。

类别3双向条形图526的左侧示出了假负例。关于类别3的假负例是在测试数据内被标记为3但是由分类器分类到不同类别中的项目。如可以看出的，假负例的量由勾勒条形反映，其中周边具有该项目被错误分类到的类别的颜色。浅紫色条形726表示到类别8中的假正例。一系列条形731、736和738类似地表示到不同类别中的假负例。条形沿X轴延伸得越大，被分类到对应群组中的项目的量越大。该群组由落入范围中的置信度分数而形成，其中状态为真正例、按类别为假正例、或按类别为假负例。

现在转向图8，以比图7中所示出的更低级别的粒度示出了类别3双向条形图526的视图。更低级别的粒度将不同量的真正例、假正例或假负例表示为条形。条形可以是可选择的并被用来查看有关形成条形的项目的数据。在一个方面中，每个条形表示十个项目，但是该技术的各方面不限于这种分组。形成条形的项目的量可以被传达给用户并由用户控制。然后，用户能够粗略地计数拟合特定标准的项目的量(例如，置信度因子在0.4和0.5之间的来自类别5的假正例)。

在一些方面中，通过选择条形，可以访问关于形成条形的项目的信息。例如，选择绿色条形810、绿色条形812或绿色条形814可以显露关于形成这些真正例的项目的信息。选择单箭头820可以引起与该置信度分数的范围相关联的可视化的扩展。在选择单箭头820时，将示出附加条形。使用该单箭头表明可能显示的附加条的量在比与双箭头和三箭头一起使用的范围小的范围内。对照而言，双箭头822指示可用于显示更大量的条形。深橙色散列条形826和浅橙色的散列条形824指示假正例。类似地，浅紫色散列条形828指示假正例的群组。

在双向条形图526的左侧，假负例或假负例的群组由没有填充的彩色条形示出。条形的周边表示被标记为3的项目被错误分类到的类别。例如，浅蓝色条形830指示被标记为3的项目的群组被错误地分类为0。和前面一样，单箭头823指示可以通过选择该箭头来访问附加条形。单箭头指示条形量小于当使用双箭头或三箭头时的条形量。和前面一样，不同系列的条形与不同的置信度分数相关联。例如，浅绿色条形834包括被指派了置信度分数在0.1和0.2之间的项目。

现在转向图9，以最低可用级别的粒度示出类别3双向条形图526，其是逐项目视图。每个可分类项目由单个方块表示。例如，深绿色方块910表示针对类别3的真正例。暗红色散列方块916和920指示假正例。双箭头912和914指示通过选择箭头可以访问附加项目量。是使用单箭头、双箭头还是三箭头取决于从显示中截断的附加项目量。不同类型的箭头可以与不同范围的项目相关联。例如，单箭头可以与1到50之间相关联，双箭头可以与50到200之间相关联、并且三箭头可以与200到1,000之间相关联。这些数字仅用作示例。选择三箭头918将显露真正例或假正例的附加个体项目。

与前面一样，在左侧示出假负例。以项目被错误分类到的颜色示出个体假负例。不显示方块，而是示出没有填充的勾勒方块。例如，勾勒方块934指示针对类别5的假负例。方块932和930是假负例的附加示例。双箭头952和三箭头950指示通过选择箭头可以访问附加量的假负例。

现在转向图10，结合表格图示出了一系列双向条形图可视化，该表格示出了用于形成条形图的原始数据。可视化1000包括先前描述的一系列双向条形图1010。可以选择双向条形图的一部分，例如类别6图中的方块，其中项目被错误地分类为2。该选择使得线图1040的群组被示为通过了这一系列项目。条形图上的每条线表示在该选择中的项目之一。在表格1020中也示出了这些项目的一部分。

ID列1021示出了被用来评估多类别分类器的性能的测试数据文件。在图像列1022中，示出了实际图像的缩略图。在真列1024中，示出了被指派给测试数据中的图像的真实标记。在这种情况下，每个图像被标记为类别2。被指派的列1026示出了分类器将图像分类到的类别。如可以看出的，所有这些项目被分类为6。正确列1028指示分类是否正确。在这种情况下，使用0或1来指示正确性。0表示所示出的项目的错误分类。预测或置信度分数列1030示出了被指派给类别6的置信度分数。换句话说，示出了在所有类别中最高的预测分数。被指派给其他类别的预测分数示出在右侧。例如，类别0列1032示出了个体项目为0的置信度分数。类别1列1033、类别2列1034和类别3列1036中所示出的数据是类似的。请注意，类别2置信度分数显著高于针对类别0、类别1或类别3所指派的分数。

现在转到图11，提供了一种改善多类别分类器的性能的方法1100。方法1100可以由计算设备执行，诸如先前描述的设备100。多类别分类器将项目分类到三个以上不同可用类目中的一个类目中。方法1100可以与任何类型的多类别分类器一起使用。

在步骤1110处，接收性能度量。通过多类别分类器运行测试数据，可以针对多类别分类器生成性能度量。如前所述，测试数据包括可由多类别分类器分类的多个数据项目。训练不同类型的分类器以标识不同类型的项目。例如，可以训练分类器以标识图像中的对象。在这种场景中，测试数据可以包括其中标记有对象的多个图像。测试结果数据可以包括由多类别分类器指派标记的测试数据的每个项目。测试结果数据还可以包括由多类别分类器针对测试数据的每个项目生成的置信度分数。可以针对每个项目的每个可用类别指派置信度分数。项目最终可以被分类到与由多类别分类器指派的最高置信度分数相关联的类别中。

在步骤1120处，对于多类别分类器将项目分类到的第一类别，确定假正例的量、确定真正例的量、并确定假负例的量。可以通过将测试数据的每个项目上的标记与指派给该项目的分类进行比较来确定真正例、假正例和假负例。可以使用与这些类目中的项目相关联的其他性能数据来创建真正例、假正例和假负例的类目。例如，可以标识与一系列不同置信度分数范围相关联的真正例的量。假正例和假负例可以类似地按置信度分数范围进行分组。

在步骤1130处，对于第一类别，输出双向条形图以用于显示。条形图包括在双向条形图的第一侧上的假正例的量的表示和真正例的量的表示以及在双向条形图的第二侧上的假负例的量的表示。双向条形图可以类似于先前参考图3至图10所描述的那些。

在一个方面中，向每个类别指派颜色。以与该类别相关联的颜色显示针对该类别的真正例。以与分类器将对象分类到的类别相关联的颜色显示假正例。也可以以分类器将对象分类到的类别的颜色显示假负例。可以使用视觉上不同的特征显示真正例、假正例和假负例。例如，真正例可以被描绘为纯色、假正例可以被描绘为条纹形状、并且假负例可以被描绘为空的几何形状，诸如正方形或矩形。

可以将真正例、假正例和假负例的量分解为由诸如置信度分数或正确类别之类的一个或多个性能标准定义的类目。例如，可以由项目应该被分类到的类别和与那些错误分类的项目相关联的置信度分数二者来分解与第一类别相关联的假正例的量的表示。例如，表示可以示出在落入特定范围内的置信度分数内被分类到第二类别而不是第一类别中的项目的量。

可以以不同级别的粒度来表示类目中的项目的量。在一个方面中，可以用几何形状单独地表示测试数据的每个项目。例如，被分类为假正例的每个项目可以在表示中被描绘为单个形状。因此，可以显示100个形状以表示100个项目。在另一方面中，一个项目群组一起由一个形状表示。例如，被分类为真正例的每十个项目可以被表示为单个形状。因此，可以呈现5个形状以表示50个项目。所示出的形状的量可以基于四舍五入。例如，如果46个项目拟合到一个类目中，那么可以示出五个对象，其每个表示10个项目。相反，如果44个项目拟合到一个类目中，那么可以示出四个对象，其每个表示10个项目。在另一方面中，具有类似分类的所有项目可以由尺寸对应于该量的单个对象来描绘。例如，第一尺寸的单个条形可以表示40个项目，而较大尺寸的第二条形可以表示类目中的60个项目(例如，真正例)。条形的长度可以与所描绘的项目的量成正比。

双向条形图可以显露多类别分类器中的性能缺陷。例如，两个不同类别之间的混淆是显而易见的。然后可以开发多类别分类器的重新训练策略以减少类别混淆。

现在转到图12，提供一种改善多类别分类器的性能的方法1200。方法1200可以由计算设备执行，诸如先前描述的设备100。多类别分类器将项目分类到三个以上不同可用类目中的一个类目。方法1200可以与任何类型的多类别分类器一起使用。

在步骤1210处，接收性能度量。通过多类别分类器运行测试数据，可以针对多类别分类器生成性能度量。如前所述，测试数据包括可由多类别分类器分类的多个数据项目。训练不同类型的分类器以识别不同类型的项目。例如，可以训练分类器以识别图像中的对象。在这种场景中，测试数据可以包括标记有对象的多个图像。测试结果数据可以包括由多类别分类器指派标记的测试数据的每个项目。测试结果数据还可以包括由多类别分类器针对测试数据的每个项目生成的置信度分数。可以针对每个项目的每个可用类别指派置信度分数。项目最终可以被分类到与由多类别分类器指派的最高置信度分数相关联的类别中。

在步骤1220处，对于多个类别中的每个类别，确定假正例的量、确定真正例的量、并确定假负例的量。可以通过将测试数据的每个项目上的标记与指派给该项目的分类进行比较来确定真正例、假正例和假负例。可以使用与这些类目中的项目相关联的其他性能数据来创建真正例、假正例和假负例的类目。例如，可以标识与一系列不同置信度分数范围相关联的真正例的量。假正例和假负例可以类似地按置信度分数范围进行分组。

在步骤1230处，输出多个双向条形图以用于显示。每个双向条形图与多个类别中的不同个体类别相关联。多个双向条形图的第一双向条形图描绘了针对第一类别的性能度量。第一双向条形图以与第一双向条形图的第一侧上的第一类别相关联的第一颜色描绘了针对第一类别的真正例的量的表示。如前所述，第一双向条形图还可以在第一侧上显示假正例并且在第二侧上显示假负例。相反，可以在第一侧上显示假负例并且在第二侧上显示假正例。在另一方面中，在第一侧上显示真正例并且在第二侧上显示假正例和假负例二者。其他双向条形图可以针对与其他类别相关联的性能数据呈现类似的表示。双向条形图可以包括先前描述的特征，诸如参考图3至图10所描述的那些。

可以以不同级别的粒度来表示类目中的项目的量。在一个方面中，可以用几何形状单独地表示测试数据的每个项目。例如，被分类为假正例的每个项目可以在表示中被描绘为单个形状。因此，可以显示100个形状以表示100个项目。在另一方面中，一个项目群组一起由一个形状表示。例如，被分类为真正例的每十个项目可以被表示为单个形状。因此，可以呈现5种形状以表示50个项目。所示出的形状的量可以基于四舍五入。例如，如果46个项目拟合到一个类目中，那么可以示出五个对象，其每个表示10个项目。相反，如果44个项目拟合到一个类目中，那么可以示出四个对象，其每个表示10个项目。在另一方面中，具有类似分类的所有项目可以由尺寸对应于该量的单个对象来描绘。例如，第一尺寸的单个条形可以表示40个项目，而较大尺寸的第二个条可以表示类别中的60个项目(例如，真正例)。条形的长度可以与所描绘的项目的量成正比。

现在转向图13，提供一种改善多类别分类器的性能的方法1300。方法1300可以由计算设备执行，诸如先前描述的设备100。多类别分类器将项目分类到三个以上不同可用类目中的一个类目。方法1300可以与任何类型的多类别分类器一起使用。

在步骤1310处，接收针对多类别分类器的性能度量。可以通过多类别分类器运行测试数据来生成性能度量。可以训练多类别分类器以将项目分类到n个类别中。N可以是大于3的整数。

在一个方面中，选择类别的子集以包括在性能可视化中。当多类别分类器具有大量类别时，这可能是有用的。例如，可以将40个类别中的10个包括在单个性能可视化中。可以提供允许用户定义应该在可视化中描绘的类别的界面。可以单独地选择或基于共同特征选择类别。例如，可以选择与哺乳动物相关的类别作为群组，其中多类别分类器将图像分类为描绘哺乳动物类型、机器类型和景观类型。对于超过30个类别，甚至10个类别，难以为了在每个类别的基础上性能对进行可视化的目的而将有意义的颜色指派给每个类别。

如前所述，测试数据包括可由多类别分类器分类的多个数据项目。训练不同类型的分类器以标识不同类型的项目。例如，可以训练分类器以标识图像中的对象。在这种场景中，测试数据可以包括其中标记有对象的多个图像。测试结果数据可以包括由多类别分类器指派标记的测试数据的每个项目。测试结果数据还可以包括由多类别分类器针对测试数据的每个项目生成的置信度分数。可以针对每个项目的每个可用类别指派置信度分数。项目最终可以被分类到与由多类别分类器指派的最高置信度分数相关联的类别中。

在步骤1320处，对于n个类别中的每一个，确定假正例的量、确定真正例的量、并确定假负例的量。可以通过将测试数据的每个项目上的标记与指派给该项目的分类进行比较来确定真正例、假正例和假负例。可以使用与这些类目中的项目相关联的其他性能数据来创建真正例、假正例和假负例的类目。例如，可以标识与一系列不同置信度分数范围相关联的真正例的量。假正例和假负例可以类似地按置信度分数范围进行归组。

在步骤1330处，对于n个类别中的每一个类别，输出双向条形图以用于显示，所述双向条形图在双向条形图的第一侧上示出假正例的量的表示和真正例的量的表示，并且在双向条形图的第二侧上示出假负例的量的第一表示。在一个方面中，也在第一侧上显示假正例。在另一方面中，在第一侧上显示真正例并且在第二侧上显示假正例和假负例二者。

可以以不同级别的粒度来表示类目中的项目的量。在一个方面中，可以用几何形状单独地表示测试数据的每个项目。例如，被分类为假正例的每个项目可以在表示中被描绘为单个形状。因此，可以显示100个形状以表示100个项目。在另一方面中，一个项目群组一起由一个形状表示。例如，被分类为真正例的每十个项目可以被表示为单个形状。因此，可以呈现5种形状以代表50个项目。所示出的形状的量可以基于四舍五入。例如，如果46个项目拟合到一个类目中，那么可以示出五个对象，其每个表示10个项目。相反，如果44个项目拟合到一个类目中，那么可以示出四个对象，其每个表示10个项目。在另一方面中，具有类似分类的所有项目可以由尺寸对应于该量的单个对象来描绘。例如，第一尺寸的单个条形可以表示40个项目，而较大尺寸的第二条形可以表示类目中的60个项目(例如，真正例)。条形的长度可以与所描绘的项目的量成正比。

如所提及，可以向每个类别指派不同的颜色。以与该类别相关联的颜色显示针对该类别的真正例。以与分类器将对象分类到的类别相关联的颜色显示假正例。也可以以分类器将对象分类到的类别的颜色显示假负例。可以使用视觉上不同的特征显示真正例、假正例和假负例。例如，真正例可以被描绘为纯色、假正例可以被描绘为条纹形状、并且假负例可以被描绘为空的几何形状，诸如正方形或矩形。

双向条形图可以显露多类别分类器中的性能缺陷。例如，两个不同类别之间的混淆是显而易见的。然后可以开发多类别分类器的重新训练策略以减少类混淆。

已经关于在所有方面都旨在是说明性的而不是限制性的特定方面描述了本文描述的技术。

Claims

1.一种计算系统，包括：

处理器；和

其上存储有计算机可执行指令的计算机存储存储器，所述计算

机可执行指令当由所述处理器执行时，配置所述计算系统以改善多类别分类器的性能，所述计算系统被配置为：

接收通过所述多类别分类器运行测试数据而生成的针对所述多类别分类器的性能度量，所述多类别分类器被训练为将项目分类到多个类别之一中；

对于所述多类别分类器将项目分类到的第一类别，确定假正例的量、真正例的量和假负例的量，其中针对所述第一类别的假正例是所述测试数据中被标记为不同类别但被所述多类别分类器分类到所述第一类别中的项目，其中真正例是所述测试数据中被标记为所述第一类别并且被所述多类别分类器分类到所述第一类别中的项目，并且其中假负例是所述测试数据中被标记为所述第一类别但被所述多类别分类器分类到不同类别中的项目；以及

对于所述第一类别，在双向条形图的第一侧上输出所述假正例的量的表示和所述真正例的量的表示以及在所述双向条形图的第二侧上输出所述假负例的量的表示，以用于在所述双向条形图上显示。

2.根据权利要求1所述的计算系统，其中，以与所述第一类别相关联的颜色显示所述真正例的表示。

3.根据权利要求2所述的计算系统，其中，以与第二类别相关联的颜色显示所述假正例的表示的一部分，其中一个或多个项目被分类到所述第二类别中。

4.根据权利要求1所述的计算系统，其中，所述真正例的量的表示包括多个条形，其中来自所述多个条形的个体条形描绘了被指派了在与所述个体条形相关联的置信度分数范围内的置信度分数的真正例项目的量。

5.根据权利要求1所述的计算系统，其中，所述假正例的量的表示包括多个条形，其中来自所述多个条形的个体条形描绘了被指派了在与所述个体条形相关联的置信度分数范围内的置信度分数的假正例项目的量。

6.根据权利要求1所述的计算系统，其中，所述假负例的量的表示包括多个条形，其中来自所述多个条形的个体条形描绘了被指派了在与所述个体条形相关联的置信度分数范围内的置信度分数的假负例项目的量。

7.根据权利要求1所述的计算系统，还被配置为输出火花线以用于在所述双向条形图之上显示，所述火花线示出了针对项目可以被所述多类别分类器指派到的每个可用类别、指派给被标记到所述第一类别中的项目的置信度分数。

8.一种用于改善多类别分类器的计算机实现的方法，所述方法包括：

对于所述多个类别中的每个类别，确定针对所述类别的假正例的量、针对所述类别的真正例的量以及针对所述类别的假负例的量；

输出多个双向条形图以用于显示，每个双向条形图与所述多个类别中的不同个体类别相关联，其中所述多个双向条形图中的第一双向条形图描绘针对第一类别的性能，并且其中所述第一双向条形图在所述第一双向条形图的第一侧上以与所述第一类别相关联的第一颜色描绘针对所述第一类别的所述真正例的量的表示，其中所述真正例的量的表示包括多个方块，其中每个方块表示被正确分类到所述第一类别中的项目；以及

接收与个体方块的交互并输出线图以用于显示，所述线图示出针对所述个体方块表示的项目、由所述多类别分类器针对每个类别计算出的置信度分数，并且其中所述线图与所述多个双向条形图中的至少一个双向条形图相交。

9.根据权利要求8所述的方法，其中，所述第一双向条形图包括以与第二类别相关联的第二颜色在所述第一双向条形图的所述第一侧上显示的针对所述第二类别的假正例的量的表示。

10.根据权利要求9所述的方法，其中，利用条纹图案显示针对所述第二类别的所述假正例的表示。

11.根据权利要求8所述的方法，其中，所述真正例的表示包括多个堆叠的条形，其中每个条形表示被正确分类到所述第一类别中的项目的群组。

12.根据权利要求8所述的方法，其中，所述方法还包括：同时显示针对与由用户所选择的所述双向条形图的一部分有关的项目的、所述性能度量的一部分。

13.根据权利要求12所述的方法，还被配置为输出火花线以用于在所述双向条形图之上显示，所述火花线示出了针对项目可以被所述多类别分类器指派到的每个可用类别、指派给被标记到所述第一类别中的项目的置信度分数。

14.根据权利要求8所述的方法，其中，所述第一双向条形图在所述第一双向条形图的第二侧上以与第三类别相关联的第三颜色描绘针对所述第一类别的所述假负例的量的一部分的表示，其中，假负例的所述一部分表示被标记在所述第一类别中但是由所述多类别分类器分类到所述第三类别中的项目的量。

15.根据权利要求14所述的方法，其中，将所述假负例的量的所述部分的表示显示为具有以所述第三颜色绘制的周边的几何形状。

16.一种或多种计算机存储介质，其上嵌入有计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时使得所述一个或多个处理器执行用于改善多类别分类器的方法，所述方法包括：

通过所述多类别分类器运行测试数据，生成针对所述多类别分类器的性能度量，所述多类别分类器被训练为将项目分类到n个类别中，其中n为大于3的整数；

对于所述n个类别中的每个类别，确定假正例的量、真正例的量以及假负例的量；以及

针对所述n个类别中的每个类别，输出双向条形图以用于显示，每个双向条形图在所述双向条形图的第一侧上示出所述假正例的量的表示和所述真正例的量的表示并且在所述双向条形图的第二侧上示出所述假负例的量的第一表示。

17.根据权利要求16所述的介质，其中，所述假正例的量的表示包括被分配了在第一范围内的置信度分数的项目的第一表示和被分配了在第二范围内的置信度分数的项目的第二表示。

18.根据权利要求16所述的介质，其中，所述假负例的量的表示是有颜色的几何形状。

19.根据权利要求16所述的介质，其中，所述方法还包括：同时显示针对与由用户所选择的所述双向条形图的一部分有关的项目的、所述性能度量的一部分。

20.根据权利要求19所述的介质，其中所述n个类别中的每个类别被分配唯一的颜色。