CN112580327A

CN112580327A - 增强自然语言分类器的多分类方法

Info

Publication number: CN112580327A
Application number: CN202010843307.3A
Authority: CN
Inventors: G·J·斯科瑞万; M·P·V·费瑞拉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-30
Filing date: 2020-08-20
Publication date: 2021-03-30
Anticipated expiration: 2040-08-20
Also published as: US20210097335A1; US11341358B2

Abstract

本公开涉及增强自然语言分类器的多分类方法。在一种利用优化聚类训练集创建模型的方法中，一个或多个计算机处理器决定优化聚类大小。一个或多个计算机处理器根据所述确定的优化聚类大小，从训练集中包含的一个或多个分类和分别相关联的训练语句生成一个或多个聚类，其中所述已生成的一个或多个聚类分别包含少于所述训练集的分类。一个或多个计算机处理器从用所述一个或多个已生成的聚类训练的静态模型生成的一个或多个聚类分类中识别一个或多个孤立的高置信度分类和相关的训练语句。一个或多个计算机处理器创建用一个或多个已识别的孤立的高置信度分类进行训练的一个或多个动态模型。一个或多个计算机处理器使用所述一个或多个已创建的动态模型执行一个或多个分类。

Description

增强自然语言分类器的多分类方法

背景技术

本发明总体上涉及机器学习领域，并且更具体地涉及自然语言分类器。

朴素贝叶斯(

Bayes)分类器是一系列简单的概率分类器，它们基于贝叶斯定理和特征之间的强(朴素)独立性假设。朴素的贝叶斯分类器具有高度的可扩展性，在学习问题中需要数量与变量(特征/预测变量)数量成线性关系的参数。朴素贝叶斯是一种用于构造分类器的简单技术：将模型标签分配给问题实例的模型，这些模型以特征值的向量表示，其中所述标签是从某个有限集合中得出的。训练此类分类器的算法不是单一的，而是基于共同原理的一系列算法：所有朴素贝叶斯分类器均假定给定类变量，一个要素的值独立于任何其他要素的值。对于某些类型的概率模型，可以在监督学习环境中非常有效地训练朴素贝叶斯分类器。在机器学习和统计中，分类是基于包含已知成员类别的观察值(或实例)的训练数据集来确定新观察值属于一组类别(子种群)中的哪个的问题。示例可以包括将给定的电子邮件分配给“垃圾邮件”或“非垃圾邮件”类别，并根据观察到的患者特征(血压、某些症状的存在或不存在等)为给定患者分配诊断。分类是模式识别的一个示例。

在机器学习中，分类是监督学习的一个实例(即可以使用一组正确识别的观察结果的学习)。相应的无监督过程称为聚类，它涉及基于固有相似性或距离的某种度量将数据分组为类别。通常，将单个观察结果分析为一组可量化的属性，这些属性被称为解释变量或特征。这些属性可以是分类的(例如，对于血型为“A”、“B”、“AB”或“O”)，有序的(例如，“大”、“中”或“小”)，整数(例如电子邮件中某个特定单词的出现次数)或实际值(例如血压的测量值)。其他分类器通过相似性或距离函数将观察值与先前观察值进行比较来工作。实现分类(尤其是在具体实现中)的算法称为分类器。术语“分类器”有时还表示由分类算法实现的数学功能，所述数学函数将输入数据映射到类别。

发明内容

本发明的实施例公开了一种计算机实现的方法、计算机程序产品以及一种用于利用最优聚类的训练集来创建和训练分类模型的系统。所述计算机实现的方法包括确定优化聚类大小的一个或多个计算机处理器。所述一个或多个计算机处理器基于所述确定的优化聚类大小，从一个或多个类别以及分别包含在训练集中的训练语句中生成一个或多个聚类，其中，所述一个或多个生成的聚类分别包含比所述训练集更少的类别。所述一个或多个计算机处理器从由用所述一个或多个生成的聚类训练的静态模型生成的一个或多个聚类分类中识别一个或多个孤立的高置信度分类和相关的训练语句。所述一个或多个计算机处理器创建一个或多个动态模型，所述动态模型由所述一个或多个已识别出的孤立的高置信度分类训练。所述一个或多个计算机处理器利用所述一个或多个已创建的动态模型来执行一个或多个分类。

附图说明

图1是示出根据本发明的实施例的计算环境的功能框图；

图2是根据本发明的一个实施例的流程图，其描述了在图1的计算环境内的服务器计算机上的程序的操作步骤，所述程序用于利用优化聚类的训练集来创建和训练分类模型；

图3是示出根据本发明的实施例的，在图1的计算环境内的服务器计算机上的程序的操作步骤的流程图，所述程序用于导出优化聚类大小；

图4示出了根据本发明实施例的描绘动态分类模型的创建、训练和利用的示例；以及

图5是根据本发明的实施例的服务器计算机的组件的框图。

具体实施方式

分类算法、模型(如朴素贝叶斯、神经网络等)和分类器(如自然语言分类器等)会受到显著性能(如分类执行时间)的影响，并随着类和标签数量的增加而非线性退化。当分类操作对时间敏感时，分类的周转时间可能会降低到不可接受的水平。传统上，大的标签或类分类集和问题是利用主题专家来审查和策划多个训练集和训练相关的分类模型。主题专家策划是一项资源密集、成本高、效率低的工作，需要大量的高置信度(例如，90％以上的置信度)的训练语句。

本发明的实施例允许诸如移动设备之类的具有有限的存储器和处理能力的系统训练具有过大的类或标签集的模型。本发明的实施例训练了一个或多个动态模型，这些模型减少了执行分类所需的时间量。本发明的实施例允许快速执行分类任务，而不会降低模型精度和准确性，并且无需任何额外的训练。本发明的实施例将分类任务分割、分解和划分为连续执行的多个较小的分类任务。本发明的实施例认识到，基于聚类训练集导出最优聚类大小和训练动态模型减少了模型处理需求和执行持续时间。本发明的实施例不限于特定的训练技术和算法(例如，有监督的、半监督的、无监督的训练)。本发明的实施例重构标签和类别，使得原始模型(例如，分类器)被静态模型和一个或多个动态训练的模型所代替，其中每个动态模型是原始分类器的大小的一部分。本发明的实施例认识到，与所述原始分类器相比，静态分类器和动态分类器都较小，并且实时训练所述动态模型减少了总体计算需求，因此减少了执行模型(例如分类)所需的时间量。本发明的实施例提高了分类效率(例如，速度和系统要求)，而没有精度上的任何降低。本发明的实施例认识到，一旦创建了动态模型，则在维持高水平的模型置信度的同时，不需要进一步的训练。本发明的实施例认识到就所需的资源和时间而言，单层分类的成本过高。本发明的实施例的实现可以采取各种形式，并且随后参考附图讨论示例性实现细节。

现在将参照附图对本发明进行详细描述。

图1是根据本发明的一个实施例说明计算环境的功能框图，通常指定为100。本说明书中使用的术语“计算的”描述了一个计算机系统，所述计算机系统包括作为单个计算机系统一起运行的多个物理上不同的设备。图1仅提供了一种实现的说明，并没有暗示关于不同实施例可能被实现的环境的任何限制。技术人员可以在不偏离权利要求书所述的本发明保护范围的情况下对所描绘的环境进行许多修改。

计算环境100包括通过网络102连接的服务器计算机120。网络102可以是例如电信网络、局域网(LAN)、诸如互联网的广域网(WAN)或这三者的组合，也可以包括有线、无线或光纤连接。网络102可以包括一个或多个有线和/或无线网络，其能够接收和发送数据、语音和/或视频信号，包括其中包括了语音、数据和视频信息的多媒体信号。通常，网络102可以是将支持服务器计算机120与计算环境100内的其他计算设备(未示出)之间通信的连接和协议的任何组合。在各种实施例中，网络102经由有线、无线或光学连接在本地操作。并且可以是连接和协议的任何组合(例如，个人局域网(PAN)、近场通信(NFC)、激光、红外、超声等)。

服务器计算机120可以是独立的计算设备、管理服务器、Web服务器、移动计算设备或能够接收、发送和处理数据的任何其他电子设备或计算系统。在其他实施例中，服务器计算机120可以表示例如在云计算环境中利用多个计算机作为服务器系统的服务器计算系统。在另一个实施例中，服务器计算机120可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话或任何具有以下功能的可编程电子设备：通过网络102与计算环境100内的其他计算设备(未示出)进行通信。在另一实施例中，服务器计算机120代表利用聚类计算机和起作用的组件(例如，数据库服务器计算机、应用服务器计算机等)的计算系统。当在计算环境100中访问时，它作为无缝资源的单个池。在所示实施例中，服务器计算机120包括数据库122和程序150。在其他实施例中，服务器计算机120可以包含其他应用程序、数据库、程序等如在计算环境100中所描绘。服务器计算机120可包括内部和外部硬件组件，如所描绘和描述的。关于图5进行了更详细的介绍。

数据库122是程序150使用的数据仓库。在所描述的实施例中，数据库122驻留在服务器计算机120上。在另一个实施例中，数据库122可以驻留在计算环境100中的其他地方，所提供的程序150可以访问数据库122。数据库是有组织的数据集合。数据库122可以通过任何类型的存储设备来实现，这些设备能够存储数据和配置文件，这些文件可以被程序150访问和利用，例如数据库服务器、硬盘驱动器或闪存。在一个实施例中，数据库122存储了程序150使用的数据，例如训练集、标签分布数据和图表，以及历史模型准确性和性能统计数据(例如，执行时间、训练时间)。在所描述的实施例中，数据库122包含训练语料库124。

训练语料库124可以包含一个或多个分类(如标记)数据实例的一个或多个集合，以下称为训练语句，组织成一个或多个集合、分区、数组或数据结构，以下简称训练集。在一个实施例中，每个训练集包括一个标签和一个相关的数组或一组训练语句。下面是一个带有相关分类(例如，标签)的训练语句的例子{猫，[毛茸茸的，爪子，胡须，咕噜声，尖耳朵，追逐老鼠]}。多个训练语句包含一个训练集。在另一个实施例中，训练语料库124包含向量化的(即,一键编码、单词嵌入、缩小尺寸等)训练集和相关的训练语句。

模型126包含用于对一个或多个问题实例进行分类的多个分类模型(例如，自然语言分类、文本分类模型等)。在所描述的实施例中，模型126包含一个或多个分类模型(例如，一个或多个静态和动态模型)，这些模型使用监督的训练方法进行训练。在此实施例中，所述模型通过考虑作为结构化或非结构化数据提供的不同特征，对一个或多个问题实例(例如，狗、猫、蜥蜴等)进行分类。在各种实施例中，模型126可能包含可转移神经网络算法和模型(例如，递归神经网络、长短期记忆(LSTM)、深度叠加网络(DSN)、卷积神经网络(CNN)等)。向模型126输入特征数据的矢量化训练集。在各种实施例中，使用关联类对特征进行标记，使模型126在使用之前能够派生出与特定类关联的特征。在一个实施例中，模型126利用训练集来生成一组概率，表示问题实例属于一个特定标签或类的概率。模型126的训练在图2中得到了更详细的描述。

程序150是一个利用最优聚类训练集创建和训练分类模型的程序。在一个实施例中，程序150定义了一个分类法，为一组原始的标签提供了自然的和逻辑的分组。在另一个实施例中，程序150将原始标签的训练分配到各自的容器组。例如，程序150可能利用模型126将文本分类为下列动物类之一，如狗、猫、蜥蜴、蛇、鹰、隼、蜘蛛、蟹、鲨鱼等。在本例中，每种动物都与一个动物标签相关联，随着标签数量(例如，动物)的增加，模型性能会受到影响。在一个实施例中，程序150重新定义了自然聚类在一起的组标签。从上面的例子继续，狗和猫可能聚类在哺乳动物下面，蜥蜴和蛇可能聚类在爬行动物下面，等等。在所描述的实施例中，程序150是一个独立的软件程序。在另一个实施例中，可以将程序150的功能或其任何组合程序集成到单个软件程序中。在一些实施例中，程序150可以位于单独的计算设备上(没有描述)，但是仍然可以通过网络102进行通信。在各种实施例中，程序150的客户端版本驻留在计算环境100内的任何其他计算设备(未描述)上。程序150在图2中作了更详细的描述。

本发明可能包含各种可访问的数据源，如数据库122，该数据源可能包括个人存储设备、数据、内容或用户希望被处理的信息。处理指以传送、传播或以其他方式提供、组合、限制、删除或销毁个人资料的任何、自动化或非自动化操作或成套操作，如收集、记录、组织、构造、存储、改编、修改、检索、咨询、使用、披露等。程序150提供知情同意，并通知收集个人资料，允许用户选择是否处理个人资料。同意可以有几种形式。“选择加入”同意可以迫使用户在处理个人数据之前采取肯定行动。另一种选择是，“选择退出”同意可迫使用户在个人资料被处理前采取肯定行动，防止个人资料被处理。程序150允许对用户信息(如轨迹信息)以及个人数据(如个人识别信息或敏感个人信息)进行授权和安全处理。程序150提供有关个人资料及处理的性质(例如:类别、范围、目的、期限等)的资料。程序150向用户提供存储的个人数据的副本。程序150允许更正或填写不正确或不完整的个人资料。程序150允许立即删除个人数据。

图2是描述程序150的操作步骤的流程图，所述程序用于根据本发明的实施例，利用最优聚类的训练集创建和训练分类模型。

程序150检索一个训练语料库(步骤202)。在实施例中，当检测到模型的训练时，程序150启动。在另一个实施例中，程序150基于用户交互启动。例如，用户向程序150发送一个启动通知，以启动一个或多个模型的创建和训练。在一个实施例中，程序150从训练语料库124检索一个或多个训练集。在另一个实施例中，程序150包含一个或多个训练集。在另一个实施例中，用户将一个或多个训练集输入到程序150中。在一个例子中，程序150检索包含情绪(如快乐、悲伤、关心等)标签的训练集，以及与训练数据相关联的数组(如与每个类相关联的单词(如情感))。程序150检测、接收或检索一个或更多的训练集,程序150为每个训练集计算训练集统计数据。在一个实施例中，训练集统计可以包括但不限于总训练语句、总训练标签、与每个训练标签相关联的训练语句的频率等。

程序150计算一个优化聚类大小(步骤204)。程序150通过确定分类器的训练时间和分类器执行不同的训练和类别，来确定(例如，计算)产生最大时间压缩的聚类大小(例如，最优、最快的执行时间)从而减少执行分类所需的时间。在本实施例中，需要较低的处理能力从而导致更快的分类时间。在一个实施例中，程序150凭经验计算描述执行分类所花费的时间的公式，从而允许程序150确定使时间量最小的聚类参数和条件(例如，聚类大小和标签分布)，并进而执行一项或多项分类任务所需的处理能力。在流程图300的步骤中进一步详细描述了所述优化聚类大小的计算。

因此，在该实施例中，程序150确定使执行一个或多个分类任务所需的处理能力最小化的聚类参数和条件(例如，聚类大小和标签分布)，从而减少了程序150执行所述一个或多个分类任务所需的时间量。

程序150将所述训练语料聚类(步骤206)。程序150利用计算出的优化聚类大小来生成一个或多个聚类，其中包含所述已检索的训练语料库中包含的多个类别。程序150重组包含许多标签的所述训练语料库。在一个有效的示例中，一个训练语料库包含以下用于训练动物分类模型的训练语句：{猫，[毛茸茸，爪子，胡须，呼噜声，尖耳朵，追逐老鼠]}，{狗[毛茸茸，指甲，胡须，吠叫，松软的耳朵，追逐猫]}，{蛇，[鳞片，有毒，嘶嘶声，滑行者，追逐老鼠]}，{鳄鱼，[鳞片，游泳，奔跑，河流，追逐鹿]}，{鹰，[腾飞，翅膀，啸叫，追逐兔子]}。继续，程序150输入一系列描述随机动物的字符串，例如“毛茸茸的动物有爪子并且喜欢吃老鼠”，并输出动物的名称，例如“猫”。在一个实施例中，程序150基于一个或多个公共分类特征或相似性来创建多个聚类(例如，分类组或集合)。从当前示例继续，程序150创建多个包含广义动物聚类的聚类，例如“哺乳动物”、“爬行动物”、“鸟”、“鱼”、“昆虫”等。程序150聚类时(例如，加入，组合等)一个或多个类，程序150会加入代表聚类的相似和通用功能。例如，程序150创建以下聚类{哺乳动物，[毛茸茸，爪子，胡须，呼噜声，尖耳朵，追逐老鼠，指甲，吠叫，松软的耳朵，追逐猫]}，{爬行动物，[鳞片，有毒，嘶嘶声，滑行者，追逐老鼠，游泳，奔跑，河流，追逐鹿]}。在一个实施例中，每个聚类包含聚类中每个对应类的链接或引用。在各种实施例中，程序150将权重设置为发现相同属性的一个或多个属性(例如，哺乳动物聚类中的“毛茸茸”特征)，使得具有增加的权重的训练特征与聚类中的强指示成员相关联(例如，“鳞片”是指爬行动物，“六只腿”或“下颚”是指昆虫，等等。)。在各种实施例中，如果分组标签在实践上不可行，则程序150利用一种或多种机器学习聚类技术(例如，无监督、k均值聚类、均值漂移聚类、分层聚类等)来生成逻辑容器(例如，类)的所述原始标签。在所述实施例中，程序150在没有分类学先验知识的情况下系统地生成标签层次，从而允许自动聚类和训练流水线。

程序150训练一个静态模型(步骤208)。在各种实施例中，如第206步所述，程序150利用包含已聚类的分类和相关训练语句的聚类训练语料库(例如，容器组如哺乳动物、爬行动物等)来创建(例如，训练)静态模型。与原始分类器训练语料库相比，每个聚类包含一小部分标签。此外，标签是所述原始分类器的标签集的聚类，所述聚类比所述原始分类器更小。在一个实施例中，程序150利用一键编码技术向量化已聚类的分类或基于字符串(基于单词/术语)的特征集。例如，当向量化单个单词的特征集时，程序150创建一个由1x N矩阵组成的一键编码向量，其中N表示可区分的术语的数量。在本实施例中，程序150利用一键编码将分类数据重新编码成向量化的形式。例如，当向量化由[爪，嘴，尾巴]组成的特征集时，程序150将所述对应的特征集编码为包含[[1,0,0]，[0,1,0]，[0,0,1]]的数组。在一个实施例中，程序150通过输入已聚类的特征向量来训练一个静态模型(例如model126)。例如，程序150可以利用所述已聚类训练集{哺乳动物，[毛茸茸，爪子，胡须，呼噜声，尖耳朵，追逐老鼠，指甲，吠叫，松软的耳朵，追逐猫]}，{爬行动物，[鳞片，有毒，嘶嘶声，滑行者，追逐老鼠，游泳，奔跑，河流，追逐鹿]}等来训练所述静态模型。在另一个实施例中，程序150训练一个静态模型，所述模型使用从所述原始训练集(如训练语料库124)中提取的所述聚类产生的多个特征向量。

响应程序150完成静态模型的训练，程序150在容器级别进行对未标记输入(如待分类的动物)进行初始聚类(如“顶级”)分类(聚类分类)。在一个实施例中，聚类分类识别一个或多个孤立的高置信度分类和相关的训练语句。例如，利用聚类分类允许程序150对一个或多个输入进行分类，以达到高度的准确性。继续上面的例子，程序150将动物分类为哺乳动物和爬行动物。程序150利用所述生成的聚类分类结果来训练一个动态模型，如下所述。所述静态模型的训练之后是利用从初步聚类分类的最可靠的结果对动态分类器的实时训练。所述动态模型只考虑和选择最相关的组，从而减少了相应的训练语料库的规模。在一个实施例中，程序150利用了聚类置信度阈值，所述阈值指定了将聚类分类传递到一个或多个动态模型所需的最小置信度。例如，程序150确定所述哺乳动物和爬行动物聚类都很可能包含正确的相关子分类(例如，具体是哪一种动物)。

程序150基于静态模型分类(步骤210)训练一个动态模型。程序150训练一个动态模型，只利用聚类分类中存在的、孤立的、高度可信的标签(例如，分类)。在一个实施例中，程序150根据所述先前训练的静态模型实时构建和训练一个动态自然语言分类器。在本实施例中，程序150在初步分类(如由静态模型或之前的动态模型生成的)中分离高置信度标签，并相对于原始超集(如原始训练集)减少二级分类器训练语料库，从而实现有效的实时训练。在一个例子中,如果输入是[毛茸茸,吠叫],二级分类器(例如,动态模型)只包含聚类标签,如列在哺乳动物聚类的狗、猫和其他动物,然而,如果输入是[追逐老鼠],那么所有爬行动物作为标签被添加到二级分类器,导致减少分类的子集。在各种实施例中，程序150训练了多个动态模型并执行了多个随后的聚类(例如，“顶级”)分类。在一个实施例中，程序150可能执行多个聚类分类，这是由于过分大的后续聚类(例如，分类器子集)。在这个实施例中，程序150利用一个聚类大小阈值来控制聚类大小并随后创建子集大小(例如，高置信度聚类)。在进一步的实施例中，如果聚类大小超过了聚类大小阈值，程序150在分组分类(聚类分类)中添加另一层(例如，聚类)，并基于先前创建的动态模型创建另一个动态模型。

程序150执行分类(步骤212)。程序150利用静态模型和多个动态训练分类器的任何组合来解决分类任务或问题。在实施例中，程序150利用最终的动态模型(例如，使用可接受的训练语料库聚类大小训练的模型)对未标记输入执行一个或多个分类。在各种实施例中，程序150将最终动态模型(例如，模型126)部署到多个生产环境或相应的生产、测试或辅助环境中。在另一个实施例中，程序150确定了在多个部署环境(例如，测试、生产、备份服务器、容器或虚拟机)之外部署模型的部署环境。在实施例中，用户指示程序150将特定模型部署到特定环境中。在另一个实施例中，程序150利用所部署的模型对一个或多个图像进行分类。

因此，在该实施例中，程序150导致计算强度大的练习已经减少为多个较小的步骤，每个所述较小的步骤的计算强度明显小于原始步骤。在一个实施例中，所述步骤是连续执行的，与单个大标签分类器相比，允许花费一小部分时间完成的分类操作。

图3是描述根据本发明实施例推导优化聚类大小的程序150的操作步骤的流程图。

程序150在保持训练语句的数量恒定的同时，使用变化的标签训练第一模型(步骤302)。程序150利用在步骤202中详细描述的原始的、未修改的检测、接收或检索的训练集，基于所述训练集和相关联的训练语句来训练多个临时模型。在一个实施例中，程序150使用监督的训练方法来训练多个模型，如步骤208中所述。在各个实施例中，程序150为这种模型训练使用不同数量的分类或标签，但是保持每个分类的相关训练语句的数量不变。程序150将标签划分成多个训练子集，每个训练子集具有变化的标签和恒定数量的相关联的训练语句。例如，此步骤中使用的训练语料库最初可能具有500个标签，每个标签有10,000个训练语句。在该示例中，程序150将语料库划分为5个训练子集，每个所述子集具有(例如2-500)个标签的变化范围和10,000个相关联的训练语句。

程序150计算第一个模型的执行时间(步骤304)。在一个实施例中，当程序150训练模型时，程；序150并行计算和记录模型统计数据，如系统存储器利用率、中央处理单元(CPU)利用率、图形处理单元(GPU)利用率、硬盘驱动器利用率、总训练时间和模型执行时间。在本实施例中，程序150利用执行性能的多重估计来生成模型的通用执行度量。程序150经验地决定了一个给定数据集的分类时间，利用模型训练与恒定的输入(例如，训练语句)，但不同的样本标签大小的原始数据集，如步骤302所述。相应地，程序150在一个训练语料库中使用了平均的训练语句数。在一个实施例中，用150个程序绘制并以标签数量的函数来获得分类时间。在各种实施例中，程序150拟合并计算有代表性的多项式曲线。例如，程序150训练一个模型2500个标签和每个标签20个训练语句，并确定一个非线性关系描述执行分类所需的时间(例如，执行)作为标签数量的函数。

程序150在改变训练语句的数量的同时，利用常数标签训练第二模型(步骤306)。在一个实施例中，更少的标签减少了执行时间，如步骤302中详述，但是所述减少自然导致每个标签的训练语句增加。程序150使用步骤302中描述的相同训练过程，但是程序150保持恒定的标签并改变每个标签的相关训练语句的数量。程序150将训练语料库划分为多个训练子集，每个所述子集具有恒定的标签和数量变化的相关联的训练语句。例如，此步骤中使用的训练语料库最初可能具有500个标签，每个标签有10,000个训练语句。在此示例中，程序150将语料库划分为5个训练子集，每个所述子集具有500个标签和数量不等的(1-10,000之间的任何数字)相关联的训练语句。在一个实施例中，分类时间是每个标签的训练语句的数量的函数。在另一个实施例中，分类时间是减少聚类的函数，在逻辑上，更多的聚类导致更少的相关训练语句。

程序150计算第二个模型(步骤308)的执行时间。程序150利用步骤304中的相同程序，根据使用不同数量的训练语句但标签不变的模态训练来绘制和推导执行时间。在一个实施例中，程序150绘制一个时间以将一个恒定输入值分类为训练语句数的函数，并推导出表示所述时间的方程。在一个示例中，程序150计算标签增加和所需聚类数量之间的线性关系。在这个例子中，大量的聚类与少量的标签相关联。

程序150在保持训练语句的数量恒定的同时，利用变化的标签训练第三模型(步骤310)。程序150使用步骤302和306中描述的相同训练过程，但是程序150保持恒定的训练语句并更改标签，如步骤302中具体描述的。程序150将标签划分为多个训练子集，每个子集具有变化的标签和恒定数量的相关训练语句。例如，此步骤中使用的训练语料库最初可能具有500个标签，每个标签有10,000个训练语句。在该示例中，程序150将语料库划分为5个训练子集，每个子集具有变化范围的(例如2-500)个标签和10,000个相关联的训练语句。

程序150计算第三模型的训练时间(步骤312)。程序150通过考虑一定数量的标签来根据经验确定所述原始数据集的多个训练子集的训练时间。在一个实施例中，程序150绘制并导出作为标签数量的函数的训练时间方程。在另一个实施例中，程序150拟合多项式曲线并计算代表该曲线的相关方程。例如，程序150确定在所需训练时间内标签数量的非线性关系。

程序150得出一个优化的聚类大小(步骤314)。程序150根据训练语句分布、标签分布以及相关的训练和执行时间，计算并导出一个函数(例如，方程式)来预测一个最优的(例如，训练和执行时间最小化)聚类大小。在一个实施例中，程序150利用在步骤302、306和310中计算和推导的所述方程来预测一个优化的聚类大小。程序150利用每个聚类标签的平均数量和每个聚类标签的训练语句的平均数量作为上述聚类函数的输入。在不同的实施例中,程序150利用所述估计时间进行初步分类(步骤302),为每个聚类训练语句标签的数量(步骤306)调整它,并针对训练数据的一个子集计算所述预计时间,其中最多的聚类是一个预定义的常数。这里，程序150根据n个标签计算执行最终分类的估计时间，其中n是每个聚类(步骤302)的标签乘以顶层聚类数(步骤310中引用的预定义常量)。在各种实施例中，程序150添加了来自上述步骤的功能、绘图并派生出表示优化聚类大小的功能。这个函数显示了程序150对未知文本进行分类的速度与根据原始的大型分类器对同一文本进行分类的时间的比较。在这里，任何小于1的值都表示时间压缩。在一个实施例中，程序150利用所述函数来表示应用于预先分类的类的优化数量。在另一实施例中，使用无监督聚类技术，则所述函数表示该技术应该创建的聚类数量。在另一个实施例中，程序150确定了一个鞍点或最小值，所述鞍点或最小值允许在聚类和每个聚类的标签数量之间均匀分布。在一个实施例中，程序150可以利用所述原始分类器的训练语料库的标签数的平方根来估计最优聚类。

因此，在本实施例中，优化参数和推导方程受到语料库性质、每个标签的平均训练语句数以及任何相关阈值(从所述预分类任务中传递到所述最终分类任务的标签数量)的强烈影响。

图4示出了根据本发明实施例描绘动态分类模型的创建、训练和利用的示例。在所述示例中，程序150利用创建的动态模型来输出(例如，分类)依赖于输入的关键词(例如，自然语言字符串)的候选书籍类别的列表。程序150根据书籍的语言(例如英语，芬兰语等)将候选书籍的训练集聚类为元数据(例如特征)。通常，语言可以用作书籍的自然组(例如，聚类)。在此，程序150以书籍的语言为聚类。在该示例中，静态模型由多个(例如，数千个)候选书籍聚类来训练，所述候选书籍聚类包含被用作训练语句的具有相关联的标题和字幕的标签(例如，分类)。静态模型为输入(例如，训练聚类)，例如英语和法语，选择最高结果(例如，超过置信度阈值的最高置信度聚类)，并基于所述初始分类(例如，聚类分类)实时动态创建和训练二级分类器(例如，动态模型)。程序150利用动态模型来执行所述最终分类(例如，书籍的分类)。在此示例中，性能提升对标签的数量、子结构的数量以及每个子结构的标签的数量敏感。在一个实施例中，程序150利用朴素贝叶斯，其中随着标签数量的增加而获得性能。

图5描绘了根据本发明的说明性实施例的服务器计算机120的组件的框图。应当理解，图5仅提供了一种实现方式的图示，并不暗示关于可以实现不同实施例的环境的任何限制。可以对所描绘的环境进行许多修改。

每台服务器计算机120都包括通信结构504，它提供高速缓存503、存储器502、永久性存储设备505、通信单元507和输入/输出(I/O)接口506之间的通信。通信结构504可以在为处理器(如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息而设计的任何架构中实现。例如，通信结构504可以用一个或多个总线或交叉开关来实现。

存储器502和永久性存储设备505是计算机可读存储介质。在该实施例中，存储器502包括随机存取存储器(RAM)。通常，存储器502可以包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存503是快速存储器，其通过保存来自存储器502的最近访问的数据和接近访问的数据的数据来增强计算机处理器501的性能。

程序150可以存储在永久性存储设备505中，并且可以存储在存储器502中，以由各自的(多个)计算机处理器501中的一个或多个经由高速缓存503执行。在一个实施例中，永久性存储设备505包括磁硬盘驱动器。可替代地，或除了磁性硬盘驱动器之外，永久性存储设备505可以包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或任何其他能够存储程序指令或数字信息的计算机可读存储介质。

永久性存储设备505使用的介质也可以是可移动的。例如，可移动硬盘驱动器可用于永久性存储设备505。其他示例包括光盘和磁盘、拇指驱动器和智能卡，它们插入驱动器中以传输到也是永久性存储设备505的一部分的另一个计算机可读存储介质上。

在这些示例中，通信单元507提供与其他数据处理系统或设备的通信。在这些示例中，通信单元507包括一个或多个网络接口卡。通信单元507可以通过使用物理和无线通信链路之一或二者一起来提供通信。程序150可以通过通信单元507下载到永久性存储设备505。

I/O接口506允许与可以连接到服务器计算机120的其他设备进行数据的输入和输出。例如，I/O接口506可以提供到外部设备的连接508，例如键盘、小键盘、触摸屏和/或一些其他合适的输入设备。外部设备508还可包括便携式计算机可读存储介质，例如拇指驱动器、便携式光盘或磁盘以及存储卡。可以将用于实践本发明的实施例的软件和数据，例如程序150，存储在这种便携式计算机可读存储介质上，并且可以经由I/O接口506将其加载到持久性存储505上。I/O接口506还连接到显示器509。

显示器509提供了一种向用户显示数据的机制，并且可以是例如计算机监视器。

本发明所描述的程序是基于在本发明的特定实施例中为其实现的应用来识别的。然而，应当理解本文中任何特定的程序术语仅是为了便于使用，因此本发明不应限于仅在由此类术语标识和/或暗示的任何特定应用中使用。

本发明可以是系统、方法和/或计算机程序产品。该计算机程序产品可以包括其上具有使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。

所述计算机可读存储介质可以是有形设备，其可以保留和存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下内容：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码设备，例如打孔卡或凹槽中的凸起结构，上面记录了指令，以及上述内容的任何合适组合。如本文所使用的，计算机可读存储介质不应被理解为本身是瞬时信号，例如无线电波或其他自由传播的电磁波、通过波导传播的电磁波或其他传输介质(例如，穿过光纤电缆的光脉冲)或通过电线传输的电信号。

此处描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者通过网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。所述该网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发所述计算机可读程序指令以存储在各个计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或任一源以一种或多种编程语言(包括诸如Smalltalk，C++等之类的面向对象编程语言，诸如“C”编程语言或类似编程语言之类的常规过程编程语言)的任何组合编写的代码或目标代码诸如“Q”编程语言、Q#、量子计算语言(QCL)或类似编程语言之类的编程语言，诸如汇编语言或类似编程语言之类的低级编程语言。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上、作为独立软件包执行，部分在用户计算机上并且部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以与外部计算机建立连接(用于例如，通过使用Internet服务提供商的Internet)。在一些实施例中，包括例如可编程逻辑电路，现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化所述电子电路，以执行本发明的方面。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各方面。将被理解的是，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以通过计算机可读程序指令来实现。

可以将这些计算机可读程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器，以产生机制，使得所述指令经由计算机或其他可编程数据处理设备的处理器执行，创建用于实现流程图和/或框图的框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，所述计算机可读存储介质可以指导计算机、可编程数据处理装置和/或其他设备以特定方式起作用，从而使得其中存储有指令的计算机可读存储介质可以包括制品，所述制品包括实现在流程图和/或框图的框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理设备或其他设备上，以使得在计算机、其他可编程设备或其他设备上执行一系列操作步骤以产生实现的计算机处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图方框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各个实施例的系统、方法和计算机程序产品的可能的实现的架构、功能和操作。就这一点而言，流程图或框图中的每个框可以代表指令的模块、片段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中指出的功能可以不按图中指出的顺序发生。例如，取决于所涉及的功能，实际上可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行这些框。还应注意，框图和/或流程图的每个框以及框图和/或流程图的框的组合可以由执行指定功能或动作或基于特定目的的基于硬件的专用系统来实现，或执行特殊用途的硬件和计算机指令的组合。

已经出于说明的目的给出了本发明的各种实施例的描述，但是这些描述并不旨在是穷举性的或限于所公开的实施例。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。选择这里使用的术语是为了最好地解释实施例的原理，对市场上发现的技术的实际应用或技术上的改进，或者使本领域的其他普通技术人员能够理解本文公开的实施例。

Claims

1.一种计算机实现的方法，包括:

由一个或多个计算机处理器确定优化聚类的大小；

由一个或多个计算机处理器根据所述已确定的优化聚类的大小，从训练集中包含的一个或多个分类和分别相关联的训练语句生成一个或多个聚类，其中所述一个或多个已生成的聚类所包含的分类分别少于所述训练集；

由一个或多个计算机处理器从用所述一个或多个已生成的聚类训练的静态模型生成的一个或多个聚类分类中识别一个或多个孤立的高置信度分类和相关的训练语句；

由一个或多个计算机处理器创建用一个或多个已识别的孤立的高置信度分类进行训练的一个或多个动态模型；以及

由一个或多个计算机处理器使用所述一个或多个已创建的动态模型执行一个或多个分类。

2.根据权利要求1所述的方法，其中确定优化聚类大小的方法包括:

由一个或多个计算机处理器创建使用多个不同的分类和恒定数量的相关训练语句训练的第一模型；

由一个或多个计算机处理器计算表示所述第一模型执行持续时间的第一方程；

由一个或多个计算机处理器创建使用多个恒定数量分类和不同数量的相关训练语句进行训练的第二模型；

由一个或多个计算机处理器计算表示所述第二模型执行持续时间的第二方程；

由一个或多个计算机处理器创建使用所述多个不同的分类和所述恒定数量的相关训练语句训练的第三模型；

由一个或多个计算机处理器计算表示所述第三模型训练时间的第三方程；以及

由一个或多个计算机处理器利用所述计算出的第一、第二和第三方程来确定聚类大小，从而产生最大的执行时间压缩。

3.根据权利要求1所述的方法，其中根据所述已确定的优化聚类的大小，从所述训练集中包含的所述一个或多个分类和所述分别相关联的训练语句生成一个或多个聚类，其中所述一个或多个已生成的聚类分别包含少于所述训练集的分类，包括：

由一个或多个计算机处理器利用无监督的聚类在逻辑上对所述训练集中包含的所述一个或多个分类和相关的训练语句进行分组。

4.根据权利要求1所述的方法，其中从用所述一个或多个已生成的聚类训练的所述静态模型生成的一个或多个聚类分类中识别所述一个或多个孤立的高置信度分类和所述相关的训练语句，包括:

响应于超过聚类置信度阈值，由一个或多个计算机处理器创建用所述一个或多个聚类分类训练的一个或多个动态模型。

5.根据权利要求4所述的方法，其中所述聚类置信度阈值表示创建用所述一个或多个聚类分类训练的所述一个或多个动态模型所需的最小置信度。

6.根据权利要求1所述的方法，还包括：

由一个或多个计算机处理器将所述一个或多个已创建的动态模型部署到一个或多个生产环境。

7.根据权利要求1所述的方法，其中创建用所述一个或多个已识别的孤立的高置信度分类训练的所述一个或多个动态模型，包括：

由一个或多个计算机处理器创建一个或多个实时训练的动态模型。

8.一种计算机程序产品，该计算机程序产品包括：

一个或多个计算机可读存储介质和在所述一个或多个计算机可读存储介质上存储的程序指令，所述程序指令可由一个或多个计算机处理器读取和执行，以实现根据权利要求1至7中的任何一项所述的方法所包含的步骤。

9.一种计算机系统，该计算机系统包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；以及

在计算机可读存储介质上存储的程序指令，所述程序指令由所述一个或多个计算机处理器中的至少一个执行，所述程序指令包括用以实现根据权利要求1至7中的任何一项所述的方法所包含的步骤的对应程序代码。

10.一种计算机装置，包括一个或多个逻辑模块，所述一个或多个逻辑模块分别被配置为用来实现根据权利要求1至7中的任何一项所述的方法所包含的对应步骤。