CN103782309B

CN103782309B - 用于机器学习分类器的自动数据清除

Info

Publication number: CN103782309B
Application number: CN201280019651.4A
Authority: CN
Inventors: H.H.马利克; M.奥洛夫-奥尔斯
Original assignee: Thomson Reuters Global Resources ULC
Current assignee: Financial and Risk Organisation Ltd
Priority date: 2011-02-22
Filing date: 2012-02-21
Publication date: 2017-06-16
Anticipated expiration: 2032-02-21
Also published as: US10650049B2; WO2012115958A3; US8626682B2; EP2678806A2; US20170220674A1; EP2678808A1; CN103782309A; CN104025130A; US9495635B2; US20120215777A1; US20120215727A1; CN104025130B; WO2012115958A2; WO2012115962A1

Abstract

公开了用于改进机器学习分类器的训练的系统和技术。使用经验证文档组来训练分类器，所述经验证文档准确地与类标记组相关联。还识别和使用未验证文档的子集来进一步训练分类器和改进分类器的准确率。

Description

用于机器学习分类器的自动数据清除

相关申请的交叉引用

本申请要求2011年2月22日提交的名称为“Information Processing andVisualization Methods and Systems”的美国临时申请No. 61/445,236以及2001年3月11日提交的名称为“Automatic Data Cleaning for Machine Learning Classifiers”的美国非临时申请No. 13/046,266的优先权，上述申请的内容以其整体并入到本文中。

技术领域

本公开涉及机器学习，并且更具体地，涉及用于改进机器学习分类器的准确率的系统和方法。

背景技术

当今，存在对将机器学习用于分析数据的不断增加的兴趣。机器学习是指对允许计算机识别复杂模式并基于经验数据作出智能决定的计算机算法的设计和开发。

通常，对文档执行文本分类的机器学习系统包括分类器。为分类器提供训练数据，在该训练数据中，已经用正确的标记或类对每个文档进行标记（例如，标识）。被标记的文档数据用于训练此后用于标记/分类类似文档的分类器的学习算法。分类器的准确率密不可分地依赖于被包括在训练数据中的正确标记的文档的质量和数量。

通常，从手动地将类标记分配给文档的专家得到用于分类器的训练数据。然而，手动分配固有地展现特定水平的不一致性，这是因为具有不同水平的领域知识和经验的专家可能以不同方式解释相同类。此外，手动分配的繁重性质可能进一步加剧这样的需要：将大量正确标记的文档提供给分类器以便很好地归纳。此外，专家对类标记的手动分配可能是昂贵的过程。

相应地，存在对用于为分类器产生训练数据的改进系统和技术的需要。

发明内容

公开了用于改进机器学习分类器的训练的系统和技术。使用经验证文档的组来训练分类器，所述经验证文档准确地与类标记组相关联。还识别和使用未验证文档的子集来进一步训练分类器和改进分类器的准确率。

所述系统的各方面涉及产生训练数据和使用所产生的训练数据训练分类器。

例如，根据一个方面，公开了一种训练初始受训分类器（ITC）的方法，所述ITC使用与类标记组相关联的经验证文档组而产生。所述经验证文档组被分成训练文档组和测试文档组，并且类标记组的每个类都与类列表相关联。所述训练文档组已经被进一步分成整数个经验证文档组（INVDS），所述方法包括：自动输入未验证文档组到ITC中，所述未验证文档组被分成整数个未验证文档组（UNVDS）；以及自动识别来自所述未验证文档组的文档子集。所述方法还包括：基于所述文档子集和所述经验证文档组，自动产生最终训练文档组；以及使用所述最终训练文档组训练所述ITC。所述方法还可以包括：使用所述最终训练文档组训练多个分类器；以及将所述多个分类器应用于所述测试文档组。

在一个实施例中，所述方法还包括：执行包括以计算机编程语言编写的第一循环结构的第一循环代码段，其中所述第一循环代码段在运行时间至少被执行n次，其中n是第一循环终止条件中的第一变量在运行时间的值；执行包括以计算机编程语言编写的第二循环结构的第二循环代码段，其中所述第二循环代码段至少被执行p × n次，其中p是第二循环终止条件中的第二变量在运行时间的值；以及执行包括以计算机编程语言编写的第三循环结构的第三循环代码段，其中所述第三循环代码段被执行p × n × q次，其中q是第三循环终止条件中的第三变量在运行时间的值。

在一个实施例中，对于执行第一循环代码的n次中的每一次，所述方法包括：将INVDS的第一部分分配给第一文档组；将INVDS的第二部分分配给第二文档组，所述第一部分不同于所述第二部分；以及使用所述第一文档组中的文档针对与所述类标记组相关联的每个类训练所述ITC。所述方法还包括：将多个分类器应用于所述第二文档组中的文档；以及计算与所述第二文档组中的文档相关联的第一组F1分数。所述第一文档组和所述第二文档组可以没有共同的文档。

在另一个实施例中，对于执行第二循环代码的p次中的每一次，所述方法包括：将简档组中的至少一个简档应用于UNVDS的每个文档，所述至少一个简档定义了要应用于UNVDS的每个文档的规则；将UNVDS的至少一个文档与被包括在所述第一文档组中的所有文档相比较；以及基于所述比较从UNVDS中删除所述至少一个文档。所述规则可以包括类标记保持方案、类标记添加方案或其组合。

所述方法可以包括：按简档严格性的降序将被包括在所述简档组中的多个简档应用于UNVDS的每个文档。此外，在一个实施例中，如果来自UNVDS的所述至少一个文档类似于被包括在第一文档组中的任何文档，则从UNVDS中删除所述至少一个文档。比较所述至少一个文档包括计算所述至少一个文档的余弦相似性。

在又一个实施例中，对于执行第二循环代码的p次中的每一次，所述方法包括：通过将被包括在第一文档组中的文档与未从UNVDS删除的文档进行合并，形成第三文档组；以及使用集群（clustering）算法对第三文档组进行集群。

所述方法还可以包括：对于执行第三循环代码的q次中的每一次：对于在类标记组中定义的每个类，将ITC应用于UNVDS中的所有文档；形成来自UNVDS的文档子集，所述文档子集中的每个文档具有至少一个与其相关联的类；使用所述第一文档组和所述文档子集中的文档训练第二分类器；以及将第二分类器应用于第二文档组。

在一个实施例中，所述方法还包括：计算与所述第二文档组中的文档相关联的第二组F1分数；将来自第二组F1分数的与类标记相关联的F1分数同来自第一组F1分数的与所述类标记相关联的对应F1分数相比较；基于所述比较来更新所述类标记的最佳分数；以及基于所述比较将来自所述文档子集的文档添加到类标记列表。

公开了包括存储用于实施各种技术的机器可读指令的机器可读介质的系统以及物品。在下文中更详细地讨论各种实施例的细节。

从以下详细描述、附图和权利要求中，附加的特征和优点将显而易见。

附图说明

图1是根据本发明的一个实施例的示例性的基于计算机的分类器系统的示意图；

图2A-B示出了根据本发明的一个实施例的改进用于分类器的训练数据的示例性方法；

图3是根据本发明的一个实施例的标记保持和添加方案的示例。

各个图中相似的附图标记指示相似的元件。

具体实施方式

本发明包括促进用于训练分类器的数据的自动数据清除（例如，除去噪声、不一致数据和误差）的方法和系统。具体地，公开了用于优化可用于训练初始受训分类器（ITC）的训练数据的量的系统和方法。本发明在训练数据有限的场景中特别有益，这可以对分类器的准确率具有显著影响。

已知的是，训练数据的数据清除通常比机器学习算法中的改进产生更高的准确率增益。通过由于对更大组的更清洁数据（cleaner data）的训练而提供分类器准确率的增益，本发明是有用的。由于不需要专家以将类标记手动分配给所有训练文档，还可以获得降低的生产成本。有利的是，本发明可以在不同类型的分类器和领域的情况下被用作要在开发和训练机器学习分类器时使用的通用方法。

提供了以下定义来促进对本公开的理解，并且这些定义是标准机器学习术语。

如此处所使用的那样，术语“分类器”是指接受未标记的文档作为输入且返回离散类的软件组件。在分类器被用在未标记的文档上之前，在已标记的文档上训练该分类器。

如此处所使用的那样，术语“训练”是指下述过程：通过该过程，分类器根据训练数据组产生模型和/或模式。训练数据组包括已经被映射（例如，标记）到“已知良好”的类的文档。

如此处所使用的那样，术语“文档”是指被输入到分类器中的信息的组。示例文档包括但不限于电子文件和记录。

如此处所使用的那样，术语“类”是指文档与之相关联的离散类别。分类器的功能是预测文档所属的离散类别（例如，标记、类）。

如此处所使用的那样，术语“标记”是指将文档与正确类组相关联的过程。

如此处所使用的那样，术语“准确率”是指分类器对测试数据组执行的正确或不正确标记的比率。

如此处所使用的那样，短语“测试数据”是指用于估计准确率的数据组。

现在转到图1，公开了在其内可以实施本发明的实施例的适当计算系统10的示例。计算系统10仅是一个示例，并不意图暗示任何关于本发明的使用范围或功能的限制。也不应当将计算系统10解释为具有与所示组件中的任一个或组合有关的任何依赖性或需求。

例如，本发明可操作于多种其它通用或专用计算消费电子装置、网络PC、小型计算机、大型计算机、膝上型计算机、以及包括上述系统或装置中的任一个的分布式计算环境等等。

可以在被计算机执行的诸如程序模块之类的计算机可执行指令的一般上下文中描述本发明。通常，程序模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构、循环代码段和结构等。本发明可以在分布式计算环境中实施，在分布式计算环境中，任务由通过通信网络链接的远程处理装置执行。在分布式计算环境中，程序模块位于包括存储储存装置的本地和远程计算机储存介质二者中。在下文中并且借助附图描述由程序和模块执行的任务。本领域技术人员可以将说明书和附图实施为处理器可执行指令，所述指令可以被编写在任何形式的计算机可读介质上。

在一个实施例中，参考图1，系统10包括服务器装置12，该服务器装置12被配置成包括：诸如中央处理单元（“CPU”）之类的处理器14、随机存取存储器（“RAM”）16、一个或多个诸如显示装置（未示出）和键盘（未示出）之类的输入-输出装置18、以及非易失性存储器20，它们全部经由公共总线22互连并由处理器14控制。如图1示例中所示，在一个实施例中，非易失性存储器20被配置成包括用于产生训练文档组的分类器分析器24和一个或多个机器学习分类器26，所述机器学习分类器26是使用所产生的训练文档组来训练的。在一个实施例中，机器学习分类器是二进制文本分类器。在下文中更详细地讨论分类器模块24和机器学习分类器26的附加细节。

网络28可以包括各种装置，诸如以内联网、外联网或互联网配置连接的路由器、服务器和交换元件。在一个实施例中，网络28使用有线通信来在访问装置（未示出）、服务器装置12和操作数据储存器30之间传输信息。在另一个实施例中，网络28采用无线通信协议来在访问装置、服务器装置12和操作数据储存器30之间传输信息。在另外其他实施例中，网络采用有线和无线技术的组合来在访问装置、服务器装置12和操作数据储存器30之间传输信息。

操作数据储存器30是维护和存储分类器分析器24和机器学习分类器26所利用的信息的储存库。在一个实施例中，操作数据储存器30是关系数据库。在另一个实施例中，操作数据储存器30是诸如轻型目录访问协议（“LDAP”）之类的目录服务器。在又一个实施例中，操作数据储存器30是服务器12的非易失性存储器20的区域。

如图1中所示，在一个实施例中，操作数据储存器30包括类数据储存器（CLS）32，该类数据储存器32存储在将文档分类为一个或多个离散类别时使用的类标记的分类系统（taxonomy）。还提供了未证明文档数据储存器（UDS）33和证明文档数据储存器（CDS）34，所述未证明文档数据储存器33包括具有与每个文档相关联的零（0）个或多个类标记的文档组，并且尚未被专家独立验证，所述证明文档数据储存器34包括具有与每个文档相关联的一（1）个或多个类标记的文档组，并且已经被专家独立验证。

如图1示例中所示，操作数据储存器30还被配置成维护和存储简档数据储存器（PROFILES（简档））35和结果数据储存器（FTDS）36，所述简档数据储存器35包括对用于添加和保持与文档相关联的类标记的规则/方案进行定义的简档，所述结果数据储存器36包括由分类器分析器24通过组合CDS 34中存储的文档与被存储在UDS 33中的选定文档子集而产生的训练数据。结合图2A-B讨论这些数据储存器32-36中每一个的附加细节。

尽管图1中所示的操作数据储存器30连接到网络28，但是本领域技术人员将理解，操作数据储存器30和/或图1中所示的数据储存器32-36中的任一个可以分布在各种服务器上且对服务器12来说可经由网络28访问，直接耦合到服务器12，或者被配置在服务器12的非易失性存储器20的区域中。

此外，应当注意，图1中所示的系统10是本公开的一个实施例。本公开的其它系统实施例可以包括未示出的附加结构，诸如辅助储存器和附加计算装置。此外，本公开的各种其它实施例包括比图1中所示的那些更少的结构。例如，在一个实施例中，本公开以非联网的独立配置在单个计算装置上实施。经由诸如键盘和/或鼠标之类的输入装置将数据输入传递到计算装置。从计算装置将系统的数据输出传递给诸如计算机监视器之类的显示装置。

现在参考图2A-B，公开了一种用于使用由分类器分析器24产生的训练文档组来训练初始受训分类器（ITC）的计算机实现方法。该方法包括执行多个循环代码段，所述循环代码段包括以计算机编程语言编写的循环结构。基于对应循环终止条件中包括的变量在运行时间的值，在运行时间多次执行每一个所述循环代码段。在一个实施例中，使用三个循环代码段和对应的循环终止条件实施所述方法。在另一个实施例中，如下文中所阐述，使用具有对应循环终止条件的四个循环代码段实施所述方法。

例如，在一个实施例中，如图2A的步骤40处所示，分类器分析器24为在CLS数据储存器32中定义的每个类初始化文档候选列表（LST）。文档列表LST被分类器分析器24用来存储要被添加到训练数据的文档候选。在初始化时，LST不包括文档。接下来，在步骤42处，分类器分析器24将多个计数器变量C1、C2、C3和C4初始化为值一（1）。所述多个计数器变量C1、C2、C3和C4中的每一个用于确定要执行循环代码段的次数。一旦计数器变量和列表初始化完成，则在步骤44处，分类器分析器24将被包括在CDS数据储存器34中的文档分成文档训练组（TRN）和文档测试组（TST）。TRN数据组包括已被准确地标记为已知群组类的文档，而TST数据组包括用于估计在TRN数据组上训练的机器学习分类器的准确率的文档。在一个实施例中，分类器分析器24分别基于与TRN文档组和TST文档组相关联的用户定义的百分比，随机地将文档组分成TRN文档组和TST文档组。

接下来，在步骤46处，分类器分析器24将TRN数据组分成多个K个文档组，其中K是整数值。在一个实施例中，被包括在所述K个文档组中的每一个中的文档的数量近似相等。一旦TRN数据组被分成K个文档组，则在步骤48处，分类器分析器24将K个文档组的所有文档分配给总文档组（TD），除了用计数器变量C1引用的以下被称为K（C1）数据组的文档组之一。接下来，在步骤50处，分类器分析器24将K（C1）数据组分配给单个文档组（SD）。

接下来，在步骤52处，使用TD组中的文档，为CLS数据储存器32中的每个类训练机器学习分类器26中的第一分类器。接下来，在步骤54处，分类器分析器24将所有机器学习分类器26应用于所述SD文档组。在一个实施例中，分类器分析器24为所确定的每个类计算并记录F1分数（例如，考虑测试的精确度（p）和召回率（r）二者的测试准确率的度量，如在本领域中已知）。一旦机器学习分类器26受到训练，则在步骤56处，分类器分析器24将来自UDS33的文档分成UDS文档的N个数据组，其中N是整数值。

一旦来自UDS 33的文档被分为N个数据组，则在步骤58处，分类器分析器24将从PROFILES数据储存器35访问的多个标记保持和添加规则/方案应用于所述N个数据组之一。基于计数器变量C2中存储的值来识别该特定N数据组，以下被称为N（C2），并且，被应用于该N数据组的特定标记保持和添加规则/方案基于计数器变量C3的值。每个规则与在被满足的情况下触发所述规则的准则相关联。在一个实施例中，基于严格性的降序（例如，必须被满足的准则）将所述规则应用于该N数据组。

结合图3示出了示例标记保持和添加方案。这些方案通过考虑现有被标记数据为每个未标记文档预测类有多好来添加或保持标记。短语“集群邻域（neighborhood）”是指出现在任何集群中的文档组。如果将未标记文档与属于类“c”的至少K个被标记的文档进行集群，则该未标记文档被认为是类“c”的“高度信任”集群邻域的一部分。对于将集群邻域认为是“高度信任”，其它集群算法专用准则也是可能的。

例如，图3的第1项中所示的方案的准则需要：为了保持已经被分配给未标记文档“d”的类标记“c”，或者为了将类标记“c”添加到未标记文档“d”，文档“d”必须出现在“c”的“高度信任”邻域中并被在标记数据上训练的分类器分配有类标记“c”。图3的第2项中所示的方案的准则需要：为了保持已经被分配给未标记文档“d”的类标记“c”，或者为了将类标记“c”添加到未标记文档“d”，文档“d”必须出现在还包含被标记有“c”的至少一个现有文档的至少一个集群中，并被在标记数据上训练的分类器分配有类标记“c”。

再次参考图2A，在步骤60处，分类器分析器24除去N（C2）数据组中与TD数据组中的任何文档相似的任何文档。在一个实施例中，分类器分析器24应用余弦相似性来确定文档相似性，并从N（C2）数据组除去所计算的余弦值等于或超过预定值的任何文档。然后，分类器分析器24在步骤62处通过将N（C2）数据组中的所有剩余文档与TD数据组合并来形成新的文档组L。在一个实施例中，然后，在步骤64处，分类器分析器24使用集群算法对所述文档组L进行集群。可以使用本领域中已知的各种集群技术来对文档组L进行集群。

接下来，在步骤66处，在与用存储在C4变量中的值引用的CLS数据储存器32中的类相关联的N（C2）数据组的所有剩余文档上训练机器学习分类器26中的第一分类器。然后，在步骤68处，分类器分析器24针对关联的类向N（C2）数据组中的所有文档应用从PROFILES数据储存器35访问的标记保持和添加规则/方案。

一旦已经应用了标记保持和添加规则，则在步骤70处，分类器分析器24从已分配用C4变量引用的类的N（C2）数据组的子集形成Q文档数据储存器。然后，在步骤72处，使用TD数据组和Q文档数据储存器的文档来训练机器学习分类器26中的第二分类器。接下来，在步骤74处，将机器学习分类器26中的第二分类器应用于SD数据组，并且通过分类器分析器24计算用值C4引用的CLS数据储存器32中的类的F1分数。

在步骤76处，分类器分析器24将用值C4引用的类的所计算出的F1分数与该类的当前最佳分数相比较。如果分类器分析器24确定该类的所计算出的F1分数高于该类的先前存储的最佳分数，如步骤78中所示，则分类器分析器24更新该类的最佳分数值，如步骤80中所指示，将来自Q文档数据储存器的文档添加到文档候选列表LST，如步骤82中所指示，并且然后递增C4，如步骤84中所指示。

接下来，在步骤86处，评估第一循环终止条件。分类器分析器24确定计数器变量C4中存储的值是否大于CLS数据储存器32中存储的类的总数。如果计数器变量C4的值不大于类的总数，则在第一循环代码段中重复上述方法的步骤66-86。否则，如步骤87处所示，分类器分析器24递增C2。

接下来，在步骤88处，评估第二循环终止条件。分类器分析器24确定计数器变量C2中存储的值是否大于N个数据组的数量。如果计数器变量C2的值不大于N个数据组的数量，则重复第二循环代码段的步骤60-88。否则，如果C2变量的值超过N个数据组的数量，则在步骤90处，分类器分析器24递增C3。

接下来，在步骤92处，分类器分析器24将变量C3的值与存储在PROFILES数据储存器35中的标记保持和添加规则/方案的总数相比较。如果计数器变量C3的值未超过存储在PROFILES数据储存器35中的标记保持和添加规则/方案的总数，则重复第三循环代码段的步骤58-92。否则，如果计数器变量C3的值超过标记保持和添加规则/方案的总数，则如步骤94处所示，分类器分析器24递增C1，并在步骤96处确定计数器变量C1的值是否超过K个数据组的总数。如果计数器变量C1的值未超过K个数据组的总数，则重复第四循环代码段的步骤48-96。

否则，在步骤98处，对于在CLS数据储存器中定义的每个类，将预定数量的文档添加到TRN数据组。例如，在一个实施例中，来自文档候选列表LST的顶部20个文档被添加到TRN数据储存器。接下来，在步骤100处，使用作为正文档和负文档二者的原始TRN数据组中的所有文档和从LST数据储存器识别为正的文档，再训练所有机器学习分类器。类“c”的正文档和负文档被机器学习分类器用来产生有可能将类“c”分配给下述未标记文档的模型：所述未标记文档与“c”的被标示为正的文档的较多特征和“c”的被标示为负的文档的较少特征匹配。然后，向TST数据储存器应用所有受到再训练的机器学习分类器26，如步骤102中所指示。最后，如步骤104中所指示，分类器分析器24将TRN数据组中的所有文档存储在FTDS104中，以供机器学习分类器26后续使用。

所述系统的各种特征可以以硬件、软件或硬件和软件的组合实现。例如，所述系统的一些特征可以以在可编程计算机上执行的一个或多个计算机程序实现。每个程序可以以高级过程或面向对象的编程语言实现，以与计算机系统或其它机器通信。此外，每个这种计算机程序可以存储在诸如可由通用或专用可编程计算机或处理器读取的只读存储器（ROM）之类的储存介质上，以用于配置和操作所述计算机来执行上述功能。

Claims

1.一种训练初始受训分类器ITC的方法，该ITC是已使用与类标记组相关联的经验证文档组产生的，所述经验证文档组已被分成训练文档组和测试文档组，并且所述类标记组的每个类与类列表相关联，所述训练文档组已进一步被分成整数个经验证文档组INVDS，该方法包括：

自动输入未验证文档组到ITC中，所述未验证文档组被分成整数个未验证文档组UNVDS；

自动识别来自UNVDS的文档子集；

基于所述文档子集和INVDS，自动产生最终训练文档组；

使用扁平集群或层级集群技术来对来自INVDS的至少一个文档子集和来自UNVDS的一个文档子集进行集群；以及

使用所述最终训练文档组训练所述ITC。

2.根据权利要求1所述的方法，还包括：

执行包括以计算机编程语言编写的第一循环结构的第一循环代码段，其中所述第一循环代码段在运行时间至少被执行n次，其中n是第一循环终止条件中的第一变量在运行时间的值；

执行包括以计算机编程语言编写的第二循环结构的第二循环代码段，其中所述第二循环代码段至少被执行p × n次，其中p是第二循环终止条件中的第二变量在运行时间的值；以及

执行包括以计算机编程语言编写的第三循环结构的第三循环代码段，其中所述第三循环代码段被执行p × n × q次，其中q是第三循环终止条件中的第三变量在运行时间的值。

3.根据权利要求2所述的方法，还包括：对于执行第一循环代码的n次中的每一次：

将INVDS的第一部分分配给第一文档组；

将INVDS的第二部分分配给第二文档组，所述第一部分不同于所述第二部分；

使用所述第一文档组中的文档针对与所述类标记组相关联的每个类训练所述ITC；

将多个分类器应用于所述第二文档组中的文档；以及

计算与所述第二文档组中的文档相关联的第一组F1分数。

4.根据权利要求3所述的方法，其中：所述第一文档组和所述第二文档组没有共同的文档。

5.根据权利要求3所述的方法，还包括：对于执行第二循环代码的p次中的每一次：

将简档组中的至少一个简档应用于UNVDS的每个文档，所述至少一个简档定义了要应用于UNVDS的每个文档的规则；

将UNVDS的至少一个文档与被包括在所述第一文档组中的所有文档相比较；以及

基于所述比较，从UNVDS中删除所述至少一个文档。

6.根据权利要求5所述的方法，其中：所述规则定义了下述一项：类标记保持方案、类标记添加方案、或其组合。

7.根据权利要求5所述的方法，包括：按简档严格性的降序将被包括在所述简档组中的多个简档应用于UNVDS的每个文档。

8.根据权利要求5所述的方法，其中：如果来自UNVDS的所述至少一个文档类似于被包括在第一文档组中的任何文档，则从UNVDS删除所述至少一个文档。

9.根据权利要求5所述的方法，其中：比较所述至少一个文档包括计算所述至少一个文档的余弦相似性。

10.根据权利要求5所述的方法，还包括：对于执行第二循环代码的p次中的每一次：

通过将被包括在第一文档组中的文档与未从UNVDS删除的文档进行合并，形成第三文档组；以及

使用集群算法对第三文档组进行集群。

11.根据权利要求3所述的方法，还包括：对于执行第三循环代码的q次中的每一次：

对于在类标记组中定义的每个类，将ITC应用于UNVDS中的所有文档；

形成来自UNVDS的文档子集，所述文档子集中的每个文档具有至少一个与其相关联的类；

使用所述第一文档组和所述文档子集中的文档训练第二分类器；

将第二分类器应用于第二文档组；

计算与所述第二文档组中的文档相关联的第二组F1分数；

将来自第二组F1分数的与类标记相关联的F1分数同来自第一组F1分数的与所述类标记相关联的对应F1分数相比较；

基于所述比较来更新所述类标记的最佳分数；以及

基于所述比较将来自所述文档子集的文档添加到候选文档列表。

12.根据权利要求11所述的方法，其中：产生所述最终训练文档组包括将与所述候选文档列表相关联的至少一个文档添加到所述训练文档组。

13.根据权利要求1所述的方法，还包括：

使用所述最终训练文档组训练多个分类器；以及

将所述多个分类器应用于所述测试文档组。

14.一种训练初始受训分类器ITC的系统，包括：

数据储存器，该数据储存器包括经验证文档组和未验证文档组，所述经验证文档组被分成训练文档组和测试文档组，所述训练文档组被分成整数个经验证文档组INVDS，并且所述未验证文档组被分成整数个未验证文档组UNVDS；

服务器，其包括操作上耦合到所述数据储存器的存储器和处理器，所述存储器存储响应于接收到对服务进行访问的请求而使所述处理器执行以下操作的指令：

响应于将所述未验证文档组输入到初始受训分类器ITC中，自动识别来自UNVDS的文档子集；

基于所述文档子集和INVDS，自动产生最终训练文档组；

使用所述最终训练文档组训练所述ITC。

15.根据权利要求14所述的系统，其中：所述存储器存储响应于接收到请求而使所述处理器执行以下操作的指令：

执行包括第一循环结构的第一循环代码段，其中所述第一循环代码段在运行时间至少被执行n次，其中n是第一循环终止条件中的第一变量在运行时间的值；

执行包括第二循环结构的第二循环代码段，其中所述第二循环代码段至少被执行p ×n次，其中p是第二循环终止条件中的第二变量在运行时间的值；以及

执行包括第三循环结构的第三循环代码段，其中所述第三循环代码段被执行p × n× q次，其中q是第三循环终止条件中的第三变量在运行时间的值。

16.根据权利要求15所述的系统，其中：所述存储器存储对于所述处理器执行第一循环的n次中的每一次使所述处理器执行以下操作的指令：

将INVDS的第一部分分配给第一文档组；

使用所述第一文档组中的文档针对与类标记组相关联的每个类训练所述ITC；

将多个分类器应用于所述第二文档组中的文档；以及

计算与所述第二文档组中的文档相关联的第一组F1分数。

17.根据权利要求16所述的系统，其中：所述第一文档组和所述第二文档组没有共同的文档。

18.根据权利要求16所述的系统，其中：所述存储器存储对于执行第二循环代码的p次中的每一次使所述处理器执行以下操作的指令：

基于所述比较，从UNVDS中删除所述至少一个文档。

19.根据权利要求18所述的系统，其中：所述规则定义了类标记保持方案、类标记添加方案或其组合。

20.根据权利要求18所述的系统，其中：所述存储器存储使所述处理器执行以下操作的指令：按简档严格性的降序将被包括在所述简档组中的多个简档应用于UNVDS的每个文档。

21.根据权利要求18所述的系统，其中：所述存储器存储使所述处理器执行以下操作的指令：如果来自UNVDS的所述至少一个文档类似于被包括在第一文档组中的任何文档，则从UNVDS删除所述至少一个文档。

22.根据权利要求18所述的系统，其中：所述存储器存储使所述处理器执行以下操作的指令：计算要在所述比较期间使用的所述至少一个文档的余弦相似性。

23.根据权利要求18所述的系统，其中：所述存储器存储对于执行第二循环代码的p次中的每一次使所述处理器执行以下操作的指令：

使用集群算法对第三文档组进行集群。

24.根据权利要求16所述的系统，其中：所述存储器存储对于执行第三循环代码的q次中的每一次使所述处理器执行以下操作的指令：

将第二分类器应用于第二文档组；

计算与所述第二文档组中的文档相关联的第二组F1分数；

基于所述比较来更新所述类标记的最佳分数；以及

25.根据权利要求24所述的系统，其中：所述存储器存储响应于接收到请求而使所述处理器执行以下操作的指令：将与所述候选文档列表相关联的至少一个文档添加到所述训练文档组以形成最终训练文档组。

26.根据权利要求14所述的系统，其中：所述存储器存储响应于接收到请求而使所述处理器执行以下操作的指令：

使用所述最终训练文档组训练多个分类器；以及

将所述多个分类器应用于所述测试文档组。