CN108710894B

CN108710894B - 一种基于聚类代表点的主动学习标注方法和装置

Info

Publication number: CN108710894B
Application number: CN201810343307.XA
Authority: CN
Inventors: 孙朝旭; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2022-06-28
Anticipated expiration: 2038-04-17
Also published as: CN108710894A

Abstract

本发明公开一种基于聚类代表点的主动学习标注方法和装置。该方法包括：1)对训练数据中的特征属性进行特征提取，得到特征向量；2)根据用户输入匹配相关训练数据；3)根据聚类代表点算法对匹配的相关训练数据的特征向量进行聚类，并提取聚类后形成的各个簇的代表点；4)计算簇间最短距离，并根据该最短距离对聚类后产生的簇建立最小支撑树，提取最小支撑树的代表点作为待标注数据移交给专家进行标注；5)将用户输入与专家的标注结果形成训练数据对，用训练数据对进行机器学习模型的训练；6)重复步骤2)‑5)以进行迭代训练，直到机器学习模型满足性能要求。本发明可有效地在保持模型精度的情况下减少数据标注量、加快模型训练速度。

Description

一种基于聚类代表点的主动学习标注方法和装置

技术领域

本发明属于机器学习领域，涉及一种基于聚类代表点的主动学习标注方法和装置。本发明结合主动学习和聚类代表点方法的优点，对机器学习标注问题进行优化。

背景技术

随着大数据时代的到来，如何使用机器学习方法更好地解决数据挖掘问题成为人工智能领域研究的重点。在一般情况下，机器学习算法的训练效果与准确性验证非常依赖于带有标签的数据样本。尤其是在使用一些搜索排序算法的时候，往往是训练样本规模越大，算法的效果就越好。然而标记数据的代价通常是很大的，一般需要领域内的专家来进行人工标注，需要花费大量的时间成本和极高的经济成本。而往往获取标记样本的代价远高于获取未标记样本的代价，在某些领域，例如生物医学领域、信息检测等这种代价显得更为昂贵。而且，如果训练样本的规模过于庞大，训练的时间花费也会比较多。

在机器学习领域中，根据对学习样本的处理方法不同，可以将机器学习分为被动学习和主动学习。传统的通过不断积累训练集的机器学习方式被称为被动学习，它属于一种静态的随机采样。被动学习忽略了模型本身也有跟环境交流获取数据的能力，通常需要大量的标记数据进行训练，而主动学习提出了一种新的思路。主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精确度。主动学习正是利用了模型的这种能力，通过模拟人的学习过程，选择合适的样本加入训练集。不同于被动学习被动的接受知识，主动学习能够选择性地获取知识，并不断更新模型的表达。

主动学习的关键假设是如果模型能够从它学到的知识选择数据，那么它就可以利用少量的训练集获得更好的模型。目前，主动学习己经被大量应用到了信息检索、图像识别、语音识别、自然语言处理、文本分类等各种领域当中。相关研究表明，主动学习能够有效地提高机器学习算法性能。

发明内容

针对上述问题，本发明的主要目的在于提出一种基于聚类代表点的主动学习标注方法和装置，基于聚类代表点的方法主动选择数据进行标注，在保持模型精准度的同事可以大大减少数据标注量、加快模型训练速度。

本发明结合主动学习和聚类代表点方法的优点，对标注问题进行优化。本发明不仅适用于普遍的机器学习分类问题、还适用于搜索排序等多种问题，同时该方法还具有减少标注量、提高了机器学习算法的训练速度等优点。本发明不仅可以单独作为数据采样方法使用，还可以扩展为多种机器学习算法中的预训练部分，提高机器学习模型质量。

本发明采用的技术方案如下：

一种基于聚类代表点的主动学习标注方法，其步骤为：

1)对训练数据中的特征属性进行特征提取，然后对提取的特征进行归一化处理并转化成向量形式，得到特征向量；

2)根据用户输入匹配相关训练数据；

3)根据聚类代表点算法对匹配的相关训练数据的特征向量进行聚类，并提取聚类后形成的各个簇的代表点；

4)计算簇间最短距离，并根据该最短距离对聚类后产生的簇建立最小支撑树，提取最小支撑树的代表点作为待标注数据移交给专家进行标注；

5)将用户输入与专家的标注结果形成训练数据对，用训练数据对进行机器学习模型的训练；

6)重复步骤2)-5)以进行迭代训练，直到机器学习模型满足性能要求。

进一步的，重复步骤2)-5)建立测试数据集，该测试数据集不对机器学习模型参数进行更新，当机器学习模型在测试数据集表现良好及稳定后即可在实际生活中进行应用。

进一步的，步骤1)所述的特征属性包括离散值与连续值。对特征属性进行归一化处理保证归一化后的数据符合0到1区间，能够在提升模型的收敛速度的同时，提升模型的精度。

进一步的，离散值将按照独热编码(即One-Hot编码)处理。One-Hot编码又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。One-Hot编码的优点主要有：解决了分类器不好处理属性数据的问题；在一定程度上也起到了扩充特征的作用。现有的多个编程语言都提供开源的One-Hot编码实现库，例如Python语言的scikit-learn库、pandas的get_dummies函数等。

进一步的，对特征属性为连续值的特征进行归一化处理，连续属性归一化的方法包括最小-最大标准化(Min-max normalization)、0-1标准化(0-1normalization)等现存方法，参考相关文献即可实现：Shalabi L A,Shaaban Z,Kasasbeh B.Data mining:apreprocessing engine[J].Journal of Computer Science,2006,2(9)。

进一步的，步骤2)中所述匹配根据实际情况有所不同。对于一般分类算法而言，在小数据情况下，优选的，直接采用全部数据作为训练数据；在大数据情况下，优选的，采用采样或分区等方法来选取训练数据。对于推荐、搜索排序等问题，优选的，采用根据用户输入来筛选数据的方案进行选取训练数据。步骤2)所述用户输入是指在搜索排序等问题中用户的查询语句或推荐算法中的用户偏好等。

进一步的，步骤3)所述聚类代表点算法属于层次聚类方法。层次聚类是一种自底向上的策略，首先将每个对象单独作为一个簇，然后依次逐步合并最相似以及次相似的原子簇为越来越大的簇，直到最终所有的对象都在一个簇中，或者某个终结条件被满足。本发明提出了改进的CURE(Clustering Using Representatives)聚类方法，该方法具体步骤为：

1)在开始时，每个点都是一个簇。根据文档数据集的特征建立K-维树(K-Dimensional，KD-Tree)，并利用KD-Tree，根据归一化的向量，快速计算每个点v到其相邻最近点v’的距离d，将距离d存入最小堆H中，并更新最小堆H。

2)从当前最小堆H中提取最小的距离d，合并距离d对应的两个向量(两个点)以建立新的簇，如果这两个点分属于两个簇则合并这两个簇中的所有向量以建立新的簇。

3)计算新的簇的中心点，并提取距离中心点最远的C个点作为代表点，参数C值设定可根据实际问题在10～20中进行选择，并按照下面公式，利用收缩因子α对代表点进行收缩处理，代表点为p，中心点为meanpoint：

p＝(p+α*(meanpoint–p)

4)将新的簇中的所有点从KD-Tree中删除，并将新计算出的代表点p插入KD-Tree。

5)重复以上1)-4)步直到簇的个数等于K或无法继续合并。

6)计算簇之间距离最近的代表点，并将这些代表点存入集合S。

进一步的，步骤(4)根据豪斯多夫距离(Hausdorff distance)计算簇间最短距离D：

其中，S₁、S₂表示相邻的两个簇，

表示两个簇之间最近的两个代表点。

进一步的，步骤4)所述最小支撑树也称作最小生成树，现有的构建最小生成树方法有Prim方法和Krusal方法，本发明采用Prim方法在计算簇间豪斯多夫距离后构建最小支撑树，并提取出组成最小支撑树的代表点点集作为待标注数据。

进一步的，将组成最小支撑树的代表点集提取出来，作为需要标注的数据提交给专家进行标注，专家需要根据原始查询条件以及查询语句对集合S中文档与查询语句的相关性进行排序。这样，专家需要标记的数据不再是所有文档数据库中的数据集，而是改进的CURE聚类方法处理后返回的数据集合。

进一步的，根据步骤5)中所述的过程通过专家标注后的代表点点集对机器学习模型进行多次训练，训练次数以及训练时间跟训练结果的精度相关，训练的终止条件为机器学习模型在测试数据集表现良好及稳定。

进一步的，将测试数据输入步骤5)训练得到的机器学习模型，即可得到测试数据的算法结果，根据测试结果可判断机器学习模型是否可用于实际应用中。

一种基于聚类代表点的主动学习标注装置，其包括：

特征提取模块，负责对训练数据中的特征属性进行特征提取，然后对提取的特征进行归一化处理并转化成向量形式，得到特征向量；

数据匹配模块，负责根据用户输入匹配相关训练数据；

聚类模块，负责根据聚类代表点算法对数据匹配模块匹配的相关训练数据的特征向量进行聚类，并提取聚类后形成的各个簇的代表点；

专家标注模块，负责计算簇间最短距离，并根据该最短距离对聚类后产生的簇建立最小支撑树，提取最小支撑树的代表点作为待标注数据移交给专家进行标注；

迭代训练模块，负责将用户输入与专家的标注结果形成训练数据对，用训练数据对进行机器学习模型的训练，通过迭代训练使机器学习模型满足性能要求。

本发明的有益效果是：

本发明提出的基于聚类代表点的主动学习标注方法不仅能够在保持模型结果精度稳定性的前提下提高模型的训练速度，而且对模型的标注问题进行优化。利用步骤(3)聚类后形成的各个簇的代表点代替原始的数据集，作为待标注数据，在步骤(4)中返回给专家进行标注，能够大大减少数据标注的工作量，对标注问题进行有效的优化。

附图说明

图1.搜索排序算法所需数据格式；

图2.主动学习方法概念图；

图3.采用本发明的主动学习算法训练学习排序算法的流程图；

图4.本发明与其他主动学习方法在二分类数据集上比较结果；

图5.本发明与其他主动学习方法在多分类数据集上比较结果。

具体实施方式

下面将结合实施例和附图，对本发明的技术方案进行清楚、完整地描述。本实施例的主动学习算法以学习排序算法为例进行具体实施描述(学习排序算法是本发明所述的机器学习模型中的一种)。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本实施例基于学习排序方法所需的数据格式。图中数据格式为label qid:id feaid:feavalue feaid:feavalue。其中，label表示样本与查询请求的相关程度，该值根据相关程度到底划分为从1到5的五个等级，qid表示查询序号，id表示一次查询中结果的顺序，feaid表示特征的序号，feavalue表示特征的值。每行表示一个样本，相同的查询请求的样本qid相同，图中范例就是两个对qid为“1”的查询，该数据格式可由搜索引擎日志转换形式导出，具体特征根据文档特征有所不同。

本实施例在已有相关数据的基础上，详细设计了主动学习的数据选择方法，图2是主动学习方法的概念图，详细选择的流程如图3所示。

步骤1：应用服务器首先获得训练数据。训练数据包含文档编号、文档特征、文档内容和多组用户查询语句。然后应用服务器对原始数据文件进行存储，并且重新归一化相关数据向量、将训练数据按照图1的形式重新组织。再相关训练数据向量与对应文档编号存储到数据库中保存。

步骤2：应用服务器对用户查询语句进行实时分词，并剔除停用词。应用服务器根据分词结果从训练数据中查询出相关文档，并根据文档编号调出相关文档数据向量。

步骤3：从整理后数据中获得数据向量集合，并且把向量集合输入聚类代表点算法中。先在数据向量集合中进行聚类，定义聚类数目K。通过聚类代表点算法将会获得筛选出的待标注数据向量。

步骤4：在步骤3获得待标注数据向量后，通过数据向量对应的文档编号从训练数据中调出相关文档内容，将相关文档列表、文档内容以及用户查询语句提交给领域专家进行初步标注，标注形式参考图1形式。

步骤5：通过步骤4获取到的标注好的数据，更新应用服务器中的学习排序算法参数。输入相关训练数据，通过应用服务器中学习排序算法进行迭代学习，并保存当前参数。

步骤6：重复以上2-4步，通过不同的查询语句以及不同排序结果建立训练数据集以及测试数据集，通过训练数据集对学习排序算法进行迭代训练以更新参数，通过测试数据集对学习排序算法效果进行测试。当学习排序算法在测试数据集效果表现良好及稳定后即可将学习排序算法应用在实际用户查询过程中。

本发明基于libact(Yang Y Y,Lee S C,Yuan C,et al.libact:Pool-basedActive Learning in Python[J].2017.暂无中文翻译)所发布的数据集以及相关主动学习方法进行对比试验，所采用的机器学习模型为支撑向量机模型(SVM)。如图4所示，可看出在二分类数据集下本发明的方法相较于不确定性采样方法(Uncertainty sampling)以及随机采样方法(Random)随着训练轮数增多模型误差减少的更快。如图5所示，可以看出在多分类数据集下本发明的方法相较于不确定性采样方法(Uncertainty sampling)、随机采样方法(Random)、委员会法(QUIRE)最大模型变化方法(MMC)、二分版本空间最小化方法(BinaryMinimization)也有显著效果。

本文所述主动学习标注方法还可以应用在一般的机器学习分类算法中。在网上公开的数据集中也都表现出良好的效果。使用者也可以根据实际问题采用其他参数或者距离计算方式以适应不同类型的数据。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于聚类代表点的主动学习标注方法，其步骤包括：

1)应用服务器获得训练数据，对训练数据中的特征属性进行特征提取，对提取的特征进行归一化处理并转化成向量形式，得到特征向量；其中训练数据包含文档编号、文档特征、文档内容和多组用户查询语句；

2)应用服务器根据用户输入匹配相关训练数据，包括：应用服务器对用户查询语句进行实时分词，并剔除停用词；应用服务器根据分词结果从训练数据中查询出相关文档，并根据文档编号调出相关文档数据向量；

6)重复步骤2)-5)以进行迭代训练，直到机器学习模型满足性能要求；

所述聚类代表点算法首先将每个对象单独作为一个簇，然后依次逐步合并最相似以及次相似的原子簇为越来越大的簇，直到最终所有的对象都在一个簇中，或者某个终结条件被满足；

所述聚类代表点算法为改进的CURE聚类方法，包括以下步骤：

1)在开始时，每个点都是一个簇；根据文档数据集的特征建立KD-Tree，并利用KD-Tree，根据归一化的向量，快速计算每个点v到其相邻最近点v’的距离d，将距离d存入最小堆H中，并更新最小堆H；

2)从当前最小堆H中提取最小的距离d，合并距离d对应的两个点以建立新的簇，如果这两个点分属于两个簇则合并这两个簇中的所有向量以建立新的簇；

3)计算新的簇的中心点，并提取距离中心点最远的C个点作为代表点，并按照下面公式，利用收缩因子α对代表点进行收缩处理，代表点为p，中心点为meanpoint：

p＝(p+α*(meanpoint–p)；

4)将新的簇中的所有点从KD-Tree中删除，并将新计算出的代表点p插入KD-Tree；

5)重复以上1)-4)步直到簇的个数等于K或无法继续合并；

2.如权利要求1所述的方法，其特征在于，重复步骤2)-5)建立测试数据集，该测试数据集不对机器学习模型参数进行更新，当机器学习模型在测试数据集表现良好及稳定后即可在实际生活中进行应用。

3.如权利要求1所述的方法，其特征在于，所述的特征属性包括离散值与连续值；对特征属性进行归一化处理保证归一化后的数据符合0到1区间。

4.如权利要求3所述的方法，其特征在于，所述离散值采用独热编码进行归一化处理，所述连续值采用最小-最大标准化方法或0-1标准化方法进行归一化处理。

5.如权利要求1所述的方法，其特征在于，所述匹配根据实际情况有所不同：在小数据情况下，直接采用全部数据作为训练数据；在大数据情况下，采用采样或分区方法来选取训练数据；对于推荐、搜索排序问题，采用根据用户输入来筛选数据的方案进行训练数据的选取。

6.如权利要求1所述的方法，其特征在于，根据豪斯多夫距离计算簇间最短距离，采用Prim方法在计算簇间豪斯多夫距离后构建最小支撑树，并提取出组成最小支撑树的代表点点集作为待标注数据。

7.如权利要求1所述的方法，其特征在于，通过专家标注后的代表点点集对模型进行多次训练，训练次数以及训练时间跟训练结果的精度相关，训练的终止条件为机器学习模型在测试数据集表现良好及稳定。

8.一种采用权利要求1～7中任一权利要求所述方法的基于聚类代表点的主动学习标注装置，其特征在于，包括：

数据匹配模块，根据用户输入匹配相关训练数据；