CN103150454A

CN103150454A - 基于样本推荐标注的动态机器学习建模方法

Info

Publication number: CN103150454A
Application number: CN2013101031337A
Authority: CN
Inventors: 江铭炎; 王伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2013-06-12
Anticipated expiration: 2033-03-27
Also published as: CN103150454B

Abstract

基于样本推荐标注的动态机器学习建模方法，属于机器学习技术领域。首先，根据CURE算法对样本全集进行聚类，对结果中的每个聚类中心样本和代表样本进行推荐标注，然后建立模型。本发明的有益效果是在处理监督学习问题时，对未知类别的数据集进行推荐标注，这样既有效又省时省力；而且运用机器学习针对错误样本反复训练，从而模型对于新数据集的类别判定会更加准确。

Description

基于样本推荐标注的动态机器学习建模方法

技术领域

本发明属于机器学习技术领域，特别是一种基于样本推荐标注的动态机器学习建模方法。

背景技术

随着科学技术的不断发展，学者们逐渐开始研究如何使得智能机器（计算机）代替人完成一些复杂的智力劳动，从而解放人类劳动力。机器学习技术作为人工智能的核心内容之一，从生理学和认知学等角度出发，理解人类的学习过程和理解过程，从而模拟建立学习模型或理解模型。并且从这个过程抽象成各种学习方法和理论。总之，机器学习技术旨在通过让智能机器（计算机）模拟人的学习过程获得类似的学习或理解能力，自主学习理解新的知识或模式，并重新组织知识结构和不断完善自身性能。

根据学习过程是否需要先验知识，机器学习可以分为监督学习和无监督学习。监督学习指的是通过模拟标注样本集的数据规律来建立一个较为符合的数学函数或公式，并以此函数或者公式作为判断依据。其中，有训练集的分类问题就是典型的监督学习。无监督学习指的是通过模拟数据集的内部结构来建立一个较为符合其数据分布的模式或者规则，并以此模式或者规则作为判断依据。其中，无指导的聚类问题就是典型的无监督学习。

传统监督学习问题的过程：首先，随机抽取一批样本进行人工标注，即组成了已知标注数据集；然后，对已知标注数据集进行拆分，分为训练集和测试集两部分。接着，运用训练集对学习模型进行构建，运用测试集进行模型的评测；最后，把达到评测要求的模型作为工作模型。

然而对于传统机器学习模型，参考相关文章如“基于用户行为的长查询用户满意度分析”一文，其中存在诸多缺陷，例如：标注样本的选取随机性较大，可能会对后续训练过程产生一定的影响；传统学习模型是根据一批数据一次性训练得到，必然存在时效性的特点；传统学习模型平等地看待每一个样本，没有对已经判错的样本加以重视，改善结果等。《模式识别与人工智能》2012年3期发表的“基于用户行为的长查询用户满意度分析”一文（作者：朱彤，刘奕群，茹立云，马少平）即属于此列。

发明内容

为克服现有模型的缺陷,本发明提供了一种基于样本推荐标注的动态机器学习建模方法。

本发明的技术方案如下：

一种基于样本推荐标注的动态机器学习建模方法，首先进行数据准备阶段：基于CURE的层次性聚类算法对数据全集进行聚类，根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注，这样标注数据更加有效而且典型；然后，采用某个一定比例拆分训练数据集和测试数据集；其中CURE是一种层次性聚类算法，一个聚类的表示方法是一个中心点和若干个代表点，这样不仅可以更加凸显聚类的形状，还可以有效减小孤立点的影响；

然后进行模型构建阶段：对训练数据集中的每条数据进行初始化权重，每条数据的初始化权重均相等；在模型中针对此训练数据集进行初步训练，生成一个分类模型；接着，对于所属类别判定错误的数据进行加权，更新数据的权重；重复训练过程生成分类模型，确定每个模型的适用数据范围；最后，每个模型相互配合组成一个递进关系的模型集合；

该方法步骤如下：

1）对外界输入数据进行基于CURE的层次聚类过程，生成并保留每个聚类的中心点和代表点；其中，聚类的代表点数目选取8-12个，设聚类中心点到本聚类所有样本点的距离中的最大值定义为R，聚类的终止条件以R作为判定依据；

R的计算方式如下所示：

R＝Max{d(x,x_i),x_i∈X}

其中，x为聚类X的计算中心样本，x_i属于聚类X的一个样本；

而基于R的聚类终止条件如下所示：

\frac{R_{n + 1}}{R_{n}} &GreaterEqual; 90 %

其中，R_n代表的是第n次聚类的R的平均值，R_n+1代表的是第n+1次聚类的R的平均值；

2）对聚类结果中保留的点，进行推荐人工标注过程；

3）对标注样本集合随机抽取其中的2/3作为训练集，剩余1/3作为测试集；

4）初始化训练集的样本权重，即每个样本权重均相等为1；

w₁＝w₂＝…＝w_n＝1

其中，w₁为第一个样本的权重，w₂为第二个样本的权重，w_n为第n个样本的权重。

5）采用机器学习型算法SVM，对训练集进行初次建模；

6）采用测试集对建立的模型进行准确率和召回率的评测，计算公式如下：

P = \frac{N_{t}}{N}

其中，P指的是准确率，N指的是数据集合总共包含数据条数，N_t指的是模型对数据类别判定正确的条数；

C = \frac{N_{s}}{N}

其中，C指的是召回率，N指的是数据集合总共包含数据条数，N_s指的是数据集中被正确召回的数据条数；

若准确率P和召回率C均达到80%，则继续下步，否则返回5）；

7）统计类别判错的样本集合，并且按照下面的公式提升这些样本的权重：

w_{i} = e^{\sqrt{n}}

其中，w_i代表的是第i个样本的权重，n是已经判错的次数；

重复5）过程再次进行建模，并且根据判错样本计算这个模型的数据适用范围，具体公式如下所示：

D＝Min{d(x,y),y∈Y}

其中，x为测试样本，y为判错样本之一，Y为判错样本集合，D为测试样本与判错样本间的最短距离，若D小于预设阈值，则认为符合数据范围；

8）为了防止出现过拟合现象，设定停止条件即设定模型迭代生成次数；若次数没有达到停止条件，则重复7）过程，否则继续进行下面步骤；

9）至此，所有模型建立完成，在迭代建立模型的过程中，越靠后建立的模型，其适用的数据范围就越小，根据数据的适用范围大小，组成具有递进关系的模型集合，即数据范围小的模型，优先级较高；

10）新数据到来时，依次经过模型集合中的每一个模型，若样本数据在某个模型的适用数据范围内，则此模型给出判定结果并立即停止下面的模型，否则继续到下一个模型。

所述的数据全集是指模型的外界输入数据；其中，在实验过程中每条数据被称为一个“样本”。

本发明的有益效果是在处理监督学习问题时，对未知类别的数据集进行推荐标注，这样既有效又省时省力；而且运用机器学习针对错误样本反复训练，从而模型对于新数据集的类别判定会更加准确。

具体实施方式

下面结合实施例对本发明作进一步说明，但不限于此。

实施例：

该方法步骤如下：

R的计算方式如下所示：

R＝Max{d(x,x_i),x_i∈X}

其中，x为聚类X的计算中心样本，x_i属于聚类X的一个样本；

而基于R的聚类终止条件如下所示：

\frac{R_{n + 1}}{R_{n}} &GreaterEqual; 90 %

2）对聚类结果中保留的点，进行推荐人工标注过程；

4）初始化训练集的样本权重，即每个样本权重均相等为1；

w₁＝w₂＝…＝w_n＝1

5）采用机器学习型算法SVM，对训练集进行初次建模；

P = \frac{N_{t}}{N}

C = \frac{N_{s}}{N}

若准确率P和召回率C均达到80%，则继续下步，否则返回5）；

w_{i} = e^{\sqrt{n}}

其中，w_i代表的是第i个样本的权重，n是已经判错的次数；

D＝Min{d(x,y),y∈Y}

Claims

1.一种基于样本推荐标注的动态机器学习建模方法，首先进行数据准备阶段：基于CURE的层次性聚类算法对数据全集进行聚类，根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注，这样标注数据更加有效而且典型；然后，采用某个一定比例拆分训练数据集和测试数据集；其中CURE是一种层次性聚类算法，一个聚类的表示方法是一个中心点和若干个代表点，这样不仅可以更加凸显聚类的形状，还可以有效减小孤立点的影响；

该方法步骤如下：

R的计算方式如下所示：

R＝Max{d(x,x_i),x_i∈X}

其中，x为聚类X的计算中心样本，x_i属于聚类X的一个样本；

而基于R的聚类终止条件如下所示：

\frac{R_{n + 1}}{R_{n}} &GreaterEqual; 90 %

2）对聚类结果中保留的点，进行推荐人工标注过程；

4）初始化训练集的样本权重，即每个样本权重均相等为1；

w₁＝w₂＝…＝w_n＝1

5）采用机器学习型算法SVM，对训练集进行初次建模；

P = \frac{N_{t}}{N}

C = \frac{N_{s}}{N}

若准确率P和召回率C均达到80%，则继续下步，否则返回5）；

w_{i} = e^{\sqrt{n}}

其中，w_i代表的是第i个样本的权重，n是已经判错的次数；

D＝Min{d(x,y),y∈Y}