CN107092591A

CN107092591A - 基于关联规则的多标记中文情感分类方法

Info

Publication number: CN107092591A
Application number: CN201710200836.XA
Authority: CN
Inventors: 贾修; 贾修一; 刘军煜
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2017-08-25
Anticipated expiration: 2037-03-30
Also published as: CN107092591B

Abstract

本发明提供一种基于关联规则的多标记中文情感分类方法，包括以下步骤：步骤1，利用关联规则算法寻找各种中文情感标记之间的频繁项集；步骤2，根据频繁项集推导出情感标记之间的关联规则；步骤3，将多标记数据集使用关联规则进行修改获得新数据；步骤4，对获得的新数据集使用Rank‑SVM算法进行分类学习获得新模型；步骤5，使用新模型对测试数据集进行预测。

Description

基于关联规则的多标记中文情感分类方法

技术领域

本发明涉及一种标记分类技术，特别是一种基于关联规则的多标记中文情感分类方法。

背景技术

在传统的监督学习框架中每个示例仅仅对应于一个类别标记，这类问题被称为单标记学习问题。然而，在许多现实环境中，一个示例可能并不仅仅同时拥有单个标记，而是同时拥有多个类别标记。例如，在医疗诊断中，一个病人可能同时患有糖尿病和癌症；在基因功能分类中，每一个基因都可能与一系列的功能相关，如代谢、转录和蛋白质的合成；在场景分类中，每一个场景都可能属于几个语义类别，如沙滩和城市。以上例子中的每个示例都与一个标记集合相对应，且标记集合大小不确定，这类问题被称为多标记学习问题。多标记学习主要研究当一个示例同时拥有多个类别标记时，如何构建分类器来准确预测未知样本的标记集合。

现阶段多标记学习方法可以分为问题转换和算法适应两种策略：

(1)问题转换。问题转换策略的主要思路是将多标记数据集预处理成传统的单标记数据集，然后对预处理后的数据集使用传统的监督学习算法(如C4.5，朴素贝叶斯等)学习一个单标记分类模型。

(2)算法适应。算法适应策略的主要思路是对常用监督学习算法进行改进并将其用于多标记学习框架下，从而用来解决多标记数据的分类问题。代表算法如Rank-SVM，BP-MLL。

因此，现有的多标记学习算法较少将关联规则应用于多标记分类中，导致多标记学习算法分类效果不好。本专利将关联规则用于多标记学习中，并应用于中文情感分类领域。

发明内容

本发明的目的在于提供一种基于关联规则的多标记中文情感分类方法，包括以下步骤：

步骤1，利用关联规则算法寻找各种中文情感标记之间的频繁项集；

步骤2，根据频繁项集推导出情感标记之间的关联规则；

步骤3，将多标记数据集使用关联规则进行修改获得新数据；

步骤4，对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型；

步骤5，使用新模型对测试数据集进行预测。

本发明将关联规则考虑到多标记学习当中，提出基于关联规则的多标记中文情感分类方法，在不同的数据集上实验，可以得出本发明提出的方法具有较高的分类精度的结论。另外，本发明提出的关联规则算法寻找频繁项集所产生的子矩阵之间的关联性非常低，适合应用于分布式计算中进一步提高关联规则的挖掘性能。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1为本发明的方法流程图。

具体实施方式

结合图1，一种基于关联规则的多标记中文情感分类方法，包括以下步骤：

步骤2，根据频繁项集推导出情感标记之间的关联规则；

步骤3，将多标记数据集使用关联规则进行修改获得新数据；

步骤5，使用新模型对测试数据集进行预测。

在步骤1中，利用关联规则算法寻找各种中文情感标记之间的频繁项集的具体过程如下：

步骤S100，设中文情感标记集合[y₁,y₂,...,y_n]，数据集中第i个示例对应的情感标记集合l_i，生成行向量v＝[v₁,v₂,...,v_n]用于存储不同的情感标记名称，定义最小支持度minsup，构建布尔矩阵M,其中矩阵中的每项采用如下方式定义：

步骤S101，按列分块布尔矩阵M＝(M₁,M₂,…,M_n)，统计M每列元素中零的个数，不妨设含零元素最多的一列为第t列，若该列非0元素总和∑_iM_it满足∑_iM_it＝m，即矩阵不含零则跳转到步骤S106执行，否则执行步骤S102)；

步骤S102，交换矩阵M的第t列与第n列，并同时交换行向量v的第t位和第n位；

步骤S103，对矩阵M进行初等变换，使得第n列先出现0后出现1，即0出现完了再出现1，即第n列的值前几个是0，下面的都是1；

步骤S104，对矩阵M进行分治，设第n列含有1的个数为∑_iM_in，若满足m＞1，对矩阵M和行向量v取前n-1列，按列分割成子矩阵M_n[:，1:n-1]以及行向量v_n{1:n-1}；若满足条件∑_iM_in≥m×minsup，对矩阵M选取从m-∑_iM_in到m行，按行分割成子矩阵M_m×minsup[m-∑_iM_in:m，:]和行向量v_m×minsup{1:n}；

步骤S105，对步骤S104中得到的分割子矩阵跳转到步骤S102直到不能进行子矩阵分割为止；

步骤S106，存下此时所有的M和v，其中v是中文情感频繁项集的名称，M的行数m表示的是其频率(此频繁项集在矩阵M中出现的频率)。

在步骤2中根据步骤1得到的频繁项集推导出情感标记之间的关联规则，具体过程如下：

步骤S200，找出v中所有的非空非满子集，即该子集不为空集且元素个数小于v的个数。举例来说，如果v代表的是惊讶，悲伤，生气三种情感，那么v所有满足条件的子集为v₁{惊讶}，v₂{悲伤}，v₃{生气}，v₄{惊讶，悲伤}，v₅{惊讶，生气}，v₆{悲伤，生气}；

步骤S201，将步骤S200得到的每个子集分别作为该关联规则的前项，该子集在全集v下的补集作为后项，构成的关联规则如v_i→(v-v_i)，i为非空非满子集的索引值，若以步骤S200中的6个子集为例，i＝1,2,…,6；

步骤S202，将步骤S201得到的每条关联规则计算置信度，置信度表示数据中同时包含v_i、v-v_i的个数与包含v_i的个数之比，计算公式为：

步骤S203，给定参数最小置信度minconf，将步骤S202中每条关联规则计算出的置信度与minconf比较，并将置信度大于minconf的情感标记关联规则留下，并舍去其余的规则。

步骤3中将多标记数据集使用步骤2得到的关联规则进行修改，具体过程为：如果v_i的值为1(有该情感)，而v-v_i的值为0(无该情感)，修改方式是将v-v_i的值改为1。

步骤5中采用多标记常用的五种评价准则来评价新模型的效果，评价准则包括海明损失，1-错误率，覆盖率，排序损失，平均准确率。

Claims

1.一种基于关联规则的多标记中文情感分类方法，其特征在于，包括以下步骤：

步骤2，根据频繁项集推导出情感标记之间的关联规则；

步骤3，将多标记数据集使用关联规则进行修改获得新数据；

步骤5，使用新模型对测试数据集进行预测。

2.根据权利要求1所述的方法，其特征在于，步骤1的具体过程在于：

步骤S100，设中文情感标记集合[y₁,y₂,...,y_n]，数据集中第i个示例对应的情感标记集合l_i，生成行向量v＝[v₁,v₂,...,v_n]用于存储不同的情感标记名称，定义最小支持度minsup，构建布尔矩阵M，其中矩阵中的每项采用如下方式定义

<mrow> <msub> <mi>M</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>&NotElement;</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mi>i</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>1</mn> <mo>,</mo> <mi>n</mi> <mo>&rsqb;</mo> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>1</mn> <mo>,</mo> <mi>m</mi> <mo>&rsqb;</mo> </mrow>

n为M的列数，m为M的行数；

步骤S101，按列分块布尔矩阵M＝(M₁,M₂,…,M_n)，统计M每列元素中零的个数，若M的每列元素中均为非0元素则跳转到步骤S106执行，否则执行步骤S102；

步骤S102，交换矩阵M的第t列与第n列，并同时交换行向量v的第t位和第n位，其中第t列为含0元素最多的一列；

步骤S103，对矩阵M进行初等变换，使得第n列先出现0后出现1；

步骤S104，对矩阵M进行分治，设第n列1的个数为∑_iM_in，若满足m＞1，得到分割子矩阵M_n[:，1:n-1]以及行向量N_n{1:n-1}；

步骤S104，对矩阵M进行分治，设第n列含有1的个数为∑_iM_in，若满足m＞1，对矩阵M和行向量v取前n-1列，按列分割成子矩阵M_n[:，1:n-1]以及行向量v_n{1:n-1}；若满足条件∑_iM_in≥m×minsup，对矩阵M选取从m-∑_iM_in到m行，按行分割成子矩阵M_m×minsup[m-∑_iM_in:m,:]和行向量v_m×minsup{1:n}；

步骤S106，存下此时所有的M和v，其中v是中文情感频繁项集的名称，M的行数m表示的是频繁项集在矩阵M中出现的频率。

3.根据权利要求2所述的方法，其特征在于，步骤2的具体过程为：

步骤S200，找出v中所有的非空非满子集；

步骤S201，将步骤S200得到的每个子集分别作为该关联规则的前项，该子集在全集v下的补集作为后项，构成的关联规则如v_i→(v-v_i)，i为非空非满子集的索引值；

步骤S202，将步骤S201得到的每条关联规则计算置信度，计算公式为：

<mrow> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mi>i</mi> <mi>d</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&RightArrow;</mo> <mo>(</mo> <mrow> <mi>v</mi> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>{</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&cup;</mo> <mrow> <mo>(</mo> <mi>v</mi> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&SubsetEqual;</mo> <mi>l</mi> <mo>}</mo> <mo>|</mo> <mo>/</mo> <mo>|</mo> <mo>{</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&SubsetEqual;</mo> <mi>l</mi> <mo>}</mo> <mo>|</mo> </mrow>

4.根据权利要求3所述的方法，其特征在于，步骤3的具体过程为：对于v_i的值为1且v-v_i的值为0，修改方式是将v-v_i的值改为1；其中如果v_i有情感则值为1，如果v-v_i无情感则值为0。

5.根据权利要求4所述的方法，其特征在于，步骤5中采用五种评价准则评价新模型的效果，所述五种评价准则为海明损失，1-错误率，覆盖率，排序损失，平均准确率。