CN107092591A - 基于关联规则的多标记中文情感分类方法 - Google Patents

基于关联规则的多标记中文情感分类方法 Download PDF

Info

Publication number
CN107092591A
CN107092591A CN201710200836.XA CN201710200836A CN107092591A CN 107092591 A CN107092591 A CN 107092591A CN 201710200836 A CN201710200836 A CN 201710200836A CN 107092591 A CN107092591 A CN 107092591A
Authority
CN
China
Prior art keywords
msub
mrow
row
correlation rule
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710200836.XA
Other languages
English (en)
Other versions
CN107092591B (zh
Inventor
贾修
贾修一
刘军煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201710200836.XA priority Critical patent/CN107092591B/zh
Publication of CN107092591A publication Critical patent/CN107092591A/zh
Application granted granted Critical
Publication of CN107092591B publication Critical patent/CN107092591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于关联规则的多标记中文情感分类方法,包括以下步骤:步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;步骤2,根据频繁项集推导出情感标记之间的关联规则;步骤3,将多标记数据集使用关联规则进行修改获得新数据;步骤4,对获得的新数据集使用Rank‑SVM算法进行分类学习获得新模型;步骤5,使用新模型对测试数据集进行预测。

Description

基于关联规则的多标记中文情感分类方法
技术领域
本发明涉及一种标记分类技术,特别是一种基于关联规则的多标记中文情感分类方法。
背景技术
在传统的监督学习框架中每个示例仅仅对应于一个类别标记,这类问题被称为单标记学习问题。然而,在许多现实环境中,一个示例可能并不仅仅同时拥有单个标记,而是同时拥有多个类别标记。例如,在医疗诊断中,一个病人可能同时患有糖尿病和癌症;在基因功能分类中,每一个基因都可能与一系列的功能相关,如代谢、转录和蛋白质的合成;在场景分类中,每一个场景都可能属于几个语义类别,如沙滩和城市。以上例子中的每个示例都与一个标记集合相对应,且标记集合大小不确定,这类问题被称为多标记学习问题。多标记学习主要研究当一个示例同时拥有多个类别标记时,如何构建分类器来准确预测未知样本的标记集合。
现阶段多标记学习方法可以分为问题转换和算法适应两种策略:
(1)问题转换。问题转换策略的主要思路是将多标记数据集预处理成传统的单标记数据集,然后对预处理后的数据集使用传统的监督学习算法(如C4.5,朴素贝叶斯等)学习一个单标记分类模型。
(2)算法适应。算法适应策略的主要思路是对常用监督学习算法进行改进并将其用于多标记学习框架下,从而用来解决多标记数据的分类问题。代表算法如Rank-SVM,BP-MLL。
因此,现有的多标记学习算法较少将关联规则应用于多标记分类中,导致多标记学习算法分类效果不好。本专利将关联规则用于多标记学习中,并应用于中文情感分类领域。
发明内容
本发明的目的在于提供一种基于关联规则的多标记中文情感分类方法,包括以下步骤:
步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;
步骤2,根据频繁项集推导出情感标记之间的关联规则;
步骤3,将多标记数据集使用关联规则进行修改获得新数据;
步骤4,对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型;
步骤5,使用新模型对测试数据集进行预测。
本发明将关联规则考虑到多标记学习当中,提出基于关联规则的多标记中文情感分类方法,在不同的数据集上实验,可以得出本发明提出的方法具有较高的分类精度的结论。另外,本发明提出的关联规则算法寻找频繁项集所产生的子矩阵之间的关联性非常低,适合应用于分布式计算中进一步提高关联规则的挖掘性能。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1为本发明的方法流程图。
具体实施方式
结合图1,一种基于关联规则的多标记中文情感分类方法,包括以下步骤:
步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;
步骤2,根据频繁项集推导出情感标记之间的关联规则;
步骤3,将多标记数据集使用关联规则进行修改获得新数据;
步骤4,对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型;
步骤5,使用新模型对测试数据集进行预测。
在步骤1中,利用关联规则算法寻找各种中文情感标记之间的频繁项集的具体过程如下:
步骤S100,设中文情感标记集合[y1,y2,...,yn],数据集中第i个示例对应的情感标记集合li,生成行向量v=[v1,v2,...,vn]用于存储不同的情感标记名称,定义最小支持度minsup,构建布尔矩阵M,其中矩阵中的每项采用如下方式定义:
步骤S101,按列分块布尔矩阵M=(M1,M2,…,Mn),统计M每列元素中零的个数,不妨设含零元素最多的一列为第t列,若该列非0元素总和∑iMit满足∑iMit=m,即矩阵不含零则跳转到步骤S106执行,否则执行步骤S102);
步骤S102,交换矩阵M的第t列与第n列,并同时交换行向量v的第t位和第n位;
步骤S103,对矩阵M进行初等变换,使得第n列先出现0后出现1,即0出现完了再出现1,即第n列的值前几个是0,下面的都是1;
步骤S104,对矩阵M进行分治,设第n列含有1的个数为∑iMin,若满足m>1,对矩阵M和行向量v取前n-1列,按列分割成子矩阵Mn[:,1:n-1]以及行向量vn{1:n-1};若满足条件∑iMin≥m×minsup,对矩阵M选取从m-∑iMin到m行,按行分割成子矩阵Mm×minsup[m-∑iMin:m,:]和行向量vm×minsup{1:n};
步骤S105,对步骤S104中得到的分割子矩阵跳转到步骤S102直到不能进行子矩阵分割为止;
步骤S106,存下此时所有的M和v,其中v是中文情感频繁项集的名称,M的行数m表示的是其频率(此频繁项集在矩阵M中出现的频率)。
在步骤2中根据步骤1得到的频繁项集推导出情感标记之间的关联规则,具体过程如下:
步骤S200,找出v中所有的非空非满子集,即该子集不为空集且元素个数小于v的个数。举例来说,如果v代表的是惊讶,悲伤,生气三种情感,那么v所有满足条件的子集为v1{惊讶},v2{悲伤},v3{生气},v4{惊讶,悲伤},v5{惊讶,生气},v6{悲伤,生气};
步骤S201,将步骤S200得到的每个子集分别作为该关联规则的前项,该子集在全集v下的补集作为后项,构成的关联规则如vi→(v-vi),i为非空非满子集的索引值,若以步骤S200中的6个子集为例,i=1,2,…,6;
步骤S202,将步骤S201得到的每条关联规则计算置信度,置信度表示数据中同时包含vi、v-vi的个数与包含vi的个数之比,计算公式为:
步骤S203,给定参数最小置信度minconf,将步骤S202中每条关联规则计算出的置信度与minconf比较,并将置信度大于minconf的情感标记关联规则留下,并舍去其余的规则。
步骤3中将多标记数据集使用步骤2得到的关联规则进行修改,具体过程为:如果vi的值为1(有该情感),而v-vi的值为0(无该情感),修改方式是将v-vi的值改为1。
步骤5中采用多标记常用的五种评价准则来评价新模型的效果,评价准则包括海明损失,1-错误率,覆盖率,排序损失,平均准确率。

Claims (5)

1.一种基于关联规则的多标记中文情感分类方法,其特征在于,包括以下步骤:
步骤1,利用关联规则算法寻找各种中文情感标记之间的频繁项集;
步骤2,根据频繁项集推导出情感标记之间的关联规则;
步骤3,将多标记数据集使用关联规则进行修改获得新数据;
步骤4,对获得的新数据集使用Rank-SVM算法进行分类学习获得新模型;
步骤5,使用新模型对测试数据集进行预测。
2.根据权利要求1所述的方法,其特征在于,步骤1的具体过程在于:
步骤S100,设中文情感标记集合[y1,y2,...,yn],数据集中第i个示例对应的情感标记集合li,生成行向量v=[v1,v2,...,vn]用于存储不同的情感标记名称,定义最小支持度minsup,构建布尔矩阵M,其中矩阵中的每项采用如下方式定义
<mrow> <msub> <mi>M</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>&amp;NotElement;</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mi>i</mi> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <mn>1</mn> <mo>,</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> <mo>,</mo> <mi>j</mi> <mo>&amp;Element;</mo> <mo>&amp;lsqb;</mo> <mn>1</mn> <mo>,</mo> <mi>m</mi> <mo>&amp;rsqb;</mo> </mrow>
n为M的列数,m为M的行数;
步骤S101,按列分块布尔矩阵M=(M1,M2,…,Mn),统计M每列元素中零的个数,若M的每列元素中均为非0元素则跳转到步骤S106执行,否则执行步骤S102;
步骤S102,交换矩阵M的第t列与第n列,并同时交换行向量v的第t位和第n位,其中第t列为含0元素最多的一列;
步骤S103,对矩阵M进行初等变换,使得第n列先出现0后出现1;
步骤S104,对矩阵M进行分治,设第n列1的个数为∑iMin,若满足m>1,得到分割子矩阵Mn[:,1:n-1]以及行向量Nn{1:n-1};
步骤S104,对矩阵M进行分治,设第n列含有1的个数为∑iMin,若满足m>1,对矩阵M和行向量v取前n-1列,按列分割成子矩阵Mn[:,1:n-1]以及行向量vn{1:n-1};若满足条件∑iMin≥m×minsup,对矩阵M选取从m-∑iMin到m行,按行分割成子矩阵Mm×minsup[m-∑iMin:m,:]和行向量vm×minsup{1:n};
步骤S105,对步骤S104中得到的分割子矩阵跳转到步骤S102直到不能进行子矩阵分割为止;
步骤S106,存下此时所有的M和v,其中v是中文情感频繁项集的名称,M的行数m表示的是频繁项集在矩阵M中出现的频率。
3.根据权利要求2所述的方法,其特征在于,步骤2的具体过程为:
步骤S200,找出v中所有的非空非满子集;
步骤S201,将步骤S200得到的每个子集分别作为该关联规则的前项,该子集在全集v下的补集作为后项,构成的关联规则如vi→(v-vi),i为非空非满子集的索引值;
步骤S202,将步骤S201得到的每条关联规则计算置信度,计算公式为:
<mrow> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mi>i</mi> <mi>d</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&amp;RightArrow;</mo> <mo>(</mo> <mrow> <mi>v</mi> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>{</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&amp;cup;</mo> <mrow> <mo>(</mo> <mi>v</mi> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;SubsetEqual;</mo> <mi>l</mi> <mo>}</mo> <mo>|</mo> <mo>/</mo> <mo>|</mo> <mo>{</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&amp;SubsetEqual;</mo> <mi>l</mi> <mo>}</mo> <mo>|</mo> </mrow>
步骤S203,给定参数最小置信度minconf,将步骤S202中每条关联规则计算出的置信度与minconf比较,并将置信度大于minconf的情感标记关联规则留下,并舍去其余的规则。
4.根据权利要求3所述的方法,其特征在于,步骤3的具体过程为:对于vi的值为1且v-vi的值为0,修改方式是将v-vi的值改为1;其中如果vi有情感则值为1,如果v-vi无情感则值为0。
5.根据权利要求4所述的方法,其特征在于,步骤5中采用五种评价准则评价新模型的效果,所述五种评价准则为海明损失,1-错误率,覆盖率,排序损失,平均准确率。
CN201710200836.XA 2017-03-30 2017-03-30 基于关联规则的多标记中文情感分类方法 Active CN107092591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710200836.XA CN107092591B (zh) 2017-03-30 2017-03-30 基于关联规则的多标记中文情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710200836.XA CN107092591B (zh) 2017-03-30 2017-03-30 基于关联规则的多标记中文情感分类方法

Publications (2)

Publication Number Publication Date
CN107092591A true CN107092591A (zh) 2017-08-25
CN107092591B CN107092591B (zh) 2020-06-30

Family

ID=59646243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710200836.XA Active CN107092591B (zh) 2017-03-30 2017-03-30 基于关联规则的多标记中文情感分类方法

Country Status (1)

Country Link
CN (1) CN107092591B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177384A (zh) * 2019-12-25 2020-05-19 南京理工大学 基于全局和局部标记相关性的多标记中文情感标注方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364498A (zh) * 2011-10-17 2012-02-29 江苏大学 一种基于多标签的图像识别方法
CN104616178A (zh) * 2015-03-06 2015-05-13 浪潮集团有限公司 一种基于大数据多标记分类方法的电子商务商品推荐方法
KR101595961B1 (ko) * 2014-10-22 2016-02-22 충북대학교 산학협력단 대용량 데이터에서 목표 데이터 예측을 위한 연관 분류 기법
CN105825226A (zh) * 2016-03-11 2016-08-03 江苏畅远信息科技有限公司 一种基于关联规则的分布式多标签图像识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364498A (zh) * 2011-10-17 2012-02-29 江苏大学 一种基于多标签的图像识别方法
KR101595961B1 (ko) * 2014-10-22 2016-02-22 충북대학교 산학협력단 대용량 데이터에서 목표 데이터 예측을 위한 연관 분류 기법
CN104616178A (zh) * 2015-03-06 2015-05-13 浪潮集团有限公司 一种基于大数据多标记分类方法的电子商务商品推荐方法
CN105825226A (zh) * 2016-03-11 2016-08-03 江苏畅远信息科技有限公司 一种基于关联规则的分布式多标签图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪杨: "多标记学习及其在物流专家推荐中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177384A (zh) * 2019-12-25 2020-05-19 南京理工大学 基于全局和局部标记相关性的多标记中文情感标注方法
CN111177384B (zh) * 2019-12-25 2023-01-20 南京理工大学 基于全局和局部标记相关性的多标记中文情感标注方法

Also Published As

Publication number Publication date
CN107092591B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
Hsu et al. A practical guide to support vector classification
Mallya et al. Learning models for actions and person-object interactions with transfer to question answering
Martínez-Muñoz et al. Out-of-bag estimation of the optimal sample size in bagging
CN104166706B (zh) 基于代价敏感主动学习的多标签分类器构建方法
CN108897989A (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
Rahman et al. Deep learning based HEp-2 image classification: A comprehensive review
CN106445919A (zh) 一种情感分类方法及装置
CN105393264A (zh) 人机交互学习中的交互区段提取
Mamani Machine Learning techniques and Polygenic Risk Score application to prediction genetic diseases
Lee et al. Protein family classification with neural networks
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Qin et al. Semi-supervised domain adaptive structure learning
CN103902853B (zh) 基于支持向量机的剪接位点识别方法
Chuang et al. Expand, rerank, and retrieve: Query reranking for open-domain question answering
CN107092591A (zh) 基于关联规则的多标记中文情感分类方法
CN112765353B (zh) 一种基于科研文本的生物医学学科分类方法及装置
CN110222737A (zh) 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
CN109242020A (zh) 一种基于fastText和CRF的音乐领域命令理解方法
Abdulhussien et al. Hybrid deep neural network for facial expressions recognition
Kim et al. Mixed-type defect pattern recognition in noisy labeled wafer bin maps
CN114692615B (zh) 一种针对小语种的小样本意图识别方法
Masip et al. Continual learning of diffusion models with generative distillation
Pu et al. TA-BiDet: Task-aligned binary object detector
Barrelet et al. From trashcan to uno: Deriving an underwater image dataset to get a more consistent and balanced version
Kou et al. A stacked graphical model for associating sub-images with sub-captions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant