CN106203504B - 一种基于最优间隔分布脊回归的网络情感分类方法 - Google Patents
一种基于最优间隔分布脊回归的网络情感分类方法 Download PDFInfo
- Publication number
- CN106203504B CN106203504B CN201610538498.6A CN201610538498A CN106203504B CN 106203504 B CN106203504 B CN 106203504B CN 201610538498 A CN201610538498 A CN 201610538498A CN 106203504 B CN106203504 B CN 106203504B
- Authority
- CN
- China
- Prior art keywords
- class
- user
- variance
- sample
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2453—Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Nonlinear Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于最优间隔分布脊回归的网络情感分类方法,通过考虑局部类内关系和全局类间关系,将网络情感分类问题描述成一个凸二次优化目标的形式加以求解。根据网页对象本身的特征,本发明给出了线性和非线性两种解法,用户可以根据实际情况自行选择。此外,用户可以根据需求来设计类内间隔方差和类间间隔方差的比重,从而能够更好地结合网页特征与需求。
Description
技术领域
本发明涉及一种基于最优间隔分布脊回归的网络情感分类方法,属于计算机人工智能数据识别技术领域。
背景技术
互联网用户的上网痕迹一定程度上携带了反映用户对某种特定事物喜怒哀乐的情感信息,这种情感信息称为网络情感信息。网络情感信息以数字化的文本、图片、视频或声音为载体传播或存储于网络之中,有时是具有极大利用价值的,比如可以帮助社交网络进行更为准确地朋友推荐,也可以帮助商家进行更为准确地商品推荐和用户定制。想要对用户的网络情感信息进行分析,通常需要对数量庞大的包含用户情感信息的网页进行分类。显然,单纯通过人力来进行分类工作是非常耗时耗力的,而通过计算机自动对这些网页进行分类工作可以大大提高效率。为了让计算机进行分类,通常需要一个包含网页对象信息的网页对象库,通过特征提取算法将这个对象库中的每个网页对象转化成相应的特征向量,再将这些特征向量输入给计算机进行训练,才能获得一个高性能的网络情感分类器。训练对象库中的每个网页对象都需要一个代表其情感类别归属的类别标记,而这些标记通常需要人工标注,由于很多时候通过网页的文字和图片也未必能够准确判断用户的情感,所以这些标注可能含有一定的噪音。像支持向量机(SVM)这样传统的基于大间隔的分类方法,由于只考虑了单个样本的间隔,因而对于标记的噪声比较敏感。本发明提出了一种基于最优间隔分布脊回归的网络情感分类方法,由于该分类方法关注的是整个间隔分布,所以同时考虑了局部的类内关系和全局的类间关系,因而具有较强的抗噪能力。对于类别标记存在一定噪声的数据集,通过本发明训练出的分类器将会具有更高的分类精度。
发明内容
发明目的:包含用户情感信息的网页对象的类别标记可能含有不少噪声,本发明基于最优间隔分布学习思想,提出了一种对噪声不敏感的分类方法。该方法通过同时考虑网页对象的局部的类内关系和全局的类间关系,从而具有了较强的抗噪能力。所以本发明训练的分类器即便在类别标记具有一定噪声的数据集上也能保证有较好的分类精度。
技术方案:一种基于最优间隔分布的脊回归网络情感分类方法,包括如下内容:
首先需要用户准备好一个包含网页情感信息的网页对象库,并且通过人工标注的方法为库中的每个网页对象提供一个类别标记,我们将带有类别标记的网页对象库称之为网页训练对象库。
接着,通过特征提取算法,将网页训练对象库中的网页对象转化成相应的特征表示,即提取网页对象库中对象的特征,将所有网页对象转化成相应的特征向量。
对象的特征提取方法也有很多种,例如对于一个用户的信息,他的年龄可以作为该用户的一个特征,他的性别也可以作为该用户的一个特征。假设特征的个数为d,那么每个网页对象就可以对应到d维欧式空间的一个特征向量,也称之为样本。将训练样本和类别标记一起输入到分类模型的训练算法中,经过训练后就可以得到分类模型。
本发明为了克服对象类别标记的噪声问题,基于最优间隔分布,提出了一种对噪声不敏感的分类算法ODMRR,通过同时考虑局部的类内关系和全局的类间关系,将网络情感分类问题描述成一个凸二次优化目标的形式加以求解。
如果模型采用线性分类器,由于不一定存在一个线性分类面可以以100%的精度划分所有的样本,所以可以通过非线性函数将样本投影到高维的特征空间中,然后在高维的特征空间训练分类模型的方法来求解问题。不过很多情况下,样本的高维映射是无法表示和计算的,唯一可以表示和计算的只有两个样本高维映射的内积。由于很多优化问题在优化过程中只需要用到样本高维映射的内积,而不需要计算出样本的高维映射。于是对于这些优化问题,只要设计出一种函数可以直接计算样本高维映射的内积就可以直接求解了,而这种函数就被称为核函数。通常情况下,核函数由用户指定,常见的核函数包括线性核,RBF核,多项式核以及Sigmoid核等。在高维的特征空间中可以训练出性能更高的分类模型,但是预设参数更多并且计算开销也更高。
本发明给出了线性和非线性两种解法,用户可以根据实际情况自行选择,如果样本本身维度比较高或是用户更加看重训练时间,那么可以采用线性函数实现,如果用户需要性能更高的分类器,那用户也可以采用非线性函数实现。此外,为了方便用户控制网页对象的类内间隔方差和类间间隔方差的比重,本发明还提供了2系数ODMRR算法和3系数ODMRR算法;若用户选择不控制比重,则本发明将采用2系数ODMRR算法求解;若用户选择控制比重,本发明将采用3系数ODMRR算法求解。
最后在预测阶段,用户将待测对象输入给分类模型,分类模型就会给用户返回该对象的预测标记。
有益效果:与现有的技术相比,本发明通过同时考虑数据局部的类内关系和全局的类间关系,克服了网络情感分类问题中网页对象类别标记的噪声问题,同时保持了脊回归具有的闭式解,易核化的优点,最终取得了很好的分类效果。
附图说明
图1是本发明的原理图;
图2是本发明的流程图;
图3是本发明中线性2系数ODMRR算法的流程图;
图4是本发明中线性3系数ODMRR算法的流程图;
图5是本发明中非线性2系数ODMRR算法的流程图;
图6是本发明中非线性3系数ODMRR算法的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于最优间隔分布的脊回归网络情感分类方法:首先用户准备好一个包含网络情感信息的网页对象库,并且通过人工标注的方法为网页对象库中的每个网页对象提供一个类别标记,我们将带有类别标记的对象库称之为网页训练对象库。接着,通过特征提取算法,将训练网页对象库中的对象转化成相应的特征表示,即提取网页对象库中对象的特征,将所有网页对象转化成相应的特征向量。然后将训练网页对象的特征表示和类别标记一起输入到分类模型的训练算法中,经过训练后就可以得到分类模型。最后在预测阶段,用户将待测的网页对象输入给分类模型,分类模型就会给用户返回该对象的预测标记。
如图2所示,基于最优间隔分布的脊回归网络情感分类方法流程为:
步骤100,建立一个包含m个网页情感信息的网页对象库作为训练数据集,通过人工标注的方式为对象库中的所有网页对象赋予一个类别标记,使用yi代表第i个对象的类别标记。对于二类情感问题,比如说积极情感是第一类,消极情感是第二类。如果第i个网页对象中用户显示的是积极情感,则yi=1,该网页对象属于第一类,如果网页对象中用户显示的是消极情感,则yi=0,该网页对象属于第二类。为了方便表示,将所有网页对象的类别标记拼成一个列向量y,记为y=[y1,...,ym]T;
步骤101,通过特征提取算法,提取网页对象库中对象的特征,将所有网页对象转化成相应的d维特征向量,使用xi表示其中经过特征提取后的第i个网页对象的特征向量,也可以称呼为样本xi。为了方便表示,将所有网页对象的特征向量拼成一个特征矩阵X,记为X=[x1,...,xi,...,xm];
步骤102,询问用户是否需要使用线性函数,若用户选择“是”则转到步骤103。若用户选择“否”则转到步骤104,网页对象采用非线性函数表示,设非线性函数定义为φ,则φ(xi)表示样本xi的高维映射。通过用户指定的核函数k计算核矩阵K,其第(i,j)个元素为k(xi,xj)=φ(xi)Tφ(xj),k(xi,xj)的数值表示样本xi和样本xj高维映射的内积;
步骤103询问用户是否需要控制网页对象类内间隔方差和类间间隔方差的比重,若用户选择“否”则转到步骤105,若用户选择“是”则转到步骤106;
步骤104询问用户是否需要控制网页对象类内间隔方差和类间间隔方差的比重,若用户选择“否”则转到步骤107,若用户选择“是”则转到步骤108;
步骤105,使用线性2系数ODMRR算法训练分类器,其具体步骤如图3所示;
步骤1051,由用户给定模型风险和间隔方差的比重系数λ1和λ2(λ1≥0,λ2≥0)以及相似性矩阵S。S的第(i,j)位置元素为sij,代表样本xi和样本xj的相似性,常用的相似性矩阵有高斯距离矩阵等;
步骤1052,求解线性2系数ODMRR的优化目标,其表达式为
其中,w代表分类面,b代表截距;
步骤1053,输出w'=[wT,b]T;
步骤106,使用线性3系数ODMRR算法训练分类器,其具体步骤如图4所示;
步骤1061,由用户给定模型风险、类内间隔方差和类间间隔方差的比重系数λ1、λ3和λ4(λ1≥0,λ3≥0,λ4≥0)以及相似性矩阵S;
步骤1062,求解线性3系数ODMRR的优化目标,其表达式为
C1和C2代表类别标记,分别为第一类情感和第二类情感样本的下标集合;
步骤1063,输出w'=[wT,b]T;
步骤107,使用非线性2系数ODMRR算法训练分类器,其具体步骤如图5所示;
步骤1071,由用户给定模型风险和间隔方差的比重系数λ1和λ2(λ1≥0,λ2≥0)以及相似性矩阵S以及核函数k;
步骤1072,求解非线性2系数ODMRR的优化目标,其表达式为
其中,y是样本标记向量。K'代表增广的核矩阵,K'=[K;1],即K'在K的最后一列拼上一个全1。α'代表增广的拉格朗日乘子,其1~m维为拉格朗日乘子α,第m+1维为截距b。I是单位阵,diag函数的作用是提取矩阵的对角元素组成新的矩阵,表示Hadamard乘积,D是对角矩阵,其第i个对角元为S矩阵第i行之和,B矩阵的定义为
步骤1073,输出α';
步骤108,使用非线性3系数ODMRR算法训练分类器,其具体步骤如图6所示;
步骤1081,由用户给定模型风险、类内间隔方差和类间间隔方差的比重系数λ1、λ3和λ4(λ1≥0,λ3≥0,λ4≥0)以及相似性矩阵S以及核函数k;
步骤1082,求解非线性3系数ODMRR的优化目标,其表达式为
其中,P的表达式为
y1和y2分别代表第一类情感和第二类情感样本的类别标记向量,S11是类别标记为积极的样本之间的相似性矩阵,S22是类别标记为消极的样本之间的相似性矩阵。Dij的定义为
其中,则Ci代表第i类样本的下标。Q的表达式为
步骤1083,输出α';
步骤109,获取待测对象的特征向量,将该特征向量输入分类器中以获取其预测标记。如果用户在步骤102选择使用线性函数,训练算法将会返回增广的分界面的w'=[wT,b]T。对于待测样本xp,其预测分类标记为:sgn(wTxp+b)。
如果用户选择使用非线性函数,训练算法将会返回增广的拉格朗日乘子α'=[αT,b]T。对于待测样本xp,其预测分类标记为:sgn(αTXTxp+b)。
Claims (1)
1.一种基于最优间隔分布脊回归的网络情感分类方法,其特征在于,包括下列步骤:
步骤100,建立一个包含m个网页情感信息的网页对象库作为训练数据集,将对象库中的所有网页对象赋予一个类别标记,使用yi代表第i个对象的类别标记;对于二类情感问题,积极情感是第一类,消极情感是第二类;如果第i个网页对象中用户显示的是积极情感,则yi=1,该网页对象属于第一类,如果网页对象中用户显示的是消极情感,则yi=0,该网页对象属于第二类;将所有网页对象的类别标记拼成一个列向量y,记为y=[y1,...,ym]T,y是样本标记向量;
步骤101,通过特征提取算法,提取网页对象库中对象的特征,将所有网页对象转化成相应的特征向量;
步骤102,询问用户是否需要使用线性函数,若用户选择“是”则转到步骤103,若用户选择“否”,计算核矩阵K并转到步骤104;
步骤103,询问用户是否需要控制网页对象类内间隔方差和类间间隔方差的比重,若用户选择“否”则转到步骤105,若用户选择“是”则转到步骤106;
步骤104,询问用户是否需要控制网页对象类内间隔方差和类间间隔方差的比重,若用户选择“否”则转到步骤107,若用户选择“是”则转到步骤108;
步骤105,包括以下过程:
步骤1051,由用户给定模型风险和间隔方差的比重系数λ1和λ2,相似性矩阵S;S的第(i,j)位置元素为sij,代表样本xi和样本xj的相似性,xi表示经过特征提取后的第i个网页对象的特征向量,xj表示经过特征提取后的第j个网页对象的特征向量;
步骤1052,求解优化目标,其表达式为
其中,w代表分类面,b代表截距;
步骤1053,输出w'=[wT,b]T;
步骤106,包括以下过程:
步骤1061,由用户给定模型风险、类内间隔方差和类间间隔方差的比重系数λ1、λ3和λ4,相似性矩阵S;
步骤1062,求解优化目标,其表达式为
C1和C2代表类别标记,分别为第一类情感和第二类情感样本的下标集合;
步骤1063,输出w'=[wT,b]T;
步骤107,包括以下过程:
步骤1071,由用户给定模型风险和间隔方差的比重系数λ1和λ2,相似性矩阵S以及核函数k;
步骤1072,求解优化目标,其表达式为
其中,y是样本标记向量,K'代表增广的核矩阵,K'=[K;1],即K'在K的最后一列拼上一个全1,α'代表增广的拉格朗日乘子,其1~m维为拉格朗日乘子α,第m+1维为截距b,I是单位阵,diag函数的作用是提取矩阵的对角元素组成新的矩阵,表示Hadamard乘积,D是对角矩阵,其第i个对角元为S矩阵第i行之和,B矩阵的定义为
步骤1073,输出α';
步骤108,包括以下过程:
步骤1081,由用户给定模型风险、类内间隔方差和类间间隔方差的比重系数λ1、λ3和λ4,相似性矩阵S以及核函数k;
步骤1082,求解优化目标,其表达式为
其中,P的表达式为
y1和y2分别代表第一类情感和第二类情感样本的类别标记向量,S11是类别标记为积极的样本之间的相似性矩阵,S22是类别标记为消极的样本之间的相似性矩阵;Dij的定义为
其中,则Ci代表第i类样本的下标,Q的表达式为
步骤1083,输出α';
步骤109,获取待测网页对象的特征向量,将该特征向量输入分类器中以获取其预测标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610538498.6A CN106203504B (zh) | 2016-07-08 | 2016-07-08 | 一种基于最优间隔分布脊回归的网络情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610538498.6A CN106203504B (zh) | 2016-07-08 | 2016-07-08 | 一种基于最优间隔分布脊回归的网络情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106203504A CN106203504A (zh) | 2016-12-07 |
CN106203504B true CN106203504B (zh) | 2019-08-06 |
Family
ID=57474158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610538498.6A Active CN106203504B (zh) | 2016-07-08 | 2016-07-08 | 一种基于最优间隔分布脊回归的网络情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106203504B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680715B (zh) * | 2020-05-08 | 2021-03-26 | 湖南大学 | 考虑类别不平衡的回转窑烧结状态识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7949173B2 (en) * | 2006-10-06 | 2011-05-24 | Siemens Corporation | Method and system for regression-based object detection in medical images |
CN103116762A (zh) * | 2013-03-20 | 2013-05-22 | 南京大学 | 一种基于自调制字典学习的图像分类方法 |
CN104102705A (zh) * | 2014-07-09 | 2014-10-15 | 南京大学 | 一种基于大间隔分布学习的数字媒体对象分类方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
-
2016
- 2016-07-08 CN CN201610538498.6A patent/CN106203504B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7949173B2 (en) * | 2006-10-06 | 2011-05-24 | Siemens Corporation | Method and system for regression-based object detection in medical images |
CN103116762A (zh) * | 2013-03-20 | 2013-05-22 | 南京大学 | 一种基于自调制字典学习的图像分类方法 |
CN104102705A (zh) * | 2014-07-09 | 2014-10-15 | 南京大学 | 一种基于大间隔分布学习的数字媒体对象分类方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
Non-Patent Citations (2)
Title |
---|
Boosting Through Optimization of Margin Distributions;Chunhua Shen,et al.;《IEEE TRANSACTIONS ON NEURAL NETWORKS》;20100430;第21卷(第4期);第659-666页 |
Optimal Margin Distribution Machine;Teng Zhang,et al.;《https://arxiv.org/abs/1604.03348》;20160412;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN106203504A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Soni | Application and analysis of transfer learning-survey | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
McCormack et al. | Understanding aesthetic evaluation using deep learning | |
Li | [Retracted] Intelligent Environmental Art Design Combining Big Data and Artificial Intelligence | |
Mutar et al. | Smoke detection based on image processing by using grey and transparency features | |
Dong et al. | [Retracted] An Empirical Study on Application of Machine Learning and Neural Network in English Learning | |
CN115795056A (zh) | 非结构化信息构建知识图谱的方法、服务器及存储介质 | |
CN115309864A (zh) | 评论文本的情感智能分类方法、装置、电子设备及介质 | |
CN110781300B (zh) | 基于百度百科知识图谱的旅游资源文化特色评分算法 | |
Mrsic et al. | Interactive skill based labor market mechanics and dynamics analysis system using machine learning and big data | |
Dubin et al. | Human-computer system design of entrepreneurship education based on artificial intelligence and image feature retrieval | |
Meyer et al. | EXPLORING CUSTOMERS’ACCEPTANCE OF AND RESISTANCE TO SERVICE ROBOTS IN STATIONARY RETAIL–A MIXED METHOD APPROACH | |
El-Hajj et al. | Explainability and transparency in the realm of digital humanities: toward a historian XAI | |
Li | [Retracted] Analysis of Professional Psychological Adaptability of Students Majoring in Hotel Management and Digital Operation for Higher Vocational Education under Deep Learning | |
Cucurull et al. | Deep inference of personality traits by integrating image and word use in social networks | |
Ye et al. | Dep-vit: Uncertainty suppression model based on facial expression recognition in depression patients | |
CN106203504B (zh) | 一种基于最优间隔分布脊回归的网络情感分类方法 | |
Khan et al. | [Retracted] Predicting Mental Health of Best Human Capital for Sustainable Organization through Psychological and Personality Health Issues: Shift from Traditional to Novel Machine Learning‐Supervised Technique Approach | |
Gao et al. | Analysis of influencing factors on excellent teachers' professional growth based on DB-Kmeans method | |
KR102210772B1 (ko) | 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법 | |
Gruffydd Jones | Definitions and categories: epistemologies of race and critique | |
Cao et al. | Fuzzy emotional semantic analysis and automated annotation of scene images | |
Filipiak et al. | Quantitative analysis of art market using ontologies, named entity recognition and machine learning: A case study | |
Patil et al. | Design precedents to design innovation: Category-based reasoning in problem-solving | |
Hu et al. | Keyword-driven depressive tendency model for social media posts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210008 Hankou Road, Drum Tower District, Nanjing, Jiangsu Province, No. 22 Applicant after: Nanjing University Address before: 210046 Xianlin Avenue 163, Qixia District, Nanjing City, Jiangsu Province Applicant before: Nanjing University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |