CN110489753A - 改进特征选择的神经结构对应学习跨领域情感分类方法 - Google Patents
改进特征选择的神经结构对应学习跨领域情感分类方法 Download PDFInfo
- Publication number
- CN110489753A CN110489753A CN201910751457.9A CN201910751457A CN110489753A CN 110489753 A CN110489753 A CN 110489753A CN 201910751457 A CN201910751457 A CN 201910751457A CN 110489753 A CN110489753 A CN 110489753A
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- pivot
- source domain
- neuromechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013508 migration Methods 0.000 claims abstract description 22
- 230000005012 migration Effects 0.000 claims abstract description 22
- 238000000546 chi-square test Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000013459 approach Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000013507 mapping Methods 0.000 claims description 29
- 239000010410 layer Substances 0.000 claims description 23
- 238000012552 review Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 239000011229 interlayer Substances 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 2
- 239000012141 concentrate Substances 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 abstract 1
- 230000002996 emotional effect Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本发明涉及改进特征选择的神经结构对应学习跨领域情感分类方法,属自然语言处理领域。首先,选取亚马逊评论数据集中不同的两个领域,作为源域和目标域,对源域、目标域数据进行预处理,获取源域和目标域的文本内容,其次,对文本进行词形还原,消除冗余特征,并对文本进行向量化处理,得到文本初始特征;通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;再利用得到的枢轴特征,通过神经结构对应学习对两个领域的非枢轴特征进行枢轴特征预测得到特征迁移;利用源域文本的初始特征和迁移特征来训练logistics分类器,并用目标域的文本特征和迁移特征来进行测试,进而得到目标领域的分类结果。
Description
技术领域
本发明涉及改进特征选择的神经结构对应学习跨领域情感分类方法,属于自然语言处理技术领域。
背景技术
领域是指一类实体,不同的领域就是不同类别的实体。例如,BOOK和DVD就可以看成不同的域。由于产品评论具有很强的领域性特点。两个领域中的同一个词语所表达的情感信息不一定相同。另外,在一个领域中标记语料训练的情感分类器在另一个领域中分类准确率降低。特征迁移的领域适应工作中,最典型的方法为结构对应学习函数(StructuralCorrespondence Learning,SCL),基于不同的领域,通过枢轴特征建立了源域和目标域之间的相关关系。但传统方法计算枢轴特征时,所用的筛选枢轴特征的方法仅仅利用了特征的互信息值MI,该方法只考虑了枢轴特征与分类标签的关联程度,而未考虑枢轴特征对于文本的重要程度以及特征冗余情况,因此所筛选的枢轴特征不够合理,从而影响特征迁移结果。
本发明的创新性在于,在筛选枢轴特征时,改进特征选择方法,通过词形还原消除冗余特征,得到更为稠密的文本向量表示,再通过卡方检验特征选择算法,选择出有着最大卡方统计量且在两域中频次超过m的特征,作为最终的两域之间的枢轴特征。
发明内容
本发明提供了改进特征选择的神经结构对应学习跨领域情感分类方法,以用于改进特征选择来更好的提取枢轴特征;通过神经结构对应学习模型,利用非枢轴特征和枢轴特征之间的映射关系,得到迁移特征;用于减少跨领域情感分类任务中,不同领域之间的域间差。通过以上方法对跨领域任务进行情感分类任务时可获得较好的结果,提高了情感分类的准确率。
本发明的技术方案是:改进特征选择的神经结构对应学习跨领域情感分类方法,所述分类方法的具体步骤如下:
Step1、选取亚马逊产品评论数据集中不同的两个领域,作为源域和目标域,获取源域Ds、目标域Dt的文本内容;
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用工具包xml.tree下的解析树函数ElmentTree,提取源领域Ds和目标领域Dt的互联网评论<review></review>之间的文本;
Step1.2、将来自源域Ds的有标签样本以及源域Ds、目标域Dt中无标签样本进行去停用词等处理,减少噪声干扰。
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、使用NLTK包中的词性标注器pos_tag来对文本进行词性标注,将对应的词性转换成WordNet词典的名形动副4种词性符号。词性标注后,再使用NLTK库中基于WordNet的词形还原工具WordNLemmatizer对特征进行词形还原,消除文本中的冗余特征;
Step2.2、通过词袋模型将文本转换为文本特征向量,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的非枢轴特征向量作为神经结构对应学习模型的输入,枢轴特征对应的枢轴特征向量作为输出;
Step3.2、固定神经结构对应学习模型隐藏层到输出层的权重矩阵,训练模型得到非枢轴与枢轴之间的映射关系,得到输入层到隐藏层的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
其中,获得隐藏层到输出层的权重矩阵的具体步骤为:通过源域和目标域文本内容训练出word2vec词向量,每个词对应一个500维的向量矩阵;找到枢轴特征对应的词向量,得到枢轴特征的词向量矩阵,作为神经结构对应学习中隐藏层到输出层间的权重矩阵。
Step4、利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
本发明的有益效果是:
1、公知的跨领域情感分类器对枢轴特征的选取并没有针对性,本发明的创新性在于,改进枢轴选择方法,在筛选枢轴特征时,通过词形还原,消除冗余特征,得到更为稠密的文本向量表示,并通过卡方检验得到特征与标签之间的联系,再选择词频在两个域中超过最小词频阈值m的特征,作为源域和目标域之间的枢轴特征;
2、由于跨领域情感分类任务属于不同领域的语料,本发明通过词形还原来去除冗余文本特征,得到更加稠密的文本向量表示,通过卡方检验选取在跨域任务中,有着鲁棒性的特征做为枢轴特征;进而使用神经网络的深度学习模型,将非枢轴特征和枢轴特征建立起连接,更好的减少不同领域间的域间差。
3、本发明对跨领域任务进行情感分类任务时可获得较好的结果,提高了情感分类的准确率。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的改进后得到枢轴特征的流程图;
图3为本发明中的神经结构对应学习模型图;
图4为本发明中的跨领域情感分类流程图;
图5为本发明不同模型下的评估结果示意图。
具体实施方式
实施例1:如图1-5所示,改进特征选择的神经结构对应学习跨领域情感分类方法,所述分类方法的具体步骤如下:
Step1、采用的是亚马逊产品评论数据集。选择不同的两个领域分别作为源域和目标域数据。对数据集源域Ds的少量有标签样本以及源域Ds、目标域Dt中大量无标签样本进行文本预处理操作,去除无用的信息,并减少噪声干扰。使用工具包xml.tree下的解析树函数ElmentTree,提取互联网标签语料<review></review>之间的评论句子;
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、使用NLTK包中的词性标注器pos_tag来对文本进行词性标注,将对应的词性转换成WordNet词典的名形动副4种词性符号。词性标注后,再使用NLTK库中基于WordNet的词形还原工具WordNLemmatizer对特征进行词形还原,消除文本中的冗余特征;
Step2.2、通过词袋模型将文本转换为文本特征向量,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的非枢轴特征向量作为神经结构对应学习模型的输入,枢轴特征对应的枢轴特征向量作为输出;
Step3.2、固定神经结构对应学习模型隐藏层到输出层的权重矩阵,训练模型得到非枢轴与枢轴之间的映射关系,得到输入层到隐藏层的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
Step4、利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
实施例2:如图1-5所示,改进特征选择的神经结构对应学习跨领域情感分类方法,所述分类方法的具体步骤如下:
Step1、采用的是亚马逊产品评论数据集。数据统计表如表1所示,选择不同的两个领域分别作为源域Ds和目标域Dt;由于该数据集为互联网标签数据,利用xml.etree树下的解析树函数Element.Tree,提取互联网标签语料<review></review>之间的评论句子,得到源域和目标域文本内容。将来自源域Ds的少量有标签样本以及源域Ds、目标域Dt中大量无标签样本进行去停用词等处理,减少噪声干扰。
表1亚马逊产品评论统计表
数据集 | positive | negative | unlabled |
Book | 1,000 | 1,000 | 6,000 |
Dvd | 1,000 | 1,000 | 34,741 |
Electrics | 1,000 | 1,000 | 13,153 |
kitchen | 1,000 | 1,000 | 16,785 |
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、对文本进行词形还原前,需要先对文本进行词性标注,本发明使用NLTK包中的词性标注器pos_tag来对文本进行词性标注,词性标注结果如表2,‘I love greenapples’词性标注结果为词和词性一一对应,将对应的词性转换成WordNet词典的名形动副4种词性符号。
表2
[(‘I’,‘PRP’),(‘love’,‘NNS’),(‘green’,‘JJ’),(‘apples’,‘NNS’)] |
词性标注后,再使用NLTK库中基于WordNet词典的词形还原工具WordNLemmatizer对特征进行词形还原,消除文本中的冗余特征。如’was’,’were’,‘am’等特征进行词形还原后为’be’;
Step2.2、通过词袋模型将文本转换为文本特征向量,词袋模型如表3,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;如文本:’this is the first document’在词袋中的特征表示如表4。由此可得到标签数据的特征向量,以及源域Ds、目标域Dt中未标记数据的特征向量;
表3为词袋模型
‘and’,‘doucment’,’first’,’is’‘one’,’second’,’the’,’third’,’this’ |
表4为特征向量
and | document | first | is | one | the | third | this |
0 | 1 | 1 | 1 | 0 | 1 | 0 | 1 |
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的的非枢轴特征向量xnp、枢轴特征对应的枢轴特征向量xp,分别作为神经网络自动编码器模型的输入、输出。为了学习到具有鲁棒性以及紧密的文本特征表示,需要学习从非枢轴特征向量xnp到枢轴特征向量间的非线性映射。采用神经网络结构,xnp作为神经网络的输入,通过编码得到低维度、共享的中间隐层特征表示,其计算公式为:
其中,wh为特征映射矩阵,σ(·)表示sigmoid非线性激活函数。
之后用隐层特征预测枢轴特征向量xp,计算公式为:
Step3.2、如图3所示,将隐藏层与输出层间的权重矩阵wr,固定为枢轴特征的词向量矩阵,通过固定隐藏层与输出层间的权重矩阵wr来得到最优的特征映射矩阵wh;该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
其中,通过源域和目标域文本内容训练出word2vec词向量。词向量的格式如表5所示。每个词对应一个500维的向量矩阵。找到枢轴特征对应的词向量,得到枢轴特征的词向量矩阵,作为神经结构对应学习中隐藏层到输出层间的权重矩阵wr。
表5为词向量矩阵
like | [-0.04929905 0.23486612 0.1967869-0.06404014......0.16866587 0.16544181]<sub>1*500</sub> |
Step4、如图4所示,利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用训练集中的源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将测试集目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
正确率是评价目标域模型中文本标签预测正确的个数与总个数的比值,可以用来衡量模型的好坏;本发明采用准确率作为特征扩展的神经结构对应学习跨领域情感分类模型的测评标准。定义如下:
其中,Nr为测试语料中标签预测正确的个数,Nc为测试语料中标签总数,正确率越高,说明方法越好。
Step6、为了验证卡方检验和词形还原的有效性,基于亚马逊产品评论数据集,亚马逊四个数据集DVD、Book、Kitchen、Electronics(表6中分别简写为D、B、K、E),互为源域和目标域进行的12组实验,本发明提出的模型AE-SCL-IFC在12组实验上,与基于特征提取为互信息的神经结构对应模型AE-SCL-SR,以及基于特征提取为卡方检验的神经结构对应模型AE-SCL-Chi2的实验对比,其评估结果如图5所示。表6为基于亚马逊产品评论数据集的本发明方法和其他方法对比汇总表,评价标准为测试集准确率,从表6,图5中可得出本发明模型分类效果优于其他模型。
No-DA表示的方法是:用源域文本向量和标签训练好logistics分类器,然后用这个分类器去测试目标数据所得的结果,SCL-MI、MSDA为公知方法模型。
表6为各个模型在跨领域情感分类任务上的测试集准确率
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:
所述分类方法的具体步骤如下:
Step1、对互联网评论进行预处理,获取源域Ds、目标域Dt的文本内容;
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
Step4、利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
2.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用工具包xml.tree下的解析树函数ElmentTree,提取源领域Ds和目标领域Dt的互联网评论<review></review>之间的文本;
Step1.2、将来自源域Ds的有标签样本以及源域Ds、目标域Dt中无标签样本进行去停用词等处理,减少噪声干扰。
3.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、对文本进行词形还原,消除文本中的冗余特征;
Step2.2、通过词袋模型将文本转换为文本特征向量,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
4.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的非枢轴特征向量作为神经结构对应学习模型的输入,枢轴特征对应的枢轴特征向量作为输出;
Step3.2、固定神经结构对应学习模型隐藏层到输出层的权重矩阵,训练模型得到非枢轴与枢轴之间的映射关系,得到输入层到隐藏层的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
5.根据权利要求4所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:获得隐藏层到输出层的权重矩阵的具体步骤为:通过源域和目标域文本内容训练出word2vec词向量,每个词对应一个500维的向量矩阵;找到枢轴特征对应的词向量,得到枢轴特征的词向量矩阵,作为神经结构对应学习中隐藏层到输出层间的权重矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751457.9A CN110489753B (zh) | 2019-08-15 | 2019-08-15 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751457.9A CN110489753B (zh) | 2019-08-15 | 2019-08-15 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489753A true CN110489753A (zh) | 2019-11-22 |
CN110489753B CN110489753B (zh) | 2022-06-14 |
Family
ID=68551131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910751457.9A Active CN110489753B (zh) | 2019-08-15 | 2019-08-15 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489753B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428039A (zh) * | 2020-03-31 | 2020-07-17 | 中国科学技术大学 | 一种方面级别的跨领域情感分类方法及系统 |
CN112925885A (zh) * | 2021-03-11 | 2021-06-08 | 杭州费尔斯通科技有限公司 | 一种基于领域适应的少样本文本分类方法 |
CN112925886A (zh) * | 2021-03-11 | 2021-06-08 | 杭州费尔斯通科技有限公司 | 一种基于领域适应的少样本实体识别方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605644A (zh) * | 2013-12-02 | 2014-02-26 | 哈尔滨工业大学 | 一种基于相似度匹配的枢轴语言翻译方法和装置 |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
CN107273927A (zh) * | 2017-06-13 | 2017-10-20 | 西北工业大学 | 基于类间匹配的无监督领域适应分类方法 |
CN107392237A (zh) * | 2017-07-10 | 2017-11-24 | 天津师范大学 | 一种基于迁移视觉信息的交叉域地基云图分类方法 |
CN108009633A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种面向跨领域智能分析的多网络对抗学习方法和系统 |
US20190005027A1 (en) * | 2017-06-29 | 2019-01-03 | Robert Bosch Gmbh | System and Method For Domain-Independent Aspect Level Sentiment Detection |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109783644A (zh) * | 2019-01-18 | 2019-05-21 | 福州大学 | 一种基于文本表示学习的跨领域情感分类系统及方法 |
CN109885833A (zh) * | 2019-02-18 | 2019-06-14 | 山东科技大学 | 一种基于多域数据集联合嵌入的性感极性检测方法 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
-
2019
- 2019-08-15 CN CN201910751457.9A patent/CN110489753B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605644A (zh) * | 2013-12-02 | 2014-02-26 | 哈尔滨工业大学 | 一种基于相似度匹配的枢轴语言翻译方法和装置 |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
CN107273927A (zh) * | 2017-06-13 | 2017-10-20 | 西北工业大学 | 基于类间匹配的无监督领域适应分类方法 |
US20190005027A1 (en) * | 2017-06-29 | 2019-01-03 | Robert Bosch Gmbh | System and Method For Domain-Independent Aspect Level Sentiment Detection |
CN107392237A (zh) * | 2017-07-10 | 2017-11-24 | 天津师范大学 | 一种基于迁移视觉信息的交叉域地基云图分类方法 |
CN108009633A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种面向跨领域智能分析的多网络对抗学习方法和系统 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109783644A (zh) * | 2019-01-18 | 2019-05-21 | 福州大学 | 一种基于文本表示学习的跨领域情感分类系统及方法 |
CN109885833A (zh) * | 2019-02-18 | 2019-06-14 | 山东科技大学 | 一种基于多域数据集联合嵌入的性感极性检测方法 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
Non-Patent Citations (8)
Title |
---|
DANUSHKA BOLLEGALA等: "Cross-Domain Sentiment Classification Using Sentiment Sensitive Embeddings", 《IEEE》 * |
JUNGE LIANG等: "Mutual Information-Based Word Embedding for Unsupervised Cross-Domain Sentiment Classification", 《2019 IEEE 4TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND BIG DATA ANALYTICS》 * |
SINNO JIALIN PAN等: "Cross-domain sentiment classification via spectral feature alignment", 《WWW "10: PROCEEDINGS OF THE 19TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
余力涛等: "基于迁移学习的客户流失预测模型", 《第六届(2011)中国管理学年会——商务智能分会场》 * |
孟佳娜等: "特征和实例迁移相融合的跨领域倾向性分析", 《中文信息学报》 * |
梁俊葛等: "改进枢轴特征选择的跨领域情感分类", 《计算机工程与设计》 * |
汪 鹏等: "基于结构对应学习的跨语言情感分类研究", 《南京大学学报(自然科学)》 * |
洛洛洛洛洛洛洛: "论文阅读笔记:Cross-Domain Sentiment Classification with Target Domain Specific Information", 《HTTPS://BLOG.CSDN.NET/WEIXIN_44740082/ARTICLE/DETAILS/88780742》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428039A (zh) * | 2020-03-31 | 2020-07-17 | 中国科学技术大学 | 一种方面级别的跨领域情感分类方法及系统 |
CN111428039B (zh) * | 2020-03-31 | 2023-06-20 | 中国科学技术大学 | 一种方面级别的跨领域情感分类方法及系统 |
CN112925885A (zh) * | 2021-03-11 | 2021-06-08 | 杭州费尔斯通科技有限公司 | 一种基于领域适应的少样本文本分类方法 |
CN112925886A (zh) * | 2021-03-11 | 2021-06-08 | 杭州费尔斯通科技有限公司 | 一种基于领域适应的少样本实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110489753B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
CN104239485B (zh) | 一种基于统计机器学习的互联网暗链检测方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN110489753A (zh) | 改进特征选择的神经结构对应学习跨领域情感分类方法 | |
CN107463607A (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN105205124B (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN104268134B (zh) | 一种主客观分类器构建方法和系统 | |
CN108108355A (zh) | 基于深度学习的文本情感分析方法和系统 | |
CN108229580A (zh) | 一种基于注意力机制及特征融合的眼底图中糖网特征分级装置 | |
CN102156871A (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN104462409B (zh) | 基于AdaBoost的跨语言情感资源数据识别方法 | |
CN105740404A (zh) | 标签关联方法及装置 | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN104077598B (zh) | 一种基于语音模糊聚类的情感识别方法 | |
CN109033402A (zh) | 安全领域专利文本的分类方法 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN106649662A (zh) | 一种领域词典的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |