CN110489753B - 改进特征选择的神经结构对应学习跨领域情感分类方法 - Google Patents
改进特征选择的神经结构对应学习跨领域情感分类方法 Download PDFInfo
- Publication number
- CN110489753B CN110489753B CN201910751457.9A CN201910751457A CN110489753B CN 110489753 B CN110489753 B CN 110489753B CN 201910751457 A CN201910751457 A CN 201910751457A CN 110489753 B CN110489753 B CN 110489753B
- Authority
- CN
- China
- Prior art keywords
- features
- pivot
- text
- feature
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及改进特征选择的神经结构对应学习跨领域情感分类方法,属自然语言处理领域。首先,选取亚马逊评论数据集中不同的两个领域,作为源域和目标域,对源域、目标域数据进行预处理,获取源域和目标域的文本内容,其次,对文本进行词形还原,消除冗余特征,并对文本进行向量化处理,得到文本初始特征;通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;再利用得到的枢轴特征,通过神经结构对应学习对两个领域的非枢轴特征进行枢轴特征预测得到特征迁移;利用源域文本的初始特征和迁移特征来训练logistics分类器,并用目标域的文本特征和迁移特征来进行测试,进而得到目标领域的分类结果。
Description
技术领域
本发明涉及改进特征选择的神经结构对应学习跨领域情感分类方法,属于自然语言处理技术领域。
背景技术
领域是指一类实体,不同的领域就是不同类别的实体。例如,BOOK和DVD就可以看成不同的域。由于产品评论具有很强的领域性特点。两个领域中的同一个词语所表达的情感信息不一定相同。另外,在一个领域中标记语料训练的情感分类器在另一个领域中分类准确率降低。特征迁移的领域适应工作中,最典型的方法为结构对应学习函数(StructuralCorrespondence Learning,SCL),基于不同的领域,通过枢轴特征建立了源域和目标域之间的相关关系。但传统方法计算枢轴特征时,所用的筛选枢轴特征的方法仅仅利用了特征的互信息值MI,该方法只考虑了枢轴特征与分类标签的关联程度,而未考虑枢轴特征对于文本的重要程度以及特征冗余情况,因此所筛选的枢轴特征不够合理,从而影响特征迁移结果。
本发明的创新性在于,在筛选枢轴特征时,改进特征选择方法,通过词形还原消除冗余特征,得到更为稠密的文本向量表示,再通过卡方检验特征选择算法,选择出有着最大卡方统计量且在两域中频次超过m的特征,作为最终的两域之间的枢轴特征。
发明内容
本发明提供了改进特征选择的神经结构对应学习跨领域情感分类方法,以用于改进特征选择来更好的提取枢轴特征;通过神经结构对应学习模型,利用非枢轴特征和枢轴特征之间的映射关系,得到迁移特征;用于减少跨领域情感分类任务中,不同领域之间的域间差。通过以上方法对跨领域任务进行情感分类任务时可获得较好的结果,提高了情感分类的准确率。
本发明的技术方案是:改进特征选择的神经结构对应学习跨领域情感分类方法,所述分类方法的具体步骤如下:
Step1、选取亚马逊产品评论数据集中不同的两个领域,作为源域和目标域,获取源域Ds、目标域Dt的文本内容;
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用工具包xml.tree下的解析树函数ElmentTree,提取源领域Ds和目标领域Dt的互联网评论<review></review>之间的文本;
Step1.2、将来自源域Ds的有标签样本以及源域Ds、目标域Dt中无标签样本进行去停用词等处理,减少噪声干扰。
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、使用NLTK包中的词性标注器pos_tag来对文本进行词性标注,将对应的词性转换成WordNet词典的名形动副4种词性符号。词性标注后,再使用NLTK库中基于WordNet的词形还原工具WordNLemmatizer对特征进行词形还原,消除文本中的冗余特征;
Step2.2、通过词袋模型将文本转换为文本特征向量,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的非枢轴特征向量作为神经结构对应学习模型的输入,枢轴特征对应的枢轴特征向量作为输出;
Step3.2、固定神经结构对应学习模型隐藏层到输出层的权重矩阵,训练模型得到非枢轴与枢轴之间的映射关系,得到输入层到隐藏层的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
其中,获得隐藏层到输出层的权重矩阵的具体步骤为:通过源域和目标域文本内容训练出word2vec词向量,每个词对应一个500维的向量矩阵;找到枢轴特征对应的词向量,得到枢轴特征的词向量矩阵,作为神经结构对应学习中隐藏层到输出层间的权重矩阵。
Step4、利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
本发明的有益效果是:
1、公知的跨领域情感分类器对枢轴特征的选取并没有针对性,本发明的创新性在于,改进枢轴选择方法,在筛选枢轴特征时,通过词形还原,消除冗余特征,得到更为稠密的文本向量表示,并通过卡方检验得到特征与标签之间的联系,再选择词频在两个域中超过最小词频阈值m的特征,作为源域和目标域之间的枢轴特征;
2、由于跨领域情感分类任务属于不同领域的语料,本发明通过词形还原来去除冗余文本特征,得到更加稠密的文本向量表示,通过卡方检验选取在跨域任务中,有着鲁棒性的特征做为枢轴特征;进而使用神经网络的深度学习模型,将非枢轴特征和枢轴特征建立起连接,更好的减少不同领域间的域间差。
3、本发明对跨领域任务进行情感分类任务时可获得较好的结果,提高了情感分类的准确率。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的改进后得到枢轴特征的流程图;
图3为本发明中的神经结构对应学习模型图;
图4为本发明中的跨领域情感分类流程图;
图5为本发明不同模型下的评估结果示意图。
具体实施方式
实施例1:如图1-5所示,改进特征选择的神经结构对应学习跨领域情感分类方法,所述分类方法的具体步骤如下:
Step1、采用的是亚马逊产品评论数据集。选择不同的两个领域分别作为源域和目标域数据。对数据集源域Ds的少量有标签样本以及源域Ds、目标域Dt中大量无标签样本进行文本预处理操作,去除无用的信息,并减少噪声干扰。使用工具包xml.tree下的解析树函数ElmentTree,提取互联网标签语料<review></review>之间的评论句子;
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、使用NLTK包中的词性标注器pos_tag来对文本进行词性标注,将对应的词性转换成WordNet词典的名形动副4种词性符号。词性标注后,再使用NLTK库中基于WordNet的词形还原工具WordNLemmatizer对特征进行词形还原,消除文本中的冗余特征;
Step2.2、通过词袋模型将文本转换为文本特征向量,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的非枢轴特征向量作为神经结构对应学习模型的输入,枢轴特征对应的枢轴特征向量作为输出;
Step3.2、固定神经结构对应学习模型隐藏层到输出层的权重矩阵,训练模型得到非枢轴与枢轴之间的映射关系,得到输入层到隐藏层的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
Step4、利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
实施例2:如图1-5所示,改进特征选择的神经结构对应学习跨领域情感分类方法,所述分类方法的具体步骤如下:
Step1、采用的是亚马逊产品评论数据集。数据统计表如表1所示,选择不同的两个领域分别作为源域Ds和目标域Dt;由于该数据集为互联网标签数据,利用xml.etree树下的解析树函数Element.Tree,提取互联网标签语料<review></review>之间的评论句子,得到源域和目标域文本内容。将来自源域Ds的少量有标签样本以及源域Ds、目标域Dt中大量无标签样本进行去停用词等处理,减少噪声干扰。
表1亚马逊产品评论统计表
数据集 | positive | negative | unlabled |
Book | 1,000 | 1,000 | 6,000 |
Dvd | 1,000 | 1,000 | 34,741 |
Electrics | 1,000 | 1,000 | 13,153 |
kitchen | 1,000 | 1,000 | 16,785 |
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、对文本进行词形还原前,需要先对文本进行词性标注,本发明使用NLTK包中的词性标注器pos_tag来对文本进行词性标注,词性标注结果如表2,‘I love greenapples’词性标注结果为词和词性一一对应,将对应的词性转换成WordNet词典的名形动副4种词性符号。
表2
[(‘I’,‘PRP’),(‘love’,‘NNS’),(‘green’,‘JJ’),(‘apples’,‘NNS’)] |
词性标注后,再使用NLTK库中基于WordNet词典的词形还原工具WordNLemmatizer对特征进行词形还原,消除文本中的冗余特征。如’was’,’were’,‘am’等特征进行词形还原后为’be’;
Step2.2、通过词袋模型将文本转换为文本特征向量,词袋模型如表3,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;如文本:’this is the first document’在词袋中的特征表示如表4。由此可得到标签数据的特征向量,以及源域Ds、目标域Dt中未标记数据的特征向量;
表3为词袋模型
‘and’,‘doucment’,’first’,’is’‘one’,’second’,’the’,’third’,’this’ |
表4为特征向量
and | document | first | is | one | the | third | this |
0 | 1 | 1 | 1 | 0 | 1 | 0 | 1 |
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的的非枢轴特征向量xnp、枢轴特征对应的枢轴特征向量xp,分别作为神经网络自动编码器模型的输入、输出。为了学习到具有鲁棒性以及紧密的文本特征表示,需要学习从非枢轴特征向量xnp到枢轴特征向量间的非线性映射。采用神经网络结构,xnp作为神经网络的输入,通过编码得到低维度、共享的中间隐层特征表示,其计算公式为:
其中,wh为特征映射矩阵,σ(·)表示sigmoid非线性激活函数。
Step3.2、如图3所示,将隐藏层与输出层间的权重矩阵wr,固定为枢轴特征的词向量矩阵,通过固定隐藏层与输出层间的权重矩阵wr来得到最优的特征映射矩阵wh;该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
其中,通过源域和目标域文本内容训练出word2vec词向量。词向量的格式如表5所示。每个词对应一个500维的向量矩阵。找到枢轴特征对应的词向量,得到枢轴特征的词向量矩阵,作为神经结构对应学习中隐藏层到输出层间的权重矩阵wr。
表5为词向量矩阵
like | [-0.04929905 0.23486612 0.1967869-0.06404014......0.16866587 0.16544181]<sub>1*500</sub> |
Step4、如图4所示,利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用训练集中的源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将测试集目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
正确率是评价目标域模型中文本标签预测正确的个数与总个数的比值,可以用来衡量模型的好坏;本发明采用准确率作为特征扩展的神经结构对应学习跨领域情感分类模型的测评标准。定义如下:
其中,Nr为测试语料中标签预测正确的个数,Nc为测试语料中标签总数,正确率越高,说明方法越好。
Step6、为了验证卡方检验和词形还原的有效性,基于亚马逊产品评论数据集,亚马逊四个数据集DVD、Book、Kitchen、Electronics(表6中分别简写为D、B、K、E),互为源域和目标域进行的12组实验,本发明提出的模型AE-SCL-IFC在12组实验上,与基于特征提取为互信息的神经结构对应模型AE-SCL-SR,以及基于特征提取为卡方检验的神经结构对应模型AE-SCL-Chi2的实验对比,其评估结果如图5所示。表6为基于亚马逊产品评论数据集的本发明方法和其他方法对比汇总表,评价标准为测试集准确率,从表6,图5中可得出本发明模型分类效果优于其他模型。
No-DA表示的方法是:用源域文本向量和标签训练好logistics分类器,然后用这个分类器去测试目标数据所得的结果,SCL-MI、MSDA为公知方法模型。
表6为各个模型在跨领域情感分类任务上的测试集准确率
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:
所述分类方法的具体步骤如下:
Step1、对互联网评论进行预处理,获取源域Ds、目标域Dt的文本内容;
Step2、对文本进行词形还原,消除冗余特征,对文本进行向量化处理,得到文本初始特征;并通过卡方检验特征选择方法筛选出枢轴特征,作为跨领域任务中的枢轴特征,其余特征为非枢轴特征;
Step3、利用枢轴特征,基于神经结构对应学习得到源领域和目标领域的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至相同的特征空间;
Step4、利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间,得到迁移特征;根据源域的标签,利用源域初始特征和迁移特征一起来训练logistics分类器;
Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征,将目标域的初始特征和迁移特征一起送入训练好的logistics分类器,即可得到目标领域的分类结果。
2.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用工具包xml.tree下的解析树函数ElmentTree,提取源领域Ds和目标领域Dt的互联网评论<review></review>之间的文本;
Step1.2、将来自源域Ds的有标签样本以及源域Ds、目标域Dt中无标签样本进行去停用词等处理,减少噪声干扰。
3.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、对文本进行词形还原,消除文本中的冗余特征;
Step2.2、通过词袋模型将文本转换为文本特征向量,得到文本的初始特征;其中,向量的行表示产品评论的数目,向量的列表示文本中的特征,向量的值表示每个词即特征在文本中出现的频次;
Step2.3、计算Step1得到的源领域Ds中训练样本的特征向量和标签向量之间的卡方统计量,通过卡方统计量,来衡量特征与标签之间的关联程度,卡方统计量越大,特征与情感极性的关联程度越大:
其中,a是情感极性为l的文本中,包含特征f的文本数目,c是该类文本中不包含特征f的文本数目;b是情感极性不为l的另一类文本中,包含特征f的文本数目,d是该类文本中不包含特征f的文本数目;χ(f,l)表示特征f与标签l之间的卡方统计量;
Step2.3、将卡方统计量值从大到小排列特征;
Step2.4、计算特征在两个领域中出现的词频,选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征,其余特征为非枢轴特征,其中m取10。
4.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、通过Step2得到源领域Ds与目标领域Dt的枢轴特征和非枢轴特征,将非枢轴特征对应的非枢轴特征向量作为神经结构对应学习模型的输入,枢轴特征对应的枢轴特征向量作为输出;
Step3.2、固定神经结构对应学习模型隐藏层到输出层的权重矩阵,训练模型得到非枢轴与枢轴之间的映射关系,得到输入层到隐藏层的特征映射矩阵,该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。
5.根据权利要求4所述的改进特征选择的神经结构对应学习跨领域情感分类方法,其特征在于:获得隐藏层到输出层的权重矩阵的具体步骤为:通过源域和目标域文本内容训练出word2vec词向量,每个词对应一个500维的向量矩阵;找到枢轴特征对应的词向量,得到枢轴特征的词向量矩阵,作为神经结构对应学习中隐藏层到输出层间的权重矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751457.9A CN110489753B (zh) | 2019-08-15 | 2019-08-15 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751457.9A CN110489753B (zh) | 2019-08-15 | 2019-08-15 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489753A CN110489753A (zh) | 2019-11-22 |
CN110489753B true CN110489753B (zh) | 2022-06-14 |
Family
ID=68551131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910751457.9A Active CN110489753B (zh) | 2019-08-15 | 2019-08-15 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489753B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428039B (zh) * | 2020-03-31 | 2023-06-20 | 中国科学技术大学 | 一种方面级别的跨领域情感分类方法及系统 |
CN112925886B (zh) * | 2021-03-11 | 2022-01-04 | 杭州费尔斯通科技有限公司 | 一种基于领域适应的少样本实体识别方法 |
CN112925885A (zh) * | 2021-03-11 | 2021-06-08 | 杭州费尔斯通科技有限公司 | 一种基于领域适应的少样本文本分类方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605644A (zh) * | 2013-12-02 | 2014-02-26 | 哈尔滨工业大学 | 一种基于相似度匹配的枢轴语言翻译方法和装置 |
CN107273927A (zh) * | 2017-06-13 | 2017-10-20 | 西北工业大学 | 基于类间匹配的无监督领域适应分类方法 |
CN107392237A (zh) * | 2017-07-10 | 2017-11-24 | 天津师范大学 | 一种基于迁移视觉信息的交叉域地基云图分类方法 |
CN108009633A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种面向跨领域智能分析的多网络对抗学习方法和系统 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109783644A (zh) * | 2019-01-18 | 2019-05-21 | 福州大学 | 一种基于文本表示学习的跨领域情感分类系统及方法 |
CN109885833A (zh) * | 2019-02-18 | 2019-06-14 | 山东科技大学 | 一种基于多域数据集联合嵌入的性感极性检测方法 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
US10628528B2 (en) * | 2017-06-29 | 2020-04-21 | Robert Bosch Gmbh | System and method for domain-independent aspect level sentiment detection |
-
2019
- 2019-08-15 CN CN201910751457.9A patent/CN110489753B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605644A (zh) * | 2013-12-02 | 2014-02-26 | 哈尔滨工业大学 | 一种基于相似度匹配的枢轴语言翻译方法和装置 |
CN107273927A (zh) * | 2017-06-13 | 2017-10-20 | 西北工业大学 | 基于类间匹配的无监督领域适应分类方法 |
CN107392237A (zh) * | 2017-07-10 | 2017-11-24 | 天津师范大学 | 一种基于迁移视觉信息的交叉域地基云图分类方法 |
CN108009633A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种面向跨领域智能分析的多网络对抗学习方法和系统 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109783644A (zh) * | 2019-01-18 | 2019-05-21 | 福州大学 | 一种基于文本表示学习的跨领域情感分类系统及方法 |
CN109885833A (zh) * | 2019-02-18 | 2019-06-14 | 山东科技大学 | 一种基于多域数据集联合嵌入的性感极性检测方法 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
Non-Patent Citations (8)
Title |
---|
Cross-Domain Sentiment Classification Using Sentiment Sensitive Embeddings;Danushka Bollegala等;《IEEE》;20160228;398-410 * |
Cross-domain sentiment classification via spectral feature alignment;Sinno Jialin Pan等;《WWW "10: Proceedings of the 19th international conference on World wide web》;20100426;751-760 * |
Mutual Information-Based Word Embedding for Unsupervised Cross-Domain Sentiment Classification;Junge Liang等;《2019 IEEE 4th International Conference on Cloud Computing and Big Data Analytics》;20190530;625-628 * |
基于结构对应学习的跨语言情感分类研究;汪 鹏等;《南京大学学报(自然科学)》;20171130;第53卷(第06期);1133-1140 * |
基于迁移学习的客户流失预测模型;余力涛等;《第六届(2011)中国管理学年会——商务智能分会场》;20110924;1-5 * |
改进枢轴特征选择的跨领域情感分类;梁俊葛等;《计算机工程与设计》;20201116;第41卷(第11期);3193-3198 * |
特征和实例迁移相融合的跨领域倾向性分析;孟佳娜等;《中文信息学报》;20150715;第29卷(第04期);74-79 * |
论文阅读笔记:Cross-Domain Sentiment Classification with Target Domain Specific Information;洛洛洛洛洛洛洛;《https://blog.csdn.net/weixin_44740082/article/details/88780742》;20190325;1-4 * |
Also Published As
Publication number | Publication date |
---|---|
CN110489753A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209823B (zh) | 一种多标签文本分类方法及系统 | |
CN106096004B (zh) | 一种建立大规模跨领域文本情感倾向性分析框架的方法 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN109492101B (zh) | 基于标签信息与文本特征的文本分类方法、系统及介质 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN110489753B (zh) | 改进特征选择的神经结构对应学习跨领域情感分类方法 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN107168956B (zh) | 一种基于管道的中文篇章结构分析方法及系统 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN102541838B (zh) | 用于优化情感分类器的方法和设备 | |
US11429810B2 (en) | Question answering method, terminal, and non-transitory computer readable storage medium | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN108596637B (zh) | 一种电商服务问题自动发现系统 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN106934055B (zh) | 一种基于不充分模态信息的半监督网页自动分类方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN111966944A (zh) | 一种多层级用户评论安全审核的模型构建方法 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113312907B (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
CN113360659B (zh) | 一种基于半监督学习的跨领域情感分类方法及系统 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN112784601A (zh) | 关键信息提取方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |