CN110347825A - 一种短英文影评分类方法及装置 - Google Patents
一种短英文影评分类方法及装置 Download PDFInfo
- Publication number
- CN110347825A CN110347825A CN201910514997.5A CN201910514997A CN110347825A CN 110347825 A CN110347825 A CN 110347825A CN 201910514997 A CN201910514997 A CN 201910514997A CN 110347825 A CN110347825 A CN 110347825A
- Authority
- CN
- China
- Prior art keywords
- model
- layer
- prediction result
- algorithm
- disaggregated model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种短英文影评分类方法及装置,其中,所述方法包括:获取待分类短英文影评文本的特征单词集;通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小‑最大规范化处理,得到规范化结果集;采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。根据本发明的技术方案,极大地提高了分类结果的准确性和鲁棒性。
Description
技术领域
本发明涉及网络科技领域,尤其涉及一种短英文影评分类方法及装置。
背景技术
随着大数据时代的到来,在线评论数据量日趋庞大,海量数据及良莠不齐的评论质量使影评的效用研究具有更为现实的意义。电影评论深度挖掘的目标在于分析和评价蕴含在影评中所体现出的价值。发展至今,电影评论已从纸质影评发展到电子影评阶段。目前很多电影网站都提供电影评论作为观影的参考。将电影评论作为信息源,将消费者作为信息阅读者,信息源的语言特征和语义内容对信息阅读者的判断和行为表现有直接影响。
目前研究现状主要有以下方面:
基于TF-IDF的传统分类方法,该方法简单快速,能够很好的完成提取文章中关键词的目标,结果比较符合实际,但该方法只单纯考虑词频,无法直接应用在影评文本中。
基于Word2Vec的传统分类方法,Word2Vec特征提取方法克服传统TF-IDF方法在语序和语义方面表现不佳的问题,同时将TF-IDF的高维稀疏向量空间降维到低维稠密向量空间,大大降低计算成本,但该方法存在情感词典无法有效考察文本的上下文语境信息的问题。
基于Word2Vec的stacking融合分类方法,stacking算法是1992年Worlpert提出的Stacked Generalization的学习模型,对基分类器的学习结果进行再集成得到集成模型预测结果,既能集成各基分类器的训练结果,也能组合各种可能决定分类的相关信息,因此普遍认为其性能优于贝叶斯投票方法,但该方法存在短文本情感分类准确率较低的问题。
但现有传统分类方法中,大量使如SVC、朴素贝叶斯、决策树、逻辑回归等算法,其普遍存在着数据过拟合的问题,使得影评二分类问题的准确率较低。
发明内容
本发明的目的是提供一种短英文影评分类方法,为了提高影评二分类问题的准确率,使分类结果具有较好的准确性和鲁棒性。
为达到上述目的,一方面,本发明实施例提供一种短英文影评分类方法,包括:
获取待分类短英文影评文本的特征单词集;
通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;
通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;
采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。
另一方面,本发明提供一种基短英文影评分类装置,包括:
获取单元,用于获取待分类短英文影评文本的特征单词集;
第一分类单元,用于通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;
第二分类单元,用于通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;
结果确定单元,用于采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。
上述技术方案具有如下有益效果:本发明实施例提供的以上方案,采用改进stacking算法融合处理多个分类器的分类结果,最后采用最小-最大规范化与简单多数法对预测结果进行处理。结果表明,基于改进stacking算法的短英文影评分类方法具有较好的准确性和鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种短英文影评分类方法的流程图;
图2是本发明实施例一种短英文影评分类装置的结构图;
图3是本发明实施例一种短英文影评分类装置中获取单元的结构图;
图4是本发明实施例一种短英文影评分类装置中第一模型训练单元的结构图;
图5是本发明实施例一种短英文影评分类装置中第二模型训练单元的结构图;
图6是本发明实施例一种短英文影评分类方法的流框架图;
图7是本发明实施例一种CBOW模型图;
图8是本发明验证实施例中八种传统分类器的实验结果图;
图9是本发明验证实施例中基于Word2Vec的八种传统分类器实验详细数据图;
图10是本发明验证实施例中基于改进stacking算法中不同K值实验数据变化图;
图11是本发明验证实施例中基于改进stacking算法中不同K值实验数据结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一种短英文影评分类方法的流程图,包括以下步骤:
步骤101,获取待分类短英文影评文本的特征单词集。
优选地,所述获取待分类短英文影评文本的特征单词集,包括:获取待分类短英文影评文本;根据语料库对所待分类短英文影评文本进行数据清洗与去燥;通过Word2Vec特征提取法提取所述清洗与去燥后的待分类短英文影评文本中的特征单词,获得待分类短英文影评文本的特征单词集。
步骤102,通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集。
优选地,所述预先训练的第一层分类模型通过以下步骤获得:
采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型;获取训练集数据和验证集数据;根据所述训练集数据以交叉验证法对上述每一个算法进行训练,获得预先训练的第一层分类模型;并通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。
步骤103,通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集。
优选地,所述预先训练的第二层分类模型通过以下步骤获得:
采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型;将所述第一训练结果集拼接后得到第二层模型的新训练集数据,根据所述新训练集数据对第二层分类模型算法依次进行训练,获得预先训练的第二层分类模型。
优选地,所述对第二预测结果集进行最小-最大规范化处理,具体包括:
根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理,得到最小-最大规范化处理后的预测结果r'ij:
其中,rij为第二层分类模型中第i个模型对第j个特征单词的预测结果,min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率,max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率;将Ri看做一组乱序数值,min(Ri)表示取Ri中的最小值,同理max(Ri)为最大值,举例假设Ri=[1,2,3,2,1,4,5,6],则min(Ri)=1,max(Ri)=6,将最小-最大规范化处理后的预测结果r'ij组成规范化结果集。
步骤104,采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果;
优选地,所述采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果,具体包括:
根据以下公式对所述规范化结果集中的预测结果r'ij进行处理:
其中,rj表示第j个特征单词对应的分类结果,m表示第二层分类模型中的算法模型的个数;
若一半以上的特征单词对应的分类结果rj的类别为1时,判定所述待分类短英文影评的分类结果为1,否则所述待分类短英文影评的分类结果为0。
如图2所示,为本发明实施例一种短英文影评分类装置的结构图,所述装置包括:
获取单元21,用于获取待分类短英文影评文本的特征单词集;
第一分类单元22,用于通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;
第二分类单元23,用于通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;
结果确定单元24,用于采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。
优选地,所述获取单元21包括:
文本获取模块211,用于用于获取待分类短英文影评文本;
文本处理模块212,用于根据语料库对所述待分类短英文影评文本进行数据清洗与去燥;
特征单词提取模块213,用于通过Word2Vec特征提取法提取所述清洗与去燥后的待分类短英文影评文本中的特征单词,获得待分类短英文影评文本的特征单词集。
优选地,所述第二分类单元23具体用于:
根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理,得到最小-最大规范化处理后的预测结果r'ij:
其中,rij为第二层分类模型中第i个模型对第j个特征单词的预测结果,min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率,max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率;将Ri看做一组乱序数值,min(Ri)表示取Ri中的最小值,同理max(Ri)为最大值,举例假设Ri=[1,2,3,2,1,4,5,6],则min(Ri)=1,max(Ri)=6,将最小-最大规范化处理后的预测结果r'ij组成规范化结果集。。
优选地,所述结果确定单元24具体用于:
根据以下公式对所述规范化结果集中的预测结果r'ij进行处理:
其中,rj表示第j个特征单词对应的分类结果,m表示第二层分类模型中的算法模型的个数;
若一半以上的特征单词对应的分类结果rj的类别为1时,判定所述待分类短英文影评的分类结果为1,否则所述待分类短英文影评的分类结果为0。
优选地,所述装置还包括第一模型训练单元25,所述第一模型训练单元25包括:
第一模型构成模块251,用于采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型;
数据获取模块252,用于获取训练集数据和验证集数据;
第一模型训练模块253,用于根据所述训练集数据以交叉验证法对上述每一个算法进行训练,获得预先训练的第一层分类模型;
训练数据处理模块254,用于通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。
优选地,所述装置还包括第二模型训练单元26,所述第二模型训练单元26包括:
第二模型构成模块261,用于采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型;
数据拼接模块262,将所述第一训练结果集拼接后得到第二层模型的新训练集数据;
第二模型训练模块263,用于根据所述新训练集数据对第二层分类模型算法依次进行训练,获得预先训练的第二层分类模型。
本发明提出一种短英文影评分类方法,是基于改进stacking算法的分类方法,对影评语料库进行文本预处理,然后采用Word2Vec模型提取训练集的特征作为融合模型的输入。本发明所提出的基于改进stacking算法的分类方法采用三层结构。第一层分类模型采用随机森林算法、超随机树算法、XGBoost算法、AdaBoost算法和LightGBM算法五种分类模型,数据提取特征后使用第一层分类模型的五种分类模型进行处理,其结果输入到第二层分类模型进行处理;第二层分类模型选择逻辑回归、线性核函数的SVC和梯度提升树三种分类模型进行分类并将结果进行最小-最大规范化。第三层模型将第二层分类模型三种分类方法最小-最大规范化后的结果采用简单多数法得到最终结果。
在具体实施过程中,本发明采用一种浅层的神经网络模型Word2Vec特征提取方法。Word2Vec有两种神经网络结构,分别是CBOW(ContinuousBagofWords)和SG(Skip-Gram)两种模型。本发明选取在中小型语料中表现更好的CBOW模型,模型图如图6所示。
该模型的输入层是由输入上下文{x1,x2,...xi,...,xC}组成,其中xi={0,...,1,...,0}是被one-hot编码的V维向量,V是词汇表大小,窗口大小为C;隐藏层是N维的向量h;输出层是也被one-hot编码的输出单词y。输入向量通过一个V*N维的权重矩阵W连接到隐藏层;隐藏层通过一个N*V的权重矩阵W'连接到输出层。本文输出层采用softmax函数且实验随机初始化权重矩阵W与W',如公式(1)(2)所示,其中,w1,w2,...,wC表示上下文单词,wi表示第i个输出单词,表示输出单词wi在W中N维行词向量,表示第i个输出单词wi在W'中N维列词向量
本发明通过以下步骤确定最终权重矩阵W与W'。
第一步:计算隐藏层的输出。隐藏层h是C个上下文单词输入向量的加权平均,计算公式如公式(3)所示
第二步:计算输出层每个结点的输入。输出层每个节点输入的计算公式如公式(4)所示,其中是输出矩阵W'的第j列,un表示词汇表中第n个词的分数,n=1,2,...,V。
第三步:计算输出层的输出。将un作为softmax函数的输入,得到输出yj,如公式(5)所示。
第四步:定义损失函数。损失函数是给定上下文的输出单词的条件概率,如公式(6)所示,其中,n*表示目标单词在词汇表中的索引。
第五步:更新权重矩阵W'。隐藏层到输出层的权重矩阵W'的梯度计算公式如公式(7)所示,其中yj和tj分别是预测值和真实值的第j项,tj={0,1},hi是隐藏层的第i项,w'ij是权重矩阵W'中的第i行第j列元素。
权重矩阵W'更新公式如公式(8)所示,其中,η是学习率,η>0。
第六步:更新权重矩阵W。隐藏层神经元的梯度计算公式如公式(9)所示。
故输入层到隐藏层的权重矩阵W的梯度公式如公式(10)所示,其中,wki表示W的第k行第i列元素,xk表示第k个上下文单词。
权重矩阵W更新公式如公式(11)所示,其中,是输入上下文的第c个单词的输入向量,η是学习率。
当所有样本训练完成后,样本的词向量空间如公式(12)(13)所示。
如图5所示,为本发明实施例一种短英文影评分类方法的流框架图,包括以下步骤:
模型融合层即第一层分类单元。假设第一层有n个模型,如随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法模型,将原始的训练集数据Train采用K折交叉验证方法,n个模型重复采用其中的K-1组子集数据训练,对原始验证集数据预测得到Pi(i=1,2,......,n),拼接后得到第二层分类模型的新训练集数据P,同时对特征单词Test预测得到Qi(i=1,2,......,n),拼接并取算数平均得到第二层模型的预测集Q。
学习层即第二层分类单元。假设第二层有m个模型,如选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法模型,顺序选择每个模型,然后利用模型融合层得到的新训练集数据P训练模型,训练完毕后,对模型融合层得到的预测集Q进行预测,得到结果Ri(i=1,2,......,n)后进行最小-最大规范化。
在学习层对分类概率进行最小-最大规范化,可以放大其分类概率,增强分类效果。具体如下公式(14)所示。
对于每个rij,找到预测集结果Ri=[r1,r2,...,rV]T中最小的分类概率min(Ri)和最大的分类概率max(Ri),根据公式(10),其计算结果便被映射到区间[0,1]。其中rij为学习层第i个模型第j个测试样本的预测结果,m表示学习层的模型个数,V表示词汇表大小,j=1,2,...,V。
模型第三层:结果处理层。将学习层最小-最大规范化后的预测结果Ri(i=1,2,...,m)采用简单多数法处理得到最终预测结果R。
简单多数法是选择分类结果超过一半的类别,即当一半以上的分类器预测为类别1,则集成后预测结果就是1,否则预测结果为0。具体如公式(15)所示,其中,rj表示第j个特征单词的影评分类结果,r'ij为学习层第i个模型第j个测试样本的预测结果,m表示学习层的模型个数。
为了验证改进stacking算法有效性,本发明不但采用改进stacking算法对IMDB提供的测试集数据进行测试,还采用八种传统分类模型和stacking算法的方法分别进行实验并与本发明所提方法进行比较。
实验采用特征提取方法Word2Vec对IMDB语料库进行特征抽取,并分别使用随机森林算法、超随机树算法、XGBoost算法、AdaBoost算法、LightGBM算法、逻辑回归、梯度提升树和SVC八种分类器对训练集进行训练并对测试集进行结果预测。本发明实验次数为10次,其平均实验结果如图7所示。
实验结果得知,采用SVC分类器的效果最好,F1得分达到85.339%,准确率达到85.04%;同时采用随机森林分类器的效果最差,F1得分达到81.326%,准确率达到80.96%,具体实验结果如图8所示,图8中加粗数据表示八种传统分类器在数据集上的最佳度量值。
基于改进stacking算法的实验本发明实验次数为10次,其平均实验结果如图9、图10所示。stacking算法能够从原始数据中自动提取有用特征,在第一层模型进行特征提取,数据集经过第一层模型实现压缩处理,有效特征被提取传入第二层进行学习。
通过分析实验结果,本发明采用不确定性很大的决策树算法随机森林、超随机树和集成效果很好的XGBoost、LightGBM、AdaBoost作为第一层融合分类器,其中前两种算法准确率和F1值偏低,与准确率和F1值较高的三种集成算法有一定的差异性。同时从减小误差的角度分析,前两种算法有效降低方差,三种集成算法有效降低偏差,具有互补性,可以增加模型的多样性。这样第一层模型既具有差异性,又具有较高的准确率。
为了降低过拟合的问题,第二层模型不需要过分复杂的算法。本文第二层模型采用效果相对最好的SVC、逻辑回归算法和上述集成算法中性能中等的梯度提升树。广义线性逻辑回归模型原理简单,配合L1正则化可以进一步防止过拟合,选择有效特征,从第一层模型中剔除不必要的特征,节省运算开销。可以合理的学习第一层融合分类器的分类结果,用以提高分类准确率、降低误差和增强泛化能力。
模型第三层采用最小-最大规范化和简单多数法放大分类概率,发挥各个模型的优势,有效降低过拟合问题。
实验从交叉验证K=2开始,随着K值的增加,准确率A呈上升趋势。当K=11时,采用改进stacking算法的实验结果最好,准确率提高到86.28%,与最佳单模型SVC相比,增长1.24%,与最佳stacking算法相比,增长0.08%。K值继续增加,准确率出现下降趋势。同时,MSE降低到13.72%,与最佳单模型SVC相比,降低1.24%,与最佳stacking算法相比,降低0.08%。此外,精确率P达到86.33%,与最佳单模型XGBoost相比,增加1.39%,与最佳stacking算法相比,降低0.48%;召回率R提高到86.94%,与最佳单模型SVC相比,增长0.83%,与最佳stacking算法相比,增长0.28%;F1得分达到86.50%,与最佳单模型相比,增长1.15%,与最佳stacking算法相比,增长0.09%。
同时,随着K值的不断增加,运行时间T呈线性增长的趋势,如图10所示。但改进stacking算法采用三层模型,与stacking算法相比,运行时间并未增加太多。
本发明算法并不只适用于影评分类,也可用于其他文本类信息情报场景中,未来可在优化算法方面展开深入研究,以进一步提升算法的准确率。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个装置的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种短英文影评分类方法,其特征在于,包括:
获取待分类短英文影评文本的特征单词集;
通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;
通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;
采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。
2.如权利要求1所述的方法,其特征在于,所述获取待分类短英文影评文本的特征单词,包括:
获取待分类短英文影评文本;
根据语料库对所述待分类短英文影评文本进行数据清洗与去燥;
通过Word2Vec特征提取法提取所述清洗与去燥后的待分类短英文影评文本中的特征单词,获得待分类短英文影评文本的特征单词集。
3.如权利要求1所述的方法,其特征在于,所述预先训练的第一层分类模型通过以下步骤获得:
采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型;
获取训练集数据和验证集数据;
根据所述训练集数据以交叉验证法对上述每一个算法进行训练,获得预先训练的第一层分类模型;
并通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。
4.如权利要求3所述的方法,其特征在于,所述预先训练的第二层分类模型通过以下步骤获得:
采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型;
将所述第一训练结果集拼接后得到第二层模型的新训练集数据,
根据所述新训练集数据对第二层分类模型算法依次进行训练,获得预先训练的第二层分类模型。
5.如权利要求1所述的方法,其特征在于,所述对第二预测结果集进行最小-最大规范化处理,得到规范化结果集,包括:
根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理,得到最小-最大规范化处理后的预测结果r′ij:
其中,rij为第二层分类模型中第i个模型对第j个特征单词的预测结果,min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率,max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率;将最小-最大规范化处理后的预测结果r′ij组成规范化结果集。
6.如权利要求5所述的方法,其特征在于,所述采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果,包括:
根据以下公式对所述规范化结果集中的预测结果r′ij进行处理:
其中,rj表示第j个特征单词对应的分类结果,m表示第二层分类模型中的算法模型的个数;
若一半以上的特征单词对应的分类结果rj的类别为1时,判定所述待分类短英文影评的分类结果为1,否则所述待分类短英文影评的分类结果为0。
7.一种短英文影评分类装置,其特征在于,包括:
获取单元,用于获取待分类短英文影评文本的特征单词集;
第一分类单元,用于通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;
第二分类单元,用于通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;
结果确定单元,用于采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。
8.如权利要求7所述的装置,其特征在于,所述装置还包括第一模型训练单元,包括:
第一模型构成模块,用于采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型;
数据获取模块,用于获取训练集数据和验证集数据;
第一模型训练模块,用于根据所述训练集数据以交叉验证法对上述每一个算法进行训练,获得预先训练的第一层分类模型;
训练数据处理模块,用于通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。
9.如权利要求8所述的装置,其特征在于,所述装置还包括第二模型训练单元,包括:
第二模型构成模块,用于采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型;
数据拼接模块,用于将所述第一训练结果集拼接后得到第二层模型的新训练集数据第二模型训练模块,用于根据所述新训练集数据对第二层分类模型算法依次进行训练,获得预先训练的第二层分类模型。
10.如权利要求7所述的装置,其特征在于,所述第二分类单元,具体用于:
根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理,得到最小-最大规范化处理后的预测结果r′ij:
其中,rij为第二层分类模型中第i个模型对第j个特征单词的预测结果,min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率,max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率;将Ri看做一组乱序数值,min(Ri)表示取Ri中的最小值,同理max(Ri)为最大值,举例假设Ri=[1,2,3,2,1,4,5,6],则min(Ri)=1,max(Ri)=6,将最小-最大规范化处理后的预测结果r′ij组成规范化结果集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514997.5A CN110347825A (zh) | 2019-06-14 | 2019-06-14 | 一种短英文影评分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514997.5A CN110347825A (zh) | 2019-06-14 | 2019-06-14 | 一种短英文影评分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110347825A true CN110347825A (zh) | 2019-10-18 |
Family
ID=68181975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910514997.5A Pending CN110347825A (zh) | 2019-06-14 | 2019-06-14 | 一种短英文影评分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347825A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507115A (zh) * | 2020-12-07 | 2021-03-16 | 重庆邮电大学 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
CN112800232A (zh) * | 2021-04-01 | 2021-05-14 | 南京视察者智能科技有限公司 | 基于大数据的案件自动分类、优化方法及训练集修正方法 |
CN112836772A (zh) * | 2021-04-02 | 2021-05-25 | 四川大学华西医院 | 基于LightGBM集成多个BERT模型的随机对照试验识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060059112A1 (en) * | 2004-08-25 | 2006-03-16 | Jie Cheng | Machine learning with robust estimation, bayesian classification and model stacking |
CN104657743A (zh) * | 2015-01-23 | 2015-05-27 | 南京邮电大学 | 一种半监督的最小最大模块化模式分类方法 |
CN108038173A (zh) * | 2017-12-07 | 2018-05-15 | 广东工业大学 | 一种网页分类方法、系统及一种网页分类设备 |
CN108845974A (zh) * | 2018-04-24 | 2018-11-20 | 清华大学 | 采用最小最大概率机的分离概率的有监督线性降维方法 |
-
2019
- 2019-06-14 CN CN201910514997.5A patent/CN110347825A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060059112A1 (en) * | 2004-08-25 | 2006-03-16 | Jie Cheng | Machine learning with robust estimation, bayesian classification and model stacking |
CN104657743A (zh) * | 2015-01-23 | 2015-05-27 | 南京邮电大学 | 一种半监督的最小最大模块化模式分类方法 |
CN108038173A (zh) * | 2017-12-07 | 2018-05-15 | 广东工业大学 | 一种网页分类方法、系统及一种网页分类设备 |
CN108845974A (zh) * | 2018-04-24 | 2018-11-20 | 清华大学 | 采用最小最大概率机的分离概率的有监督线性降维方法 |
Non-Patent Citations (7)
Title |
---|
HELLOLIJUNSHY: "数据集成、数据变换下的标准化(最小最大规范化、0均值规范化和小数定标规范化)和连续属性离散化(等宽法、等频法和聚类法)", 《HTTPS://BLOG.CSDN.NET/HELLOLIJUNSHY/ARTICLE/DETAILS/80068655》 * |
MAYGOD1IKE: "详解stacking过程", 《HTTPS://BLOG.CSDN.NET/WSTCJF/ARTICLE/DETAILS/77989963》 * |
ML_BOY: "Stacking 模型融合讲解", 《HTTPS://BLOG.CSDN.NET/QQ1483661204/ARTICLE/DETAILS/80157365》 * |
吴文凯 等: "Stacking算法的优化与改进", 《海峡科技与产业》 * |
周国静 等: "基于最小最大策略的集成特征选择", 《南京大学学报(自然科学)》 * |
廖祥文 等: "基于双层堆叠分类模型的水军评论检测", 《山东大学学报(理学版)》 * |
赵明茹 等: "基于自适应和及时繁殖策略菌群优化聚类算法", 《计算机应用研究》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507115A (zh) * | 2020-12-07 | 2021-03-16 | 重庆邮电大学 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
CN112507115B (zh) * | 2020-12-07 | 2023-02-03 | 重庆邮电大学 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
CN112800232A (zh) * | 2021-04-01 | 2021-05-14 | 南京视察者智能科技有限公司 | 基于大数据的案件自动分类、优化方法及训练集修正方法 |
CN112836772A (zh) * | 2021-04-02 | 2021-05-25 | 四川大学华西医院 | 基于LightGBM集成多个BERT模型的随机对照试验识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bavkar et al. | Multimodal sarcasm detection via hybrid classifier with optimistic logic | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN106294344B (zh) | 视频检索方法和装置 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
Veit et al. | Separating self-expression and visual content in hashtag supervision | |
CN108090498A (zh) | 一种基于深度学习的纤维识别方法及装置 | |
CN110347825A (zh) | 一种短英文影评分类方法及装置 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN109902202A (zh) | 一种视频分类方法及装置 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
CN105869058B (zh) | 一种多层潜变量模型用户画像提取的方法 | |
CN115221864A (zh) | 一种多模态假新闻检测方法及系统 | |
Jin et al. | Image credibility analysis with effective domain transferred deep networks | |
CN114461804A (zh) | 一种基于关键信息与动态路由的文本分类方法、分类器及系统 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN112396091B (zh) | 社交媒体图像流行度预测方法、系统、存储介质及应用 | |
CN113627151A (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
Saha et al. | The Corporeality of Infotainment on Fans Feedback Towards Sports Comment Employing Convolutional Long-Short Term Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |