CN114610877A - 基于判别方差准则的影评情感分析预处理方法及系统 - Google Patents

基于判别方差准则的影评情感分析预处理方法及系统 Download PDF

Info

Publication number
CN114610877A
CN114610877A CN202210169563.8A CN202210169563A CN114610877A CN 114610877 A CN114610877 A CN 114610877A CN 202210169563 A CN202210169563 A CN 202210169563A CN 114610877 A CN114610877 A CN 114610877A
Authority
CN
China
Prior art keywords
film evaluation
film
evaluation
variance
judgment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210169563.8A
Other languages
English (en)
Other versions
CN114610877B (zh
Inventor
张莉
金玲彬
苏畅之
赵雷
王邦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210169563.8A priority Critical patent/CN114610877B/zh
Publication of CN114610877A publication Critical patent/CN114610877A/zh
Application granted granted Critical
Publication of CN114610877B publication Critical patent/CN114610877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于判别方差准则的影评情感分析预处理方法,包括对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中影评语料库包括影评和特征项;基于影评语料库得到影评频次矩阵和词频矩阵;基于影评频次矩阵计算判别方差准则,利用判别方差准则计算影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;将特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对影评情感分析结果进行评估。本发明判别方差准则有效地结合了方差和监督信息,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具判别性,提高影评情感分析的性能。

Description

基于判别方差准则的影评情感分析预处理方法及系统
技术领域
本发明涉及文本挖掘技术领域,尤其是指一种基于判别方差准则的影评情感分析预处理方法及系统。
背景技术
影评情感分析作为文本分类的一种应用,旨在自动识别在影评(一段文本)中表达的情绪是正面的还是负面的。目前,基于机器学习的方法已被广泛用于影评情感分析,其中每个影评都可以转化为具有高维度的向量。然而,过高的维度会影响影评情感分析的正确性。因此,需要利用特征选择方法对影评向量进行降维处理。其中,方差评分(VarianceScore,VS)作为一种简单高效的无监督特征选择方法,在文本挖掘领域得到了广泛的应用。VS通过计算每个特征项的方差来衡量其重要程度。最近,Wang等人提出了基于方差和经济学理论的边际效用评分(Marginal Utility Score,MUS),该评分可以选择含有丰富语义信息的特征项。但是该方法没有考虑监督信息(样本的标签),然而影评情感分析的任务大多是基于有标签数据样本的。因此,在针对影评情感分析的特征选择中,把监督信息和方差的概念有效地结合起来是值得研究的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于判别方差准则的影评情感分析预处理方法及系统,其判别方差准则有效地结合了方差和监督信息,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具有判别性,从而提高影评情感分析的性能。
为解决上述技术问题,本发明提供一种基于判别方差准则的影评情感分析预处理方法,其特征在于,包括以下步骤:
对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
基于所述影评语料库得到影评频次矩阵和词频矩阵;
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
将所述特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
在本发明的一个实施例中,基于影评频次矩阵计算判别方差准则的方法包括:
所述判别方差准则的计算公式如下:
Figure BDA0003516962410000021
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度。
在本发明的一个实施例中,所述总体散度和类散度的定义如下:
Figure BDA0003516962410000022
Figure BDA0003516962410000023
其中,
Figure BDA0003516962410000024
是第j个特征项的特征均值,
Figure BDA0003516962410000025
是第j个特征项在第i条影评中的影评频次,Dk是属于类别ck的影评集合,
Figure BDA0003516962410000026
是第j个特征项在类别ck中的特征均值。
在本发明的一个实施例中,所述分析模型的训练方法包括:
获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
基于所述训练数据集得到影评频次矩阵和词频矩阵;
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
此外,本发明还提供一种基于判别方差准则的影评情感分析预处理系统,包括:
影评预处理模块,所述影评预处理模块用于对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
影评表示模块,所述影评表示模块用于基于所述影评语料库得到影评频次矩阵和词频矩阵;
特征项排序模块,所述特征项排序模块用于基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
影评情感分析模块,所述影评情感分析模块用于将所述特征项重要程度序列输入至分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
在本发明的一个实施例中,所述特征项排序模块包括:
判别方差准则计算子模块,所述判别方差准则计算子模块用于根据如下的计算公式计算判别方差准则:
Figure BDA0003516962410000031
Figure BDA0003516962410000032
Figure BDA0003516962410000033
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度,
Figure BDA0003516962410000034
是第j个特征项的特征均值,
Figure BDA0003516962410000035
是第j个特征项在第i条影评中的影评频次,Dk是属于类别ck的影评集合,
Figure BDA0003516962410000036
是第j个特征项在类别ck中的特征均值。
在本发明的一个实施例中,所述影评情感分析模块包括模型训练学习子模块,所述模型训练学习子模块用于实现如下步骤:
获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
基于所述训练数据集得到影评频次矩阵和词频矩阵;
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
在本发明的一个实施例中,所述影评情感分析模块包括:
影评情感测试子模块,所述影评情感测试子模块用于利用训练学习好的分析模型进行影评情感测试。
并且,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
还有,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明判别方差准则有效地结合了方差和监督信息,即判别方差准则采用了特征项的两种方差形式,一种是特征项的总体散度,另一种是把类别信息引入方差中提出了类散度,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具有判别性,从而提高影评情感分析的性能。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明基于判别方差准则的影评情感分析预处理方法的流程示意图。
图2是本发明基于判别方差准则的影评情感分析预处理系统的结构示意图。
其中,附图标记说明如下:10、影评预处理模块;11、影评表示模块;12、特征项排序模块;13、影评情感分析模块。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参阅图1所示,本发明实施例提供一种基于判别方差准则的影评情感分析预处理方法,其特征在于,包括以下步骤:
S110:对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
S120:基于所述影评语料库得到影评频次矩阵和词频矩阵;
S130:基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
S140:将所述特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式S100,对获取的原始影评数据进行分词、清洗和标准化的预处理包括以下内容:1)影评分词:基于不同语种,结合不同分词算法进行文本分词;2)影评清洗:结合文本语料库的领域和任务,去除可能干扰情感分析的字符、数字和文本:并且,利用标准停用词表,去除文本中的停用词;3)影评标准化:词干提取只适用于部分语种文本,最常见的是Porters算法,对英语很有效。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式S200,本发明结合文本的向量空间表示,选择词t作为影评的特征项。输入影评语料库D={(xi,yi)|xi∈RM,yi∈C,i=1,…,N},其中C={c1,c2}是类别集合,c1代表正类,c2代表负类。该影评语料库包含N条影评和M个特征项。X={x1,x2,....,xN}和T={t1,t2,...,tM}是分别是语料库D的影评和特征项集合。从影评语料库中统计出影评频次矩阵
Figure BDA0003516962410000051
和词频矩阵
Figure BDA0003516962410000052
其中
Figure BDA0003516962410000053
是第j个特征项在第i条影评中的影评频次,若特征项出现在该影评中则为1,否则为0;
Figure BDA0003516962410000054
是第j个特征项在第i条影评中出现的次数。特征项权重采用TF-IDF计算方式,得到影评文本的权重表示矩阵
Figure BDA0003516962410000055
其中
Figure BDA0003516962410000056
Nj是第j个特征项在影评语料库中出现过的影评数量。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式S300,基于影评频次矩阵计算判别方差准则的方法包括第j个特征项的判别方差准则的计算公式如下:
所述判别方差准则的计算公式如下:
Figure BDA0003516962410000061
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度。关于所述总体散度和类散度的定义如下:
Figure BDA0003516962410000062
Figure BDA0003516962410000063
其中,
Figure BDA0003516962410000064
是第j个特征项的特征均值,
Figure BDA0003516962410000065
是第j个特征项在第i条影评中的影评频次,Dk是属于类别ck的影评集合,
Figure BDA0003516962410000066
是第j个特征项在类别ck中的特征均值。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式S400,影评情感分析过程主要由两个阶段构成,分别为训练学习阶段和情感分析阶段,其中训练学习阶段的主要任务是根据训练集影评构建一个情感分析模型,情感分析阶段是利用训练学习阶段构建好的分析模型对测试集影评进行情感分析。训练集影评经过影评预处理、影评表示以及特征项选择后被用于训练分类器模型,最后使用测试集影评对模型的情感分析性能进行评估。
具体地,所述分析模型的训练学习方法包括:
S210:获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
S220:基于所述训练数据集得到影评频次矩阵和词频矩阵;
S230:基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
S240:将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,本发明判别方差准则有效地结合了方差和监督信息,即判别方差准则采用了特征项的两种方差形式,一种是特征项的总体散度,另一种是把类别信息引入方差中提出了类散度,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具有判别性,从而提高影评情感分析的性能。
为了验证本发明的性能,采用十折交叉验证的方式,将影评数据集随机划分为十份,每次实验选择其中一份作为测试集,其余九份作为训练集进行特征项排序。选择特征项数量为[10,20,100,200,500,1000,1500],利用线性支持向量机、逻辑回归以及多项式分布朴素贝叶斯三种分类器在选择不同数量特征项时对测试集进行分类,对最终结果取十次实验的均值。影评特征选择的对比方法包括方差评分(VS)和边际效用评分(MUS)。采用正确率(Accuracy)和F1值(F1-Score)两个指标衡量影评情感分析的效果,结果如表1和表2所示。在三个分类器上,可以看出本发明相较于其他方法,能够选择出更具有判别性的特征词,提高了影评情感分析的性能。
表1影评特征选择的正确率结果对比
Figure BDA0003516962410000071
表2影评特征选择的F1值结果对比
Figure BDA0003516962410000081
下面对本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统进行介绍,下文描述的一种基于判别方差准则的影评情感分析预处理系统与上文描述的一种基于判别方差准则的影评情感分析预处理方法可相互对应参照。
请参阅图2所示,本发明实施例公开了一种基于判别方差准则的影评情感分析预处理系统,包括:
影评预处理模块10,所述影评预处理模块10用于对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
影评表示模块11,所述影评表示模块11用于基于所述影评语料库得到影评频次矩阵和词频矩阵;
特征项排序模块12,所述特征项排序模块12用于基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
影评情感分析模块13,所述影评情感分析模块13用于将所述特征项重要程度序列输入至分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,本发明主要由影评预处理模块10、影评表示模块11、特征项排序模块12以及影评情感分析模块13组成。在影评预处理模块10中,需要对获得的原始影评数据进行分词、清洗和标准化来提取主要文本信息;在影评表示模块11中,结合词袋模型和文本的向量空间模型,利用TF-IDF特征项加权方案对文本数据进行表示;在特征项排序模块12中,通过DVC算法对特征项进行重要程度排序;在影评情感分析模块13中,利用经过特征选择后的训练集影评训练分析模型,最后使用测试集影评对情感分析模型进行性能评估。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,所述特征项排序模块12包括:
判别方差准则计算子模块,所述判别方差准则计算子模块用于根据如下的计算公式计算判别方差准则:
Figure BDA0003516962410000091
Figure BDA0003516962410000092
Figure BDA0003516962410000093
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度,
Figure BDA0003516962410000094
是第j个特征项的特征均值,
Figure BDA0003516962410000095
是第j个特征项在第i条影评中的影评频次,Dk是属于类别ck的影评集合,
Figure BDA0003516962410000096
是第j个特征项在类别ck中的特征均值。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,所述影评情感分析模块13包括模型训练学习子模块,所述模型训练学习子模块用于实现如下步骤:获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;基于所述训练数据集得到影评频次矩阵和词频矩阵;基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,所述影评情感分析模块包括影评情感测试子模块,所述影评情感测试子模块用于利用训练学习好的分析模型进行影评情感测试。
本实施例的基于判别方差准则的影评情感分析预处理系统用于实现前述的基于判别方差准则的影评情感分析预处理方法,因此该系统的具体实施方式可见前文中的基于判别方差准则的影评情感分析预处理方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于判别方差准则的影评情感分析预处理系统用于实现前述的基于判别方差准则的影评情感分析预处理方法,因此其作用与上述方法的作用相对应,这里不再赘述。
相应于上面的方法实施例,本发明实施例还提供了一种计算机设备,包括:
存储器,其用于存储计算机程序;
处理器,其用于执行计算机程序时实现上述基于判别方差准则的影评情感分析预处理方法的步骤。
在本发明实施例中,处理器可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器可以调用存储器中存储的程序,具体的,处理器可以执行基于判别方差准则的影评情感分析预处理方法的实施例中的操作。
存储器中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令。
此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述基于判别方差准则的影评情感分析预处理方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于判别方差准则的影评情感分析预处理方法,其特征在于,包括以下步骤:
对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
基于所述影评语料库得到影评频次矩阵和词频矩阵;
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
将所述特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
2.根据权利要求1所述的基于判别方差准则的影评情感分析预处理方法,其特征在于,基于影评频次矩阵计算判别方差准则的方法包括:
所述判别方差准则的计算公式如下:
Figure FDA0003516962400000011
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度。
3.根据权利要求2所述的基于判别方差准则的影评情感分析预处理方法,其特征在于,所述总体散度和类散度的定义如下:
Figure FDA0003516962400000012
Figure FDA0003516962400000013
其中,
Figure FDA0003516962400000014
是第j个特征项的特征均值,
Figure FDA0003516962400000015
是第j个特征项在第i条影评中的影评频次,Dk是属于类别ck的影评集合,
Figure FDA0003516962400000016
是第j个特征项在类别ck中的特征均值。
4.根据权利要求1所述的基于判别方差准则的影评情感分析预处理方法,其特征在于,所述分析模型的训练方法包括:
获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
基于所述训练数据集得到影评频次矩阵和词频矩阵;
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
5.一种基于判别方差准则的影评情感分析预处理系统,其特征在于,包括:
影评预处理模块,所述影评预处理模块用于对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
影评表示模块,所述影评表示模块用于基于所述影评语料库得到影评频次矩阵和词频矩阵;
特征项排序模块,所述特征项排序模块用于基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
影评情感分析模块,所述影评情感分析模块用于将所述特征项重要程度序列输入至分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
6.根据权利要求5所述的基于判别方差准则的影评情感分析预处理系统,其特征在于,所述特征项排序模块包括:
判别方差准则计算子模块,所述判别方差准则计算子模块用于根据如下的计算公式计算判别方差准则:
Figure FDA0003516962400000021
Figure FDA0003516962400000022
Figure FDA0003516962400000031
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度,
Figure FDA0003516962400000032
是第j个特征项的特征均值,
Figure FDA0003516962400000033
是第j个特征项在第i条影评中的影评频次,Dk是属于类别ck的影评集合,
Figure FDA0003516962400000034
是第j个特征项在类别ck中的特征均值。
7.根据权利要求5所述的基于判别方差准则的影评情感分析预处理系统,其特征在于,所述影评情感分析模块包括模型训练学习子模块,所述模型训练学习子模块用于实现如下步骤:
获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
基于所述训练数据集得到影评频次矩阵和词频矩阵;
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
8.根据权利要求5或7所述的基于判别方差准则的影评情感分析预处理系统,其特征在于,所述影评情感分析模块包括:
影评情感测试子模块,所述影评情感测试子模块用于利用训练学习好的分析模型进行影评情感测试。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
CN202210169563.8A 2022-02-23 2022-02-23 基于判别方差准则的影评情感分析预处理方法及系统 Active CN114610877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210169563.8A CN114610877B (zh) 2022-02-23 2022-02-23 基于判别方差准则的影评情感分析预处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210169563.8A CN114610877B (zh) 2022-02-23 2022-02-23 基于判别方差准则的影评情感分析预处理方法及系统

Publications (2)

Publication Number Publication Date
CN114610877A true CN114610877A (zh) 2022-06-10
CN114610877B CN114610877B (zh) 2023-04-25

Family

ID=81858448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210169563.8A Active CN114610877B (zh) 2022-02-23 2022-02-23 基于判别方差准则的影评情感分析预处理方法及系统

Country Status (1)

Country Link
CN (1) CN114610877B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN112308097A (zh) * 2019-07-23 2021-02-02 北京京东尚科信息技术有限公司 样本识别方法和装置
CN112329836A (zh) * 2020-11-02 2021-02-05 成都网安科技发展有限公司 基于深度学习的文本分类方法、装置、服务器及存储介质
CN112732921A (zh) * 2021-01-19 2021-04-30 福州大学 一种虚假用户评论检测方法及系统
CN113626604A (zh) * 2021-08-27 2021-11-09 苏州大学 基于最大间隔准则的网页文本分类系统
CN113792141A (zh) * 2021-08-20 2021-12-14 西安理工大学 基于协方差度量因子的特征选择方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN112308097A (zh) * 2019-07-23 2021-02-02 北京京东尚科信息技术有限公司 样本识别方法和装置
CN112329836A (zh) * 2020-11-02 2021-02-05 成都网安科技发展有限公司 基于深度学习的文本分类方法、装置、服务器及存储介质
CN112732921A (zh) * 2021-01-19 2021-04-30 福州大学 一种虚假用户评论检测方法及系统
CN113792141A (zh) * 2021-08-20 2021-12-14 西安理工大学 基于协方差度量因子的特征选择方法
CN113626604A (zh) * 2021-08-27 2021-11-09 苏州大学 基于最大间隔准则的网页文本分类系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘海峰等: "基于散度差准则的文本特征降维研究", 《计算机应用研究》 *
刘海峰等: "文本分类中基于散度差的线性特征抽取方法", 《计算机工程与设计》 *
吕佳: "文本分类中基于方差的改进特征提取算法", 《计算机工程与设计》 *
王甜甜等: "方差和词向量用于文本降维的研究", 《计算机系统应用》 *
袁轶等: "一种基于方差的文本特征选择算法", 《计算机工程》 *

Also Published As

Publication number Publication date
CN114610877B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US11620450B2 (en) Deep learning based text classification
US11449673B2 (en) ESG-based company evaluation device and an operation method thereof
US8103671B2 (en) Text categorization with knowledge transfer from heterogeneous datasets
CN111538828B (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
WO2012116208A2 (en) Apparatus, method, and computer-accessible medium for explaining classifications of documents
US11526750B2 (en) Automated industry classification with deep learning
Daelemans et al. Skousen's analogical modelling algorithm: a comparison with lazy learning
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
CN113254655B (zh) 文本分类方法、电子设备及计算机存储介质
Ranjan et al. Document classification using lstm neural network
CN114548321A (zh) 基于对比学习的自监督舆情评论观点对象分类方法
CN114896398A (zh) 一种基于特征选择的文本分类系统及方法
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN114996446B (zh) 一种文本分类方法、装置及存储介质
Ueno et al. A spoiler detection method for japanese-written reviews of stories
Saha et al. A large scale study of SVM based methods for abstract screening in systematic reviews
Silva et al. Developing and Assessing a Human-Understandable Metric for Evaluating Local Interpretable Model-Agnostic Explanations.
CN111723206A (zh) 文本分类方法、装置、计算机设备和存储介质
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
CN114610877A (zh) 基于判别方差准则的影评情感分析预处理方法及系统
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
Al Mahmud et al. A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text
CN109189932B (zh) 文本分类方法和装置、计算机可读存储介质
CN111159410A (zh) 一种文本情感分类方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant