发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提出了一种基于大量样本数据的情感评价方法。
本发明的另一个目的在于提出了一种基于大量样本数据的情感评价装置。
为了实现上述目的,根据本发明第一方面的技术方案,提出了一种基于大量样本数据的情感评价方法,包括:确定样本信息中任意指定领域产品的特征信息;根据特征信息和预设的样本信息训练模型,生成训练数据;根据训练数据和预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;采用word2vec对评价信息进行向量化处理,以生成待评价的向量矩阵;将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,得到评价信息的情感值。
根据本发明技术方案的基于大量样本数据的情感评价方法,在样本信息中获得指定领域产品评价信息的情感值,通过确定样本信息中任意指定领域产品的特征信息,对特征信息按照预设的样本信息训练模型,生成训练数据;并对训练数据按照预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;再采用word2vec(文本深度表示模型)对评价信息进行向量化处理,生成待评价的向量矩阵;将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,最终得到评价信息的情感值。提高了用户获取特定领域产品评价信息感情值的准确性和有效性,根据获取到的不同产品的评价分析结果,用户能够更好地选择产品或者制定更合理的产品营销手段。
根据本发明技术方案的基于大量样本数据的情感评价方法,还可以具有如下技术特征:
在上述技术方案中,优选地,在确定样本信息中任意指定领域产品的特征信息前,还包括:预设指定领域产品的关键词信息,以根据关键词信息确定样本信息,其中,关键词信息包括产品名称、产品评价数据范围,产品评价时间范围。
在该技术方案中,为了确保确定样本信息中任意指定领域产品的特征信息及后续方案的顺利实施,需要事先确定样本信息,即通过预设指定领域产品的关键词信息,以根据关键词来确定样本信息。
其中,关键词信息包括但不限于产品名称、产品评价数据范围,产品评价时间范围。
在上述技术方案中,优选地,确定样本信息中任意指定领域产品的特征信息,具体包括以下步骤:收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息;提取待评价信息中的多个相关词信息;确定多个相关词信息的权重值,以将权重值大于预设权重阈值的关键词信息确定为特征信息。
在该技术方案中,收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息,并提取待评价信息中的多个相关词信息,对多个相关词信息进行计算并得到权重值,将权重值和预设权重值进行比较,把权重值大于预设权重阈值的关键词信息确定为特征信息,确保了通过样本信息中任意指定领域产品确定的特征信息的有效性。
在上述技术方案中,优选地,根据特征信息和预设的样本信息训练模型,生成训练数据,具体包括以下步骤:根据特征信息确定分类模型的文本向量空间维数;根据文本向量空间维数,采用贝叶斯分类器构造已标记样本数据的分类模型;根据分类模型,对未标记样本数据执行分类操作,以得到类别分布的未标记样本数据;对类别分布的未标记样本数据和已标记样本数据执行训练操作,生成贝叶斯分类模型;根据贝叶斯分类模型,重复执行分类操作与训练操作,直至生成指定数量的训练数据。
在该技术方案中,根据特征信息确定分类模型的文本向量空间维数,
采用贝叶斯分类器作为基础分类器,构造已标记样本数据的分类模型,对未标记样本数据按照分类模型进行分类操作,以得到类别分布的未标记样本数据,再结合类别分布的未标记样本数据和已标记样本数据进行训练操作,以生成贝叶斯分类模型,随后重复执行分类操作与训练操作,直至生成稳定的分类模型,即得到了指定数量的训练数据。
在上述技术方案中,优选地,根据训练数据和预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息,具体包括以下步骤:将样本信息的发布时间分割为多个时间段;根据分割后所得多个时间段,将训练数据划分为多个对应的训练群组,多个对应的训练群组中包括未标记训练数据与已标记训练数据;在任意一个训练群组内,根据SVM训练模型,确定K个正向样例与K个负向样例;对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息。
在该技术方案中,鉴于特定领域的产品评价信息一般会随着时间的变化有相应的波动,比如,某个新产品,刚出现阶段,用户的使用评价较高,评价内容多数为正面信息,但随着用户对它的进一步使用和了解,发现了它存在的弊端,用户的态度相应的变化,评价内容开始出现负面信息,需要将样本信息的发布时间分割为多个时间段,并根据分割后所得多个时间段,将训练数据划分为多个对应的训练群组,特别的,多个对应的训练群组中包括未标记训练数据与已标记训练数据,在任意一个训练群组内,根据SVM(Support VectorMachine,支持向量机)训练模型,确定K个正向样例与K个负向样例;对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息,根据增量学习方法不难得知,只需采用生成任意一个对应的时间段内的评价信息的操作进行增量训练,便可得到不同时间内的评价信息。
在上述技术方案中,优选地,采用word2vec对评价信息进行向量化处理,以生成待评价的向量矩阵,具体包括以下步骤:滤除评价信息中的无用成分数据;过滤评价信息中文本长度未到达预设文本长度阈值的文本信息,以得到处理后的评价信息;对处理后的评价信息进行分词与分字的分割操作;采用word2vec,对进行分隔后的评价信息进行向量训练,以生成向量矩阵,其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量。
在该技术方案中,为保证所提取的样本数据的有效性,在构建待评价的向量矩阵之前,需要先行对评价信息滤除无用成分的数据,比如链接、@用户等成分,同时过滤价信息中文本长度未到达预设文本长度阈值的文本信息,得到初步处理的评价信息。考虑到在评价信息中一些重要的信息可能会出现在词组的不同部分。比如“快乐的”中的“的”、“不喜欢”中的“不”,它们直接影响着词组的词性,因此,计算字级别的向量是很有必要的,进一步的,对处理后的评价信息进行分词与分字的分割操作,随后,采用word2vec对进行分隔后的评价信息进行向量训练,以生成向量矩阵。
其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量,词在词典中的位置用来作为词在矩阵中的词的索引,词向量可以捕获到文本中词的句法和语义关系。
在上述技术方案中,优选地,将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,得到评价信息的情感值,具体包括以下步骤:将向量矩阵从卷积神经网络的输入层输入;在卷积神经网络的卷积层,通过卷积计算,获得不同程度的特征词典;在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
在该技术方案中,将向量矩阵(包括子向量和词向量)从卷积神经网络的输入层输入,卷积神经网络主要包括四层,分别是输入层、卷积层、池化层和连接层。输入层中构建句子矩阵,如果一个词未出现在预先训练的词向量中,将被随机初始化一个向量值;在卷积神经网络的卷积层,设施有两种滤波器,通过卷积计算,根据向量尺寸的大小(滤波器有两种尺寸,分别是两个字和三个字),获得不同程度的特征词典;在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
其中,对于字向量,也将通过卷积层,唯一不同的是每种过滤器设置了三种尺寸,分别是两个字、三个字和四个字。
根据本发明第二方面的技术方案,提出了一种基于大量样本数据的情感评价装置,包括:确定单元,用于样本信息中任意指定领域产品的特征信息;生成单元,用于根据特征信息和预设的样本信息训练模型,生成训练数据;生成单元还用于,根据训练数据和预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;生成单元还用于,采用word2vec对评价信息进行向量化处理,以生成待评价的向量矩阵;评价单元,用于将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,得到评价信息的情感值。
根据本发明技术方案的基于大量样本数据的情感评价装置,在样本信息中获得指定领域产品评价信息的情感值,通过确定样本信息中任意指定领域产品的特征信息,对特征信息按照预设的样本信息训练模型,生成训练数据;并对训练数据按照预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;再采用word2vec(文本深度表示模型)对评价信息进行向量化处理,生成待评价的向量矩阵;将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,最终得到评价信息的情感值。提高了用户获取特定领域产品评价信息感情值的准确性和有效性,根据获取到的不同产品的评价分析结果,用户能够更好地选择产品或者制定更合理的产品营销手段。
在上述技术方案中,优选地,还包括:预设单元,用于预设指定领域产品的关键词信息,以根据关键词信息确定样本信息,其中,关键词信息包括产品名称、产品评价数据范围,产品评价时间范围。
在该技术方案中,为了确保确定样本信息中任意指定领域产品的特征信息及后续方案的顺利实施,需要事先确定样本信息,即通过预设指定领域产品的关键词信息,以根据关键词来确定样本信息。
其中,关键词信息包括但不限于产品名称、产品评价数据范围,产品评价时间范围。
在上述技术方案中,优选地,还包括:收集单元,用于收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息;提取单元,用于提取待评价信息中的多个相关词信息;确定单元还用于:确定多个相关词信息的权重值,以将权重值大于预设权重阈值的关键词信息确定为特征信息。
在该技术方案中,收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息,并提取待评价信息中的多个相关词信息,对多个相关词信息进行计算并得到权重值,将权重值和预设权重值进行比较,把权重值大于预设权重阈值的关键词信息确定为特征信息,确保了通过样本信息中任意指定领域产品确定的特征信息的有效性。
在上述技术方案中,优选地,确定单元还用于:根据特征信息确定分类模型的文本向量空间维数;基于大量样本数据的情感评价装置还包括:构造单元,用于根据文本向量空间维数,采用贝叶斯分类器构造已标记样本数据的分类模型;分类单元,用于根据分类模型,对未标记样本数据执行分类操作,以得到类别分布的未标记样本数据;训练单元,用于对类别分布的未标记样本数据和已标记样本数据执行训练操作,生成贝叶斯分类模型;操作单元,用于根据贝叶斯分类模型,重复执行分类操作与训练操作,直至生成指定数量的训练数据。
在该技术方案中,根据特征信息确定分类模型的文本向量空间维数,采用贝叶斯分类器作为基础分类器,构造已标记样本数据的分类模型,对未标记样本数据按照分类模型进行分类操作,以得到类别分布的未标记样本数据,再结合类别分布的未标记样本数据和已标记样本数据进行训练操作,以生成贝叶斯分类模型,随后重复执行分类操作与训练操作,直至生成稳定的分类模型,即得到了指定数量的训练数据。
在上述技术方案中,优选地,还包括:分割单元,用于将样本信息的发布时间分割为多个时间段;划分单元,用于根据多个时间段,将训练数据划分为多个对应的训练群组,多个对应的训练群组中包括未标记训练数据与已标记训练数据;确定单元还用于:在任意一个训练群组内,根据SVM训练模型,确定K个正向样例与K个负向样例;矫正单元,用于对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;生成单元还用于,根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息。
在该技术方案中,鉴于特定领域的产品评价信息一般会随着时间的变化有相应的波动,比如,某个新产品,刚出现阶段,用户的使用评价较高,评价内容多数为正面信息,但随着用户对它的进一步使用和了解,发现了它存在的弊端,用户的态度相应的变化,评价内容开始出现负面信息,需要将样本信息的发布时间分割为多个时间段,并根据多个时间段,将训练数据划分为多个对应的训练群组,特别的,多个对应的训练群组中包括未标记训练数据与已标记训练数据,在任意一个训练群组内,根据SVM(Support Vector Machine,支持向量机)训练模型,确定K个正向样例与K个负向样例;对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息,根据增量学习方法不难得知,只需采用生成任意一个对应的时间段内的评价信息的操作进行增量训练,便可得到不同时间内的评价信息。
在上述技术方案中,优选地,还包括:滤除单元,用于滤除评价信息中的无用成分数据;过滤单元,用于过滤评价信息中文本长度未到达预设文本长度阈值的文本信息,以得到处理后的评价信息;分割单元还用于:对处理后的评价信息进行分词与分字的分割操作;训练单元还用于:采用word2vec,对进行分隔后的所价信息进行向量训练,以生成向量矩阵,其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量。
在该技术方案中,为保证所提取的样本数据的有效性,在构建待评价的向量矩阵之前,需要先行对评价信息滤除无用成分的数据,比如链接、@用户等成分,同时过滤价信息中文本长度未到达预设文本长度阈值的文本信息,得到初步处理的评价信息,考虑到在评价信息中一些重要的信息可能会出现在词组的不同部分,比如“快乐的”中的“的”、“不喜欢”中的“不”,它们直接影响着词组的词性,因此,计算字级别的向量是很有必要的,进一步的,对处理后的评价信息进行分词与分字的分割操作,随后,采用word2vec对进行分隔后的评价信息进行向量训练,以生成向量矩阵。
其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量,词在词典中的位置用来作为词在矩阵中的词的索引,词向量可以捕获到文本中词的句法和语义关系。
在上述技术方案中,优选地,还包括:输入单元,用于将向量矩阵从卷积神经网络的输入层输入;计算单元,用于在卷积神经网络的卷积层,通过卷积计算,获得不同程度的特征词典;计算单元还用于:在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;基于大量样本数据的情感评价装置还包括:拼接单元,用于在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
在该技术方案中,在该技术方案中,将向量矩阵(包括子向量和词向量)从卷积神经网络的输入层输入,卷积神经网络主要包括四层,分别是输入层、卷积层、池化层和连接层。输入层中构建句子矩阵,如果一个词未出现在预先训练的词向量中,将被随机初始化一个向量值;在卷积神经网络的卷积层,设施有两种滤波器,通过卷积计算,根据向量尺寸的大小(滤波器有两种尺寸,分别是两个字和三个字),获得不同程度的特征词典;在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
其中,对于字向量,也将通过卷积层,唯一不同的是每种过滤器设置了三种尺寸,分别是两个字、三个字和四个字。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的基于大量样本数据的情感评价方法的流程示意图。
如图1所示,根据本发明的一个实施例的基于大量样本数据的情感评价方法,包括:步骤102,确定样本信息中任意指定领域产品的特征信息;步骤104,根据特征信息和预设的样本信息训练模型,生成训练数据;步骤106,根据训练数据和预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;步骤108,采用word2vec对评价信息进行向量化处理,以生成待评价的向量矩阵;步骤110,将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,得到评价信息的情感值。
在该实施例中,在样本信息中获得指定领域产品评价信息的情感值,通过确定样本信息中任意指定领域产品的特征信息,对特征信息按照预设的样本信息训练模型,生成训练数据;并对训练数据按照预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;再采用word2vec(文本深度表示模型)对评价信息进行向量化处理,生成待评价的向量矩阵;将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,最终得到评价信息的情感值。提高了用户获取特定领域产品评价信息感情值的准确性和有效性,根据获取到的不同产品的评价分析结果,用户能够更好地选择产品或者制定更合理的产品营销手段。
根据本发明上述实施例的基于大量样本数据的情感评价方法,还可以具有如下技术特征:
在上述实施例中,优选地,在确定样本信息中任意指定领域产品的特征信息前,还包括:预设指定领域产品的关键词信息,以根据关键词信息确定样本信息,其中,关键词信息包括产品名称、产品评价数据范围,产品评价时间范围。
在该实施例中,为了确保确定样本信息中任意指定领域产品的特征信息及后续方案的顺利实施,需要事先确定样本信息,即通过预设指定领域产品的关键词信息,以根据关键词来确定样本信息。
其中,关键词信息包括但不限于产品名称、产品评价数据范围,产品评价时间范围。
图2示出了根据本发明的另一个实施例的基于大量样本数据的情感评价方法的流程示意图。
如图2所示,根据本发明的另一个实施例的基于大量样本数据的情感评价方法,包括:步骤202,收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息;步骤204,提取待评价信息中的多个相关词信息;步骤206,确定多个相关词信息的权重值,以将权重值大于预设权重阈值的关键词信息确定为特征信息。
在该实施例中,收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息,并提取待评价信息中的多个相关词信息,对所多个相关词信息进行计算并得到权重值,将权重值和预设权重值进行比较,把权重值大于预设权重阈值的关键词信息确定为特征信息,确保了通过样本信息中任意指定领域产品确定的特征信息的有效性。
其中,提取待评价信息中的多个相关词信息,对多个相关词信息进行计算并得到权重值,可以首先假设用户输入的产品名为w,将包含w的句子作为属于该产品的一种类别,通过使用去重、分词、去停用词等进行预处理,并计算该类别的词频大小,包括该类别中所有相关词的词频总和nc以及相关词的频数nw,c;对全局数据进行处理,即对所有的数据进行预处理操作,计算相关词的频数nw以及所有类别下的词频总数n,根据以上参数,对相关词的权重值计算公式如下:
图3示出了根据本发明的另一个实施例的基于大量样本数据的情感评价方法的流程示意图。
如图3所示,根据本发明的另一个实施例的基于大量样本数据的情感评价方法,包括:步骤302,根据特征信息确定分类模型的文本向量空间维数;步骤304,根据文本向量空间维数,采用贝叶斯分类器构造已标记样本数据的分类模型;步骤306,根据分类模型,对未标记样本数据执行分类操作,以得到类别分布的未标记样本数据;步骤308,对类别分布的未标记样本数据和已标记样本数据执行训练操作,生成贝叶斯分类模型;步骤310,根据贝叶斯分类模型,重复执行分类操作与训练操作,直至生成指定数量的训练数据。
在该实施例中,根据特征信息确定分类模型的文本向量空间维数,采用贝叶斯分类器作为基础分类器,构造已标记样本数据的分类模型,对未标记样本数据按照分类模型进行分类操作,以得到类别分布的未标记样本数据,再结合类别分布的未标记样本数据和已标记样本数据进行训练操作,以生成贝叶斯分类模型,随后重复执行分类操作与训练操作,直至生成稳定的分类模型,即得到了指定数量的训练数据。
图4示出了根据本发明的另一个实施例的基于大量样本数据的情感评价方法的流程示意图。
如图4所示,根据本发明的另一个实施例的基于大量样本数据的情感评价方法,包括:步骤402,将样本信息的发布时间分割为多个时间段;步骤404,根据多个时间段,将训练数据划分为多个对应的训练群组,多个对应的训练群组中包括未标记训练数据与已标记训练数据;步骤406,在任意一个训练群组内,根据SVM训练模型,确定K个正向样例与K个负向样例;步骤408,对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;步骤410,根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息。
在该实施例中,鉴于特定领域的产品评价信息一般会随着时间的变化有相应的波动,比如,某个新产品,刚出现阶段,用户的使用评价较高,评价内容多数为正面信息,但随着用户对它的进一步使用和了解,发现了它存在的弊端,用户的态度相应的变化,评价内容开始出现负面信息,需要将样本信息的发布时间分割为多个时间段,并根据分割后所得多个时间段,将训练数据划分为多个对应的训练群组,特别的,多个对应的训练群组中包括未标记训练数据与已标记训练数据,在任意一个训练群组内,根据SVM(SupportVectorMachine,支持向量机)训练模型,确定K个正向样例与K个负向样例;对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息,根据增量学习方法不难得知,只需采用生成任意一个对应的时间段内的评价信息的操作进行增量训练,便可得到不同时间内的评价信息。
图5示出了根据本发明的另一个实施例的基于大量样本数据的情感评价方法的流程示意图。
如图5所示,根据本发明的另一个实施例的基于大量样本数据的情感评价方法,包括:步骤502,滤除评价信息中的无用成分数据;步骤504,过滤评价信息中文本长度未到达预设文本长度阈值的文本信息,以得到处理后的评价信息;步骤506,对处理后的评价信息进行分词与分字的分割操作;步骤508,采用word2vec,对进行分隔后的评价信息进行向量训练,以生成向量矩阵,其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量。
在该实施例中,为保证所提取的样本数据的有效性,在构建待评价的向量矩阵之前,需要先行对评价信息滤除无用成分的数据,比如链接、@用户等成分,同时过滤价信息中文本长度未到达预设文本长度阈值的文本信息,得到初步处理的评价信息。考虑到在评价信息中一些重要的信息可能会出现在词组的不同部分。比如“快乐的”中的“的”、“不喜欢”中的“不”,它们直接影响着词组的词性,因此,计算字级别的向量是很有必要的,进一步的,对处理后的评价信息进行分词与分字的分割操作,随后,采用word2vec对进行分隔后的评价信息进行向量训练,以生成向量矩阵。
其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量,词在词典中的位置用来作为词在矩阵中的词的索引,词向量可以捕获到文本中词的句法和语义关系。
图6示出了根据本发明的另一个实施例的基于大量样本数据的情感评价方法的流程示意图。
如图6所示,根据本发明的另一个实施例的基于大量样本数据的情感评价方法,包括:步骤602,将向量矩阵从卷积神经网络的输入层输入;步骤604,在卷积神经网络的卷积层,通过卷积计算,获得不同程度的特征词典;步骤606,在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;步骤608,在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
在该技术方案中,在该技术方案中,将向量矩阵(包括子向量和词向量)从卷积神经网络的输入层输入,卷积神经网络主要包括四层,分别是输入层、卷积层、池化层和连接层。输入层中构建句子矩阵,如果一个词未出现在预先训练的词向量中,将被随机初始化一个向量值;在卷积神经网络的卷积层,设施有两种滤波器,通过卷积计算,根据向量尺寸的大小(滤波器有两种尺寸,分别是两个字和三个字),获得不同程度的特征词典;在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
其中,对于字向量,也将通过卷积层,唯一不同的是每种过滤器设置了三种尺寸,分别是两个字、三个字和四个字。
图7示出了根据本发明的一个实施例的基于大量样本数据的情感评价装置的示意框图。
如图7所示,根据本发明的一个实施例的基于大量样本数据的情感评价装置700,包括:确定单元702,用于样本信息中任意指定领域产品的特征信息;生成单元704,用于根据特征信息和预设的样本信息训练模型,生成训练数据;生成单元704还用于,根据训练数据和预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;生成单元704还用于,采用word2vec对评价信息进行向量化处理,以生成待评价的向量矩阵;评价单元706,用于将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,得到评价信息的情感值。
根据本发明技术方案的基于大量样本数据的情感评价装置700,在样本信息中获得指定领域产品评价信息的情感值,通过确定样本信息中任意指定领域产品的特征信息,对特征信息按照预设的样本信息训练模型,生成训练数据;并对训练数据按照预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;再采用word2vec(文本深度表示模型)对评价信息进行向量化处理,生成待评价的向量矩阵;将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,最终得到评价信息的情感值。提高了用户获取特定领域产品评价信息感情值的准确性和有效性,根据获取到的不同产品的评价分析结果,用户能够更好地选择产品或者制定更合理的产品营销手段。
在上述技术方案中,优选地,还包括:预设单元708,用于预设指定领域产品的关键词信息,以根据关键词信息确定样本信息,其中,关键词信息包括产品名称、产品评价数据范围,产品评价时间范围。
在该技术方案中,为了确保确定样本信息中任意指定领域产品的特征信息及后续方案的顺利实施,需要事先确定样本信息,即通过预设指定领域产品的关键词信息,以根据关键词来确定样本信息。
其中,关键词信息包括但不限于产品名称、产品评价数据范围,产品评价时间范围。
在上述技术方案中,优选地,还包括:收集单元710,用于收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息;提取单元712,用于提取待评价信息中的多个相关词信息;确定单元702还用于:确定多个相关词信息的权重值,以将权重值大于预设权重阈值的关键词信息确定为特征信息。
在该技术方案中,收集包含任意指定领域产品的关键词信息的样本信息,以作为任意指定领域产品的待评价信息,并提取待评价信息中的多个相关词信息,对多个相关词信息进行计算并得到权重值,将权重值和预设权重值进行比较,把权重值大于预设权重阈值的关键词信息确定为特征信息,确保了通过样本信息中任意指定领域产品确定的特征信息的有效性。
在上述技术方案中,优选地,确定单元702还用于:根据特征信息确定分类模型的文本向量空间维数;基于大量样本数据的情感评价装置700还包括:构造单元714,用于根据文本向量空间维数,采用贝叶斯分类器构造已标记样本数据的分类模型;分类单元716,用于根据分类模型,对未标记样本数据执行分类操作,以得到类别分布的未标记样本数据;训练单元718,用于对类别分布的未标记样本数据和已标记样本数据执行训练操作,生成贝叶斯分类模型;操作单元720,用于根据贝叶斯分类模型,重复执行分类操作与训练操作,直至生成指定数量的训练数据。
在该技术方案中,根据特征信息确定分类模型的文本向量空间维数,
采用贝叶斯分类器作为基础分类器,构造已标记样本数据的分类模型,对未标记样本数据按照分类模型进行分类操作,以得到类别分布的未标记样本数据,再结合类别分布的未标记样本数据和已标记样本数据进行训练操作,以生成贝叶斯分类模型,随后重复执行分类操作与训练操作,直至生成稳定的分类模型,即得到了指定数量的训练数据。
在上述技术方案中,优选地,还包括:分割单元722,用于将样本信息的发布时间分割为多个时间段;划分单元724,用于根据多个时间段,将训练数据划分为多个对应的训练群组,多个对应的训练群组中包括未标记训练数据与已标记训练数据;确定单元702还用于:在任意一个训练群组内,根据SVM训练模型,确定K个正向样例与K个负向样例;矫正单元726,用于对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;生成单元704还用于,根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息。
在该技术方案中,鉴于特定领域的产品评价信息一般会随着时间的变化有相应的波动,比如,某个新产品,刚出现阶段,用户的使用评价较高,评价内容多数为正面信息,但随着用户对它的进一步使用和了解,发现了它存在的弊端,用户的态度相应的变化,评价内容开始出现负面信息,需要将样本信息的发布时间分割为多个时间段,并根据多个时间段,将训练数据划分为多个对应的训练群组,特别的,多个对应的训练群组中包括未标记训练数据与已标记训练数据,在任意一个训练群组内,根据SVM(Support Vector Machine,支持向量机)训练模型,确定K个正向样例与K个负向样例;对K个正向样例与K个负向样例进行人工矫正,形成任意一个训练群组的训练样本;根据训练样本,对对应的训练群组内的未标记训练数据进行类别预测,以生成任意一个对应的时间段内的评价信息,根据增量学习方法不难得知,只需采用生成任意一个对应的时间段内的评价信息的操作进行增量训练,便可得到不同时间内的评价信息。
在上述技术方案中,优选地,还包括:滤除单元728,用于滤除评价信息中的无用成分数据;过滤单元730,用于过滤评价信息中文本长度未到达预设文本长度阈值的文本信息,以得到处理后的评价信息;分割单元722还用于:对处理后的评价信息进行分词与分字的分割操作;训练单元718还用于:采用word2vec,对进行分隔后的评价信息进行向量训练,以生成向量矩阵,其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量。
在该技术方案中,为保证所提取的样本数据的有效性,在构建待评价的向量矩阵之前,需要先行对评价信息滤除无用成分的数据,比如链接、@用户等成分,同时过滤价信息中文本长度未到达预设文本长度阈值的文本信息,得到初步处理的评价信息。考虑到在评价信息中一些重要的信息可能会出现在词组的不同部分。比如“快乐的”中的“的”、“不喜欢”中的“不”,它们直接影响着词组的词性,因此,计算字级别的向量是很有必要的,进一步的,对处理后的评价信息进行分词与分字的分割操作,随后,采用word2vec对进行分隔后的评价信息进行向量训练,以生成向量矩阵。
其中,向量矩阵的列向量为词向量,向量矩阵中的行向量为字向量,词在词典中的位置用来作为词在矩阵中的词的索引,词向量可以捕获到文本中词的句法和语义关系。
在上述技术方案中,优选地,还包括:输入单元732,用于将向量矩阵从卷积神经网络的输入层输入;计算单元734,用于在卷积神经网络的卷积层,通过卷积计算,获得不同程度的特征词典;计算单元734还用于:在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;基于大量样本数据的情感评价装置还包括:拼接单元736,用于在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
在该技术方案中,在该技术方案中,将向量矩阵(包括子向量和词向量)从卷积神经网络的输入层输入,卷积神经网络主要包括四层,分别是输入层、卷积层、池化层和连接层。输入层中构建句子矩阵,如果一个词未出现在预先训练的词向量中,将被随机初始化一个向量值;在卷积神经网络的卷积层,设施有两种滤波器,通过卷积计算,根据向量尺寸的大小(滤波器有两种尺寸,分别是两个字和三个字),获得不同程度的特征词典;在卷积神经网络的池化层,计算特征词典中每个特征的最大值,并根据最大值,生成特征向量;在卷积神经网络的连接层,将向量矩阵中的词向量与特征向量进行拼接,以得到评价信息的情感值。
其中,对于字向量,也将通过卷积层,唯一不同的是每种过滤器设置了三种尺寸,分别是两个字、三个字和四个字。
图8示出了根据本发明的一个实施例的基于大量样本数据的微博特定领域产品情感评价系统的结构示意图。
如图8所示,根据本发明的一个实施例的基于大量样本数据的微博特定领域产品情感评价系统800:包括:
(1)配置管理模块,主要实现产品词的配置以及数据配置等问题。
(2)特征选择模块,此模块主要是提取出关于特定领域产品评价信息中的特征词,目的是为了降低文本空间维度,最后将提取的特征输入到下一个步骤中,便于构造大量的训练数据。
(3)构造训练数据模块,在此模块中,主要应用了半监督学习的方法进行样本训练,为文本分类提供训练数据。
(4)特定文本分类模块,利用上一步骤中得到的训练数据,提出一种基于增量学习的文本分类方法,并考虑时间因素对文本文类产生的影响。最后可输出不同时间段内关于某个产品的评论信息。
(5)基于汉字和词组的向量构建模型,主要实现词向量和字向量的构建,并作为卷积神经网络的输入。
(6)利用卷积神经网络实现情感分析模块,在此模块中主要是利用卷积神经网络,从输入层、卷积层、池化层和连接层来实现情感分类,最后输出每条评论信息的情感值。
图9示出了根据本发明的一个实施例的基于大量样本数据的微博特定领域产品情感评价方法的追踪流程图。
如图9所示,根据本发明的一个实施例的基于大量样本数据的微博特定领域产品情感评价方法,包括:
(1)配置管理模块是对爬取下来的微博数据进行管理,并配置用户所需要的数据。
(2)微博特定领域文本分类模块,根据用户配置的数据,可对不同时间段内的文本进行分类。
(3)产品评价分析模块,是根据文本分类模型中得到的数据进行情感分析,最后将结果进行输出。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,提高了用户获取特定领域产品评价信息感情值的准确性和有效性,根据获取到的不同产品的评价分析结果,用户能够更好地选择产品或者制定更合理的产品营销手段。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。