CN114970542A

CN114970542A - 一种基于文本情感曲线的分析方法

Info

Publication number: CN114970542A
Application number: CN202210522355.1A
Authority: CN
Inventors: 田然; 李瑾辉; 相增辉; 庞渊源; 苏杨; 王义成; 王磊; 陈轩; 陈鑫; 朱晓鸿; 王鑫
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-30

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于文本情感曲线的分析方法，包括获取文本信息；对文本信息进行预处理，得到训练集和测试集；构建学习模型；使用训练集和测试集对学习模型进行训练和测试，得到监督学习模型；对待测文本进行预处理，得到待测特征；将待测特征输入监督学习模型进行训练，得到情感曲线图；对情感曲线图进行分析，得到分析结果，本发明通过建立监督学习模型可实现对待测文本进行自动分析，生成情感曲线图，解决了现有的文本情感分析方法的人工成本高的问题。

Description

一种基于文本情感曲线的分析方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于文本情感曲线的分析方法。

背景技术

文本情感曲线是一种基于文本情感分析的具体情感模式，可以通过情感曲线展示文本的具体情感变化，一般用于长文本的情感分析。

目前，现有技术公开了一种文本情感分析方法通过人工抓取数据进行标注得到情感词典，根据情感词典对文本的情感表达将词语进行正负向和强弱程度区分，人工成本高。

发明内容

本发明的目的在于提供一种基于文本情感曲线的分析方法，旨在解决现有的文本情感分析方法的人工成本高的问题。

为实现上述目的，本发明提供了一种基于文本情感曲线的分析方法，包括以下步骤：

获取文本信息；

对所述文本信息进行预处理，得到训练集和测试集；

构建学习模型；

使用所述训练集和所述测试集对所述学习模型进行训练和测试，得到监督学习模型；

对待测文本进行预处理，得到待测特征；

将所述待测特征输入所述监督学习模型进行训练，得到情感曲线图；

对所述情感曲线图进行分析，得到分析结果。

其中，所述对所述文本信息进行预处理，得到训练集和测试集的具体方式为：

去除所述文本信息中的停用词，得到过滤文本；

标记所述过滤文本的权重，得到权重文本；

将所述权重文本进行划分，得到训练集和测试集。

其中，所述标记所述过滤文本的权重，得到权重文本的具体方式为：

标记所述过滤文本中的关键词；

基于所述关键词提取所述过滤文本中的前缀词，得到权重文本。

其中，所述使用所述训练集和所述测试集对所述学习模型进行训练和测试，得到监督学习模型的具体方式为：

使用所述训练集对所述学习模型进行训练，得到训练模型；

使用所述测试集对所述训练模型进行测试，测试通过，得到监督学习模型。

其中，所述对待测文本进行预处理，得到待测特征的具体方式为：

去除所述待测文本中的停用词，得到去除文本；

对所述去除文本进行特征提取，得到待测特征。

本发明的一种基于文本情感曲线的分析方法，通过获取文本信息；对所述文本信息进行预处理，得到训练集和测试集；构建学习模型；使用所述训练集和所述测试集对所述学习模型进行训练和测试，得到监督学习模型；对待测文本进行预处理，得到待测特征；将所述待测特征输入所述监督学习模型进行训练，得到情感曲线图；对所述情感曲线图进行分析，得到分析结果，本发明通过建立监督学习模型可实现对待测文本进行自动分析，生成情感曲线图，解决了现有的文本情感分析方法的人工成本高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于文本情感曲线的分析方法的流程图。

图2是对所述文本信息进行预处理，得到训练集和测试集的流程图。

图3是使用所述训练集和所述测试集对所述学习模型进行训练和测试，得到监督学习模型的流程图。

图4是对待测文本进行预处理，得到待测特征的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图4，本发明提供一种基于文本情感曲线的分析方法，包括以下步骤：

S1获取文本信息；

具体方式为：

S11从文字数据、图片数据和视频数据中导出文字，分别得到第一分支信息、第二分支信息和第三分支信息；

具体的，从文字数据中获取导出文字，得到第一分支信息的具体方式为：

S101获取文字数据；

具体的，所述文字数据可从网站上下载，或直接输入。

S102将所述文字数据导出，得到第一分支信息。

从图片数据中获取导出文字，得到第二分支信息的具体方式为：

S111获取图片数据；

具体的，所述图片数据可从网站上下载，或直接导入。

S112将所述图片数据中的文字提取并导出，得到第二分支信息；

具体的，采用OCR文字识别计数对所述图片数据中的文字进行识别，得到第一识别数据；将所述第一识别数据提取并导出，得到第二分支信息。

从视频数据中获取导出文字，得到第三分支信息的具体方式为：

S121获取视频数据；

具体的，所述视频数据可从网站上下载，或直接导入。

S122提取所述视频数据的关键帧图片；

具体的，以所述视频数据的字幕跳转时间来提取所述视频数据的关键帧。

S123将所述关键帧图片中的文字提取并导出，得到提取文本；

具体的，采用OCR文字识别计数对所述关键帧图片中的文字进行识别，得到第二识别数据；将所述第二识别数据提取并导出，得到提取文本。

S124删除所述提取文本中的重读语句，得到第三分支信息。

具体的，识别所述提取文字中的语句重复项；将所述语句重复项中的任意一项保留，其余项删除，得到过滤信息；对所述过滤信息进行格式调整，得到第三分支信息。

S12将所述第一分支信息、所述第二分支信息和所述第三分支信息合并，得到文本信息。

S2对所述文本信息进行预处理，得到训练集和测试集；

具体方式为：

S21去除所述文本信息中的停用词，得到过滤文本；

具体的，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为StopWords(停用词)。

S22标记所述过滤文本的权重，得到权重文本；

具体的，标记所述过滤文本中的关键词；基于所述关键词提取所述过滤文本中的前缀词，得到权重文本。所述前缀词包括前缀情感词、前缀程度词和前缀否定词。

所述前缀情感词包括“好玩”、“好看”、“好开心”等等；

所述前缀程度词包括“更”、“正是”、“特别是”、“真正”、“根本”、“最”等等；

所述前缀否定次包括“不是”、“没有”等等。

S23将所述权重文本进行划分，得到训练集和测试集。

具体的，所述训练集和所述测试集的比例为8：2。

S3构建学习模型；

具体的，所述学习模型为基于Boosting算法的SVM混合情绪分析模型，性能显著优于单独的SVM模型。

基于SVM的文本情感分析方法被认为是最好的情感分析方法，该方法泛化错误率低，计算开销不大，而且对于训练样本较小的文本可以得到很好的情感分析效果，对高维数据的处理效果良好，能够得到较低的错误率，但该方法对参数调节和核函数的选择敏感。

S4使用所述训练集和所述测试集对所述学习模型进行训练和测试，得到监督学习模型；

具体方式为：

S41使用所述训练集对所述学习模型进行训练，得到训练模型；

S42使用所述测试集对所述训练模型进行测试，测试通过，得到监督学习模型。

具体的，所述监督学习模型可根据文本中的语句中表达的前缀情感词、前缀程度词和前缀否定词准确判断出表达情感，适用于语句中出现多重否定、多重肯定的情况，情感分析的准确率较高。

S5对待测文本进行预处理，得到待测特征；

具体方式为：

S51去除所述待测文本中的停用词，得到去除文本；

具体的，去除所述待测文本中的停用词，可避免停用词对待测文本的情感分析的准确率造成影响。

S52对所述去除文本进行特征提取，得到待测特征。

具体的，提取所述去除文本中的关键词，将所述关键词作为待测特征，以达到去除所述去除文本中的冗杂内容的目的。

S6将所述待测特征输入所述监督学习模型进行训练，得到情感曲线图；

S7对所述情感曲线图进行分析，得到分析结果。

具体的，在步骤对所述情感曲线图进行分析，得到分析结果之后，所述方法还包括：

建立结果储存库；基于所述分析结果生成分析报告，并将所述分析报告储存在所述结果储存库内；根据所述分析报告的生成时间建立索引条件；基于所述索引条件建立检索框。

在对所述分析报告进行调用时，通过在所述检索框内输入调用时间，所述检索框基于所述调用时间与所述索引条件进行匹配，得到目标分析报告。

本发明的一种基于文本情感曲线的分析方法，通过获取文字数据；将所述文字数据导出，得到第一分支信息获取文本信息；获取图片数据；将所述图片数据中的文字提取并导出，得到第二分支信息；获取视频数据；提取所述视频数据的关键帧图片；将所述关键帧图片中的文字提取并导出，得到提取文本；删除所述提取文本中的重读语句，得到第三分支信息，将所述第一分支信息、所述第二分支信息和所述第三分支信息合并，得到文本信息，去除所述文本信息中的停用词，得到过滤文本；标记所述过滤文本的权重，得到权重文本；将所述权重文本进行划分，得到训练集和测试集。构建学习模型；使用所述训练集对所述学习模型进行训练，得到训练模型；使用所述测试集对所述训练模型进行测试，测试通过，得到监督学习模型。去除所述待测文本中的停用词，得到去除文本；对所述去除文本进行特征提取，得到待测特征。将所述待测特征输入所述监督学习模型进行训练，得到情感曲线图；对所述情感曲线图进行分析，得到分析结果。建立结果储存库；基于所述分析结果生成分析报告，并将所述分析报告储存在所述结果储存库内；根据所述分析报告的生成时间建立索引条件；基于所述索引条件建立检索框。在对所述分析报告进行调用时，通过在所述检索框内输入调用时间，所述检索框基于所述调用时间与所述索引条件进行匹配，得到目标分析报告，解决了现有的文本情感分析方法的人工成本高的问题。

以上所揭露的仅为本发明一种基于文本情感曲线的分析方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于文本情感曲线的分析方法，其特征在于，包括以下步骤：

获取文本信息；

对所述文本信息进行预处理，得到训练集和测试集；

构建学习模型；

对待测文本进行预处理，得到待测特征；

对所述情感曲线图进行分析，得到分析结果。

2.如权利要求1所述的基于文本情感曲线的分析方法，其特征在于，

所述对所述文本信息进行预处理，得到训练集和测试集的具体方式为：

去除所述文本信息中的停用词，得到过滤文本；

标记所述过滤文本的权重，得到权重文本；

将所述权重文本进行划分，得到训练集和测试集。

3.如权利要求2所述的基于文本情感曲线的分析方法，其特征在于，

所述标记所述过滤文本的权重，得到权重文本的具体方式为：

标记所述过滤文本中的关键词；

4.如权利要求1所述的基于文本情感曲线的分析方法，其特征在于，

所述使用所述训练集和所述测试集对所述学习模型进行训练和测试，得到监督学习模型的具体方式为：

使用所述训练集对所述学习模型进行训练，得到训练模型；

5.如权利要求1所述的基于文本情感曲线的分析方法，其特征在于，

所述对待测文本进行预处理，得到待测特征的具体方式为：

去除所述待测文本中的停用词，得到去除文本；

对所述去除文本进行特征提取，得到待测特征。