CN116522932A

CN116522932A - 一种文本分析方法及系统

Info

Publication number: CN116522932A
Application number: CN202310756292.0A
Authority: CN
Inventors: 薛玲; 王一杰; 伊沙晨子
Original assignee: Yunmu Future Technology Hunan Co ltd
Current assignee: Yunmu Future Technology Hunan Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-08-01
Anticipated expiration: 2043-06-26
Also published as: CN116522932B

Abstract

本发明涉及情感分析技术领域，具体公开了一种文本分析方法，包括：从网络数据中获取若干样本文本，提取所述样本文本中的情感词，随机为每个所述情感词设定初始情感值，并将文本中所有情感词的情感值进行累加以得到该文本的情感极性，形成初始的情感词库；对样本文本进行情感趋向的人工标注，以得到文本的人工标注极性，将情感极性与人工标注极性进行比较，当两者不符时，对情感词库中的情感词对应的情感值进行修正，以得到修正后的情感词库；根据修正后的情感词库对所述网络数据进行情感极性计算。本发明能够得到具有高分类准确率的情感词库，从而得到较为准确的文本情感极性值。

Description

一种文本分析方法及系统

技术领域

本发明具体涉及涉及情感分析技术领域，具体是一种文本分析方法及系统。

背景技术

文本情感分析，又称意见挖掘，是指对带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程，涉及到人工智能、机器学习、数据挖掘等多个领域，是自然语言处理研究领域的一个重点方向。传统的情感分析方法主要是基于机器学习的情感分析方法。

基于机器学习的情感分析方法主要分为基于传统机器学习的情感分析方法和基于深度学习的情感分方法。基于传统机器学习的情感方法一般采用标准分类器以及这些分类器的组合或者改进，最常用的是支持向量机，这类分类器需要通过人工设计的特征进行训练。基于传统机器学习的方法相较于构建情感词典的方法虽然有了一定的进步，但是局限性也比较明显。基于传统机器学习的方法主要是依赖分类器，还是需要人工对文本特征进行标记，而且基于传统机器学习的方法是计算机根据已有程序对文本进行重复机械的操作，效率不高，无法适应大数据时代的要求。基于深度学习的情感分析方法主要是通过使用深度神经网络构建模型，使用大量数据训练模型，最后用训练好的模型对待分析的文本进行情感分析。基于深度学习的情感分析方法主要使用的网络模型有全连接神经网络、卷积神经网络、循环神经网络、长短时记忆网络等。这种方法在进行文本情感分析时不仅能自动提取文本特征，还能在训练和执行过程中自动学习并训练模型，与情感词典和传统机器学习模型相比，它的优越性显而易见。但是使用这些神经网络模型不可避免的使用到词向量嵌入技术，而目前的词向量主要是通过构建语言模型获得的，此类方法主要是基于分布假设进行训练的。分布假设认为上下文相似的词具有相似的语义，这样的假设有利于构建语言模型，但是对于情感分析来说，词向量的区分度不够明显。例如：“好”和“坏”是一对词性相反的词，但是基于分布假设的模型会认为这两个词常常出现在相似的位置，因此这两个词应该具有相似的词向量，这样的词向量对情感极性特征的表示显然是不够的，使用在情感处理任务中缺点明显。同时，CNN、RNN、LSTM等模型的特征抽取能力弱于基于注意力机制的Transformer模型。

卷积神经网络，长短期记忆网络、注意力机制等模型在自然语言领域得到了广泛研究与应用，其中也包含了在文本情感分析领域的应用，这些方法可以自主学习文本信息高维度的、深层次的情感特征信息，可以进一步提高分析的准确度，但是这些方法会存在语义角色重叠、高维度文本词向量训练中难以收敛的问题，并且由于情感词的判断需要代入到具体场景中才能准确识别寓意，传统的模型仅仅关注情感词本身，无法关注到识别的文本，因此导致识别准确率不高。

发明内容

本发明的目的在于提供一种文本分析方法及系统，以解决上述背景技术中提出的存在语义角色重叠、高维度文本词向量训练中难以收敛，准确率不高等问题。

为实现上述目的，本发明提供如下技术方案：

一种文本分析方法，包括以下步骤：

S10、从网络数据中获取若干样本文本，提取所述样本文本中的情感词，随机为每个所述情感词设定初始情感值，并将文本中所有情感词的情感值进行累加以得到该文本的情感极性，形成初始的情感词库；

S20、对样本文本进行情感趋向的人工标注，以得到文本的人工标注极性，将情感极性与人工标注极性进行比较，当两者不符时，对情感词库中的情感词对应的情感值进行修正，以得到修正后的情感词库；

S30、根据修正后的情感词库对所述网络数据进行情感极性计算。

在一个具体实施方式中，所述样本文本为根据待研判的关键词得到的特定领域的文本数据。

在一个具体实施方式中，从网络数据中获取样本文本的方式为通过爬虫软件爬取网络数据中的文本，在爬取网络数据过程中，按照关键词进行筛选，以得到特定领域的文本数据。

在一个具体实施方式中，按照关键词进行筛选的方法，包括以下步骤：

S11、获取用户输入的目标关键词数据；

S12、判断所述目标关键词数据中是否包含预设数量的第一目标地址信息；

S13、确定所述目标关键词数据的着陆页，所述目标关键词数据的着陆页包括与目标关键词数据相匹配的特定领域的文本数据。

在一个具体实施方式中，文本的情感极性的计算公式为：

，

其中：表示文本的情感极性，若/>大于0，则表示/>为正向情感文本，反之则为负向情感文本，/>表示文本中包含的情感词的总数；/>表示文本中第/>个情感词的情感值。

在一个具体实施方式中，步骤S20中，对情感词库进行修正的方法，包括以下步骤：

S21、按照种群编码规则对若干样本文本进行编码得到原始种群，所述编码规则为：按照情感词出现的顺序对每个样本文本对应的情感词库进行编码，将每个编码后的情感词库视为种群中的一个个体，相应的，情感词库中的每个情感词均被映射为个体中的基因；

S22、对所述原始种群中的每个个体进行变异操作，将所述原始种群和变异后的种群进行混合，形成初始种群；

S23、计算所述初始种群中每个个体的适应度值，将适应度较高的预设数量的个体进行保留作为父代种群；

S24、随机从父代种群中选择两个个体进行染色体交叉操作，产生对应的子代个体，并将子代个体进行变异操作后与未变异的子代个体进行混合形成子代种群；

S25、循环执行步骤S23-S24，直到确保预设数量的个体的情感极性均与工标注极性符合时，将该预设数量的个体中具有相同情感词的情感值进行求平均得到修正情感值，以得到修正后的情感词库。

在一个具体实施方式中，所述步骤S24之前还包括，将适应度值最高的个体不进行变异操作。

在一个具体实施方式中，计算个体的适应度值的方法为：

，

其中，表示利用种群中的个体对第/>条文本进行预测时的准确度，/>表示惩罚系数，若文本分类正确，则情感词库对应个体的适应度值加1，否则，适应度值减去一个惩罚值。

在一个具体实施方式中，步骤S30中，根据修正后的情感词库对所述网络数据进行情感极性计算包括以下步骤：

S31、获取网络数据中所有文本的情感极性值；

S32、计算所有文本的情感极性值的平均值；

S33、判断情感极性值的平均值是否大于0，若是，该情感为积极，否则为消极。

本发明同时提供一种文本分析系统，包括：

词库构建模块，用于从网络数据中获取若干样本文本，提取所述样本文本中的情感词，随机为每个所述情感词设定初始情感值，并将文本中所有情感词的情感值进行累加以得到该文本的情感极性，形成初始的情感词库；

修正模块，用于对样本文本进行情感趋向的人工标注，以得到文本的人工标注极性，将情感极性与人工标注极性进行比较，当两者不符时，对情感词库中的情感词对应的情感值进行修正，以得到修正后的情感词库；

数据分析模块，用于根据修正后的情感词库对所述网络数据进行情感极性计算。

与现有技术相比，本发明的有益效果是：本发明通过提取网络数据的文本情感词，利用情感词构建情感词库和计算文本的情感极性，并将计算结果进行修正，以得到具有高分类准确率的情感词库，从而得到较为准确的文本情感极性值。

附图说明

图1为本发明的文本分析方法的流程图。

图2为本发明的文本分析系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

文本情感分析，又称意见挖掘，是指对带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程，涉及到人工智能、机器学习、数据挖掘等多个领域，是自然语言处理研究领域的一个重点方向。传统的情感分析方法主要分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。

基于情感词典的情感分析方法基本原理是：①根据经验将广泛使用的情感词进行归纳整理，将这些情感词以及对应的词性(如积极(positive)和消极(negative))或词性打分(如0表示中性，打分负数表示消极，打分正数表示积极，打分越高，词性越强)整合为情感词典；②待处理文本输入后与词典内容进行匹配，寻找文本中与情感词典中重合的情感词，通过极性统计、打分加权等方法判断文本的情感极性。但是情感词典中的情感词覆盖率较低，无法结合语境、语义，也无法识别同义词、近义词等，主要依赖人工统计文本中情感词出现的次数和打分，非常耗时耗力，而且人工打分的个人倾向对情感分析效果的影响很大。

卷积神经网络，长短期记忆网络、注意力机制等模型在自然语言领域得到了广泛研究与应用，其中也包含了在文本情感分析领域的应用，这些方法可以自主学习文本信息高维度的、深层次的情感特征信息，可以进一步提高分析的准确度，但是这些方法会存在语义角色重叠、高维度文本词向量训练中难以收敛，准确率不高等问题。

基于此，请参阅图1，本发明实施例中，一种文本分析方法，包括以下步骤：

S10、从网络数据中获取若干样本文本，提取所述样本文本中的情感词，随机为每个所述情感词设定初始情感值，并将文本中所有情感词的情感值进行累加以得到该文本的情感极性，形成初始的情感词库,其中，采取随机方式生成的初始情感值表示一种情感趋向，本实施例中，初始情感值为-10到10之间的整数，正值表示正向的情感趋向，负值则表示负向的情感趋向，10和-10分别代表了最高的正向和负向情感倾向；

在本发明实施例步骤S10中，所述文本包括内网民发布或主流媒体发布的关于评论的文章、话题、发帖等内容；

进一步的，步骤S10中，还包括有对文本进行预处理步骤，所述预处理步骤为：将所述文本进行数据清洗和数据整理，以对文本进行重新审查和校验，删除文本中的重复信息以及纠正文本中存在的错误，使文本保持一致性；

再进一步的，步骤S10中，从网络数据中获取文本的方式为通过爬虫软件爬取网络数据中的文本，在爬取网络数据过程中，按照关键词进行筛选，以得到特定领域的文本数据，其中，按照关键词进行筛选的方法，包括以下步骤：

S11、获取用户输入的目标关键词数据；

当所述目标关键词数据中包含所述预设数量的第一目标地址信息时，判断所述预设数量的第一目标地址信息是否对应有目标关联参数；

当所述预设数量的第一目标地址信息对应有所述目标关联参数时，将所述预设数量的第一目标地址信息转换为第二目标地址信息；

S13、将所述第二目标地址信息嵌入到查询URL中，将嵌入所述第二目标地址信息的查询URL所对应的页面确定为所述目标关键词数据的着陆页，所述目标关键词数据的着陆页包括与目标关键词数据相匹配的特定领域的文本数据。

还有，在本发明实施例步骤S10中，提取文本中的情感词的方式为：提取文字数据中出现超过预设频率的词作为情感词；

S20、对样本文本进行情感趋向的人工标注，以得到文本的人工标注极性，将情感极性与人工标注极性进行比较，当两者不符时，对情感词库中的情感词对应的情感值进行修正，以得到修正后的情感词库，文本的情感极性的具体计算公式为：

，

需要说明的是，在本发明实施例步骤S20中，对情感词库进行修正的方法，包括以下步骤：

S22、对所述原始种群中的每个个体进行变异操作，将所述原始种群和变异后的种群进行混合，形成初始种群；需要说明的是，本实施例的变异操作是对映射为基因的每个情感词的情感值进行操作，使其在每个文本中具有不同的情感值。由于同一情感词在不同的语境中可能会被解读为不同的含义，因此其情感可能就是消极的也可能是积极的，并且也会反应不同的程度。本实施例通过变异操作，使得在利用遗传算法进行计算时，能够考虑到每一种情况，从而在最终确定情感值时较为客观。

S24、随机从父代种群中选择两个个体进行染色体交叉操作，产生对应的子代个体，并将子代个体进行变异操作后与未变异的子代个体进行混合形成子代种群；考虑到情感词在同一语境下的唯一性，本实施例在生成子代时，染色体在重组时只进行交叉操作，不进行变异操作，能够有意识的保留可能存在的最优结果。优选的，将适应度值最高的个体不进行变异操作。

而后通过对子代的变异操作使得在不影响最优结果的前提下，进一步进行语境扩充。

S25、循环执行步骤S23-S24，直到确保预设数量的个体的情感极性均与工标注极性符合时，将该预设数量的个体中具有相同情感词的情感值进行求平均得到修正情感值，以得到修正后的情感词库。由于最终得到的个体并不唯一，并且情感值的数值也并不唯一，因此通过求平均的手段能够综合考虑各个语境下的情感值，从而给出中性的结果。

进一步的，计算个体的适应度值的方法为：

，

根据修正后的情感词库对所述网络数据进行情感极性计算包括以下步骤：

S31、获取网络数据中所有文本的情感极性值；

S32、计算所有文本的情感极性值的平均值；

参见图2，本发明还公开了一种文本分析系统，包括：

词库构建模块100，用于从网络数据中获取若干样本文本，提取所述样本文本中的情感词，随机为每个所述情感词设定初始情感值，并将文本中所有情感词的情感值进行累加以得到该文本的情感极性，形成初始的情感词库；

修正模块200，用于对样本文本进行情感趋向的人工标注，以得到文本的人工标注极性，将情感极性与人工标注极性进行比较，当两者不符时，对情感词库中的情感词对应的情感值进行修正，以得到修正后的情感词库；

数据分析模块300，用于根据修正后的情感词库对所述网络数据进行情感极性计算。

综上所述，本发明通过提取网络数据的文本情感词，利用情感词构建情感词库和计算文本的情感极性，并将计算结果进行修正，以得到具有高分类准确率的情感词库，从而得到较为准确的文本情感极性值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种文本分析方法，其特征在于，包括以下步骤：

S30、根据修正后的情感词库对所述网络数据进行情感极性计算；

步骤S20中，对情感词库进行修正的方法，包括以下步骤：

S25、循环执行步骤S23-S24，直到确保预设数量的个体的情感极性均与工标注极性符合时，将该预设数量的个体中具有相同情感词的情感值进行求平均得到修正情感值，以得到修正后的情感词库；

步骤S30中，根据修正后的情感词库对所述网络数据进行情感极性计算包括以下步骤：

S31、获取网络数据中所有文本的情感极性值；

S32、计算所有文本的情感极性值的平均值；

S33、判断情感极性值的平均值是否大于0，若是，该情感为积极，否则为消极；

文本的情感极性的计算公式为：

，

2.根据权利要求1所述的文本分析方法，其特征在于，所述样本文本为根据待研判的关键词得到的特定领域的文本数据。

3.根据权利要求2所述的文本分析方法，其特征在于，从网络数据中获取样本文本的方式为通过爬虫软件爬取网络数据中的文本，在爬取网络数据过程中，按照关键词进行筛选，以得到特定领域的文本数据。

4.根据权利要求3所述的文本分析方法，其特征在于，按照关键词进行筛选的方法，包括以下步骤：

S11、获取用户输入的目标关键词数据；

5.根据权利要求1所述的文本分析方法，其特征在于，所述步骤S24之前还包括，将适应度值最高的个体不进行变异操作。

6.根据权利要求1所述的文本分析方法，其特征在于，计算个体的适应度值的方法为：

，

其中，表示利用种群中的个体对第/>条文本进行预测时的准确度，/>表示惩罚系数，若文本分类正确，则情感词库对应个体的适应度值加1，否则，适应度值减去一个惩罚值/>。

7.一种文本分析系统，其特征在于，包括：

数据分析模块，用于根据修正后的情感词库对所述网络数据进行情感极性计算；

对情感词库进行修正的方法，包括以下步骤：

S31、获取网络数据中所有文本的情感极性值；

S32、计算所有文本的情感极性值的平均值；

文本的情感极性的计算公式为：

，