CN113792552B

CN113792552B - 一种基于用户产生内容的观点转变指标计算方法

Info

Publication number: CN113792552B
Application number: CN202110967939.5A
Authority: CN
Inventors: 姚春华; 王效武; 王海兮; 常明芳
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-05-09
Anticipated expiration: 2041-08-23
Also published as: CN113792552A

Abstract

本发明提供了一种基于用户产生内容的观点转变指标计算方法，包括：步骤1、爬取热门贴子下评论数据；步骤2、根据评论数据确定用户观点倾向；步骤3、选取部分评论数据进行数据标注；步骤4、进行数据扩充，构建训练集，并进行模型训练；步骤5、通过训练后的模型对其他评论数据进行预测，若预测结果准确率大于85％，则进入步骤5，否则进入步骤4；步骤6、计算模型预测的所有数据中所有用户最大可能转变观点次数的平均值、所有用户的转变观点次数与所有用户可能转变观点总数的比值；步骤7、计算用户墙头草指数，根据墙头草指数判断用户观点鉴定程度。本发明方案能够量化用户观点鉴定程度，在用户画像与信息过滤、个性化推荐等领域有较大的应用前景。

Description

一种基于用户产生内容的观点转变指标计算方法

技术领域

本发明涉及情感分析技术领域，特殊涉及一种基于用户产生内容的观点转变指标计算方法。

背景技术

情感分析作为一个自然语言处理分支任务受到了广泛关注，现有情感分析技术已经取得了较高的准确率，而如何将情感分析的结果加以利用并创造更大价值是大家关注的重点。在用户画像领域，用户发帖的情感倾向是一个重要的考虑因素，然而现有方法大都关注用户的某一时刻的情感倾向或者最终的情感倾向，往往忽视了观点的转变也是一个重要的用户特征。在一段时间内，基于用户观点转变的情况可以设计一个量化指标，作为衡量用户对自己观点的坚定程度的重要依据，我们称之为“墙头草”指数。现有方法多是直接使用观点转变次数，这种方法思想朴素，计算简单，但是存在重大缺陷，第一、没有上限值，这导致我们对用户的“墙头草”指数缺乏宏观认识，无法根据数值确定该用户的坚定程度在全体用户中的位置。第二、不同用户的“墙头草”指数区分度不足。当两个用户发帖数量不同而观点转变的次数相同的情况下，仅仅使用观点转变次数会导致两个用户的“墙头草”指数相同，而事实上这两个数值应该有区分。

发明内容

针对现有技术中存在的问题，提供了一种基于用户产生内容的观点转变指标计算方法，能够加准确的计算与量化用户观点转变的指标。

本发明采用的技术方案如下：一种基于用户产生内容的观点转变指标计算方法，包括以下步骤：

步骤1、爬取一段时间内某热门贴子下评论数据，进行预处理后存入数据库；

步骤2、对存入的评论数据进行分析，确定用户观点倾向；

步骤3、选取部分评论数据进行数据标注；

步骤4、对标注的评论数据进行数据扩充，构建训练集，并采用训练集进行模型训练；

步骤5、通过训练后的模型对未进行数据标注的评论数据进行预测，并对预测结果进行判断，若准确率大于85％，则进入步骤6，否则进入步骤4；

步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值和所有用户的转变观点次数与所有用户可能转变观点总数的比值；

步骤7、计算用户墙头草指数，并根据墙头草指数判断用户观点坚定程度，墙头草指数越高表示该用户的坚定程度越低。

进一步的，所述步骤1中，评论数据包括评论内容、评论用户；预处理具体为：将评论内容中特殊字符和表情替换为文字表述，同时对同一用户发表的相同评论进行去重。

进一步的，所述步骤3具体为：根据用户观点倾向，对评论数据进行标注，将消极、中性、积极三种倾向分别标注为-1，0，1。

进一步的，所述步骤4中，采用聚类算法或其他无监督算法进行数据扩充。

进一步的，所述步骤6中，所有用户最大可能转变观点次数的平均值计算方法为：

其中，m为用户数量，n_k表示第k个用户发表评论的总条数。

进一步的，所述步骤6中，所有用户的转变观点次数与所有用户可能转变观点总数的比值计算方法为：

其中，λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值；y_ki表示第k个用户的第i条评论的观点，n_k表示第k个用户发表评论的总条数，m为用户数量。

进一步的，所述步骤7中，墙头草指数计算方法为：

进一步的，所述步骤7中，对仅考虑积极和消极的评论计算墙头草指数QT1，同时计算加入中性评论后的墙头草指数QT2，对墙头草指数QT1、QT2进行整合，得到用户的综合墙头草指数QTP，

其中，α为修正系数指数，用来对墙头草指数QT1和QT2进行缩放，使得最终的QTP结果分布更加平滑。

与现有技术相比，采用上述技术方案的有益效果为：在本发明中提出了墙头草指数，并通过该指数实现了用户观点坚定程度的量化计算。在社交网络数据分析领域未发现类似的定量化分析工作；同时针对墙头草指数的计算，我们针对具体情况的分析得出了一个行之有效的墙头草指数计算公式，填补了相关领域的空白，使得对于用户的相关属性掌握的更加全面；本发明在用户画像与信息过滤、个性化推荐等领域有较大的应用前景

附图说明

图1是本发明提出基于用户产生内容的观点转变指标计算方法流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

针对舆情分析领域，使用爬虫将网络热点帖子的评论爬取并进行数据清洗，对小规模数据完成观点倾向标注，训练情感分析模型完成对全体数据的标注。而后进行“墙头草”指数分析，将积极、中性、消极的观点定义为-1，0，1，使用用户评论之间观点值相减的值来量化用户观点的转变。首先根据所用用户的评论计算用户平均最大可能转变观点次数L和背景指数λ；之后根据当前用户的全部观点的总波动计算其“墙头草”指数，同时在公式中加入L和λ作为平滑项，最后将中性评论也加入计算并使用缩放因子使最终的“墙头草”数值在(0，1)之间分部更加均匀。具体方案如下：

如图1所示，本发明提出了一种基于用户产生内容的观点转变指标计算方法，包括以下步骤：

步骤1、爬取一端时间内某热门贴子下评论数据，进行预处理后存入数据库；

步骤2、对存入的评论数据进行分析，确定用户观点倾向；

步骤3、选取部分评论数据进行数据标注；

步骤7、计算用户墙头草指数，并根据墙头草指数判断用户观点鉴定程度。

具体的，在步骤1中，确定网络热点事件，爬取网络大V针对热点事件的发帖，并对帖子下的评论数据进行爬取，所述评论数据包括评论内容、评论用户；在爬取后对评论数据进行预处理：将评论内容中特殊字符和表情替换为文字表述，同时对同一用户发表的相同评论进行去重。

在本实施例中，可以采用人工标注、机器学习或深度学习方法对评论数据进行情感倾向分析。

步骤3中，根据倾向分析得到的用户观点倾向，对评论数据进行标注，将消极、中性、积极三种倾向分别标注为-1，0，1。

优选的，步骤4中，采用聚类算法或其他无监督算法进行数据扩充。

所述步骤5中模型采用基于BERT的预训练模型。

由于一次评论的标签变化可能带来墙头草指数的很大波动，尤其是在用户评论数量较少的情况下，因此，在步骤6中首先引入所有用户平均最大可能转变观点次数L作为平滑因子以及所有用户的转变观点次数与所有用户可能转变观点总数的比值作为背景指数λ，使得墙头草指数更加可靠，所有用户最大可能转变观点次数的平均值计算方法为：

其中，m为用户数量，n_k表示第k个用户发表评论的总条数。

所有用户的转变观点次数与所有用户可能转变观点总数的比值，即背景指数计算方法为：

其中，λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值；y_ki表示第k个用户的第i条评论的观点，n_k表示第k个用户发表观点的总条数，m为用户数量。

由此，基于平滑因子L与背景指数λ进行墙头草指数计算：

中性的评论在总评论中占据了较大的比例，在实际计算中应该将其考虑进去，但同时中性评论的引入会导致评论的转折趋于平缓，使得计算的“墙头草”指数偏小，针对这样的矛盾，将只考虑积极和消极的评论计算出的指数定义为QT1，在加入中性评论后，计算的指数定义为QT2，取QT1和QT2的几何平均数，尽可能的表示出用户的真实坚定程度，同时在实际计算中，因为大量用户不会改变观点，这导致指数在0附近聚集，因此，采用α对几何平均数进行缩放，得到用户的综合墙头草指数QTP，

该指数越高表示用户对某一观点的坚定程度越低其中，α为修正系数指数，用来对墙头草指数QT1和QT2进行缩放，使得最终的QTP结果的分布更加平滑。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种基于用户产生内容的观点转变指标计算方法，其特征在于，包括以下步骤：

步骤2、利用深度学习模型对存入的评论数据进行分析，确定用户观点倾向；

步骤3、选取部分评论数据进行数据标注；

步骤6、利用模型预测的所有数据计算所有用户最大可能转变观点次数的平均值、所有用户的转变观点次数与所有用户可能转变观点总数的比值；

步骤7、计算用户观点转变指数，并根据观点转变指数判断用户观点坚定程度，观点转变指数越高表示该用户的坚定程度越低；

所述步骤6中，所有用户最大可能转变观点次数的平均值计算方法为：

其中，m为用户数量，n_k表示第k个用户发表观点的总条数；

所述步骤6中，所有用户的转变观点次数与所有用户可能转变观点总数的比值计算方法为：

其中，λ表示所有用户的转变观点次数与所有用户可能转变观点总数的比值；y_ki表示第k个用户的第i条评论的观点，n_k表示第k个用户发表观点的总条数，m为用户数量；

所述步骤7中，观点转变指数计算方法为：

所述步骤7中，对仅考虑积极和消极的评论计算观点转变指数QT1，同时计算加入中性评论后的观点转变指数QT2，对观点转变指数QT1、QT2进行整合，得到用户的综合观点转变指数QTP，

该指数越高表示用户对某一观点的坚定程度越低，其中，α为修正系数指数。

2.根据权利要求1所述的基于用户产生内容的观点转变指标计算方法，其特征在于，所述步骤1中，评论数据包括评论内容、评论用户；预处理具体为：将评论内容中特殊字符和表情替换为文字表述，同时对同一用户发表的相同评论进行去重。

3.根据权利要求2所述的基于用户产生内容的观点转变指标计算方法，其特征在于，所述步骤3具体为：根据用户观点倾向，对评论数据进行标注，将消极、中性、积极三种倾向分别标注为-1，0，1。

4.根据权利要求3所述的基于用户产生内容的观点转变指标计算方法，其特征在于，所述步骤4中，采用聚类算法或其他无监督算法进行数据扩充。