CN115510326A

CN115510326A - 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法

Info

Publication number: CN115510326A
Application number: CN202211215136.5A
Authority: CN
Inventors: 巨星海; 王心丹; 陈曲; 沈池花; 闵宗茹; 谭江浩; 蔡佳琪; 周刚; 刘錞; 尹家禹
Original assignee: Shanghai Yingshu Information Technology Co ltd
Current assignee: Shanghai Yingshu Information Technology Co ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-23

Abstract

本发明公开了基于文本特征和情感倾向的网络论坛用户兴趣推荐算法，涉及网络论坛文本数据推荐技术领域，使用BM‑25算法提取每个用户在文本中的名词标签作为其关注点，并计算特征值；通过bert工具计算网络论坛文本中的用户情感倾向性，对特征值赋予情感属性及正负倾向性判断；设计带有自动调整半径功能的DBScan聚类算法，将聚类结果作为LFM隐语义推荐算法的部分输入，从而解决LFM算法在计算过程中重复计算其所划分隐类数量的问题；利用LFM算法计算用户对其尚未关注的实体的潜在兴趣度，实现对网络论坛用户的关注点推荐，本发明提出的结合BM‑25与情感软概率的LFM推荐算法可以更高的准确率实现用户关注点推荐。

Description

基于文本特征和情感倾向的网络论坛用户兴趣推荐算法

技术领域

本发明涉及网络论坛文本数据推荐技术领域，尤其涉及基于文本特征和情感倾向的网络论坛用户兴趣推荐算法。

背景技术

推荐系统依据用户在网络上留下的行为、文本等信息确定用户的某些习惯，获取用户喜好，推送与用户兴趣爱好和所关注内容相关的物品或信息，更加方便人们的学习、工作和生活。将基于协同分类的方法应用于基于文本数据的推荐系统中，近年来得到了越来越多研究者的关注。

网络论坛用户的关注点、好恶与立场倾向，往往直接决定了论坛平台的这些属性。然而，相比于一个由无数用户的关注点累加而形成的平台，用户个人的种种信息却往往因为其本身的数据稀疏，而导致难以归纳，给推荐系统的应用和推广带来了诸多困难。总体而言，现有面向网络论坛的舆情研究，对用户关注点的推荐能力仍较薄弱。网络论坛中的用户数据存在数据稀疏问题，且传统情感分析算法往往只给出诸如“正向”、“负向”、“中立”的结果，缺乏对情感分析结果强度的刻画，这些都导致对网络论坛中用户进行关注点推荐时的准确率仍不够高。

LFM隐语义推荐算法在用户与关注点的关系中加入“隐类”概念，将“用户-关注点”矩阵分解为“用户-隐类”与“隐类-关注点”矩阵，一定程度上缓解了推荐计算中数据稀疏的问题。但是，传统LFM算法使用简单的用户行为爱好数据进行关注点的推荐，在基于文本数据的应用场景中，其准确率将会有所下降；LFM算法的隐类数量参数需要通过反复迭代计算获得，其计算成本往往较高。同时，目前的LFM兴趣推荐算法，因网络论坛中用户文本数据稀疏、情感倾向性区分度不够明显等原因，导致准确率往往较低。

发明内容

本发明提供基于文本特征和情感倾向的网络论坛用户兴趣推荐算法，以解决上述技术问题。

为解决上述技术问题，本发明提供的基于文本特征和情感倾向的网络论坛用户兴趣推荐算法，包括以下步骤：

步骤S1，基于BM-25的用户文本特征计算；

步骤S2，软概率情感分析计算；

步骤S3，基于文本特征与软概率情感分析的关注点矩阵构造；

步骤S4，自主选择半径的密度聚类算法；

步骤S5，基于文本特征和情感倾向的网络论坛用户隐含关注点LFM推荐方法。

优选的，所述S1中将“用户-实体”关系引入后，BM-25算法的一般性公式为：

其中，R(U_i,I)是用户U_i与实体I的相关性得分，其在BM-25算法中一般用公式表达为：

其中，参数b的作用是调整文档长度对相关性影响的大小，将参数b重新定义为大小可调的一个参数，它将根据用户发帖数量u的大小影响BM-25特征值计算的输出：

在基于网络论坛进行用户关注点的计算时，BM-25算法的相关性得分公式可总结为：

优选的，所述S2中基于Bert的软概率情感计算主要包括数据向量化、网络构造、防过拟合、注意力机制、全连接层、判别函数等部分，最终输出情感强度赋值，将软概率情感值与BScore(U,I)值相乘：

其中，Emo_pos、Emo_neu和Emo_neg分别代表正向、中立和负向的情感词强度，每次与前者相乘的Emo值只可能有一种。

优选的，所述S3中提出结合BM-25与bert软概率情感分析的“用户-实体”兴趣关注点计算方法，实现用户对实体的关注点权值并赋予权值带有强度的情感倾向值。

优选的，所述S4中引入三个新概念：相对核心半径、基准核心半径和核心半径比。

优选的，所述S5中LFM计算首先由初始的“用户-实体”矩阵推算出“用户-隐类”关系的矩阵P，以及“隐类-实体”关系的矩阵Q，将r_ui以r(BEScore(U,I))代替，于是有：

在将r区分为两个较低维的矩阵后，使用P_Uk和Q_kI两个矩阵估计“用户-实体”关注点推荐矩阵的结果，即计算此目标函数：

与相关技术相比较，本发明提供的基于文本特征和情感倾向的网络论坛用户兴趣推荐算法具有如下有益效果：

从实验结果对比上看，本发明提出的结合BM-25与情感软概率的LFM推荐算法的效果更好；

从实验结果分析上上看，结合BM-25与情感软概率的LFM推荐算法的效果仍然是最好的，这充分验证了本发明所提出算法的有效性；

综上可知，与现有Weight Count+LFM、TF-IDF Frequency+LFM、BM-25Frequency+LFM、以及LSA等算法的对比实验结果表明，本发明所提出算法可以更高的准确率实现用户关注点推荐。

附图说明

图1为本发明提出的基于文本特征和情感倾向的网络论坛用户兴趣推荐算法的基于自动文本聚类与软概率情感分析的用户关注点推荐算法流程示意图；

图2为本发明提出的基于文本特征和情感倾向的网络论坛用户兴趣推荐算法的贴吧用户发帖量情况示意结构示意图；

图3为本发明提出的基于文本特征和情感倾向的网络论坛用户兴趣推荐算法进行情感强度赋值的Bert情感分析示意图；

图4为本发明提出的基于文本特征和情感倾向的网络论坛用户兴趣推荐算法的数据样本初始点的选择及周边关系示例图。

具体实施方式

实施例，由图1-4给出，本发明包括以下步骤：

步骤S1，基于BM-25的用户文本特征计算；

步骤S2，软概率情感分析计算；

步骤S4，自主选择半径的密度聚类算法；

所述S1中，在网络论坛的全局数据中，由于每个贴吧主要由特定的主题相凝聚，而非某些特定的用户，这就导致网络论坛中围绕单一的用户所产生的数据往往极端稀疏。如图2所示为百度贴吧用户发帖情况，其中A列为用户所在贴吧，B、F列分别为帖子内容和标题，C列为用户名。从中可见，即使在一个贴吧中长期活跃的发帖用户，其数据也依然是稀疏的。极端离散、稀疏的数据使得很难通过TF-IDF那样以全局数据为主要分析对象的方法去计算代表单个用户的关注点，因此要通过BM-25特征计算方法对每个用户在全局文本中的权重进行逐个计算将“用户-实体”关系引入后，BM-25算法的一般性公式为：

其中，参数b的作用是调整文档长度对相关性影响的大小，b越大，文档长度对相关性得分的影响就越大，反之则越小；文档的相对长度越长，K值就将越大，则相关性得分越小。这亦即，当文档较长时，其中包含Ui的可能性就较大。因此，当fi等同情况下，长文档与Ui的相关性比短文档与Ui的相关性弱。在真实网络论坛文本数据中，虽然单个用户所产生的数据存在强烈的稀疏性特点，但由于不同用户之间发帖数量不均等，因而仍会频繁产生Ui＞1的情况，这时无法对Score(U,I)的计算公式进行化简，而是要对文本内容中的实际情况进行全部考虑。同时，为了体现用户发帖数量对关注点重要性权重的影响，将参数b重新定义为大小可调的一个参数，它将根据用户发帖数量u的大小影响BM-25特征值计算的输出：

所述S2中基于Bert的软概率情感计算主要包括数据向量化、网络构造、防过拟合、注意力机制、全连接层、判别函数等部分，最终输出情感强度赋值，在这个计算过程中，Bert将迭代地针对文本中每个句子的情感倾向性，得出其属于“正向”、“负向”、“中立”情感倾向的概率，对每一条语句，三者相加的值都为1。在为每个用户文本中的每句话确立了情感倾向性之后，即将其所对应的情感倾向概率作为情感强度值将软概率情感值与BScore(U,I)值相乘：

其中，Emo_pos、Emo_neu和Emo_neg分别代表正向、中立和负向的情感词强度，每次与前者相乘的Emo值只可能有一种。由于在bert的计算结果中，输出的概率值一概是正值，因此在两者相乘获得BEScore的时候还需辅以一个额外赋值，通过这种方法，为LFM隐语义计算赋予了基于文本语义的权重，以及带有明显情感强度的倾向性数值。

所述S3中，推荐算法的中心思想是隐语义计算，即从“用户-实体”兴趣关注矩阵中通过梯度下降方法计算得到“用户-隐类”及“隐类-实体”两个分解矩阵，从而降低计算的时间复杂度以及用户关注度中的数据稀疏性。“用户-实体”兴趣关注矩阵一般如表1所示。提出结合BM-25与bert软概率情感分析的“用户-实体”兴趣关注点计算方法，实现用户对实体的关注点权值并赋予权值带有强度的情感倾向值，首先汇总每个网络论坛中的发帖用户，即“楼主”用户的文本数据，并使用BM-25算法以句为单位提取出每个用户的特征词作为其关注点；其次通过基于bert的软概率情感分析计算得出的结果，对BM-25特征值赋予情感属性及正负倾向性判断，进而得出如表2所示的兴趣关注矩阵。

所述S4中引入三个新概念：相对核心半径、基准核心半径和核心半径比。

相对核心半径：假设必须确保核心点p的e’领域内有k个密度可达点，即p的相对核心半径为e’，此半径值亦为p成为一个核心点必须确保的最小阈值。在基于文本的数据中这个半径值的大小经常要发生变化。如图4所示：圆形p点的e’值大约为1；三角形p点的e’值大约为0.5；正方形p点的e’值大约为0.2。

基准核心半径：根据数据集中的情况，设置一个全局参数e。

核心半径比：通过e’/e求得，这个数值能反映数据点在聚类过程中的分布情况，尤其体现数据点的疏密程度。当核心半径比较小时，数据间的疏密关系就比较紧凑；如果e’/e的值接近于1，则说明疏密关系处于适中状态；如果e’/e的值大于1，则说明这个聚类中的元素过于稀疏了，也存在将异类点并入聚类中的可能。

通过在DBScan聚类算法中以可变参数e’代替E，可在稀疏的文本数据中获得相对更高的聚类效果，即更多地避免将同一个聚类分割成多个类，或避免将多个类合并成一个类，从而使聚类更加均匀、更加准确。

所述S5中为LFM算法加入更适合于文本数据的BEScore“用户-实体”兴趣度值进行P、Q矩阵的隐语义计算，同时为LFM算法加入自主选择半径的聚类算法，从而提高LFM计算的准确率和效率，LFM计算首先由初始的“用户-实体”矩阵推算出“用户-隐类”关系的矩阵P，以及“隐类-实体”关系的矩阵Q，将r_ui以r(BEScore(U,I))代替，于是有：

在具体实现的过程中，基于文本特征和情感倾向的网络论坛用户隐含关注点LFM推荐算法流程如算法1所示：

通过以上算法的计算过程，可以得出“用户-实体”关注点推荐矩阵，如表3所示。其中每个计算结果R就是对表2中空白内容的补全。通过这种计算，即可根据文本特征和用户情感倾向实现网络论坛的文本数据推荐。通过计算用户2、用户4、以及用户5这些本来没有对实体a产生过直接关注的用户对实体a的兴趣程度，即可通过比较R(U,I)的大小，将实体a推荐给对其最感兴趣的用户。

为了测试本发明提出算法的有效性，利用百度贴吧中采集的文本数据，按照本发明提出算法以及现有推荐算法：Weight Count+LFM、TF-IDF Frequency+LFM、BM-25Frequency+LFM、以及LSA算法分别计算用户对不同实体的感兴趣程度，从而在验证算法性能的同时，为实际应用中针对网络贴吧数据的用户关注点推荐算法的选择提供依据和参考。

立足于从网络论坛文本数据中计算得出每个用户的关注实体、对实体的情感倾向性强度，同时在自动聚类算法的辅助下更加准确地进行用户隐含关注点的推荐。具体实施时，我们从数据集中抽取出来自六个不同主题贴吧、发帖数量最高的15个活跃用户作为实验样本。首先，通过基于bert的情感软概率算法计算得出每个句子的情感倾向，同时利用BM-25特征权重计算算法求得每个用户对应的关注点权重值。然后，对文本使用自动选择半径的DBScan聚类算法，经过迭代后求得数据集中“用户-实体”矩阵的隐类数(通常为一个78到85间的数值)。在此基础上，输入迭代次数N＝3，以及学习速率α＝0.02和防过拟合参数λ＝0.01，利用本发明提出的用户关注点推荐算法在计算出“用户-隐类”矩阵P及“隐类-实体”矩阵Q后，获得LFM推荐算法的计算结果。此外，为便于对比分析，我们利用现有的文本推荐算法分别计算用户对不同实体的感兴趣程度，通过标注数据计算准确率。最后，利用用户-实体-主题贴吧准确率判断对以上结果进行详细的比较和分析。

(1)实验结果对比

在针对文本数据进行内容推荐的过程中，由于文本信息方面的实体和用户购买、观影等行为中的实体仍然存在一定区别，主要表现为用户对同一类信息的持续关注性，即本已关注一类或一个实体的用户大多数时候都会始终对这类实体表现出关注。因此，在计算出推荐结果之后，我们将所有推荐结果都展示在表4所示的矩阵中。

基于用户关注点特征值计算和情感分析的推荐结果具有正负值的属性。负值代表用户可能对此实体具有负面情感，而推荐值的正值越大，则表明用户对此实体越有可能感兴趣，在此基础上，可通过阈值决定是否对用户推荐该实体。

为了进一步验证本文算法的有效性，我们使用现有的Weight Count+LFM、TF-IDFFrequency+LFM、BM-25Frequency+LFM、以及LSA算法分别计算相应的推荐结果，并利用标注数据计算算法的准确率，给出不同推荐算法计算结果的对比结果。

首先，通过对百度贴吧内数据的先期人工观察，我们发现：虽然LFM推荐算法能够对每个发帖用户的关注点进行一定程度的推荐，但用户所能提供的数据越多，对其隐含关注点进行的预测就越准确。因此，本发明选择来自六个主题贴吧中的十五个积极发帖用户作为实验对象。为保护用户隐私，将他们的用户名替换为a,b,c,...,n,o。平均每一个积极发帖用户的关注实体数为190个，我们据此从每个用户的数据集中抽取35个(约20％)实体，为用户关注点进行标注。对于推荐结果，我们通过计算推荐结果中命中的训练结果个数，与总体活跃用户数据集中所包含实体数量的比值来表示推荐的准确率，即有：

将围绕BM-25加情感分析的LFM计算结果，与结合词频的LFM计算结果、结合TF-IDF特征计算的LFM计算结果、只结合BM-25特征计算的LFM计算结果和LSA推荐计算结果相对比，对比结果如表5所示。

(2)实验结果分析

为进一步分析以上实验结果，本发明使用用户-实体-主题贴吧准确率对推荐算法准确率进行对比分析，其主要思想在于，相比通过预训练数据评判推荐结果的准确率，在面向百度贴吧等网络论坛的数据中，通过发掘发帖用户对主题贴吧的关注，或发帖用户在特定主题贴吧发帖的行为习惯，也能够得出推荐算法的准确性。即，将对发帖用户的实体推荐，映射到用户与主题贴吧这层已经确定为事实的关系之上，可以判断推荐算法对用户的推荐结果是否准确。具体地，用户与主题贴吧对应关系如表6所示。

对以上结果进行分析可得，在我们掌握的数据中，已经有两种围绕发帖用户的情况被确定了：用户与贴吧的对应情况，以及每个发帖用户发帖数据中存在的实体情况。在这个验证实验中，我们首先从发帖用户数据中抽取一部分实体，计算这些实体对用户的推荐情况；同时，通过对抽取出的实体计算TF-IDF权重，判断每个实体在各主题贴吧内的重要性以建立“贴吧-实体”矩阵。通过结合计算“用户-实体”推荐矩阵和“贴吧-实体”重要性矩阵，确立出“用户-贴吧”这层已经客观存在的关系，并将此建立数字索引，与实际情况进行对比，从而判别本文提出的方法的准确性。为了更全面考虑在全局环境下计算结果是否准确，在进行“贴吧-实体”矩阵运算时，我们分别采用来自十五个积极发帖用户文本的实体，以及全体用户发表的文本数据集，所得准确率判断结果如表7和表8所示。

在表7和表8中，Predict result是通过LFM算法计算出的“用户-实体”推荐矩阵，与通过TF-IDF权重计算出的“贴吧-实体”重要性矩阵相乘后，每一列求最大值索引即可得到贴吧索引值。True label是用户在贴吧中发帖的索引，为发帖用户与主题贴吧之间的实际关系。

表1“用户-实体”兴趣关注矩阵举例

表2基于BM-25特征分析和情感计算的“用户-实体”兴趣关注矩阵举例

表3基于BM-25特征分析和情感计算的“用户-实体”关注点推荐矩阵

表4本发明提出的用户关注点推荐算法计算结果

表5基于标注数据的推荐算法准确率比较

表6积极发帖用户与主题贴吧之间的对应关系

表7实体采用自积极发帖用户文本数据集时的计算结果

表8实体采用自全体用户发表的文本数据集时的计算结果