CN111639258B

CN111639258B - 一种基于神经网络的新闻推荐方法

Info

Publication number: CN111639258B
Application number: CN202010431112.8A
Authority: CN
Inventors: 罗轶凤; 朱鹏
Original assignee: Suzhou Youyou Information Technology Co ltd
Current assignee: Suzhou Youyou Information Technology Co ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-09-22
Anticipated expiration: 2040-05-20
Also published as: CN111639258A

Abstract

本发明涉及一种基于神经网络的新闻推荐方法，利用用户之前点击过的阅读新闻信息和用户的社交信息这两部分信息进行用户特征表示，当出现一个新的没有阅读过的新闻时，也就是候选新闻，新闻推荐方法根据用户特征表示和候选新闻表示之间的相似性来考虑用户是否单击该候选新闻。本发明与现有技术相比具有为新闻的推荐工作提供了一个新的解决方案，方法简便，效率高。

Description

一种基于神经网络的新闻推荐方法

技术领域

本发明涉及网络上信息推荐技术领域，尤其是涉及一种基于神经网络的新闻推荐方法。

背景技术

随着万维网的广泛普及，大量新闻正在迅速出现，并且信息严重超载，因此用户别无选择。新闻推荐的出现减轻了信息过载，并帮助用户快速准确地获取他们感兴趣的新闻。当前，常用的推荐方法是基于内容的过滤(CB)，协作过滤(CF)和混合方法。在新闻推荐领域，基于内容的推荐算法是基于对读者过去感兴趣的文档进行分析，以推荐更多相关文档。

有研究者提出了一种基于内容的模型和余弦相似度搜索的快速新闻推荐方法，尽管该算法具有很高的解释性，并且没有冷启动的问题，但是在建议的多样性方面不足，因此难以挖掘用户的潜在偏好。与Google的新闻个性化系统类似，协作过滤取决于社区中的协作过滤和兴趣模式，而不管新闻文章的内容如何。有研究者提出了一种自适应用户分析模型，该模型将协作过滤应用于相似用户组阅读的新闻列表，并以传统方式将新闻视为项目，协作过滤算法需要积累用户的点击行为来进行推荐，从而导致用户冷启动的问题。混合推荐算法主要采用基于内容和协同过滤的推荐算法，也有研究者提出了一种基于内容推荐和协同过滤的新闻推荐方法，该方法对传统的基于内容的方法进行了改进，以获得用户的兴趣，通过特征词的协同过滤获得用户的潜在兴趣，并将用户的兴趣与潜在的兴趣相结合，从而获得集成的用户兴趣模型，然后提出新闻建议。

混合推荐算法在一定程度上解决了基于内容的推荐多样性的问题，但其准确性有待提高。一些研究表明，使用Twitter信息进行新闻推荐具有高度相关性。还有研究者研究了一种使用Twitter推荐实时时事的方法，其中用户个人资料由文章组成，这是使用TF-IDF计算得出的术语。还有人提出将新闻与社交媒体上的信息(推文)结合起来以建立三种用户个人资料，然后计算用户与新闻文章之间的余弦相似度。

从以上研究可以发现，很少有学者研究过用户的社交关系对新闻推荐的影响，而且大多数学者只关注单一属性或者没有被应用到新闻推荐中。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于神经网络的新闻推荐方法，利用用户的社交信息和用户之前阅读过的新闻信息进行推荐，用用户的社交信息和之前阅读过的新闻信息来对用户进行最终表征，然后根据用户的最终表征和候选新闻的最终表征之间的相似性来考虑用户是否单击候选新闻。

本发明解决其技术问题所采用的技术方案是：一种基于神经网络的新闻推荐方法，该推荐方法的步骤为，

S1、获取原有数据库内部分的新闻信息及所有的用户信息；

S2、利用FastText工具对获取的新闻信息中的标题与内容进行学习，获取固定长度的词向量并组成相应的词汇表；

S3、对数据库内获取的新闻信息按照不同的用户信息进行人工标注，人工标注的标准为是否为该用户已经阅读的新闻信息，已经阅读的新闻信息为阅读新闻信息，未被阅读的新闻信息为候选新闻信息；

S4、对获取的不同用户的阅读新闻信息与候选新闻信息，利用开源工具对标题与内容进行分词标注；

S5、将已经人工标注及分词标注的新闻信息组成新闻数据集，将获取的用户信息组成用户数据集，对新闻数据集及用户数据集进行整理和预处理，得到训练集与测试集，训练集由阅读新闻信息及用户信息组成，测试集由候选新闻信息与用户信息组成；

S6、利用步骤S5中训练集进行训练，得到新闻信息的推荐模型；

S7、在步骤S6生成的推荐模型中输入候选新闻信息，对候选新闻信息是否被用户点击进行概率的预测，得到测试集的精度。

进一步具体的，所述的用户信息包括用户自己感兴趣的新闻类别、用户朋友感兴趣的新闻类别以及用户与朋友之间的亲密程度。

进一步具体的，所述步骤S2中词向量的维度为50、100、128和200中的一种。

进一步具体的，在所述步骤S3中阅读新闻信息人工标注为1，候选新闻信息人工标注为0。

进一步具体的，所述的步骤S4中的开源工具为Jieba工具。

进一步具体的，所述步骤S5中的训练集由9/10的新闻数据集的数据及用户数据集的数据组成，所述的测试集由1/10的新闻数据集的数据及用户数据集的数据组成。

进一步具体的，所述步骤S6中训练的方法为，

a、处理阅读新闻信息时，单篇阅读新闻信息用分词标注后的已经阅读的新闻标题和新闻内容的词向量求平均得到阅读新闻向量，使用卷积神经网络和注意力机制处理这些阅读新闻向量，得到阅读新闻向量的最终表示；

b、处理用户信息时，用户信息包括用户自己感兴趣的新闻类别、用户朋友感兴趣的新闻类别、用户和朋友之间的亲密程度，这三种信息采用向量表示为信息向量，同一用户的这三种信息向量组成为用户社交向量，这三种信息向量开始为随机初始化，然后使用多层感知机和注意力机制对这三种信息向量进行处理，处理后再使用注意力机制对这三种信息向量进行处理得到最后的关于用户社交向量的最终表示；

c、将步骤a中获取的阅读新闻向量的最终表示与步骤b中关于用户社交向量的最终表示使用注意力机制进行处理，得到用户的最终向量表示。

进一步具体的，所述的步骤S7中测试集的精度的测试方法为，首先，处理候选新闻信息时，单篇候选新闻信息用分词标注后的未阅读的新闻标题和新闻内容的词向量求平均得到候选新闻向量，使用卷积神经网络和注意力机制处理这些候选新闻向量，得到候选新闻向量的最终表示，之后计算候选新闻向量的最终表示与用户的最终向量表示的相似度获得用户点击候选新闻信息的概率。

进一步具体的，计算相似度的方法采用基于欧几里得距离的相似度计算、基于余弦角度的相似度计算、基于Jaccard系数的相似度计算及基于皮尔森相关系数的相似度计算中的一种。

进一步具体的，采用Adam来优化所有可训练参数，卷积神经网络的层数为2层，自我注意单元数设置为240，自我关注头的数量设置为10，词向量的选取维度为50、100、128和200中的一种。

本发明与现有技术相比为新闻的推荐和应用工作提供了一个新的解决方案，方法简便，效率高，推荐的精度高，并具有如下有益的技术效果：

(1)利用用户的社交信息和用户的阅读新闻信息可以更好的表征向量。表征新闻信息时，使用了新闻的标题信息和新闻的正文内容信息，可以更精确的对新闻进行表征；

(2)运用多种自我注意力来学习和整合不同信息之间的权重，用来强化重要的信息，弱化不重要的信息；

(3)与其他最新的推荐模型相比，在一个原有的数据库上进行了实验，以评估本发明关于金融新闻推荐模型的性能。

附图说明

图1本发明的关于新闻推荐的模型结构示意图；

图2～图4为本发明新闻推荐的详细模型图；

图5为本发明中私有数据集的详细描述；

图6为本发明的在原有数据库上的实验效果对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细描述。

如图1～图4所示一种基于神经网络的新闻推荐方法，该推荐方法的步骤为，

S1、获取原有数据库内部分的新闻信息及所有的用户信息；用户信息包括用户自己感兴趣的新闻类别、用户朋友感兴趣的新闻类别以及用户与朋友之间的亲密程度，新闻信息包括新闻标题信息及新闻内容信息。

S2、利用FastText工具对获取的新闻信息中的标题与内容进行学习，获取固定长度的词向量并组成相应的词汇表；利用FastText工具对爬取的无标注的新闻信息进行学习，所得到的词向量的每一维度代表了特定的词语特征，可选择的维度为50、100、128和200，最终选取其中一种维度进行训练。

S3、对数据库内获取的新闻信息按照不同的用户信息进行人工标注，也可以根据需要只对数据库内高质量的新闻信息进行人工标注，人工标注的标准为是否为该用户已经阅读的新闻信息，已经阅读的新闻信息为阅读新闻信息，未被阅读的新闻信息为候选新闻信息。

例如，一篇新闻被用户A阅读，但没有被用户B阅读，则用户A关于这篇新闻信息的标注为1，用户B关于这篇新闻信息的标注为0。

S4、对获取的不同用户的阅读新闻信息与候选新闻信息，利用开源工具对标题与内容进行分词标注，开源工具为Jieba工具。

例如有这样一个新闻标题，“神开股份：2019年年报经营评述”，经过Jieba的分词工具后变成了“神开股份：2019年年报经营评述”。

S5、将进行人工标注及分词标注的新闻信息组成新闻数据集，将获取的用户信息组成用户数据集，对新闻数据集及用户数据集进行整理和预处理，得到训练集与测试集，训练集与测试集均包含有新闻信息与用户信息；训练集由9/10的新闻数据集的数据及用户数据集的数据组成，其中“9/10的新闻数据集的数据”全部为阅读新闻信息；所述的测试集由1/10的新闻数据集的数据及用户数据集的数据组成，其中“1/10的新闻数据集的数据”全部为候选新闻信息；如图5所示原有数据库内的用户数量大约为2000，选取部分新闻数量大约为20万，即训练集由大约18万的阅读新闻信息与全部的用户信息(大约2000)组成，测试集由大约2万的候选新闻信息与全部的用户信息(大约2000)组成。

S6、利用步骤S5中训练集进行训练，得到新闻信息的推荐模型，其训练方法为：

a、处理阅读新闻信息时，用新闻标题信息与新闻内容信息来表示整篇新闻信息，训练集内包括大约18万的单篇新闻信息，如图3所示对上述每一篇的单篇新闻信息用分词标注后的所有新闻标题和新闻内容的词向量求平均得到阅读新闻向量，获得所有的阅读新闻向量，使用卷积神经网络和注意力机制处理这些阅读新闻向量，注意力机制能够强化重要信息弱化不重要的信息，从而得到所有阅读新闻向量的最终表示；在训练集中包含的每个句子的字符或单词均映射到它们的分布式表示中，并根据预先训练的字符和单词嵌入。

b、处理用户信息时，用户信息包括用户自己感兴趣的新闻类别、用户朋友感兴趣的新闻类别、用户和朋友之间的亲密程度，这三种信息采用向量表示为信息向量，同一用户的这三种信息向量组成为用户社交向量，如图4所示这三种信息向量开始为随机初始化，然后使用多层感知机和注意力机制对这三种信息向量进行处理，处理后再使用注意力机制对这三种信息向量进行处理得到最后的关于用户社交向量的最终表示。

例如，有一个用户A，用户A已经阅读的新闻数量为10篇，未阅读候选的新闻数量有1篇，用户A有10个朋友，用户A自己感兴趣的新闻类别，用户A朋友感兴趣的新闻类别，用户A和10个朋友之间的亲密程度。用卷积神经网络和注意力机制处理这10篇新闻，得到这10篇新闻的阅读新闻向量的最终表示，同样的处理方法得到1篇候选新闻的候选新闻向量的最终表示。再用多层感知机和注意力机制处理用户A自己感兴趣的新闻类别、用户A朋友感兴趣的新闻类别、用户A和10个朋友之间的亲密程度，得到3个信息向量后，再使用注意力机制进行加权，得到最后的关于用户社交向量的最终表示。用注意力机制处理用户社交向量的最终表示和已经阅读的10篇新闻的阅读新闻向量的最终表示，得到用户的最终向量表示。

S7、在步骤S6生成的推荐模型中输入候选新闻信息，对候选新闻信息是否被用户点击进行概率的预测，得到测试集的精度；首先，处理候选新闻信息时，单篇候选新闻信息用分词标注后的未阅读的新闻标题和新闻内容的词向量求平均得到候选新闻向量，获得所有的候选新闻向量，使用卷积神经网络和注意力机制处理这些候选新闻向量，得到候选新闻向量的最终表示，之后计算候选新闻向量的最终表示与用户的最终向量表示的相似度获得用户点击候选新闻信息的概率。

常用的相似度计算方法有：基于欧几里得距离的相似度计算、基于余弦角度的相似度计算、基于Jaccard系数的相似度计算和基于皮尔森相关系数的相似度计算。

基于欧几里得距离的相似度计算是最常用的距离计算公式，衡量的是多维空间中各个点之间的绝对距离，当数据很稠密并且连续时，这是一种很好的计算方式。基于余弦角度的相似度计算是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。基于Jaccard系数的相似度计算主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。基于皮尔森相关系数的相似度计算又称相关相似性，通过皮尔森相关系数来度量两个用户的相似性，计算时，首先找到两个用户共同评分过的项目集，然后计算这两个向量的相关系数。

在本方案中上述四种相似度计算方法均可使用，而效果最好的为基于余弦角度的相似度计算方法。

对上述推荐方法进行测试，在测试中，使用Adam来优化所有可训练参数，卷积神经网络的层数为2层，自我注意单元数设置为240，自我关注头的数量设置为10，词向量的维度为50、100、128和200中的一种。

例如，已经有了训练好的模型，给出测试集，使用模型对这些测试集进行预测，然后用预测出来的结果和真正的结果进行计算，就能分别得到AUC和F1。

如图6所示从相关原有数据库的试验效果可以看出，采用本发明的推荐模型时，其中AUC(Area Under ROC Curve)和F1(精确率和召回率的调和均值)的数值最高，说明本发明的推荐模型推荐的新闻更加准确。

需要强调的是：以上仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于神经网络的新闻推荐方法，其特征在于，该推荐方法的步骤为，

S1、获取原有数据库内部分的新闻信息及所有的用户信息；

S7、在步骤S6生成的推荐模型中输入候选新闻信息，对候选新闻信息是否被用户点击进行概率的预测，得到测试集的精度；

所述步骤S6中训练的方法为，a、处理阅读新闻信息时，单篇阅读新闻信息用分词标注后的已经阅读的新闻标题和新闻内容的词向量求平均得到阅读新闻向量，使用卷积神经网络和注意力机制处理这些阅读新闻向量，得到阅读新闻向量的最终表示；b、处理用户信息时，用户信息包括用户自己感兴趣的新闻类别、用户朋友感兴趣的新闻类别、用户和朋友之间的亲密程度，这三种信息采用向量表示为信息向量，同一用户的这三种信息向量组成为用户社交向量，这三种信息向量开始为随机初始化，然后使用多层感知机和注意力机制对这三种信息向量进行处理，处理后再使用注意力机制对这三种信息向量进行处理得到最后的关于用户社交向量的最终表示；c、将步骤a中获取的阅读新闻向量的最终表示与步骤b中关于用户社交向量的最终表示使用注意力机制进行处理，得到用户的最终向量表示。

2.根据权利要求1所述的基于网络的新闻推荐方法，其特征在于，所述步骤S2中词向量的维度为50、100、128和200中的一种。

3.根据权利要求1所述的基于网络的新闻推荐方法，其特征在于，在所述步骤S3中阅读新闻信息人工标注为1，候选新闻信息人工标注为0。

4.根据权利要求1所述的基于网络的新闻推荐方法，其特征在于，所述的步骤S4中的开源工具为Jieba工具。

5.根据权利要求1所述的基于网络的新闻推荐方法，其特征在于，所述步骤S5中的训练集由9/10的新闻数据集的数据及用户数据集的数据组成，所述的测试集由1/10的新闻数据集的数据及用户数据集的数据组成。

6.根据权利要求1所述的基于网络的新闻推荐方法，其特征在于，所述的步骤S7中测试集的精度的测试方法为，首先，处理候选新闻信息时，单篇候选新闻信息用分词标注后的未阅读的新闻标题和新闻内容的词向量求平均得到候选新闻向量，使用卷积神经网络和注意力机制处理这些候选新闻向量，得到候选新闻向量的最终表示，之后计算候选新闻向量的最终表示与用户的最终向量表示的相似度获得用户点击候选新闻信息的概率。

7.根据权利要求6所述的基于网络的新闻推荐方法，其特征在于，计算相似度的方法采用基于欧几里得距离的相似度计算、基于余弦角度的相似度计算、基于Jaccard系数的相似度计算及基于皮尔森相关系数的相似度计算中的一种。

8.根据权利要求6所述的基于网络的新闻推荐方法，其特征在于，采用Adam来优化所有可训练参数，卷积神经网络的层数为2层，自我注意单元数设置为240，自我关注头的数量设置为10，词向量的选取维度为50、100、128和200中的一种。