CN108875065A

CN108875065A - 一种基于内容的印尼新闻网页推荐方法

Info

Publication number: CN108875065A
Application number: CN201810711968.3A
Authority: CN
Inventors: 杨国武; 董俊文; 杨晓强; 卢秋莉; 张庆颖; 曾珍
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2018-11-23
Anticipated expiration: 2038-07-02
Also published as: CN108875065B

Abstract

本发明公开了一种基于内容的印尼新闻网页推荐方法，首先爬取印尼新闻数据，提取每篇印尼新闻中的关键词并将关键词的编号保存至对应印尼新闻的字段中；利用所述印尼新闻数据训练word2vector神经网络模型和doc2vector神经网络模型，分别得到词到向量的映射字典和具有稳定参数的模型；筛选出与当前被浏览的印尼新闻的关键词编号重复最多的p篇印尼新闻，作为候选数据集；利用所述映射字典和模型计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的向量表示；利用所述向量表示计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的距离；利用所述距离进行排序，选取候选数据集中距离小的前m篇印尼新闻作为推荐新闻；本发明能够保证相似性的同时极大减少计算量。

Description

一种基于内容的印尼新闻网页推荐方法

技术领域

本发明涉及计算机领域，具体涉及一种基于内容的印尼新闻网页推荐方法。

背景技术

用户搜索网页新闻时，系统将高效且准确的从数据库中检索出与用户当前浏览的网页新闻在内容上相似或相近的新闻。现有实现相同功能的技术大致有如下两种：

第一种：基于数据库自带的搜索排序功能。

搜索引擎的大致工作原理如下：将所拥有全部新闻网页中的每一篇新闻作分词处理，分词的结果存储在数据库中，每一个词汇会对应一个新闻序号字段，表示哪些新闻中包含这个词汇。当用户检索新闻时，系统将用户输入的词汇进行分词处理后，在数据库中查找每个词汇对应的新闻序号字段，然后将这些词汇对应的新闻序号字段求交集，即是找到同时包含输入词汇的新闻序号，然后将其中一个返回，这样用户就根据搜索查看到了对应的新闻。数据库自带的推荐实现就是在上一步骤基础之上，将找到的其他新闻序号返回。

该方法的缺点如下：数据库的主要功能是支持对数据进行高效的增删查改操作，数据库自带的实现排序的方法源于对新闻的分词，然后建立倒排索引。利用词汇对应的新闻序号这一信息，仅仅给予了新闻中每个词汇相同重要性，没突出新闻的主体，这样会导致即使对词汇对应的新闻序号做了交集运算，包含这样词汇的新闻量还是很多，因为把新闻中每个词汇赋予了相同的重要性，而新闻有关键词，这些词汇应该要更重要些。所以推荐出来的新闻可能也含有这些词汇，但仅仅出现一次，而且对全文信息毫无中用，那么推荐的效果就不够理想。

第二种：基于已经搜索出来的网页，利用TF-IDF技术对该网页进行表示，同时利用该技术对数据库中的其他网页进行表示。TF-IDF即是词频-逆文档频率，要推荐新闻首先要表示新闻，怎样准确的表示一篇新闻成为了关键，词频-逆文档频率，提供了这么一种思想，将新闻分割为词汇后，认为新闻中词汇频率高的同时这些词汇在其他新闻中出现次数较少的，那么这些词汇就能够有效的成为这篇新闻的关键词以来区分数据库中其他的新闻。利用TF-IDF经过数学运算得到一个数值。那么每一篇新闻中这些词都有一个这样的TF-IDF值。这样使得每一篇新闻都能用这样的一个数值向量表示，然后利用已经向量化的新闻通过数学方式如：欧氏距离或余弦相似，求得向量的相似程度，来实现基于内容的推荐。

该方法的缺点如下：词频-逆文档频率首先是对新闻向量化，即是将新闻转化为维度相同的一个一维数值向量。在新闻向量的基础上进行相似推荐。这个向量的维度非常大，就算利用了一些词汇过滤手段去除掉一些词汇，向量的维度还是会达到数十万。在内存中计算的开销非常大。其二，利用TF-IDF计算每篇新闻各个维度的值，只是利用到了新闻词汇词频的信息，没有更多的考虑上下文的信息，对新闻信息的利用率低。

发明内容

本发明的目的在于：提供一种基于内容的印尼新闻网页推荐方法，解决了目前基于内容的新闻推荐效果与计算量平衡的技术问题。

本发明采用的技术方案如下：

一种基于内容的印尼新闻网页推荐方法，包括以下步骤：

步骤1：爬取印尼新闻数据，提取每篇印尼新闻中的关键词并将关键词的编号保存至对应印尼新闻的字段中；

步骤2：利用所述印尼新闻数据训练word2vector神经网络模型，得到词到向量的映射字典；利用所述印尼新闻数据训练doc2vector神经网络模型，得到具有稳定参数的模型；

步骤3：筛选出与当前被浏览的印尼新闻的关键词编号重复最多的p篇印尼新闻，作为候选数据集；

步骤4：利用所述词到向量的映射字典和模型计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的向量表示；

步骤5：利用所述向量表示计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的距离；

步骤6：利用所述距离进行排序，选取候选数据集中距离小的前m篇印尼新闻作为推荐新闻。

进一步的，所述步骤1具体为：

步骤11：利用爬取的印尼新闻数据，得到词到词编号的映射表word2id与词编号到包含该词的文本数量的映射表id2df；

步骤12：利用所述映射表word2id与映射表id2df计算每篇印尼新闻中每个词汇的TF-IDF值；

步骤13：将TF-IDF值最大的n个词汇对应的编号保存在对应新闻的字段中。

进一步的，所述步骤1还包括对印尼新闻进行预处理，预处理方法为：

对当前被浏览的印尼新闻的内容进行分词处理；

将分词中的停用词和特殊字符进行过滤，得到纯文本数据。

进一步的，所述步骤4具体为：

步骤41：利用所述词到向量的映射字典计算当前被浏览新闻中标题的向量表示A，利用模型计算当前被浏览新闻中新闻内容的向量表示B，利用所述向量表示A和向量表示B拼接得到当前被浏览新闻的向量表示C；

步骤22：利用所述词到向量的映射字典计算候选数据集中每一篇新闻中标题向量表示Di，利用利用模型计算候选数据集中每一篇新闻中新闻内容的向量表示Ei，利用所述向量表示Di和向量表示Ei得到选数据集中每一篇新闻的向量表示Fi，其中i表示候选数据集中新闻的序号。

进一步的，所述步骤5具体为：利用所述向量表示C和向量表示Fi计算两者间的欧式距离，得到当前被浏览新闻与候选数据集中每一篇新闻间的距离。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.利用爬取的印尼新闻数据得到的word2id和id2df两个字典，经过计算每篇新闻中每个词的TF-IDF值，能够获得每篇新闻TF-IDF数值最大的n的关键词，通过word2id这个映射表把这n个词对应的编号保存在新闻的一个字段中，那么对当前浏览新闻进行推荐时，找到包含当前浏览新闻关键词最多的前m篇新闻的时间复杂度为O(Nlogm)，其中N为总的新闻数量。比起传统的以TF-IDF作为新闻的向量表示，这样的改进大大的减少了计算量和内存开销并且在O(Nlogm)时间复杂度下可以快速的选出候选新闻。在筛选出来的p篇新闻中(p在百以内)，通过word2vectoer字典得到新闻的标题向量，通过doc2vector模型得到新闻的内容向量，拼接形成新闻向量；这样向量化的新闻包含了更多的上下文信息。同时经过了第一步的筛选使得候选新闻的数量在百以内。那么这样的层次架构模型，在保证了新闻相似性的精度基础上，同时实现了快速的计算。

2.本发明相较于现有技术加入了神经网络的方法提炼了新闻的总和信息，利用词频和逆文档频率的方法提取新闻关键词对新闻进行过滤而不是得到新闻的向量表示，这样的改进大大地减少了计算量。现有的TF-IDF技术会计算每一篇新闻中所有词的TF-IDF值，以这样的一个词向量来表示一篇新闻。通常有多少不同的词汇每个新闻的向量表示的长度就有多大。每一种语言的常用词汇可能量级在数十万。所以每一篇新闻的向量的长度为数十万。这样长度的向量的计算对内存开销太大。本发明只计算每篇新闻出现的词的TF-IDF值，通常一篇新闻网页的词汇不会大于千这个量级，相较于原来的量级降低了很多。同时只取每篇新闻TF-IDF值最大的几十个词来过滤待候选的新闻集，大大提高了计算速度。

3.机器学习、深度学习近年来的发展，其在文本处理上的优势逐渐显现。本发明在上一步的基础上利用神经网络来得到新闻的向量表示，此时新闻的向量的长度为几百。以此计算新闻间的相似，因为维度小计算开销小、计算速度快。同时这是在以前技术上的进一步过滤来实现推荐，效果较以前的技术利用到了了更多的新闻信息，推荐效果更佳。

4.本方法能够适用各种语言环境，不同语言只是在预处理分词的时候有所差异，后面的技术能够直接无差别地应用在分词过后的数据上。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的整体流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1对本发明作详细说明。

一种基于内容的印尼新闻网页推荐方法，包括以下步骤：

进一步的，所述步骤1具体为：

对当前被浏览的印尼新闻的内容进行分词处理；

将分词中的停用词和特殊字符进行过滤，得到纯文本数据。

进一步的，所述步骤4具体为：

具体实施例

一种基于内容的印尼新闻网页推荐方法，包括以下步骤：

其中，映射表word2id具体为：一个词对应一个数字序号。如″i″：1，″am"：2，″apple"：3，在计算中，让这些数字参与计算。比如每篇新闻的关键词数量为20个，利用TF-IDF计算得到关键词后，存在数据库中的就是这些词对应的编号，比如{1，35，987，...}，而不是词本身。这样减少了存储的开销，这样的映射表保证在词和编号之间的来回进行查找；

映射表id2df具体为：表示的是有多少篇新闻包含这个词。如“i”这个词在5000篇新闻中出现过，所以就是“i”：5000。因为有了word2id这个映射，可以从id找到word，如“i″：1；为了节省空间，用id2df即为1∶5000。

步骤12：利用所述映射表word2id与映射表id2df计算每篇印尼新闻中每个词汇的TF-IDF值：

TF-IDF为词频-逆文档频率，是一种文本向量表示的方法，也是一种得到文本关键词的方法。文本的表示需要既能表达文本的主体信息，同时又需要和其他不同的文本有区别。TF-IDF方法中的TF(词频)，认为一篇新闻中频率出现得高的词能体现文本的主体信息。

因此这个词在在这篇新闻中的值就是这个词在这篇新闻中出现的频率，这样频率高的词就有了大的数值。但是，如‘的’，‘了’等这样的词在基本在每一篇新闻中出现的频率都比较高，而这样的词对新闻的主体信息基本没有贡献。为了解决这样的问题，所以对前面的TF(词频)数值乘上一个IDF(逆文档频率)数值。这个数值，是文档总数量除以包含这个词的文档数量。这样越是在所有文档中普遍出现的词其整个的TF-IDF数值就不会高。在所有文档中包含这个词的文档数量越少，那么这个词就能够用来体现文本的主体信息以区别其他文档。

此处利用映射表word2id与映射表id2df来计算每篇印尼新闻中的TF-IDF值，极大的减少了计算量。

步骤13：将TF-IDF值最大的20个词汇对应的编号保存在对应新闻的字段中。

Word2vector即词到向量的转化。计算机内部计算的都是数值，那么所有传入计算机的东西都要转为数值。对于处理文本来说，有一种词袋模型来表示文档，即定义一个包含要处理语种的词的字典，这个词典会尽量大以包含住常用的词。每个语种基本常用的词都在十万这个量级，所以这也是计算量太大的一个问题。有了这个词典就可以来表示一篇新闻。0，1编码，如果这个词在文档中出现就置为1，没出现就是0，这样就会形成这样的一个向量[0，0，1，0，......，1，0，0]。还有一种表示方法就是使用TF-IDF数值来代替0，1。

如前面所说这样每一篇新闻的向量会达到数十万的维度，计算量太大。同时，相近的词也会有完全不同的表示方式，没能真正得到词的语义信息。Word2vector，词的分布表示，以一个固定大小的向量来表示每一个词，通常维度在几百这个量级，首先计算量大大降低，同时会达到语义信息，相近的词它们的向量间的距离也会较小，如‘猫’的词向量和‘狗’的词向量距离较小，而‘猫’和‘电视’的距离就很大。词向量的学习用到一个三层的神经网络。模型架构之一CBOW(连续词袋模型)，对一句话，用这句话中的前后的几个词来预测中间的词。如“高级计算机网络”这句话，选取前后的两个词进行预测。数学模型如下p(计|高，级，算，机)，p(算|级，计，机，网)，p(机|计，算，网，络)。求解这些概率值同时出现的最大值来获得每个词的向量的表达。Doc2vector在Word2vector的基础上增加了一个id字段，如“高级计算机网络”来自新闻一。数学模型数学模型如下p(计|1，高，级，算，机)，p(算|1，级，计，机，网)，p(机|1，计，算，网，络)。这些在传入计算机计算的时候也会转化为数值。这样有着相似上下文的词就会有相近的词向量。

步骤3：筛选出与当前被浏览的印尼新闻的关键词编号重复最多的100篇印尼新闻，作为候选数据集；

步骤5：利用所述向量表示计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的距离；即利用所述向量表示C和向量表示Fi计算两者间的欧式距离，得到当前被浏览新闻与候选数据集中每一篇新闻间的距离。

步骤6：利用所述距离进行排序，选取候选数据集中距离小的前10篇印尼新闻作为推荐新闻。

Claims

1.一种基于内容的印尼新闻网页推荐方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于内容的印尼新闻网页推荐方法，其特征在于：所述步骤1具体为：

3.根据权利要求1所述的一种基于内容的印尼新闻网页推荐方法，其特征在于：所述步骤1还包括对印尼新闻进行预处理，预处理方法为：

对当前被浏览的印尼新闻的内容进行分词处理；

将分词中的停用词和特殊字符进行过滤，得到纯文本数据。

4.根据权利要求1所述的一种基于内容的印尼新闻网页推荐方法，其特征在于：所述步骤4具体为：

5.根据权利要求4所述的一种基于内容的印尼新闻网页推荐方法，其特征在于：所述步骤5具体为：利用所述向量表示C和向量表示Fi计算两者间的欧式距离，得到当前被浏览新闻与候选数据集中每一篇新闻间的距离。