CN109948121A

CN109948121A - 文章相似度挖掘方法、系统、设备及存储介质

Info

Publication number: CN109948121A
Application number: CN201711385538.9A
Authority: CN
Inventors: 王颖帅; 李晓霞; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2019-06-28

Abstract

本发明公开了一种文章相似度挖掘方法、系统、设备及存储介质，其中方法包括步骤：S₁、对多篇文章进行预处理，获取每篇文章的特征词；S₂、基于TF‑IDF计算所述特征词的TF‑IDF权重；S₃、根据所述TF‑IDF权重生成每篇文章的归一化的特征向量；S₄、计算任意两个所述特征向量的相似度。本发明通过将文件进行分词、去停用词、提取特征词等预处理，然后采用改进的TF‑IDF方法计算特征词语的权重，通过TF‑IDF计算出文章的向量，形成表示文章的向量，然后通过计算文章的向量间的相似度，从而挖掘出更精准的相似文章并向用户推荐，从而抓住用户浏览偏好，提升了用户文章的点击转化率，提高用户浏览阅读体验。

Description

文章相似度挖掘方法、系统、设备及存储介质

技术领域

本发明涉及数据挖掘领域，特别涉及一种基于向量空间模型的文章相似度挖掘方法、系统、设备及存储介质。

背景技术

随着互联网和人工智能的发展，人们获得信息的来源更丰富，特别是目前处于大数据时代，在用户浏览完一篇文章后，若能够自动地为用户推荐相似度高的相关文章，则可进一步抓住用户的偏好心理，从而在很大程度上提高用户的个性化体验。由于文章都是有字词组成，所以通常就将文章拆分为若干特征字词，并将这些特征字词形成特征集合，即将文章转化成特征向量，然后通过比较特征向量间的相似性来得到文章之间的相似度。现有技术中，在计算特征向量时，主要采用布尔权重、词频权重、TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)等方法来计算特征词语的权重。其中，布尔权重表示一个特征词语在文章中是否出现，所以布尔权重的优点是计算简单快速，缺点是无法体现高频词和低频词的区别；词频权重是表示一个特征词语在文章中出现的频率，所以词频权重的优点是快捷地统计出各个特征词语在文章中出现的次数，缺点是找不出特征词语在不同文章中的分布情况。

发明内容

本发明要解决的技术问题是为了克服现有技术中布尔权重虽计算简单快速但无法体现高频词和低频词的区别，而词频权重虽能快捷地统计出各个特征词语在文章中出现的次数但不能找出特征词语在不同文章中的分布情况的缺陷，提供一种文章相似度挖掘方法、系统、设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种文章相似度挖掘方法，其特点是，包括步骤：

S₁、对多篇文章进行预处理，获取每篇文章的特征词；

S₂、基于TF-IDF计算所述特征词的TF-IDF权重；

S₃、根据所述TF-IDF权重生成每篇文章的归一化的特征向量；

S₄、计算任意两个所述特征向量的相似度。

本方案中，在预处理获得能够表征文章显著类别信息的特征词后，采用TF-IDF对特征词进行降权，从而使用降权后的特征向量来表示文章，这样在大数据的当下，大量文章之间的相似性就可转变为计算特征向量之间的相似性，从而可以采用大数据计算如Spark(专为大规模数据处理而设计的快速通用的计算引擎)进行文章之间相似度的挖掘。

较佳地，步骤S₁具体包括：

S₁₁、读取多篇文章，并清洗所述文章；

S₁₂、基于分词词库对已清洗的所述文章进行分词；

S₁₃、基于停用词词库对已分词的所述文章去停用词；

S₁₄、基于特征词词库对已去停用词的所述文章进行特征词提取。

本方案中，鉴于读取的文章一般来自于基础语料数据库如大数据平台提供的文章描述表、文章属性表等，这些文章数据很不规范，里面有json字符串，也有很多特殊符号，所以在进行分词前，一般采用Spark程序做正则匹配自动化处理进行数据清洗，比如去标点，去语气词，还包括文本格式转化，去除html网页标签等。

较佳地，步骤S₁₂具体包括：基于分词词库对已清洗的所述文章采用隐马尔可夫模型进行分布式分词。

较佳地，在步骤S₁₄前，将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库。

较佳地，步骤S₂中TF-IDF权重的计算公式如下：

其中，

表示第t个特征词的归一化词频权重；

表示第t个特征词的归一化逆向文件频率权重；

c_t表示第t个特征词的词频，表示n篇文章中所有特征词的总词频，n表示文章总篇数，d_t表示含有第t个特征词的文章篇数，α为常数，α取值为0～1。

较佳地，步骤S₄中计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。

较佳地，步骤S₄还包括将所述特征向量及计算出的相似度存储于大数据平台；

所述文章相似度挖掘方法还包括：

S₅、当接收到用户请求目标文章时，从所述大数据平台中获取所述目标文章；

S₆、根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列；

S₇、从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章，当所述推荐文章的数量小于预设推荐数量时，还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章，然后将所述推荐文章按所述预设推荐数量向所述用户推荐和展示。

较佳地，在步骤S₇前，记录所述用户的偏好主题，将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。

较佳地，所述文章相似度挖掘方法还包括：根据配置参数，将新增文章按步骤S₁–S₄处理后衔接更新到大数据平台。

本发明还提供一种文章相似度挖掘系统，其特点是，包括文章表示模块和相似度计算模块，所述文章表示模块包括文本预处理单元、特征词提取单元、向量权重计算单元和文章向量化单元；

所述文本预处理单元用于对多篇文章进行预处理；

所述特征词提取单元用于获取每篇文章的特征词；

所述向量权重计算单元用于基于TF-IDF计算所述特征词的TF-IDF权重；

所述文章向量化单元用于根据所述TF-IDF权重生成每篇文章的归一化的特征向量；

所述相似度计算模块用于计算任意两个所述特征向量的相似度。

较佳地，所述文本预处理单元包括读取子单元、清洗子单元、分词子单元和去停用词子单元；

所述读取子单元用于读取多篇文章；

所述清洗子单元用于清洗已读取的所述文章；

所述分词子单元用于基于分词词库对已清洗的所述文章进行分词；

所述去停用词子单元用于基于停用词词库对已分词的所述文章去停用词；

所述特征词提取单元用于基于特征词词库对已去停用词的所述文章进行特征词提取。

较佳地，所述分词子单元包括隐马尔可夫模型，所述隐马尔可夫模型用于基于分词词库对已清洗的所述文章进行分布式分词。

较佳地，所述文章表示模块还包括词库更新单元，所述词库更新单元用于在执行所述特征词提取单元前，将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库。

较佳地，所述向量权重计算单元中用于计算TF-IDF权重的公式如下：

其中，

表示第t个特征词的归一化词频权重；

表示第t个特征词的归一化逆向文件频率权重；

较佳地，所述相似度计算模块中用于计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。

较佳地，所述文章相似度挖掘系统还包括结果处理模块，所述结果处理模块包括结果整合单元、相似文章分析单元和推荐展示单元；

所述结果整合单元用于将所述特征向量及计算出的相似度存储于大数据平台；

所述相似文章分析单元用于在接收到用户请求目标文章时，从所述大数据平台中获取所述目标文章，还用于根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列，还用于从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章，并在所述推荐文章的数量小于预设推荐数量时，还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章；

所述推荐展示单元用于将所述相似文章分析单元输出的所述推荐文章按所述预设推荐数量向所述用户推荐和展示。

较佳地，所述相似文章分析单元还用于记录所述用户的偏好主题，并将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。

较佳地，所述文章相似度挖掘系统还包括大数据平台模块，所述大数据平台模块包括参数配置单元和衔接管理单元；

所述参数配置单元用于配置大数据平台的运行参数；

所述衔接管理单元用于将新增文章经所述文章表示模块和所述相似度计算模块处理后衔接更新到大数据平台。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特点是，所述处理器执行所述程序时实现上述的文章相似度挖掘方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特点是，所述程序被处理器执行时实现上述的文章相似度挖掘方法的步骤。

本发明的积极进步效果在于：本发明首先对文章进行分词、去停用词、提取特征词等预处理，然后采用改进的TF-IDF方法计算特征词语的权重，通过TF-IDF计算出文章的向量，然后计算出代表文章的向量之间的相似度，从而挖掘出更精准的相似文章并向用户推荐，从而抓住用户浏览偏好，提升了用户文章的点击转化率，提高用户浏览阅读体验。

附图说明

图1为本发明的实施例1的文章相似度挖掘方法的流程图。

图2为本发明的实施例1的文章相似度挖掘方法的步骤S101的流程图。

图3为本发明的实施例1的文章相似度挖掘方法的生成向量的示意图。

图4为本发明的实施例1的文章相似度挖掘方法的整体框图示意图。

图5为本发明的实施例2的文章相似度挖掘方法的流程图。

图6为本发明的实施例3的文章相似度挖掘系统的组成示意图。

图7为本发明的实施例4的电子设备的硬件结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例涉及的文章相似度挖掘方法包括步骤：

步骤S101、对多篇文章进行预处理，获取每篇文章的特征词。

具体实施时，如图2所示，步骤S101包括：

步骤S101-1、读取多篇文章，并清洗已读取的文章；

鉴于读取的文章一般来自于基础语料数据库如大数据平台提供的文章描述表、文章属性表等，这些文章数据很不规范，里面有json字符串，也有很多特殊符号，所以在进行分词前，一般采用Spark程序做正则匹配自动化处理进行数据清洗，比如去标点，去语气词，还包括文本格式转化，去除html网页标签等。

步骤S101-2、基于分词词库对已清洗的文章进行分词；

具体实施时，因为中文没有明显的切分标志，可优选隐马尔可夫模型进行分布式分词，从而将文章分成由词项组成的集合。

步骤S101-3、基于停用词词库对已分词的文章去停用词；

其中，停用词例如可以是“啊”、“呢”、“的”等无实际意义的词。

步骤S101-4、基于特征词词库对已去停用词的文章进行特征词提取。

本实施例中，特征词词库可由常用特征词词库和特色词词库组成，其中特色词词库一般由自定义词作为特色词构成，可由人工增减，对于不同应用平台，特色词可设置不同，比如针对电商平台，特色词如商家名称、品牌名称、商品名称、商品型号等能反映电商平台特点的一些词。具体实施时，还可将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库，使得特征词库不断得到充实，这样根据特征词词库提取出的特征词更能反映文章。

步骤S102、基于TF-IDF计算所述特征词的TF-IDF权重。

具体实施时，TF-IDF权重的计算公式如下：

其中，

表示第t个特征词的归一化词频权重；

表示第t个特征词的归一化逆向文件频率权重；

c_t表示第t个特征词的词频，表示n篇文章中所有特征词的总词频，n表示文章总篇数，d_t表示含有第t个特征词的文章篇数，α为常数，α取值为0～1。这里，经验常数α的设置是对文章进行了拉普拉斯平滑处理，防止当n＝d_t时出现权重异常值，具体实施中α取值0.01。

步骤S103、根据所述TF-IDF权重生成每篇文章的归一化的特征向量。

具体实施时，通过上述步骤S101-S103，就将文章集合表征成向量空间模型，在该模型中涉及到三个基本概念，文档、词项和权重，文档是文章中句子的集合，词项是表示文档的基本语言单位，权重是用来表示每个词项在文章中的重要程度。其中，向量空间模型简单架构如图3所示，即将原始文章集合中的文章通过清洗、分词、去停用词后，通过选择特征词将文章表示成由多个无序特征词组成的集合，然后通过对这些特征词权重计算后形成文章对应的归一化向量，最后将这些归一化向量生成向量空间模型来表征文章集合，这样就把文章相似性的处理转化成数学中的向量运算。这时，通过采用特征词来表征文章，可极大地降低了文章对比处理的维度，进一步，通过TF-IDF降权，将特征词用归一化的数值进行表示，由于归一化数值很小的特征词并不能很好地表征文章，这时还可将数值很小的特征词进行舍弃，以进一步减小特征向量的维度，形成归一化的特征向量，这样可方便后续向量计算。

步骤S104、计算任意两个所述特征向量的相似度。

具体实施时，计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法，这里优选了余弦相似度。这四种计算方法主要特点如下：

(1)余弦内积：通过计算两个向量的内积，可以得到两个向量之间夹角的余弦值，得到两个向量的相似性，即两篇文章的相似性；

(2)Pearson相似：Pearson相关系数就是分别对两个向量进行了总体标准化后，计算两者之间的余弦夹角得到；

(3)Jaccard相似系数：比较两个向量共有的特征数目，共有的特征数目越多，两个向量越相似；

(4)余弦相似度：余弦相似度通过两篇文章向量夹角的余弦值，来对文章间的差异进行衡量，余弦相似度较其它距离度量，更加注重两个文章向量在方向上的不同。

因此，基于上述步骤S101-S104进行文章相似度挖掘流程的框图如图4所示，首先将待挖掘文档集合分成一篇篇文章，比如对每篇文章进行文章编号便于后续处理，然后对每篇文章基于分词词库进行分词(分词前还做数据清洗，图4中未标识出清洗相关内容)、基于停用词词库进行去停用词、基于特征词词库进行特征词提取，然后进行特征词权重计算，得到文章的归一化特征向量，有这些特征向量组成向量空间，最后通过向量计算相似文章。

本实施例中，鉴于新文章不断涌现，需要将新增文章添加到数据平台中，以进一步扩充数据，所述文章相似度挖掘方法还包括：根据配置参数，将新增文章按步骤S101-S104处理后衔接更新到大数据平台。这时，就可通过Spark大数据平台将昨天的离线文章部分和今天新增的实时文章更新部分进行衔接更新到数据平台中。为了计算速度快，在计算今天增量文章的相似文章时，以昨天的离线文章作为基础表，每小时新拉来一批文章，程序判断是否在文章基础表中，在基础表中就不用计算它的相似文章了，因为昨天离线部分已经计算过，只是针对那些离线文章基础表中没有的文章，计算相似文章，这样节省了计算资源。具体可通过Spark大数据平台中的数据脚本管理模块，把Spark程序放在调度平台上进行统一管理，从而可以每天做成定时离线任务，保证数据准时更新；另外，通过Spark参数性能配置模块，配置Spark程序运行参数，比如driver-cores，executor-cores，num-executors，driver-memory，executor-memory等参数，这里分别设置driver-cores等于4，executor-cores等于8，num-executors等于5，driver-memory等于16G，executor-memory等于16G。

为便于理解本实施例的效果，通过本实施例提供的文章相似度挖掘方法，对11万篇文章的文档集进行了挖掘，比如针对标题为“谷歌变硬了：Pixel/Pixel XL真机上手评测！”的文章(文档集中的文章编号为43930)进行相似文章挖掘，这里仅挑选出相似度最高的前五篇，结果如表1所示。

表1文章编号43930的相似文章挖掘结果

相似文章编号	37054	39502	102832	106845	44610
						相似度	0.6872	0.6793	0.6464	0.5714	0.5679

根据表1可知，与它相似度最高的为文章编号37054(相似度为0.6872)，其次是文章编号39502(相似度为0.6793)，具体见表1，就不再一一罗列。这五篇文章都是关于高科技主题的，表明了挖掘效果良好，可将这些文章作为文章编号43930的相似文章。

实施例2

本实施例涉及的文章相似度挖掘方法与实施例1的基本相同，不同之处在于，如图5所示，步骤S104还包括将所述特征向量及计算出的相似度存储于大数据平台，这样在用户进行阅览时，可以基于大数据平台向用户进行相关文章阅读推荐；所述文章相似度挖掘方法还包括：

步骤S105、当接收到用户请求目标文章时，从所述大数据平台中获取所述目标文章；

步骤S106、根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列；

具体实施时，还可通过记录所述用户的偏好主题，将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。这样，通过将相似文章进行排序形成推荐文章队列，使得所推荐的文章更能反映出用户的阅读习惯和阅读兴趣，从而提高用户体验。

步骤S107、从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章，当所述推荐文章的数量小于预设推荐数量时，还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章，然后将所述推荐文章按所述预设推荐数量向所述用户推荐和展示。这样，在推荐数量不足时，可将与用户最近浏览过的文章相似度高的文章加以推荐给用户，既可提高用户阅读体验，还可提高文章的点击率。当然，在推荐文章数量不足时，还可将热点文章向用户加以推荐，方便了用户了解最近的热点事件。

实施例3

如图6所示，本实施例涉及的文章相似度挖掘系统包括文章表示模块1和相似度计算模块2，文章表示模块1包括文本预处理单元11、特征词提取单元12、向量权重计算单元13和文章向量化单元14，文本预处理单元11用于对多篇文章进行预处理，特征词提取单元12用于获取每篇文章的特征词，向量权重计算单13用于基于TF-IDF计算所述特征词的TF-IDF权重，文章向量化单元14用于根据所述TF-IDF权重生成每篇文章的归一化的特征向量，相似度计算模2用于计算任意两个所述特征向量的相似度，具体实施时，相似度计算模块2中用于计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法，这里优选余弦相似度方法进行计算。

本实施例中，文本预处理单元11包括读取子单元111、清洗子单元112、分词子单元113和去停用词子单元114，读取子单元111用于读取多篇文章，清洗子单112用于清洗已读取的所述文章，分词子单元113用于基于分词词库对已清洗的所述文章进行分词，去停用词子单114用于基于停用词词库对已分词的所述文章去停用词，特征词提取单元12用于基于特征词词库对已去停用词的所述文章进行特征词提取。

具体实施时，分词子单元113可优选隐马尔可夫模型，并基于分词词库采用所述隐马尔可夫模型对已清洗的文章进行分布式分词。

具体实施时，向量权重计算单元13中计算TF-IDF权重的公式如下：

其中，

表示第t个特征词的归一化词频权重；

表示第t个特征词的归一化逆向文件频率权重；

c_t表示第t个特征词的词频，表示n篇文章中所有特征词的总词频，n表示文章总篇数，d_t表示含有第t个特征词的文章篇数，α为0～1的常数，这里α取值为0.01。

本实施例中，文章表示模块1还包括词库更新单元15，词库更新单元15用于在执行特征词提取单元12前，将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库。特征词词库可由常用特征词词库和特色词词库组成，其中特色词词库一般由自定义词作为特色词构成，可由人工增减，对于不同应用平台，特色词可设置不同，比如针对电商平台，特色词如商家名称、品牌名称、商品名称、商品型号等能反映电商平台一些词。具体实施时，还可将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库，使得特征词库不断得到充实，这样根据特征词词库提取出的特征词更能反映文章

通过文本预处理单元11是对原始语料如待挖掘的文档集中的文章进行如清洗、分词，去停用词等预处理，这里采用Spark程序用来自动匹配识别停用词；特征词提取单元12主要是通过TF词频和/或IDF逆文档率来判断哪些词语需要作为特征词，进而为特征词构建特征词表索引，这里词库更新单元15中优选词语的IDF值来选择特征词构建出词库；向量权重计算单元13将每个词的TF-IDF值作为该词语的权重表示，进而整篇文章就构成了一个向量。这样每篇文章都可以表示为一个向量，实现了文章向量化，将文章的相似比较转换为向量的数学运算。

本实施例中，所述文章相似度挖掘系统还包括结果处理模块3，结果处理模块3包括结果整合单元31、相似文章分析单元32和推荐展示单元33，其中结果整合单元31用于将所述特征向量及计算出的相似度存储于大数据平台，相似文章分析单32用于在接收到用户请求目标文章时，从所述大数据平台中获取所述目标文章，还用于根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列，还用于从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章，并在所述推荐文章的数量小于预设推荐数量时，还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章；推荐展示单元33用于将相似文章分析单元32输出的所述推荐文章按所述预设推荐数量向所述用户推荐和展示。

具体实施时，相似文章分析单元32还用于记录所述用户的偏好主题，并将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中，进一步提高推荐效果和用户体验。

本实施例中，所述文章相似度挖掘系统还包括大数据平台模块4，大数据平台模块4包括参数配置单元41和衔接管理单元42，其中参数配置单元41用于配置大数据平台的运行参数，衔接管理单元42用于将新增文章经文章表示模块1和相似度计算模块2处理后衔接更新到大数据平台。具体实施中，通过参数配置单元41配置Spark程序运行参数，比如driver-cores，executor-cores，num-executors，driver-memory，executor-memory等参数，这里分别设置driver-cores等于4，executor-cores等于8，num-executors等于5，driver-memory等于16G，executor-memory等于16G。

实施例4

本实施例涉及的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特点是，所述处理器执行所述程序时实现实施例1或实施例2所述的文章相似度挖掘方法。

图7为本实施例涉及的电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性的电子设备50的框图。图7显示的电子设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备50可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备50的组件可以包括但不限于：上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。

总线53包括数据总线、地址总线和控制总线。

存储器52可以包括易失性存储器，例如随机存取存储器(RAM)521和/或高速缓存存储器522，还可以进一步包括只读存储器(ROM)523。

存储器52还可以包括具有一组(至少一个)程序模块524的程序工具525，这样的程序模块524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器51通过运行存储在存储器52中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的文章相似度挖掘方法。

电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信，网络适配器56通过总线53与电子设备50的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例5

本实施例涉及一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1或实施例2所述的文章相似度挖掘方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1或实施例2所述的文章相似度挖掘方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种文章相似度挖掘方法，其特征在于，包括：

S₁、对多篇文章进行预处理，获取每篇文章的特征词；

S₂、基于TF-IDF计算所述特征词的TF-IDF权重；

S₃、根据所述TF-IDF权重生成每篇文章的归一化的特征向量；

S₄、计算任意两个所述特征向量的相似度。

2.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S₁具体包括：

S₁₁、读取多篇文章，并清洗所述文章；

S₁₂、基于分词词库对已清洗的所述文章进行分词；

S₁₃、基于停用词词库对已分词的所述文章去停用词；

3.如权利要求2所述的文章相似度挖掘方法，其特征在于，步骤S₁₂具体包括：基于分词词库对已清洗的所述文章采用隐马尔可夫模型进行分布式分词。

4.如权利要求2所述的文章相似度挖掘方法，其特征在于，所述文章相似度挖掘方法还包括：在步骤S₁₄前，将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库。

5.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S₂中TF-IDF权重的计算公式如下：

其中，

表示第t个特征词的归一化词频权重；

表示第t个特征词的归一化逆向文件频率权重；

6.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S₄中计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。

7.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S₄还包括将所述特征向量及计算出的相似度存储于大数据平台，所述文章相似度挖掘方法还包括：

8.如权利要求7所述的文章相似度挖掘方法，其特征在于，所述文章相似度挖掘方法还包括：在步骤S₇前，记录所述用户的偏好主题，将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。

9.如权利要求1所述的文章相似度挖掘方法，其特征在于，所述文章相似度挖掘方法还包括：

根据配置参数，将新增文章按步骤S₁–S₄处理后衔接更新到大数据平台。

10.一种文章相似度挖掘系统，其特征在于，包括文章表示模块和相似度计算模块，所述文章表示模块包括文本预处理单元、特征词提取单元、向量权重计算单元和文章向量化单元；

所述文本预处理单元用于对多篇文章进行预处理；

所述特征词提取单元用于获取每篇文章的特征词；

11.如权利要求10所述的文章相似度挖掘系统，其特征在于，所述文本预处理单元包括读取子单元、清洗子单元、分词子单元和去停用词子单元；

所述读取子单元用于读取多篇文章；

所述清洗子单元用于清洗已读取的所述文章；

12.如权利要求11所述的文章相似度挖掘系统，其特征在于，所述分词子单元包括隐马尔可夫模型，所述隐马尔可夫模型用于基于分词词库对已清洗的所述文章进行分布式分词。

13.如权利要求11所述的文章相似度挖掘系统，其特征在于，所述文章表示模块还包括词库更新单元，所述词库更新单元用于在执行所述特征词提取单元前，将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库。

14.如权利要求10所述的文章相似度挖掘系统，其特征在于，所述向量权重计算单元中用于计算TF-IDF权重的公式如下：

其中，

表示第t个特征词的归一化词频权重；

表示第t个特征词的归一化逆向文件频率权重；

15.如权利要求10所述的文章相似度挖掘系统，其特征在于，所述相似度计算模块中用于计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。

16.如权利要求10所述的文章相似度挖掘系统，其特征在于，所述文章相似度挖掘系统还包括结果处理模块，所述结果处理模块包括结果整合单元、相似文章分析单元和推荐展示单元；

17.如权利要求16所述的文章相似度挖掘系统，其特征在于，所述相似文章分析单元还用于记录所述用户的偏好主题，并将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。

18.如权利要求10所述的文章相似度挖掘系统，其特征在于，所述文章相似度挖掘系统还包括大数据平台模块，所述大数据平台模块包括参数配置单元和衔接管理单元；

所述参数配置单元用于配置大数据平台的运行参数；

19.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的文章相似度挖掘方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的文章相似度挖掘方法的步骤。