CN103955547A

CN103955547A - 发现论坛热帖的方法和系统

Info

Publication number: CN103955547A
Application number: CN201410218382.5A
Authority: CN
Inventors: 伏峰; 章正道; 林胜通
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2014-05-22
Filing date: 2014-05-22
Publication date: 2014-07-30
Anticipated expiration: 2034-05-22
Also published as: CN103955547B

Abstract

本发明提供了一种发现论坛热帖的方法和系统，其中，上述方法包括：对论坛帖子源数据的一般特性进行汇总，获得特征化数据；依据所述特征化数据，将内容相似的帖子聚合成帖子簇；综合考虑预设影响因素计算每一个帖子簇的热度值，将热度值较高的帖子簇作为论坛热帖，所述预设影响因素包括：类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。采用本发明提供的发现论坛热帖的方法，能够综合考虑贴子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种因素的影响，更加有效、客观、准确地发现论坛热帖。

Description

发现论坛热帖的方法和系统

技术领域

本发明涉及互联网信息技术领域，特别地，涉及一种发现论坛热帖的方法和系统。

背景技术

随着互联网的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络媒体与传统媒体在传播载体和传播方式上的不同，将导致网络舆论热点、焦点层出不穷，而这些信息的产生将对社会产生巨大影响。因此，有必要对这些热点信息的正确性及传播范围进行有效管理。论坛作为舆情传播最常用的媒介之一，对其更需有效管理。

目前论坛热帖发现技术主要分为三类：基于频率统计方法，首先对相似帖子进行聚类，如果某类别的帖子数居多，则认为是热帖。基于数学模型的方法，例如“牛顿冷却定律”算法，它将把热贴排名想象成一个"自然冷却"的过程，任一时刻，论坛网站中所有的帖子，都有一个"当前温度"，温度最高的帖子就认为是热帖。基于语义的方法，利用自然语言的语义特征发现论坛热帖。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：基于频率统计方法虽然操作便利，但是计算方法过于简单，仅仅把类簇中的帖子数作为衡量热度的唯一标准，完全忽视了其他因素对热帖排名的影响。基于数学模型的方法虽然将热帖发现问题转化为更一般的数学问题，更具普遍性，但是计算过程相对复杂。基于语义的方法从语义角度判断，较符合人们的感知逻辑，也是目前该领域的一个研究热点，但基于语义的文本理解技术尚未达到实用程度，所以也仅仅是停留在研究阶段。

总之，需要本领域技术人员迫切解决的一个技术问题就是：提供一种能够综合考虑贴子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种因素的发现热帖的方法。

发明内容

本发明所要解决的技术问题是提供一种发现论坛热帖的方法，能够综合考虑多种影响因素，更加有效、客观、准确地发现论坛热帖。

为了解决上述问题，一方面提供了一种发现论坛热帖的方法，包括：对论坛帖子源数据的一般特性进行汇总，获得特征化数据；依据所述特征化数据，将内容相似的帖子聚合成帖子簇；综合考虑预设影响因素计算每一个帖子簇的热度值，将热度值较高的帖子簇作为论坛热帖，所述预设影响因素包括：类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。

可选的，在执行上述各步骤之前还包括：清理论坛帖子数据源中的不合理数据，保留有效源数据。

可选的，所述对论坛帖子源数据的一般特性进行汇总，获得特征化数据；具体包括：

对帖子的标题和正文进行分词，将帖子转化为形如<w₁，w₂，w₃…w_n>的词元序列，其中，w_i表示分词后的词元；

参照停用词库过滤所述词元序列中的停用词元，获得有效词元序列；

采用计数方式对所述有效词元序列中的每个有效词元进行计分统计；

对所述有效词元的计分统计进行归一化处理，获得每个有效词元的概率统计值；

将所述每个有效词元的概率统计值与预设阈值λ进行比较，保留概率统计值大于预设阈值λ的词元，并将特征提取后的每条帖子记录表示成向量X＝(<w₁，c₁>,<w₂，c₂>,<w₃，c₃>…<w_n，c_n>)，其中：c_i≥λ，c_i表示有效词元的出现频率；w_i表示有效词元。

可选的，所述依据特征化数据，将内容相似的帖子聚合成帖子簇；具体包括：

扫描所有特征化后的帖子记录，采用预设计算方法计算帖子之间的相似度；

基于帖子之间的相似度与预设阈值的比较，对所述特征化后的帖子记录进行聚类，获得不同的帖子簇。

可选的，计算帖子之间相似度的方法包括：

余弦值相似度计算法：

Sim(X，Y)＝(X*Y)/(||X||*||Y||)；或者，

曼哈顿距离相似度计算法：

Sim (X, Y) = Σ_{i = 0}^{n} | x_{i} - y_{i} |;

或者，

欧几里得距离相似度计算法：

sim (X, Y) = \sqrt{Σ_{i = 0}^{n} (x_{i} - y_{i}) * (x_{i} - y_{i})};

其中，上述各式中，X和Y是帖子特征化后的向量表示，描述为X＝(x₁，x₂，x₃…·x_n)和Y＝(y₁，y₂，y₃…·y_n)，x_i、y_i分别表示特征提取后的帖子记录中有效词元的出现频率。

可选的，采用以下公式计算帖子簇的热度值：

score = Σ_{i = 1}^{m} {{wl}_{i} * \frac{{pl}_{i} * [{&PartialD;}_{1} * \log_{10} {pv}_{i} + {&PartialD;}_{2} * {pa}_{i} + {&PartialD;}_{3} * Σ_{j = 1}^{pa} ({as}_{ij} * {au}_{ij})]}{{pt}_{i} + {al}_{i} + 1}}

其中，m表示帖子簇中帖子的数量；wl表示帖子所属网站的权重；pl表示发帖者等级；pv表示帖子的浏览量；pa表示回帖数量；as表示回帖评论者评分；au表示回帖者等级；pt表示发帖距离现在的时间；al表示最后一次回帖距离现在的时间；表示权重值，并且满足：

{&PartialD;}_{1} + {&PartialD;}_{2} + {&PartialD;}_{3} = 1,0 \leq {&PartialD;}_{1} \leq 1,0 \leq {&PartialD;}_{2} \leq 1,

0 \leq {&PartialD;}_{3} \leq 1 .

可选的，所述清理论坛帖子数据源中的不合理数据，保留有效源数据；具体包括：

从论坛帖子数据源中获取由帖子记录组成的帖子数据集，其中，每条所述帖子记录至少包括：帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息；其中，所述回帖信息至少包括：回帖人等级、回帖时间、回帖评价分数；

参照系统和用户定义的问题数据类型，对每条所述帖子记录进行匹配，筛选出问题数据；

按照预设问题数据处理方式处理所述问题数据；

对处理后的数据的标题和正文内容进行一致性判断，清理掉标题与正文内容不符的无效帖子，获得有效源数据。

可选的，所述对处理后的数据的标题和正文内容进行一致性判断，清理掉标题与正文内容不符的无效帖子，获得有效源数据；具体包括：

对帖子标题进行分词处理，将标题分解成形如<w₁，w₂，w₃…·w_n>的词元序列，w_i(i＝1…·n)表示分词后的词元；

判断帖子正文内容是否包含标题的词元w_i，如果包含则将计数器值加1，否则值不变；

判断计数器值是否达到预设阈值，如果没有，则认为该贴的标题与正文内容不一致；

将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理，获得所述有效源数据。

另一方面，还提供了一种发现论坛热帖的系统，包括：

特征提取模块，用于对论坛帖子源数据的一般特性进行汇总，获得特征化数据；

帖子簇聚类模块，用于依据所述特征化数据，将内容相似的帖子聚合成帖子簇；

论坛热帖计算模块，用于综合考虑预设影响因素计算每一个帖子簇的热度值，将热度值较高的帖子簇作为论坛热帖，所述预设影响因素包括：类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。

可选的，所述发现论坛热帖的系统还包括：数据清理模块，用于清理论坛帖子数据源中的不合理数据，保留有效源数据。

可选的，所述特征提取模块具体包括：

分词单元，用于对帖子的标题和正文进行分词，将帖子转化为形如<w₁，w₂，w₃…w_n>的词元序列，其中，w_i表示分词后的词元；

有效词元获取单元，用于参照停用词库过滤所述词元序列中的停用词元，获得有效词元序列；

统计单元，用于采用计数方式对所述有效词元序列中的每个有效词元进行计分统计；

归一化处理单元，用于对所述有效词元的计分统计进行归一化处理，获得每个有效词元的概率统计值；

特征帖子记录获取单元，用于将所述每个有效词元的概率统计值与预设阈值λ进行比较，保留概率统计值大于预设阈值λ的词元，并将特征提取后的每条帖子记录表示成向量X＝(<w₁，c₁>,<w₂，c₂>,<w₃，c₃>…<w_n，c_n>)，其中：c_i≥λ，c_i表示有效词元的出现频率；；w_i表示有效词元。

可选的，所述帖子簇聚类模块具体包括：

相似度计算单元，用于扫描所有特征化后的帖子记录，采用预设计算方法计算帖子之间的相似度；

聚类单元，用于基于帖子之间的相似度与预设阈值的比较，对所述特征化后的帖子记录进行聚类，获得不同的帖子簇。

可选的，所述相似度计算单元计算帖子之间相似度的方法包括：

余弦值相似度计算法：

Sim(X，Y)＝(X*Y)/(||X||*||Y||)；或者，

曼哈顿距离相似度计算法：

Sim (X, Y) = Σ_{i = 0}^{n} | x_{i} - y_{i} |;

或者，

欧几里得距离相似度计算法：

sim (X, Y) = \sqrt{Σ_{i = 0}^{n} (x_{i} - y_{i}) * (x_{i} - y_{i})};

可选的，所述论坛热帖计算模块采用以下公式计算帖子簇的热度值：

score = Σ_{i = 1}^{m} {{wl}_{i} * \frac{{pl}_{i} * [{&PartialD;}_{1} * \log_{10} {pv}_{i} + {&PartialD;}_{2} * {pa}_{i} + {&PartialD;}_{3} * Σ_{j = 1}^{pa} ({as}_{ij} * {au}_{ij})]}{{pt}_{i} + {al}_{i} + 1}}

{&PartialD;}_{1} + {&PartialD;}_{2} + {&PartialD;}_{3} = 1,0 \leq {&PartialD;}_{1} \leq 1,0 \leq {&PartialD;}_{2} \leq 1,

0 \leq {&PartialD;}_{3} \leq 1 .

可选的，所述数据清理模块具体包括：

帖子记录获取单元，用于从论坛帖子数据源中获取由帖子记录组成的帖子数据集，其中，每条所述帖子记录至少包括：帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息；其中，所述回帖信息至少包括：回帖人等级、回帖时间、回帖评价分数；

问题数据筛选单元，用于参照系统和用户定义的问题数据类型，对每条所述帖子记录进行匹配，筛选出问题数据；

问题数据处理单元，用于按照预设问题数据处理方式处理所述问题数据；

有效源数据获取单元，用于对处理后的数据进行标题、内容一致性判断，清理掉标题与正文内容不符的无效帖子，获得有效源数据。

可选的，有效源数据获取单元具体包括：

标题分词子单元，用于对帖子标题进行分词处理，将标题分解成形如<w₁，w₂，w₃…·w_n>的词元序列，w_i(i＝1…·n)表示分词后的词元；

计数子单元，用于判断帖子正文内容是否包含标题的词元w_i，如果包含则将计数器值加1，否则值不变；

判断子单元，用于判断计数器值是否达到预设阈值，如果没有，则认为该贴的标题与正文内容不一致；

数据清理子单元，用于将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理，获得所述有效源数据。

与现有技术相比，上述技术方案中的一个技术方案具有以下优点：

本发明提供的发现论坛热帖的方法在衡量帖子热度时，综合考虑了帖子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种影响因素，使论坛热帖能够真实客观地反映出用户对帖子的关注度；在确定帖子热度前自定义了一套数据清理和特征化提取方法，对论坛帖子数据进行预处理，使确定论坛热帖的过程更加准确、高效。

附图说明

图1是本发明发现论坛热帖方法优选实施例的流程图；

图2是本发明发现论坛热帖方法实施例中数据清理过程的流程图；

图3是本发明发现论坛热帖方法实施例中特征化提取过程的流程图；

图4是本发明发现论坛热帖方法实施例中聚类帖子簇的流程图；

图5是本发明发现论坛热帖的系统实施例的结构框图；

图6是本发明发现论坛热帖的系统实施例中数据清理模块的结构框图；

图7是本发明发现论坛热帖的系统实施例中有效源数据获取单元的结构框图；

图8是本发明发现论坛热帖的系统实施例中特征提取模块的结构框图；

图9是本发明发现论坛热帖的系统实施例中帖子簇聚类模块的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明发现论坛热帖方法优选实施例的流程图，包括：

步骤1、清理论坛帖子数据源中的不合理数据，保留有效源数据；

一般情况下，论坛帖子源数据是存在噪音的或者存在内容不完整数据，即论坛帖子源数据中存在不合理数据。本步骤针对论坛帖子源数据存在噪音的情况，对其中的不合理数据进行数据清理，去除噪音即过滤掉无效数据，保留论坛帖子的有效源数据，以提高后续数据处理的效率和准确性。需要说明的是，本步骤仅作为实施本发明的一种优选实施方式，对于论坛帖子源数据噪声较小的情况，该步骤可以省略。

步骤2、对论坛帖子有效源数据的一般特性进行汇总，获得特征化数据；

步骤2为本发明整个方案的必不可少的数据预处理环节，特征化后的结果将为后续处理做数据准备。执行步骤2后获得的特征化数据既能清晰地代表论坛帖子的源数据，又能在分析时对论坛帖子源数据进行有效降维，从而提高后续数据处理的执行效率。

步骤3、依据所述特征化数据，将内容相似的帖子聚合成帖子簇；

执行完步骤3后，将所有的论坛帖子数据整理成不同的帖子簇，不同帖子簇中帖子的内容高度相异。

步骤4、综合考虑预设影响因素计算每一个帖子簇的热度值，将热度值较高的帖子簇作为论坛热帖，上述预设影响因素包括但不限于：类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间等影响因素。

即，根据类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间等因素计算每个帖子簇的热度值，然后对所有帖子簇的热度值进行排序，最后提取排名靠前的、设定个数的帖子簇作为论坛热帖。

进一步地，以下结合附图对上述各步骤的详细流程进行说明。

其中，图2示出了本发明发现论坛热帖方法实施例中步骤1数据清理过程的流程图，具体包括：

步骤11、从论坛帖子有效数据源中获取由帖子记录组成的帖子数据集，其中，每条所述帖子记录至少包括：帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息；其中，所述回帖信息至少包括：回帖人等级、回帖时间、回帖评价分数；

本发明实施例中，默认从论坛帖子的有效数据源中整理的每条帖子记录由<帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息>八部分内容组成，其中，上述回帖信息默认由<回帖人等级、回帖时间、回帖评价分数>三部分内容组成。

步骤12、参照系统和用户定义的问题数据类型，对每条所述帖子记录进行匹配，筛选出问题数据；

对于问题数据类型可以在系统初始化时进行默认设置，也可以在实际应用中用户自定义设置。具体在本发明实施例中，系统默认提供缺失值和格式不一致两种问题数据类型。其中，缺失值类型，是指该条帖子记录某部分内容为空的情况；格式不一致类型，是指帖子记录某部分内容的数据格式和标准数据格式不一致情况。

步骤13、按照预设问题数据处理方式处理所述问题数据；

发现问题数据后，选择问题数据处理方式对上述问题数据进行处理。本发明实施例提供两种默认处理方式：

忽略元组处理法，如果帖子记录的某部分内容为问题数据，则将整条帖子记录忽略不考虑；

默认缺失值处理法，如果帖子记录的某部分内容为问题数据，则将该部分内容用一个默认的常量代替。

对于步骤12筛选出的问题数据，可以统一采用一种处理方式进行处理，也可以根据不同问题数据类型选择不同的处理方式。

步骤14、对处理后的数据进行标题和正文内容的一致性判断，清理掉标题与正文内容不符的无效帖子，获得有效源数据。

其中，上述处理后的数据为对问题数据进行处理后输出的论坛帖子数据，即对原始论坛帖子数据执行步骤13后获得的一种中间数据。

步骤14中，对处理后的数据进行标题和正文内容进行一致性判断的方法具体包括：

步骤一、对帖子标题进行分词处理，将标题分解成形如<w₁，w₂，w₃…·w_n>的词元序列，w_i(i＝1…·n)表示分词后的词元；

步骤二、判断帖子正文内容是否包含标题的词元w_i，如果包含则将计数器值加1，否则值不变；

具体实施方式为：对帖子标题进行分词处理后，为每个词元w_i设置一个相应的计数器，并初始化赋值为1。判断帖子正文内容是否包含标题的词元w_i，每检索到一次，则将计数器值加1，如果检索不到，则计数器值不变。

步骤三、判断计数器值是否达到预设阈值，如果没有，则认为该贴的标题与正文内容不一致；

步骤四、将标题和正文内容不一致的帖子记录采用忽略元组法进行处理，获得有效源数据。

图3示出了本发明发现论坛热帖方法实施例中步骤2特征化提取过程的流程图，具体包括：

步骤21、对帖子的标题和正文进行分词，将帖子转化为形如<w₁，w₂，w₃…w_n>的词元序列，其中，w_i表示分词后的词元；每条帖子记录对应一个词元序列。

步骤22、参照停用词库过滤所述词元序列中的停用词元，获得有效词元序列；

该步骤中，停用词库是用来保存类似虚词“的”“呢”“是”等无助于表达帖子内容的词元，在特征化提取过程中将这些词过滤掉，保留有效词元序列，每条帖子记录对应一个有效词元序列。

步骤23、采用计数方式对所述有效词元序列中的每个有效词元进行计分统计；

步骤23具体为：扫描过滤后的有效词元序列，并按以下方式进行词元统计：为每条帖子记录对应的有效词元序列中的每个词元设置一个相应的计数器，并初始化赋值为1。此后，该词元每出现一次就在其相应的计数器中加1，以<w，c>形式保存，其中w表示词元，c表示计数器值。

步骤24、对所述有效词元的计分统计进行归一化处理，获得每个有效词元的概率统计值；

具体为：将处理后所有词元的计数器计分相加得到和S，然后每个计数器的计分除以S再放入计数器，此时每个计数器计分将是一个大于0小于1的值，即为每个有效词元的概率统计值。

步骤25、将每个有效词元的概率统计值与预设阈值λ进行比较，保留概率统计值大于预设阈值λ的词元，并将特征提取后的每条帖子记录表示成向量X＝(<w₁，c₁>,<w₂，c₂>,<w₃，c₃>…<w_n，c_n>)，其中：c_i≥λ，c_i表示有效词元的出现频率；w_i表示有效词元。

图4示出了本发明发现论坛热帖方法实施例中步骤3聚类帖子簇的流程图，具体包括：

步骤31、扫描所有特征化后的帖子记录，采用预设计算方法计算帖子之间的相似度；

计算帖子之间相似度的预设计算方法可以包括：

余弦值相似度计算法：

Sim(X，Y)＝(X*Y)/(||X||*||Y||)；

其中X和Y是帖子特征化后的向量表示，描述为X＝(x₁，x₂，x₃…·x_n)和Y＝(y₁，y₂，y₃…·y_n)，x_i、y_i分别表示特征提取后的帖子记录中有效词元的出现频率，相当于c_i；X*Y表示向量X和向量Y之间的向量积，||X||和||Y||分别向量X和向量Y的欧几里得范数；

或者，

曼哈顿距离相似度计算法：

Sim (X, Y) = Σ_{i = 0}^{n} | x_{i} - y_{i} |

其中X和Y是帖子特征化后的向量表示，描述为X＝(x₁，x₂，x₃…·x_n)和Y＝(y₁，y₂，y₃…·y_n)，x_i、y_i分别表示特征提取后的帖子记录中有效词元的出现频率，相当于c_i；|x_i-y_i|表示x_i减去y_i的绝对值；

或者，

欧几里得距离相似度计算法：

Sim (X, Y) = \sqrt{Σ_{i = 0}^{n} (x_{i} - y_{i}) * (x_{i} - y_{i})}

其中X和Y是帖子特征化后的向量表示，描述为X＝(x₁，x₂，x₃…·x_n)和Y＝(y₁，y₂，y₃…·y_n)，x_i、y_i分别表示特征提取后的帖子记录中有效词元的出现频率，相当于c_i；(x_i-y_i)*(x_i-y_i)表示x_i减去y_i后差的平方。

步骤32、基于帖子之间的相似度与预设阈值的比较，对所述特征化后的帖子记录进行聚类，获得不同的帖子簇。

具体地，假设论坛帖子源数据特征提取后包括10条帖子记录对应的向量，按顺序标记为：1、2、3、4、5、6、7、8、9、10。在通过计算相似度比较划分帖子簇之前，每一个帖子作为一个初始簇，然后通过聚类方式聚合帖子簇。具体过程如下，在第一轮计算中，将向量1作为被比较对象，对应上述相似度计算公式中的向量X；向量2、3、4、5、6、7、8、9、10作为与向量1的比较对象，相当于上述相似度计算公式中的向量Y；利用上述任一相似度计算公式分别计算向量2、3、4、5、6、7、8、9、10与向量1的相似度Sim(X，Y)，然后与预设阈值M进行比较。假设向量2、3、4与向量1的相似度大于M，则将向量1、2、3、4聚合成一个帖子簇。然后，将向量5作为被比较对象，分别计算向量6、7、8、9、10与其的相似度，假设向量6、7与向量5的相似度大于M，则将向量5、6、7聚合成一个帖子簇。之后，将向量8作为被比较对象，计算向量9、10与其的相似度，假设向量10与8的相似度大于阈值M，则将向量8、10对应的帖子记录聚合成一个簇。剩余向量9对应的帖子作为一个帖子簇。通过上述聚类方式进行帖子簇的聚合。

随后，执行上述步骤4，采用以下公式计算帖子簇的热度值：

score = Σ_{i = 1}^{m} {{wl}_{i} * \frac{{pl}_{i} * [{&PartialD;}_{1} * \log_{10} {pv}_{i} + {&PartialD;}_{2} * {pa}_{i} + {&PartialD;}_{3} * Σ_{j = 1}^{pa} ({as}_{ij} * {au}_{ij})]}{{pt}_{i} + {al}_{i} + 1}}

其中，m表示帖子簇中帖子的数量；

wl表示帖子所属网站的权重，越知名网站该帖子的分数越高；

pl表示发帖者等级，发帖者等级越高，则该帖子的分数越高；

pv表示帖子的浏览量，帖子的浏览次数越多，就代表越受关注，得分也越高，这里使用了以10为底的对数，用意是当访问量越来越大，它对得分的影响将不断变小；

pa表示回帖数量，代表越多人参加这个帖子讨论，那么它的得分越高；

as表示回帖评论者评分，代表回帖者越肯定该帖子，那么它的得分便越高；

au表示回帖者等级，回帖等级越高，则该帖子的分数越高；

pt表示发帖距离现在的时间；

al表示最后一次回帖距离现在的时间，代表如果一个帖子的存在时间越久，或者距离上一次回帖的时间越久，那么人们对它的关注度在逐渐降低，因此得分也相应的变低；

表示权重值，并且满足：

{&PartialD;}_{1} + {&PartialD;}_{2} + {&PartialD;}_{3} = 1,0 \leq {&PartialD;}_{1} \leq 1,0 \leq {&PartialD;}_{2} \leq 1, 0 \leq {&PartialD;}_{3} \leq

1 .

以上对本发明提供的发现论坛热帖的方法进行了详细描述，与现有技术相比，本发明提供的发现论坛热帖的方法在衡量帖子热度时，综合考虑了帖子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种影响因素，使论坛热帖能够真实客观地反映出用户对帖子的关注度；在确定帖子热度前自定义了一套数据清理和特征化提取方法，对论坛帖子数据进行预处理，使确定论坛热帖的过程更加准确、高效。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

对应上述发现论坛热帖的方法，本发明还提供了发现论坛热帖的系统实施例，如图5所示，包括：

数据清理模块51，用于清理论坛帖子数据源中的不合理数据，保留有效源数据。

特征提取模块52，用于对论坛帖子源数据的一般特性进行汇总，获得特征化数据；

帖子簇聚类模块53，用于依据所述特征化数据，将内容相似的帖子聚合成帖子簇；

论坛热帖计算模块54，用于综合考虑预设影响因素计算每一个帖子簇的热度值，将热度值较高的帖子簇作为论坛热帖，所述预设影响因素包括：类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。

具体地，论坛热帖计算模块54采用以下公式计算帖子簇的热度值：

score = Σ_{i = 1}^{m} {{wl}_{i} * \frac{{pl}_{i} * [{&PartialD;}_{1} * \log_{10} {pv}_{i} + {&PartialD;}_{2} * {pa}_{i} + {&PartialD;}_{3} * Σ_{j = 1}^{pa} ({as}_{ij} * {au}_{ij})]}{{pt}_{i} + {al}_{i} + 1}}

{&PartialD;}_{1} + {&PartialD;}_{2} + {&PartialD;}_{3} = 1,0 \leq {&PartialD;}_{1} \leq 1,0 \leq {&PartialD;}_{2} \leq 1,

0 \leq {&PartialD;}_{3} \leq 1 .

进一步地，参照图6，示出了本发明发现论坛热帖的系统实施例中数据清理模块51的结构框图，具体包括：

帖子记录获取单元511，用于从论坛帖子数据源中获取由帖子记录组成的帖子数据集，其中，每条所述帖子记录至少包括：帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息；其中，所述回帖信息至少包括：回帖人等级、回帖时间、回帖评价分数；

问题数据筛选单元512，用于参照系统和用户定义的问题数据类型，对每条所述帖子记录进行匹配，筛选出问题数据；

问题数据处理单元513，用于按照预设问题数据处理方式处理所述问题数据；

有效源数据获取单元514，用于对处理后的数据进行标题、内容一致性判断，清理掉标题与正文内容不符的无效帖子，获得有效源数据。

进一步地，图7示出了本发明发现论坛热帖的系统实施例中有效源数据获取单元514的结构框图，具体包括：

标题分词子单元71，用于对帖子标题进行分词处理，将标题分解成形如<w₁，w₂，w₃…·w_n>的词元序列，w_i(i＝1…·n)表示分词后的词元；

计数子单元72，用于判断帖子正文内容是否包含标题的词元w_i，如果包含则将计数器值加1，否则值不变；

判断子单元73，用于判断计数器值是否达到预设阈值，如果没有，则认为该贴的标题与正文内容不一致；

数据清理子单元74，用于将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理，获得所述有效源数据。

参照图8，示出了本发明发现论坛热帖的系统实施例中特征提取模块52的结构框图，具体包括：

分词单元521，用于对帖子的标题和正文进行分词，将帖子转化为形如<w₁，w₂，w₃…w_n>的词元序列，其中，w_i表示分词后的词元；

有效词元获取单元522，用于参照停用词库过滤所述词元序列中的停用词元，获得有效词元序列；

统计单元523，用于采用计数方式对所述有效词元序列中的每个有效词元进行计分统计；

归一化处理单元524，用于对所述有效词元的计分统计进行归一化处理，获得每个有效词元的概率统计值；

特征帖子记录获取单元525，用于将所述每个有效词元的概率统计值与预设阈值λ进行比较，保留概率统计值大于预设阈值λ的词元，并将特征提取后的每条帖子记录表示成向量X＝(<w₁，c₁>,<w₂，c₂>,<w₃，c₃>…<w_n，c_n>)，其中：c_i≥λ，c_i表示有效词元的出现频率；；w_i表示有效词元。

参照图9，示出了本发明发现论坛热帖的系统实施例中帖子簇聚类模块53的结构框图，具体包括：

相似度计算单元531，用于扫描所有特征化后的帖子记录，采用预设计算方法计算帖子之间的相似度；

具体地，相似度计算单元531计算帖子之间相似度的方法可以包括：

余弦值相似度计算法：

Sim(X，Y)＝(X*Y)/(||X||*||Y||)；或者，

曼哈顿距离相似度计算法：

Sim (X, Y) = Σ_{i = 0}^{n} | x_{i} - y_{i} |;

或者，

欧几里得距离相似度计算法：

Sim (X, Y) = \sqrt{Σ_{i = 0}^{n} (x_{i} - y_{i}) * (x_{i} - y_{i})};

其中，上述各计算公式中，X和Y是帖子特征化后的向量表示，描述为X＝(x₁，x₂，x₃…·x_n)和Y＝(y₁，y₂，y₃…·y_n)，x_i、y_i分别表示特征提取后的帖子记录中有效词元的出现频率。

聚类单元532，用于基于帖子之间的相似度与预设阈值的比较，对所述特征化后的帖子记录进行聚类，获得不同的帖子簇。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的发现论坛热帖的方法，以及发现论坛热帖的系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种发现论坛热帖的方法，其特征在于，包括：

对论坛帖子源数据的一般特性进行汇总，获得特征化数据；

依据所述特征化数据，将内容相似的帖子聚合成帖子簇；

综合考虑预设影响因素计算每一个帖子簇的热度值，将热度值较高的帖子簇作为论坛热帖，所述预设影响因素包括：类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。

2.根据权利要求1所述的发现论坛热帖的方法，其特征在于，在执行上述各步骤之前还包括：

清理论坛帖子数据源中的不合理数据，保留有效源数据。

3.根据权利要求1所述的发现论坛热帖的方法，其特征在于，所述对论坛帖子源数据的一般特性进行汇总，获得特征化数据；具体包括：

4.根据权利要求1所述的发现论坛热帖的方法，其特征在于，所述依据特征化数据，将内容相似的帖子聚合成帖子簇；具体包括：

5.根据权利要求4所述的发现论坛热帖的方法，其特征在于，计算帖子之间相似度的方法包括：

余弦值相似度计算法：

Sim(X，Y)＝(X*Y)/(||X||*||Y||)；或者，

曼哈顿距离相似度计算法：

Sim (X, Y) = Σ_{i = 0}^{n} | x_{i} - y_{i} |;

或者，

欧几里得距离相似度计算法：

Sim (X, Y) = \sqrt{Σ_{i = 0}^{n} (x_{i} - y_{i}) * (x_{i} - y_{i})};

其中，上述各式中，X和Y是帖子特征化后的向量表示，描述为X＝(x₁，x₂，x₃…·x_n)和Y＝(y₁，y₂，y₃…·y_n)，x_i、y_i分别表示特征化后的帖子记录中有效词元的出现频率。

6.根据权利要求1所述的发现论坛热帖的方法，其特征在于，采用以下公式计算帖子簇的热度值：

score = Σ_{i = 1}^{m} {{wl}_{i} * \frac{{pl}_{i} * [{&PartialD;}_{1} * \log_{10} {pv}_{i} + {&PartialD;}_{2} * {pa}_{i} + {&PartialD;}_{3} * Σ_{j = 1}^{pa} ({as}_{ij} * {au}_{ij})]}{{pt}_{i} + {al}_{i} + 1}}

{&PartialD;}_{1} + {&PartialD;}_{2} + {&PartialD;}_{3} = 1,0 \leq {&PartialD;}_{1} \leq 1,0 \leq {&PartialD;}_{2} \leq 1,

0 \leq {&PartialD;}_{3} \leq 1 .

7.根据权利要求2所述的发现论坛热帖的方法，其特征在于，所述清理论坛帖子数据源中的不合理数据，保留有效源数据；具体包括：

参照系统和/或用户定义的问题数据类型，对每条所述帖子记录进行匹配，筛选出问题数据；

按照预设问题数据处理方式处理所述问题数据；

8.根据权利要求7所述的发现论坛热帖的方法，其特征在于，所述对处理后的数据的标题和正文内容进行一致性判断，清理掉标题与正文内容不符的无效帖子，获得有效源数据；具体包括：

判断帖子正文内容是否包含标题的词元w_i，如果包含，则将计数器值增加1，否则计数器值不变；

判断计数器值是否达到预设阈值，如果没有，则认为所述帖子记录的标题与正文内容不一致；

9.一种发现论坛热帖的系统，其特征在于，包括：

10.根据权利要求9所述的发现论坛热帖的系统，其特征在于，还包括：

数据清理模块，用于清理论坛帖子数据源中的不合理数据，保留有效源数据。

11.根据权利要求9所述的发现论坛热帖的系统，其特征在于，所述特征提取模块具体包括：

特征帖子记录获取单元，用于将所述每个有效词元的概率统计值与预设阈值λ进行比较，保留概率统计值大于预设阈值λ的词元，并将特征提取后的每条帖子记录表示成向量X＝(<w₁，c₁>,<w₂，c₂>,<w₃，c₃>…<w_n，c_n>)，其中：c_i≥λ，c_i表示有效词元的出现频率；w_i表示有效词元。

12.根据权利要求9所述的发现论坛热帖的系统，其特征在于，所述帖子簇聚类模块具体包括：

13.根据权利要求12所述的发现论坛热帖的系统，其特征在于，所述相似度计算单元计算帖子之间相似度的方法包括：

余弦值相似度计算法：

Sim(X，Y)＝(X*Y)/(||X||*||Y||)；或者，

曼哈顿距离相似度计算法：

Sim (X, Y) = Σ_{i = 0}^{n} | x_{i} - y_{i} |;

或者，

欧几里得距离相似度计算法：

Sim (X, Y) = \sqrt{Σ_{i = 0}^{n} (x_{i} - y_{i}) * (x_{i} - y_{i})};

14.根据权利要求9所述的发现论坛热帖的系统，其特征在于，所述论坛热帖计算模块采用以下公式计算帖子簇的热度值：

score = Σ_{i = 1}^{m} {{wl}_{i} * \frac{{pl}_{i} * [{&PartialD;}_{1} * \log_{10} {pv}_{i} + {&PartialD;}_{2} * {pa}_{i} + {&PartialD;}_{3} * Σ_{j = 1}^{pa} ({as}_{ij} * {au}_{ij})]}{{pt}_{i} + {al}_{i} + 1}}

{&PartialD;}_{1} + {&PartialD;}_{2} + {&PartialD;}_{3} = 1,0 \leq {&PartialD;}_{1} \leq 1,0 \leq {&PartialD;}_{2} \leq 1,

0 \leq {&PartialD;}_{3} \leq 1 .

15.根据权利要求10所述的发现论坛热帖的系统，其特征在于，所述数据清理模块具体包括：

问题数据筛选单元，用于参照系统和/或用户定义的问题数据类型，对每条所述帖子记录进行匹配，筛选出问题数据；

16.根据权利要求15所述的发现论坛热帖的系统，其特征在于，所述有效源数据获取单元具体包括：