CN103955547A - 发现论坛热帖的方法和系统 - Google Patents

发现论坛热帖的方法和系统 Download PDF

Info

Publication number
CN103955547A
CN103955547A CN201410218382.5A CN201410218382A CN103955547A CN 103955547 A CN103955547 A CN 103955547A CN 201410218382 A CN201410218382 A CN 201410218382A CN 103955547 A CN103955547 A CN 103955547A
Authority
CN
China
Prior art keywords
model
lemma
forum
data
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410218382.5A
Other languages
English (en)
Other versions
CN103955547B (zh
Inventor
伏峰
章正道
林胜通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201410218382.5A priority Critical patent/CN103955547B/zh
Publication of CN103955547A publication Critical patent/CN103955547A/zh
Application granted granted Critical
Publication of CN103955547B publication Critical patent/CN103955547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种发现论坛热帖的方法和系统,其中,上述方法包括:对论坛帖子源数据的一般特性进行汇总,获得特征化数据;依据所述特征化数据,将内容相似的帖子聚合成帖子簇;综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。采用本发明提供的发现论坛热帖的方法,能够综合考虑贴子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种因素的影响,更加有效、客观、准确地发现论坛热帖。

Description

发现论坛热帖的方法和系统
技术领域
本发明涉及互联网信息技术领域,特别地,涉及一种发现论坛热帖的方法和系统。
背景技术
随着互联网的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络媒体与传统媒体在传播载体和传播方式上的不同,将导致网络舆论热点、焦点层出不穷,而这些信息的产生将对社会产生巨大影响。因此,有必要对这些热点信息的正确性及传播范围进行有效管理。论坛作为舆情传播最常用的媒介之一,对其更需有效管理。
目前论坛热帖发现技术主要分为三类:基于频率统计方法,首先对相似帖子进行聚类,如果某类别的帖子数居多,则认为是热帖。基于数学模型的方法,例如“牛顿冷却定律”算法,它将把热贴排名想象成一个"自然冷却"的过程,任一时刻,论坛网站中所有的帖子,都有一个"当前温度",温度最高的帖子就认为是热帖。基于语义的方法,利用自然语言的语义特征发现论坛热帖。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:基于频率统计方法虽然操作便利,但是计算方法过于简单,仅仅把类簇中的帖子数作为衡量热度的唯一标准,完全忽视了其他因素对热帖排名的影响。基于数学模型的方法虽然将热帖发现问题转化为更一般的数学问题,更具普遍性,但是计算过程相对复杂。基于语义的方法从语义角度判断,较符合人们的感知逻辑,也是目前该领域的一个研究热点,但基于语义的文本理解技术尚未达到实用程度,所以也仅仅是停留在研究阶段。
总之,需要本领域技术人员迫切解决的一个技术问题就是:提供一种能够综合考虑贴子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种因素的发现热帖的方法。
发明内容
本发明所要解决的技术问题是提供一种发现论坛热帖的方法,能够综合考虑多种影响因素,更加有效、客观、准确地发现论坛热帖。
为了解决上述问题,一方面提供了一种发现论坛热帖的方法,包括:对论坛帖子源数据的一般特性进行汇总,获得特征化数据;依据所述特征化数据,将内容相似的帖子聚合成帖子簇;综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
可选的,在执行上述各步骤之前还包括:清理论坛帖子数据源中的不合理数据,保留有效源数据。
可选的,所述对论坛帖子源数据的一般特性进行汇总,获得特征化数据;具体包括:
对帖子的标题和正文进行分词,将帖子转化为形如<w1,w2,w3…wn>的词元序列,其中,wi表示分词后的词元;
参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列;
采用计数方式对所述有效词元序列中的每个有效词元进行计分统计;
对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值;
将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效词元的出现频率;wi表示有效词元。
可选的,所述依据特征化数据,将内容相似的帖子聚合成帖子簇;具体包括:
扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度;
基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
可选的,计算帖子之间相似度的方法包括:
余弦值相似度计算法:
Sim(X,Y)=(X*Y)/(||X||*||Y||);或者,
曼哈顿距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n | x i - y i | ; 或者,
欧几里得距离相似度计算法:
sim ( X , Y ) = &Sigma; i = 0 n ( x i - y i ) * ( x i - y i ) ;
其中,上述各式中,X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征提取后的帖子记录中有效词元的出现频率。
可选的,采用以下公式计算帖子簇的热度值:
score = &Sigma; i = 1 m { wl i * pl i * [ &PartialD; 1 * log 10 pv i + &PartialD; 2 * pa i + &PartialD; 3 * &Sigma; j = 1 pa ( as ij * au ij ) ] pt i + al i + 1 }
其中,m表示帖子簇中帖子的数量;wl表示帖子所属网站的权重;pl表示发帖者等级;pv表示帖子的浏览量;pa表示回帖数量;as表示回帖评论者评分;au表示回帖者等级;pt表示发帖距离现在的时间;al表示最后一次回帖距离现在的时间;表示权重值,并且满足: &PartialD; 1 + &PartialD; 2 + &PartialD; 3 = 1,0 &le; &PartialD; 1 &le; 1,0 &le; &PartialD; 2 &le; 1 , 0 &le; &PartialD; 3 &le; 1 .
可选的,所述清理论坛帖子数据源中的不合理数据,保留有效源数据;具体包括:
从论坛帖子数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数;
参照系统和用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据;
按照预设问题数据处理方式处理所述问题数据;
对处理后的数据的标题和正文内容进行一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
可选的,所述对处理后的数据的标题和正文内容进行一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据;具体包括:
对帖子标题进行分词处理,将标题分解成形如<w1,w2,w3…·wn>的词元序列,wi(i=1…·n)表示分词后的词元;
判断帖子正文内容是否包含标题的词元wi,如果包含则将计数器值加1,否则值不变;
判断计数器值是否达到预设阈值,如果没有,则认为该贴的标题与正文内容不一致;
将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得所述有效源数据。
另一方面,还提供了一种发现论坛热帖的系统,包括:
特征提取模块,用于对论坛帖子源数据的一般特性进行汇总,获得特征化数据;
帖子簇聚类模块,用于依据所述特征化数据,将内容相似的帖子聚合成帖子簇;
论坛热帖计算模块,用于综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
可选的,所述发现论坛热帖的系统还包括:数据清理模块,用于清理论坛帖子数据源中的不合理数据,保留有效源数据。
可选的,所述特征提取模块具体包括:
分词单元,用于对帖子的标题和正文进行分词,将帖子转化为形如<w1,w2,w3…wn>的词元序列,其中,wi表示分词后的词元;
有效词元获取单元,用于参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列;
统计单元,用于采用计数方式对所述有效词元序列中的每个有效词元进行计分统计;
归一化处理单元,用于对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值;
特征帖子记录获取单元,用于将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效词元的出现频率;;wi表示有效词元。
可选的,所述帖子簇聚类模块具体包括:
相似度计算单元,用于扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度;
聚类单元,用于基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
可选的,所述相似度计算单元计算帖子之间相似度的方法包括:
余弦值相似度计算法:
Sim(X,Y)=(X*Y)/(||X||*||Y||);或者,
曼哈顿距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n | x i - y i | ; 或者,
欧几里得距离相似度计算法:
sim ( X , Y ) = &Sigma; i = 0 n ( x i - y i ) * ( x i - y i ) ;
其中,上述各式中,X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征提取后的帖子记录中有效词元的出现频率。
可选的,所述论坛热帖计算模块采用以下公式计算帖子簇的热度值:
score = &Sigma; i = 1 m { wl i * pl i * [ &PartialD; 1 * log 10 pv i + &PartialD; 2 * pa i + &PartialD; 3 * &Sigma; j = 1 pa ( as ij * au ij ) ] pt i + al i + 1 }
其中,m表示帖子簇中帖子的数量;wl表示帖子所属网站的权重;pl表示发帖者等级;pv表示帖子的浏览量;pa表示回帖数量;as表示回帖评论者评分;au表示回帖者等级;pt表示发帖距离现在的时间;al表示最后一次回帖距离现在的时间;表示权重值,并且满足: &PartialD; 1 + &PartialD; 2 + &PartialD; 3 = 1,0 &le; &PartialD; 1 &le; 1,0 &le; &PartialD; 2 &le; 1 , 0 &le; &PartialD; 3 &le; 1 .
可选的,所述数据清理模块具体包括:
帖子记录获取单元,用于从论坛帖子数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数;
问题数据筛选单元,用于参照系统和用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据;
问题数据处理单元,用于按照预设问题数据处理方式处理所述问题数据;
有效源数据获取单元,用于对处理后的数据进行标题、内容一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
可选的,有效源数据获取单元具体包括:
标题分词子单元,用于对帖子标题进行分词处理,将标题分解成形如<w1,w2,w3…·wn>的词元序列,wi(i=1…·n)表示分词后的词元;
计数子单元,用于判断帖子正文内容是否包含标题的词元wi,如果包含则将计数器值加1,否则值不变;
判断子单元,用于判断计数器值是否达到预设阈值,如果没有,则认为该贴的标题与正文内容不一致;
数据清理子单元,用于将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得所述有效源数据。
与现有技术相比,上述技术方案中的一个技术方案具有以下优点:
本发明提供的发现论坛热帖的方法在衡量帖子热度时,综合考虑了帖子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种影响因素,使论坛热帖能够真实客观地反映出用户对帖子的关注度;在确定帖子热度前自定义了一套数据清理和特征化提取方法,对论坛帖子数据进行预处理,使确定论坛热帖的过程更加准确、高效。
附图说明
图1是本发明发现论坛热帖方法优选实施例的流程图;
图2是本发明发现论坛热帖方法实施例中数据清理过程的流程图;
图3是本发明发现论坛热帖方法实施例中特征化提取过程的流程图;
图4是本发明发现论坛热帖方法实施例中聚类帖子簇的流程图;
图5是本发明发现论坛热帖的系统实施例的结构框图;
图6是本发明发现论坛热帖的系统实施例中数据清理模块的结构框图;
图7是本发明发现论坛热帖的系统实施例中有效源数据获取单元的结构框图;
图8是本发明发现论坛热帖的系统实施例中特征提取模块的结构框图;
图9是本发明发现论坛热帖的系统实施例中帖子簇聚类模块的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明发现论坛热帖方法优选实施例的流程图,包括:
步骤1、清理论坛帖子数据源中的不合理数据,保留有效源数据;
一般情况下,论坛帖子源数据是存在噪音的或者存在内容不完整数据,即论坛帖子源数据中存在不合理数据。本步骤针对论坛帖子源数据存在噪音的情况,对其中的不合理数据进行数据清理,去除噪音即过滤掉无效数据,保留论坛帖子的有效源数据,以提高后续数据处理的效率和准确性。需要说明的是,本步骤仅作为实施本发明的一种优选实施方式,对于论坛帖子源数据噪声较小的情况,该步骤可以省略。
步骤2、对论坛帖子有效源数据的一般特性进行汇总,获得特征化数据;
步骤2为本发明整个方案的必不可少的数据预处理环节,特征化后的结果将为后续处理做数据准备。执行步骤2后获得的特征化数据既能清晰地代表论坛帖子的源数据,又能在分析时对论坛帖子源数据进行有效降维,从而提高后续数据处理的执行效率。
步骤3、依据所述特征化数据,将内容相似的帖子聚合成帖子簇;
执行完步骤3后,将所有的论坛帖子数据整理成不同的帖子簇,不同帖子簇中帖子的内容高度相异。
步骤4、综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,上述预设影响因素包括但不限于:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间等影响因素。
即,根据类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间等因素计算每个帖子簇的热度值,然后对所有帖子簇的热度值进行排序,最后提取排名靠前的、设定个数的帖子簇作为论坛热帖。
进一步地,以下结合附图对上述各步骤的详细流程进行说明。
其中,图2示出了本发明发现论坛热帖方法实施例中步骤1数据清理过程的流程图,具体包括:
步骤11、从论坛帖子有效数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数;
本发明实施例中,默认从论坛帖子的有效数据源中整理的每条帖子记录由<帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息>八部分内容组成,其中,上述回帖信息默认由<回帖人等级、回帖时间、回帖评价分数>三部分内容组成。
步骤12、参照系统和用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据;
对于问题数据类型可以在系统初始化时进行默认设置,也可以在实际应用中用户自定义设置。具体在本发明实施例中,系统默认提供缺失值和格式不一致两种问题数据类型。其中,缺失值类型,是指该条帖子记录某部分内容为空的情况;格式不一致类型,是指帖子记录某部分内容的数据格式和标准数据格式不一致情况。
步骤13、按照预设问题数据处理方式处理所述问题数据;
发现问题数据后,选择问题数据处理方式对上述问题数据进行处理。本发明实施例提供两种默认处理方式:
忽略元组处理法,如果帖子记录的某部分内容为问题数据,则将整条帖子记录忽略不考虑;
默认缺失值处理法,如果帖子记录的某部分内容为问题数据,则将该部分内容用一个默认的常量代替。
对于步骤12筛选出的问题数据,可以统一采用一种处理方式进行处理,也可以根据不同问题数据类型选择不同的处理方式。
步骤14、对处理后的数据进行标题和正文内容的一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
其中,上述处理后的数据为对问题数据进行处理后输出的论坛帖子数据,即对原始论坛帖子数据执行步骤13后获得的一种中间数据。
步骤14中,对处理后的数据进行标题和正文内容进行一致性判断的方法具体包括:
步骤一、对帖子标题进行分词处理,将标题分解成形如<w1,w2,w3…·wn>的词元序列,wi(i=1…·n)表示分词后的词元;
步骤二、判断帖子正文内容是否包含标题的词元wi,如果包含则将计数器值加1,否则值不变;
具体实施方式为:对帖子标题进行分词处理后,为每个词元wi设置一个相应的计数器,并初始化赋值为1。判断帖子正文内容是否包含标题的词元wi,每检索到一次,则将计数器值加1,如果检索不到,则计数器值不变。
步骤三、判断计数器值是否达到预设阈值,如果没有,则认为该贴的标题与正文内容不一致;
步骤四、将标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得有效源数据。
图3示出了本发明发现论坛热帖方法实施例中步骤2特征化提取过程的流程图,具体包括:
步骤21、对帖子的标题和正文进行分词,将帖子转化为形如<w1,w2,w3…wn>的词元序列,其中,wi表示分词后的词元;每条帖子记录对应一个词元序列。
步骤22、参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列;
该步骤中,停用词库是用来保存类似虚词“的”“呢”“是”等无助于表达帖子内容的词元,在特征化提取过程中将这些词过滤掉,保留有效词元序列,每条帖子记录对应一个有效词元序列。
步骤23、采用计数方式对所述有效词元序列中的每个有效词元进行计分统计;
步骤23具体为:扫描过滤后的有效词元序列,并按以下方式进行词元统计:为每条帖子记录对应的有效词元序列中的每个词元设置一个相应的计数器,并初始化赋值为1。此后,该词元每出现一次就在其相应的计数器中加1,以<w,c>形式保存,其中w表示词元,c表示计数器值。
步骤24、对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值;
具体为:将处理后所有词元的计数器计分相加得到和S,然后每个计数器的计分除以S再放入计数器,此时每个计数器计分将是一个大于0小于1的值,即为每个有效词元的概率统计值。
步骤25、将每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效词元的出现频率;wi表示有效词元。
图4示出了本发明发现论坛热帖方法实施例中步骤3聚类帖子簇的流程图,具体包括:
步骤31、扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度;
计算帖子之间相似度的预设计算方法可以包括:
余弦值相似度计算法:
Sim(X,Y)=(X*Y)/(||X||*||Y||);
其中X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征提取后的帖子记录中有效词元的出现频率,相当于ci;X*Y表示向量X和向量Y之间的向量积,||X||和||Y||分别向量X和向量Y的欧几里得范数;
或者,
曼哈顿距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n | x i - y i |
其中X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征提取后的帖子记录中有效词元的出现频率,相当于ci;|xi-yi|表示xi减去yi的绝对值;
或者,
欧几里得距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n ( x i - y i ) * ( x i - y i )
其中X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征提取后的帖子记录中有效词元的出现频率,相当于ci;(xi-yi)*(xi-yi)表示xi减去yi后差的平方。
步骤32、基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
具体地,假设论坛帖子源数据特征提取后包括10条帖子记录对应的向量,按顺序标记为:1、2、3、4、5、6、7、8、9、10。在通过计算相似度比较划分帖子簇之前,每一个帖子作为一个初始簇,然后通过聚类方式聚合帖子簇。具体过程如下,在第一轮计算中,将向量1作为被比较对象,对应上述相似度计算公式中的向量X;向量2、3、4、5、6、7、8、9、10作为与向量1的比较对象,相当于上述相似度计算公式中的向量Y;利用上述任一相似度计算公式分别计算向量2、3、4、5、6、7、8、9、10与向量1的相似度Sim(X,Y),然后与预设阈值M进行比较。假设向量2、3、4与向量1的相似度大于M,则将向量1、2、3、4聚合成一个帖子簇。然后,将向量5作为被比较对象,分别计算向量6、7、8、9、10与其的相似度,假设向量6、7与向量5的相似度大于M,则将向量5、6、7聚合成一个帖子簇。之后,将向量8作为被比较对象,计算向量9、10与其的相似度,假设向量10与8的相似度大于阈值M,则将向量8、10对应的帖子记录聚合成一个簇。剩余向量9对应的帖子作为一个帖子簇。通过上述聚类方式进行帖子簇的聚合。
随后,执行上述步骤4,采用以下公式计算帖子簇的热度值:
score = &Sigma; i = 1 m { wl i * pl i * [ &PartialD; 1 * log 10 pv i + &PartialD; 2 * pa i + &PartialD; 3 * &Sigma; j = 1 pa ( as ij * au ij ) ] pt i + al i + 1 }
其中,m表示帖子簇中帖子的数量;
wl表示帖子所属网站的权重,越知名网站该帖子的分数越高;
pl表示发帖者等级,发帖者等级越高,则该帖子的分数越高;
pv表示帖子的浏览量,帖子的浏览次数越多,就代表越受关注,得分也越高,这里使用了以10为底的对数,用意是当访问量越来越大,它对得分的影响将不断变小;
pa表示回帖数量,代表越多人参加这个帖子讨论,那么它的得分越高;
as表示回帖评论者评分,代表回帖者越肯定该帖子,那么它的得分便越高;
au表示回帖者等级,回帖等级越高,则该帖子的分数越高;
pt表示发帖距离现在的时间;
al表示最后一次回帖距离现在的时间,代表如果一个帖子的存在时间越久,或者距离上一次回帖的时间越久,那么人们对它的关注度在逐渐降低,因此得分也相应的变低;
表示权重值,并且满足: &PartialD; 1 + &PartialD; 2 + &PartialD; 3 = 1,0 &le; &PartialD; 1 &le; 1,0 &le; &PartialD; 2 &le; 1 , 0 &le; &PartialD; 3 &le; 1 .
以上对本发明提供的发现论坛热帖的方法进行了详细描述,与现有技术相比,本发明提供的发现论坛热帖的方法在衡量帖子热度时,综合考虑了帖子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种影响因素,使论坛热帖能够真实客观地反映出用户对帖子的关注度;在确定帖子热度前自定义了一套数据清理和特征化提取方法,对论坛帖子数据进行预处理,使确定论坛热帖的过程更加准确、高效。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
对应上述发现论坛热帖的方法,本发明还提供了发现论坛热帖的系统实施例,如图5所示,包括:
数据清理模块51,用于清理论坛帖子数据源中的不合理数据,保留有效源数据。
特征提取模块52,用于对论坛帖子源数据的一般特性进行汇总,获得特征化数据;
帖子簇聚类模块53,用于依据所述特征化数据,将内容相似的帖子聚合成帖子簇;
论坛热帖计算模块54,用于综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
具体地,论坛热帖计算模块54采用以下公式计算帖子簇的热度值:
score = &Sigma; i = 1 m { wl i * pl i * [ &PartialD; 1 * log 10 pv i + &PartialD; 2 * pa i + &PartialD; 3 * &Sigma; j = 1 pa ( as ij * au ij ) ] pt i + al i + 1 }
其中,m表示帖子簇中帖子的数量;wl表示帖子所属网站的权重;pl表示发帖者等级;pv表示帖子的浏览量;pa表示回帖数量;as表示回帖评论者评分;au表示回帖者等级;pt表示发帖距离现在的时间;al表示最后一次回帖距离现在的时间;表示权重值,并且满足: &PartialD; 1 + &PartialD; 2 + &PartialD; 3 = 1,0 &le; &PartialD; 1 &le; 1,0 &le; &PartialD; 2 &le; 1 , 0 &le; &PartialD; 3 &le; 1 .
进一步地,参照图6,示出了本发明发现论坛热帖的系统实施例中数据清理模块51的结构框图,具体包括:
帖子记录获取单元511,用于从论坛帖子数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数;
问题数据筛选单元512,用于参照系统和用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据;
问题数据处理单元513,用于按照预设问题数据处理方式处理所述问题数据;
有效源数据获取单元514,用于对处理后的数据进行标题、内容一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
进一步地,图7示出了本发明发现论坛热帖的系统实施例中有效源数据获取单元514的结构框图,具体包括:
标题分词子单元71,用于对帖子标题进行分词处理,将标题分解成形如<w1,w2,w3…·wn>的词元序列,wi(i=1…·n)表示分词后的词元;
计数子单元72,用于判断帖子正文内容是否包含标题的词元wi,如果包含则将计数器值加1,否则值不变;
判断子单元73,用于判断计数器值是否达到预设阈值,如果没有,则认为该贴的标题与正文内容不一致;
数据清理子单元74,用于将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得所述有效源数据。
参照图8,示出了本发明发现论坛热帖的系统实施例中特征提取模块52的结构框图,具体包括:
分词单元521,用于对帖子的标题和正文进行分词,将帖子转化为形如<w1,w2,w3…wn>的词元序列,其中,wi表示分词后的词元;
有效词元获取单元522,用于参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列;
统计单元523,用于采用计数方式对所述有效词元序列中的每个有效词元进行计分统计;
归一化处理单元524,用于对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值;
特征帖子记录获取单元525,用于将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效词元的出现频率;;wi表示有效词元。
参照图9,示出了本发明发现论坛热帖的系统实施例中帖子簇聚类模块53的结构框图,具体包括:
相似度计算单元531,用于扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度;
具体地,相似度计算单元531计算帖子之间相似度的方法可以包括:
余弦值相似度计算法:
Sim(X,Y)=(X*Y)/(||X||*||Y||);或者,
曼哈顿距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n | x i - y i | ; 或者,
欧几里得距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n ( x i - y i ) * ( x i - y i ) ;
其中,上述各计算公式中,X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征提取后的帖子记录中有效词元的出现频率。
聚类单元532,用于基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的发现论坛热帖的方法,以及发现论坛热帖的系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种发现论坛热帖的方法,其特征在于,包括:
对论坛帖子源数据的一般特性进行汇总,获得特征化数据;
依据所述特征化数据,将内容相似的帖子聚合成帖子簇;
综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
2.根据权利要求1所述的发现论坛热帖的方法,其特征在于,在执行上述各步骤之前还包括:
清理论坛帖子数据源中的不合理数据,保留有效源数据。
3.根据权利要求1所述的发现论坛热帖的方法,其特征在于,所述对论坛帖子源数据的一般特性进行汇总,获得特征化数据;具体包括:
对帖子的标题和正文进行分词,将帖子转化为形如<w1,w2,w3…wn>的词元序列,其中,wi表示分词后的词元;
参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列;
采用计数方式对所述有效词元序列中的每个有效词元进行计分统计;
对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值;
将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效词元的出现频率;wi表示有效词元。
4.根据权利要求1所述的发现论坛热帖的方法,其特征在于,所述依据特征化数据,将内容相似的帖子聚合成帖子簇;具体包括:
扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度;
基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
5.根据权利要求4所述的发现论坛热帖的方法,其特征在于,计算帖子之间相似度的方法包括:
余弦值相似度计算法:
Sim(X,Y)=(X*Y)/(||X||*||Y||);或者,
曼哈顿距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n | x i - y i | ; 或者,
欧几里得距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n ( x i - y i ) * ( x i - y i ) ;
其中,上述各式中,X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征化后的帖子记录中有效词元的出现频率。
6.根据权利要求1所述的发现论坛热帖的方法,其特征在于,采用以下公式计算帖子簇的热度值:
score = &Sigma; i = 1 m { wl i * pl i * [ &PartialD; 1 * log 10 pv i + &PartialD; 2 * pa i + &PartialD; 3 * &Sigma; j = 1 pa ( as ij * au ij ) ] pt i + al i + 1 }
其中,m表示帖子簇中帖子的数量;wl表示帖子所属网站的权重;pl表示发帖者等级;pv表示帖子的浏览量;pa表示回帖数量;as表示回帖评论者评分;au表示回帖者等级;pt表示发帖距离现在的时间;al表示最后一次回帖距离现在的时间;表示权重值,并且满足: &PartialD; 1 + &PartialD; 2 + &PartialD; 3 = 1,0 &le; &PartialD; 1 &le; 1,0 &le; &PartialD; 2 &le; 1 , 0 &le; &PartialD; 3 &le; 1 .
7.根据权利要求2所述的发现论坛热帖的方法,其特征在于,所述清理论坛帖子数据源中的不合理数据,保留有效源数据;具体包括:
从论坛帖子数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数;
参照系统和/或用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据;
按照预设问题数据处理方式处理所述问题数据;
对处理后的数据的标题和正文内容进行一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
8.根据权利要求7所述的发现论坛热帖的方法,其特征在于,所述对处理后的数据的标题和正文内容进行一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据;具体包括:
对帖子标题进行分词处理,将标题分解成形如<w1,w2,w3…·wn>的词元序列,wi(i=1…·n)表示分词后的词元;
判断帖子正文内容是否包含标题的词元wi,如果包含,则将计数器值增加1,否则计数器值不变;
判断计数器值是否达到预设阈值,如果没有,则认为所述帖子记录的标题与正文内容不一致;
将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得所述有效源数据。
9.一种发现论坛热帖的系统,其特征在于,包括:
特征提取模块,用于对论坛帖子源数据的一般特性进行汇总,获得特征化数据;
帖子簇聚类模块,用于依据所述特征化数据,将内容相似的帖子聚合成帖子簇;
论坛热帖计算模块,用于综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
10.根据权利要求9所述的发现论坛热帖的系统,其特征在于,还包括:
数据清理模块,用于清理论坛帖子数据源中的不合理数据,保留有效源数据。
11.根据权利要求9所述的发现论坛热帖的系统,其特征在于,所述特征提取模块具体包括:
分词单元,用于对帖子的标题和正文进行分词,将帖子转化为形如<w1,w2,w3…wn>的词元序列,其中,wi表示分词后的词元;
有效词元获取单元,用于参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列;
统计单元,用于采用计数方式对所述有效词元序列中的每个有效词元进行计分统计;
归一化处理单元,用于对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值;
特征帖子记录获取单元,用于将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效词元的出现频率;wi表示有效词元。
12.根据权利要求9所述的发现论坛热帖的系统,其特征在于,所述帖子簇聚类模块具体包括:
相似度计算单元,用于扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度;
聚类单元,用于基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
13.根据权利要求12所述的发现论坛热帖的系统,其特征在于,所述相似度计算单元计算帖子之间相似度的方法包括:
余弦值相似度计算法:
Sim(X,Y)=(X*Y)/(||X||*||Y||);或者,
曼哈顿距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n | x i - y i | ; 或者,
欧几里得距离相似度计算法:
Sim ( X , Y ) = &Sigma; i = 0 n ( x i - y i ) * ( x i - y i ) ;
其中,上述各式中,X和Y是帖子特征化后的向量表示,描述为X=(x1,x2,x3…·xn)和Y=(y1,y2,y3…·yn),xi、yi分别表示特征提取后的帖子记录中有效词元的出现频率。
14.根据权利要求9所述的发现论坛热帖的系统,其特征在于,所述论坛热帖计算模块采用以下公式计算帖子簇的热度值:
score = &Sigma; i = 1 m { wl i * pl i * [ &PartialD; 1 * log 10 pv i + &PartialD; 2 * pa i + &PartialD; 3 * &Sigma; j = 1 pa ( as ij * au ij ) ] pt i + al i + 1 }
其中,m表示帖子簇中帖子的数量;wl表示帖子所属网站的权重;pl表示发帖者等级;pv表示帖子的浏览量;pa表示回帖数量;as表示回帖评论者评分;au表示回帖者等级;pt表示发帖距离现在的时间;al表示最后一次回帖距离现在的时间;表示权重值,并且满足: &PartialD; 1 + &PartialD; 2 + &PartialD; 3 = 1,0 &le; &PartialD; 1 &le; 1,0 &le; &PartialD; 2 &le; 1 , 0 &le; &PartialD; 3 &le; 1 .
15.根据权利要求10所述的发现论坛热帖的系统,其特征在于,所述数据清理模块具体包括:
帖子记录获取单元,用于从论坛帖子数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数;
问题数据筛选单元,用于参照系统和/或用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据;
问题数据处理单元,用于按照预设问题数据处理方式处理所述问题数据;
有效源数据获取单元,用于对处理后的数据进行标题、内容一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
16.根据权利要求15所述的发现论坛热帖的系统,其特征在于,所述有效源数据获取单元具体包括:
标题分词子单元,用于对帖子标题进行分词处理,将标题分解成形如<w1,w2,w3…·wn>的词元序列,wi(i=1…·n)表示分词后的词元;
计数子单元,用于判断帖子正文内容是否包含标题的词元wi,如果包含则将计数器值加1,否则值不变;
判断子单元,用于判断计数器值是否达到预设阈值,如果没有,则认为该贴的标题与正文内容不一致;
数据清理子单元,用于将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得所述有效源数据。
CN201410218382.5A 2014-05-22 2014-05-22 发现论坛热帖的方法和系统 Active CN103955547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410218382.5A CN103955547B (zh) 2014-05-22 2014-05-22 发现论坛热帖的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410218382.5A CN103955547B (zh) 2014-05-22 2014-05-22 发现论坛热帖的方法和系统

Publications (2)

Publication Number Publication Date
CN103955547A true CN103955547A (zh) 2014-07-30
CN103955547B CN103955547B (zh) 2017-02-15

Family

ID=51332822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410218382.5A Active CN103955547B (zh) 2014-05-22 2014-05-22 发现论坛热帖的方法和系统

Country Status (1)

Country Link
CN (1) CN103955547B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331419A (zh) * 2014-10-13 2015-02-04 北京奇虎科技有限公司 衡量新闻重要性的方法和装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105989066A (zh) * 2015-02-09 2016-10-05 阿里巴巴集团控股有限公司 一种信息处理方法和装置
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN106469173A (zh) * 2015-08-19 2017-03-01 武汉市尺度网络科技有限公司 一种问题优先级别权重确定方法、装置、系统及服务器
CN107729438A (zh) * 2017-09-29 2018-02-23 成都第四城文化传播有限责任公司 一种用户行为数据建立及分析方法
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN108090157A (zh) * 2017-12-12 2018-05-29 百度在线网络技术(北京)有限公司 一种热点新闻挖掘方法、装置及服务器
CN108182290A (zh) * 2018-01-30 2018-06-19 深圳市富途网络科技有限公司 一种用于社区内容热度排序的估算方法
CN108540372A (zh) * 2018-03-16 2018-09-14 深圳供电局有限公司 一种实现电动汽车充电用户社交化功能的方法及移动终端
CN108777785A (zh) * 2018-04-26 2018-11-09 广州坚和网络科技有限公司 一种对媒体质量进行自动评分的方法及系统
CN110096649A (zh) * 2019-05-14 2019-08-06 武汉斗鱼网络科技有限公司 一种帖子提取方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071365A1 (en) * 2003-09-26 2005-03-31 Jiang-Liang Hou Method for keyword correlation analysis
CN101393566A (zh) * 2008-11-17 2009-03-25 北京交通大学 基于网络结构用户行为模式的信息跟踪与检测方法及系统
US7996407B2 (en) * 2007-01-23 2011-08-09 International Business Machines Corporation System, method and computer executable program for information tracking from heterogeneous sources
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103336847A (zh) * 2013-07-22 2013-10-02 厦门市美亚柏科信息股份有限公司 一种新闻热点标签的生成方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071365A1 (en) * 2003-09-26 2005-03-31 Jiang-Liang Hou Method for keyword correlation analysis
US7996407B2 (en) * 2007-01-23 2011-08-09 International Business Machines Corporation System, method and computer executable program for information tracking from heterogeneous sources
CN101393566A (zh) * 2008-11-17 2009-03-25 北京交通大学 基于网络结构用户行为模式的信息跟踪与检测方法及系统
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103336847A (zh) * 2013-07-22 2013-10-02 厦门市美亚柏科信息股份有限公司 一种新闻热点标签的生成方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331419A (zh) * 2014-10-13 2015-02-04 北京奇虎科技有限公司 衡量新闻重要性的方法和装置
CN105989066A (zh) * 2015-02-09 2016-10-05 阿里巴巴集团控股有限公司 一种信息处理方法和装置
CN105488023B (zh) * 2015-03-20 2019-01-11 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN106469173B (zh) * 2015-08-19 2019-05-03 武汉市尺度网络科技有限公司 一种问题优先级别权重确定方法、装置、系统及服务器
CN106469173A (zh) * 2015-08-19 2017-03-01 武汉市尺度网络科技有限公司 一种问题优先级别权重确定方法、装置、系统及服务器
CN107729438A (zh) * 2017-09-29 2018-02-23 成都第四城文化传播有限责任公司 一种用户行为数据建立及分析方法
CN107729438B (zh) * 2017-09-29 2021-05-04 成都第四城文化传播有限责任公司 一种用户行为数据建立及分析方法
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN108090157A (zh) * 2017-12-12 2018-05-29 百度在线网络技术(北京)有限公司 一种热点新闻挖掘方法、装置及服务器
CN108182290A (zh) * 2018-01-30 2018-06-19 深圳市富途网络科技有限公司 一种用于社区内容热度排序的估算方法
CN108540372A (zh) * 2018-03-16 2018-09-14 深圳供电局有限公司 一种实现电动汽车充电用户社交化功能的方法及移动终端
CN108777785A (zh) * 2018-04-26 2018-11-09 广州坚和网络科技有限公司 一种对媒体质量进行自动评分的方法及系统
CN110096649A (zh) * 2019-05-14 2019-08-06 武汉斗鱼网络科技有限公司 一种帖子提取方法、装置、设备和存储介质
CN110096649B (zh) * 2019-05-14 2021-07-30 武汉斗鱼网络科技有限公司 一种帖子提取方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN103955547B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103955547A (zh) 发现论坛热帖的方法和系统
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
Sehgal et al. Sops: stock prediction using web sentiment
CN107657267B (zh) 产品潜在用户挖掘方法及装置
CN107205016B (zh) 物联网设备的检索方法
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN104050556B (zh) 一种垃圾邮件的特征选择方法及其检测方法
RU2700191C1 (ru) Способ и устройство выявления сходства
WO2020108430A1 (zh) 一种微博情感分析方法及系统
CN103116588A (zh) 一种个性化推荐方法及系统
CN103778214A (zh) 一种基于用户评论的商品属性聚类方法
CN105095187A (zh) 一种搜索意图识别方法及装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
US20180293294A1 (en) Similar Term Aggregation Method and Apparatus
CN104133817A (zh) 网络社区交互方法、装置及网络社区平台
CN104376010A (zh) 用户推荐方法和装置
CN105389354A (zh) 面向社交媒体文本的无监督的事件抽取和分类方法
CN106168953A (zh) 面向弱关系社交网络的博文推荐方法
CN104008106A (zh) 一种获取热点话题的方法及装置
CN104901847A (zh) 一种社交网络僵尸账号检测方法及装置
Yeole et al. Opinion mining for emotions determination
CN104572877A (zh) 游戏舆情的检测方法及系统
CN103425650A (zh) 推荐搜索方法和系统
CN103473380A (zh) 一种计算机文本情感分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant