CN109190009A - 一种网络社区话题整合方法及系统 - Google Patents
一种网络社区话题整合方法及系统 Download PDFInfo
- Publication number
- CN109190009A CN109190009A CN201811062807.2A CN201811062807A CN109190009A CN 109190009 A CN109190009 A CN 109190009A CN 201811062807 A CN201811062807 A CN 201811062807A CN 109190009 A CN109190009 A CN 109190009A
- Authority
- CN
- China
- Prior art keywords
- topic
- submodule
- cluster
- module
- fuzzy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000010354 integration Effects 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 62
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007418 data mining Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 238000004321 preservation Methods 0.000 description 2
- 230000018199 S phase Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络社区话题整合方法及系统,属于数据处理技术领域。所述方法包括:收集网络社区话题语料,对收集的话题语料进行预处理后作为样本集;采用模糊K‑means算法对样本集进行聚类,分析聚类结果得到热点话题;对样本集进行分类得到各分类类别;根据收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。本发明中,采用模糊K‑means算法对样本集进行聚类,避免了由于词汇文本涉及多个话题而导致一些特征丢失的现象;同时结合分类操作,实现了网络社区话题的整合,并根据整合结果将话题语料分层级的显示给用户,不仅便于用户查阅,提升用户体验,而且有利于数据挖掘,有利于对网络社区的舆论情况进行监管。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种网络社区话题整合方法及系统。
背景技术
随着互联网技术的快速发展,各式各样的信息交流平台走进人们的生活,网络社区是其中典型的一个,其为用户提供了彼此沟通讨论、进行信息共享的平台,同时其也是进行数据挖掘,利用网络信息为人民服务的大好平台。
然而,由于网络社区的开放性和随意性,其中的文本数据具有表述口语话、内容碎片化等特点,因而大量用户对某话题的集中讨论极易造成数据不均衡现象的产生,从而影响数据挖掘的有效性和准确性;同时,加之网络社区话题的数据量通常较大,因而对于用户而言,想要查阅某个类别相关的所有话题或者近期的热点话题时,通常需要繁杂的操作,即需要无序的对一个个话题进行查阅筛选;再者,由于网络社区的用户群体广泛,其也成为网络舆论情况的重要来源,群众的不良情绪极有可能是对网络舆论情况中突发事件的不恰当处理激发而来,从而引发群众作出违反规定或者过于激动的举动,甚至对社会稳定造成威胁,因而对网络社区话题进行有效的监管具有重要意义。可见,网络社区在为人们带来便利的同时,由于没有正确的管理方式,即对网络社区话题进行有效的整合从而进行有效的监管,而为人们带来了诸多不便。
发明内容
为解决现有技术的不足,本发明提供一种网络社区话题整合方法及系统。
第一方面,本发明提供一种网络社区话题整合方法,包括:
收集网络社区话题语料,对收集的话题语料进行预处理后作为样本集;
采用模糊K-means算法对所述样本集进行聚类,分析聚类结果得到热点话题;
对所述样本集进行分类得到各分类类别;
根据收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。
可选地,所述对收集的话题语料进行预处理,包括:
对收集的话题语料进行分词得到各词汇;
去除得到的各词汇中的停用词得到各有效词汇;
计算各有效词汇的特征值;
根据各有效词汇的特征值,对收集的话题预料进行向量化处理得到文本矩阵并作为样本集。
可选地,所述采用模糊K-means算法对所述样本集进行聚类,分析聚类结果得到热点话题,包括:
采用模糊K-means算法将所述样本集划分为预设数量的模糊簇;
将各模糊簇中的聚簇中心及簇内的样本数量进行归一化后作为对应聚簇中心的权值;
对相似聚簇中心的权值进行合并得到多个合并组合;
比对各合并组合中的各权值,并将各最大权值对应的聚簇中心作为热点话题。
可选地,所述采用模糊K-means算法对所述样本集进行聚类,包括:
步骤D1:将所述样本集作为输入数据,初始化模糊簇的数量、模糊因子、最大迭代次数、收敛精度、隶属度矩阵,所述隶属度矩阵满足预设条件并作为当前隶属度矩阵;
步骤D2:计算各模糊簇的聚簇中心,并作为当前聚簇中心;
步骤D3:根据所述模糊因子、所述当前隶属度矩阵和各当前聚簇中心计算目标函数值;
步骤D4:判断计算的目标函数值与收敛精度是否满足预设关系,是则聚类完成,结束;否则更新当前隶属度矩阵,并将更新后的隶属度矩阵作为当前隶属度矩阵,返回步骤D2。
可选地,所述方法还包括:对收集的话题语料进行训练得到分类器;
所述对所述样本集进行分类,具体为:通过所述分类器对所述样本集进行分类。
第二方面,本发明提供一种网络社区话题整合系统,其特征在于,包括:
收集模块,用于收集网络社区话题语料;
预处理模块,用于对所述收集模块收集的话题语料进行预处理后作为样本集;
聚类模块,用于采用模糊K-means算法对所述预处理模块得到的样本集进行聚类;
分析模块,用于分析所述聚类模块的聚类结果得到热点话题;
分类模块,用于对所述预处理模块得到的样本集进行分类得到各分类类别;
显示模块,用于根据所述收集模块收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。
可选地,所述预处理模块具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块;
所述分词子模块,用于对所述收集模块收集的话题预料进行分词得到各词汇;
所述去词子模块,用于去除所述分词子模块得到的各词汇中的停用词得到有效词汇;
所述第一计算子模块,用于计算所述去词子模块得到各有效词汇的特征值;
所述向量化子模块,用于根据所述第一计算子模块计算的各有效词汇的特征值,对所述收集模块收集的话题预料进行向量化处理得到文本矩阵并作为样本集。
可选地,所述分析模块包括:归一化子模块、合并子模块和比对子模块;
所述聚类模块具体用于:采用模糊K-means算法将所述样本集划分为预设数量的模糊簇;
所述归一化子模块,用于将各模糊簇中的聚簇中心及簇内的样本数量进行归一化后作为对应聚簇中心的权值;
所述合并子模块,用于对相似聚簇中心的权值进行合并得到多个合并组合;
所述比对子模块,用于比对所述合并子模块得到的各合并组合中的各权值,并将各最大权值对应的聚簇中心作为热点话题。
可选地,所述聚类模块包括:初始化子模块、第二计算子模块、第三计算子模块、判断子模块和更新子模块;
所述初始化子模块,用于将所述预处理模块得到的样本集作为输入数据,初始化模糊簇的数量、模糊因子、迭代次数、收敛精度、隶属度矩阵,所述隶属度矩阵满足预设条件并作为当前隶属度矩阵;
所述第二计算子模块,用于计算各模糊簇的聚簇中心,并作为当前聚簇中心;
所述第三计算子模块,用于根据所述初始化子模块初始化的模糊因子、所述当前隶属度矩阵和所述第二计算子模块计算的各当前聚簇中心计算目标函数值;
所述判断子模块,用于判断所述第三计算子模块计算的目标函数值与收敛精度是否满足预设关系;
所述更新子模块,用于当所述判断子模块判断出所述第三计算子模块计算的目标函数值与收敛精度不满足预设关系时,更新当前隶属度矩阵,并将更新后的隶属度矩阵作为当前隶属度矩阵;
所述第二计算子模块,还用于当所述更新子模块更新当前隶属度矩阵之后,计算各模糊簇的聚簇中心,并作为当前聚簇中心。
可选地,所述系统还包括:训练模块;
所述训练模块,用于对所述收集模块收集的话题语料进行训练得到分类器;
所述分类模块,用于通过所述训练模块得到的分类器对所述预处理模块得到的样本集进行分类得到各分类类别。
第三方面,本发明提供一种网络社区话题整合设备,包括一个或多个处理器、存储一个或多个程序的存储装置;当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如本发明的第一方面所述的方法。
第四方面,本发明提供一种计算机存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如本发明的第一方面所述的方法。
本发明的优点在于:
本发明中,采用模糊K-means算法对预处理后的网络社区话题语料进行聚类得到热点话题,在聚类过程中引入模糊因子来计算每个有效词汇与每个簇之间的关联度,不仅解决了现有的聚类算法中,聚类结果是局部最优的问题,同时避免了由于有效词汇涉及到多个话题而导致一些特征丢失的现象;并且其在一定程度上将碎片化的网络社区话题数据进行了整合;同时,结合对预处理后的网络社区话题语料进行分类操作,以将各网络社区话题按照分类级别和热点话题,分层级的显示给用户,其不仅便于用户查阅,提升用户体验,而且有利于数据挖掘,有利于对网络社区的舆论情况进行有效监管。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1为本发明提供的一种网络社区话题整合方法流程图;
附图2为本发明提供的一种网络社区话题整合系统的模块组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
根据本发明的实施方式,提供一种网络社区话题整合方法,如图1所示,包括:
步骤101:收集网络社区话题语料,对收集的话题语料进行预处理后作为样本集;
根据本发明的实施方式,收集网络社区话题预料包括:通过网络爬虫抓取网络社区各板块中的各话题内容,将抓取的各话题内容作为话题语料,并与对应的板块编号对应保存至第一数据库;其中,话题内容包括:话题标题、话题正文、话题发布时间、话题作者相关信息、话题点击数量、话题下的留言回复等。
进一步地,本发明中,对收集的话题预料进行预处理后作为样本集,包括:
步骤A1:对收集的话题预料进行分词得到各词汇;
具体的,根据网络社区的各板块编号,查找对应的预设时间段内的各话题语料,将查找到的各话题语料中的话题标题和话题正文作为样本,并对各样本进行IK分词得到各词汇;
其中,预设时间段可以根据需求自行设定,例如为最近7天。
进一步的,IK分词的分词方法为正向迭代最细粒度切分算法,是当前常用的分词方法,本发明中对IK分词的过程不再进行详述。
步骤A2:去除得到的各词汇中的停用词得到各有效词汇;
具体地,去除没有任何意义但经常出现的词语,包括词汇词、表情词、语气词等;
通过去除停用词,不仅能够减少存储空间的占用,而且能够保证数据的处理性能。
步骤A3:计算各有效词汇的特征值;
优选的,本发明中计算各有效词汇的TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆向文本频率)作为各有效词汇的特征值;
更加具体的,步骤A3包括:
步骤A3-1:统计各有效词汇在所有样本中的出现次数总和作为第一数量,并分别将各有效词汇作为目标词汇,统计目标词汇在各样本中出现的次数作为第二数量,分别根据第一数量和第二数量计算对应的目标词汇在样本集中的词频;
本发明中,将各有效词汇记为x1、x2…xi…xF,其中,1≤i≤F,F为有效词汇的总数;将样本集中的各样本记为d1、d2…dj…dH,其中,1≤j≤H,H为样本的总数;
对应的,目标词汇的词频计算公式为:其中,TFi为目标词汇xi在所有样本中的词频,Ni,j为目标词汇xi在样本dj中出现的次数,即第二数量,为各有效词汇在样本集中出现次数的总和,即第一数量。
步骤A3-2:将样本总数作为第三数量,分别将各有效词汇作为目标词汇,统计含有目标词汇的样本的数量作为第四数量,分别根据第三数量和第四数量计算对应的目标词汇的逆向文本频率;
其中,分别根据第三数量和第四数量计算对应的目标词汇的逆向文本频率,具体为:分别将第三数量与第四数量相除得到商,并取商的对数,得到对应的目标词汇的逆向文本频率。
其中,逆向文本频率的计算公式为:其中,IDFi为目标词汇xi的逆向文本频率,H为样本总数,即第三数量,Ni为含有目标词汇xi的样本的数量,即第四数量。
步骤A3-3:根据各有效词汇的词频和逆向文本频率,计算各有效词汇的特征值。
具体的,将各有效词汇的词频与逆向文本频率相乘,并将乘积作为对应有效词汇的特征值。
特征值TF-IDF的计算公式为:Wi=TFi*IDFi,其中Wi即为有效词汇xi的特征值。
步骤A4:根据各有效词汇的特征值,对收集的话题语料进行向量化处理得到文本矩阵并作为样本集;
具体的,将文本矩阵中的每一行对应一个样本,每一列对应一个有效词汇,分别将各有效词汇作为当前有效词汇,依次判断各样本中是否包含当前有效词汇,是则将当前有效词汇的特征值填充话至对应样本所在行与当前有效词汇所在列的交叉位置处,否则将0填充到交叉位置处。
步骤102:采用模糊K-means算法对样本集进行聚类,分析聚类结果得到热点话题;
根据本发明的实施方式,步骤102具体包括:
采用模糊K-means算法将样本集划分为预设数量的模糊簇;
将各模糊簇中的聚簇中心及簇内的样本数量进行归一化后作为对应聚簇中心的权值;
对相似聚簇中心的权值进行合并得到多个合并组合;
比对各合并组合中的各权值,并将各最大权值对应的聚簇中心作为热点话题。
进一步地,根据本发明的实施方式,采用模糊K-means算法对样本集进行聚类,其为一个迭代的过程,包括:
步骤D1:将样本集作为输入数据,初始化模糊簇的数量、模糊因子、最大迭代次数、收敛精度、隶属度矩阵,隶属度矩阵满足预设条件并作为当前隶属度矩阵;
例如,在本实施例中,初始化模糊簇的数量K=20,模糊因子m=1.05,最大迭代次数t=200,收敛精度ε=0.01,隶属度矩阵为U(0),并将各模糊簇记为V1、V2…VJ…VK,其中1≤J≤K;
进一步地,本发明中,初始化隶属度矩阵具体为:采用值在0~1间的随机数初始化隶属度矩阵U(0);
隶属度矩阵满足的预设条件为:其中1≤i≤F,UiJ为有效词汇xi对模糊簇Vj的隶属度,即隶属度矩阵满足的预设条件为有效词汇xi对所有模糊簇的隶属度之和为1。
步骤D2:计算各模糊簇的聚簇中心,并作为当前聚簇中心;
具体的,根据公式计算各模糊簇的聚簇中心,并作为当前聚簇中心,其中,UiJ为有效词汇xi对模糊簇Vj的隶属度。
步骤D3:根据模糊因子、当前隶属度矩阵和各当前聚簇中心计算目标函数值;
本发明中,目标函数为:其中,UiJ为有效词汇xi对模糊簇Vj的隶属度,diJ为有效词汇xi与模糊簇Vj的聚簇中心间的欧氏距离,欧式距离的计算方法为本领域人员熟知的方法,本发明中不再详述。
步骤D4:判断计算的目标函数值与收敛精度是否满足预设关系,是则聚类完成,结束;否则更新所述隶属度矩阵,并将更新后的隶属度矩阵作为当前隶属度矩阵,返回步骤D2。
其中,预设关系具体为:║Lt-Lt-1║<,其中,Lt为第t次迭代时的目标函数值,Lt-1为第t-1次迭代时的目标函数值。
本发明中采用模糊K-means算法对样本集进行聚类,在聚类过程中尝试生成具有交叉的部分,即重叠的簇,使得任何样本都不仅仅被聚类到一个簇中,并引入模糊因子来计算每个有效词汇与每个簇之间的关联度,从而有效的解决了现有的聚类算法中,聚类结果是局部最优的问题,同时避免了由于有效词汇涉及到多个话题而导致的一些特征丢失的现象。再者,在聚类结果中,各聚簇中心即为近期网络社区热点讨论话题的反应,对聚类结果进行整合得到网络社区热点话题及其特征,与热点话题特征同属于同一簇内的各有效词汇就是热点话题相关信息,因而在一定程度上将碎片化的网络社区数据进行了整合。
步骤103:对样本集进行分类得到各分类类别;
根据本发明的实施方式,该方法还包括:对收集的话题语料进行训练得到分类器;其中,训练所使用的算法可以根据需求自行设定,例如采用分类效果较好的朴素贝叶斯算法对收集的话题语料进行训练得到分类器,分类器的训练过程本发明中不在进行详述。
对应的,对样本集进行分类,具体为:通过分类器对样本集进行分类。
步骤104:根据收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。
优选地,将各分类类别和各热点话题的基本信息作为一级信息,通过一级显示页面显示给用户;并将各分类类别和各热点话题所含有的各话题的标题等信息作为二级信息,通过二级显示页面显示给用户;将各话题的正文等信息作为三级信息,通过三级显示页面显示给用户;以供用户在一级显示页面中快速找到自己感兴趣的话题类别或者热点话题,并进入相应的二级显示页面查看所有相关的话题标题等信息,根据话题标题等信息选择需要查看的话题,即进入对应的三级显示页面。
进一步的,本发明中,为避免重复存储数据,将二级显示页面中的话题标题等信息与对应话题所在的板块编号对应保存至第二数据库中,当在二级显示页面中接收到用户访问三级显示页面的请求时,根据对应的话题标题等信息对应保存的板块编号在第一数据库中查找对应的话题,并显示给用户。
本发明中,将收集的网络社区话题按照分类级别和热点话题,分层级的显示给用户,其不仅便于用户查阅,提升用户体验,而且有利于对网络社区的舆论情况进行有效监管。
实施例二
根据本发明的实施方式,还提供一种网络社区话题整合系统,如图2所示,包括:
收集模块201,用于收集网络社区话题语料;
预处理模块202,用于对收集模块201收集的话题语料进行预处理后作为样本集;
聚类模块203,用于采用模糊K-means算法对预处理模块202得到的样本集进行聚类;
分析模块204,用于分析聚类模块203的聚类结果得到热点话题;
分类模块205,用于对预处理模块202得到的样本集进行分类得到各分类类别;
显示模块203,用于根据收集模块201收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。
根据本发明的实施方式,收集模块201具体用于:通过网络爬虫抓取网络社区各板块中的各话题内容,将抓取的各话题内容作为话题语料,并与对应的板块编号对应保存;其中,话题内容包括:话题标题、话题正文、话题发布时间、话题作者相关信息、话题点击数量、话题下的留言回复等。
根据本发明的实施方式,预处理模块202具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块,其中:
分词子模块,用于对收集模块201收集的话题预料进行分词得到各词汇;
去词子模块,用于去除分词子模块得到的各词汇中的停用词得到有效词汇;
第一计算子模块,用于计算去词子模块得到各有效词汇的特征值;
向量化子模块,用于根据第一计算子模块计算的各有效词汇的特征值,对收集模块201收集的话题预料进行向量化处理得到文本矩阵并作为样本集。
其中,分词子模块具体用于:根据分类体系中各类别标识与各板块编号的对应关系,查找对应的预设时间段内收集模块201收集的各话题语料,将查找到的各话题语料中的话题标题和话题正文作为具有类别标记的样本,并对各具有类别标记的样本进行IK分词得到各词汇;
根据本发明的实施方式,第一计算子模块具体包括:第一计算单元、第二计算单元和第三计算单元,其中:
第一计算单元,用于统计各有效词汇在所有样本中的出现次数总和作为第一数量,并分别将各有效词汇作为目标词汇,统计目标词汇在各样本中出现的次数作为第二数量,分别根据第一数量和第二数量计算对应的目标词汇在所有样本中的词频;
第二计算单元,用于将样本总数作为第三数量,并分别将各有效词汇作为目标词汇,统计含有目标词汇的样本的数量作为第四数量,分别根据第三数量和第四数量计算对应的目标词汇的逆向文本频率;
第三计算单元,用于根据各有效词汇的词频和逆向文本频率,计算各有效词汇的特征值。
本发明中,将各有效词汇记为x1、x2…xi…xF,其中,1≤i≤F,F为有效词汇的总数;将样本集中的各样本记为d1、d2…dj…dH,其中,1≤j≤H,H为样本的总数;
对应的,第一计算单元具体用于:根据词频的计算公式计算目标词汇在所有样本中的词频;其中,词频的计算公式为:其中,TFi为目标词汇xi在所有样本中的词频,Ni,j为目标词汇xi在样本dj中出现的次数,即第二数量,为各有效词汇在所有样本中的出现次数总和,即第一数量。
第二计算单元具体用于:根据逆向文本频率的计算公式计算目标词汇的逆向文本频率;其中,逆向文本频率的计算公式为:其中,IDFi为目标词汇xi的逆向文本频率,H为样本的总数,即第三数量,Ni为含有目标词汇xi的样本的数量,即第四数量。
第三计算单元具体用于:根据特征值的计算公式计算各有效词汇的特征值;其中,特征值的计算公式为:Wi=TFi*IDFi,其中Wi即为有效词汇xi的特征值。
根据本发明的实施方式,向量化子模块具体用于:将文本矩阵中的每一行对应一个样本,每一列对应一个有效词汇,分别将各有效词汇作为当前有效词汇,依次判断各样本中是否包含当前有效词汇,是则将当前有效词汇的特征值填充话至对应样本所在行与当前有效词汇所在列的交叉位置处,否则将0填充到交叉位置处。
根据本发明的实施方式,分析模块204包括:归一化子模块、合并子模块和比对子模块;
聚类模块203具体用于:采用模糊K-means算法将样本集划分为预设数量的模糊簇;
归一化子模块,用于将各模糊簇中的聚簇中心及簇内的样本数量进行归一化后作为对应聚簇中心的权值;
合并子模块,用于对相似聚簇中心的权值进行合并得到多个合并组合;
比对子模块,用于比对合并子模块得到的各合并组合中的各权值,并将各最大权值对应的聚簇中心作为热点话题。
根据本发明的实施方式,聚类模块203包括:初始化子模块、第二计算子模块、第三计算子模块、判断子模块和更新子模块,其中:
初始化子模块,用于将预处理模块202得到的样本集作为输入数据,初始化模糊簇的数量、模糊因子、迭代次数、收敛精度、隶属度矩阵,隶属度矩阵满足预设条件并作为当前隶属度矩阵;
例如,在本实施例中,初始化模糊簇的数量K=20,模糊因子m=1.05,最大迭代次数t=200,收敛精度ε=0.01,隶属度矩阵为U(0),并将各模糊簇记为V1、V2…VJ…VK,其中1≤J≤K;
进一步地,本发明中,初始化隶属度矩阵具体为:采用值在0~1间的随机数初始化隶属度矩阵U(0);
隶属度矩阵满足的预设条件为:其中1≤i≤F,UiJ为有效词汇xi对模糊簇Vj的隶属度,即隶属度矩阵满足的预设条件为有效词汇xi对所有模糊簇的隶属度之和为1。
第二计算子模块,用于计算各模糊簇的聚簇中心,并作为当前聚簇中心;
根据本发明的实施方式,第二计算子模块具体用于:根据公式计算各模糊簇的聚簇中心,并作为当前聚簇中心,其中UiJ为有效词汇xi对模糊簇Vj的隶属度。
第三计算子模块,用于根据所述初始化子模块初始化的模糊因子、当前隶属度矩阵和第二计算子模块计算的各当前聚簇中心计算目标函数值;
其中,目标函数具体为:其中,UiJ为有效词汇xi对模糊簇Vj的隶属度,diJ为有效词汇xi与模糊簇Vj的聚簇中心间的欧氏距离。
判断子模块,用于判断第三计算子模块计算的目标函数值与收敛精度是否满足预设关系;
其中,预设关系具体为:║Lt-Lt-1║<,Lt为第t次迭代时的目标函数值,Lt-1为第t-1次迭代时的目标函数值。
更新子模块,用于当判断子模块判断出第三计算子模块计算的目标函数值与收敛精度不满足预设关系时,更新隶属度矩阵,并将更新后的隶属度矩阵作为当前隶属度矩阵;
第二计算子模块,还用于当更新子模块更新隶属度矩阵之后,计算各模糊簇的聚簇中心,并作为当前聚簇中心。
根据本发明的实施方式,该系统还包括:训练模块;
训练模块,用于对收集模块收集的话题语料进行训练得到分类器;
对应的,分类模块205用于通过训练模块得到的分类器对预处理模块202得到的样本集进行分类。
根据本发明的实施方式,显示模块206具体用于:将各分类类别和各热点话题的基本信息作为一级信息,通过一级显示页面显示给用户;并将各分类类别和各热点话题所含有的各话题的标题等信息作为二级信息,通过二级显示页面显示给用户;将各话题的正文等信息作为三级信息,通过三级显示页面显示给用户;
进一步地,用户在一级显示页面中快速找到自己感兴趣的话题类别或者热点话题,并进入相应的二级显示页面查看所有相关的话题标题等信息,根据话题标题等信息选择需要查看的话题,即进入对应的三级显示页面。
实施例三
根据本发明的实施方式,还提供一种网络社区话题整合设备,包括一个或多个处理器、存储一个或多个程序的存储装置;当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如上所述的网络社区话题整合方法的步骤。
实施例四
根据本发明的实施方式,还提供一种计算机存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如上所述的网络社区话题整合方法的步骤。
本发明中,采用模糊K-means算法对预处理后的网络社区话题语料进行聚类得到热点话题,在聚类过程中引入模糊因子来计算每个有效词汇与每个簇之间的关联度,不仅解决了现有的聚类算法中,聚类结果是局部最优的问题,同时避免了由于词汇文本涉及到多个话题而导致一些特征丢失的现象;并且其在一定程度上将碎片化的网络社区话题数据进行了整合;同时,结合对预处理后的网络社区话题语料进行分类操作,以将网络社区话题进一步整合,并根据话题语料所属的分类级别和热点话题,分层级的显示给用户,其不仅便于用户查阅,提升用户体验,而且有利于数据挖掘,有利于对网络社区的舆论情况进行有效监管。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种网络社区话题整合方法,其特征在于,包括:
收集网络社区话题语料,对收集的话题语料进行预处理后作为样本集;
采用模糊K-means算法对所述样本集进行聚类,分析聚类结果得到热点话题;
对所述样本集进行分类得到各分类类别;
根据收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。
2.根据权利要求1所述的方法,其特征在于,所述对收集的话题语料进行预处理,包括:
对收集的话题语料进行分词得到各词汇;
去除得到的各词汇中的停用词得到各有效词汇;
计算各有效词汇的特征值;
根据各有效词汇的特征值,对收集的话题预料进行向量化处理得到文本矩阵并作为样本集。
3.根据权利要求1所述的方法,其特征在于,所述采用模糊K-means算法对所述样本集进行聚类,分析聚类结果得到热点话题,包括:
采用模糊K-means算法将所述样本集划分为预设数量的模糊簇;
将各模糊簇中的聚簇中心及簇内的样本数量进行归一化后作为对应聚簇中心的权值;
对相似聚簇中心的权值进行合并得到多个合并组合;
比对各合并组合中的各权值,并将各最大权值对应的聚簇中心作为热点话题。
4.根据权利要求1所述的方法,其特征在于,所述采用模糊K-means算法对所述样本集进行聚类,包括:
步骤D1:将所述样本集作为输入数据,初始化模糊簇的数量、模糊因子、最大迭代次数、收敛精度、隶属度矩阵,所述隶属度矩阵满足预设条件并作为当前隶属度矩阵;
步骤D2:计算各模糊簇的聚簇中心,并作为当前聚簇中心;
步骤D3:根据所述模糊因子、所述当前隶属度矩阵和各当前聚簇中心计算目标函数值;
步骤D4:判断计算的目标函数值与收敛精度是否满足预设关系,是则聚类完成,结束;否则更新当前隶属度矩阵,并将更新后的隶属度矩阵作为当前隶属度矩阵,返回步骤D2。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对收集的话题语料进行训练得到分类器;
所述对所述样本集进行分类,具体为:通过所述分类器对所述样本集进行分类。
6.一种网络社区话题整合系统,其特征在于,包括:
收集模块,用于收集网络社区话题语料;
预处理模块,用于对所述收集模块收集的话题语料进行预处理后作为样本集;
聚类模块,用于采用模糊K-means算法对所述预处理模块得到的样本集进行聚类;
分析模块,用于分析所述聚类模块的聚类结果得到热点话题;
分类模块,用于对所述预处理模块得到的样本集进行分类得到各分类类别;
显示模块,用于根据所述收集模块收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。
7.根据权利要求6所述的系统,其特征在于,所述预处理模块具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块;
所述分词子模块,用于对所述收集模块收集的话题预料进行分词得到各词汇;
所述去词子模块,用于去除所述分词子模块得到的各词汇中的停用词得到有效词汇;
所述第一计算子模块,用于计算所述去词子模块得到各有效词汇的特征值;
所述向量化子模块,用于根据所述第一计算子模块计算的各有效词汇的特征值,对所述收集模块收集的话题预料进行向量化处理得到文本矩阵并作为样本集。
8.根据权利要求6所述的装置,其特征在于,所述分析模块包括:归一化子模块、合并子模块和比对子模块;
所述聚类模块具体用于:采用模糊K-means算法将所述样本集划分为预设数量的模糊簇;
所述归一化子模块,用于将各模糊簇中的聚簇中心及簇内的样本数量进行归一化后作为对应聚簇中心的权值;
所述合并子模块,用于对相似聚簇中心的权值进行合并得到多个合并组合;
所述比对子模块,用于比对所述合并子模块得到的各合并组合中的各权值,并将各最大权值对应的聚簇中心作为热点话题。
9.根据权利要求6所述的系统,其特征在于,所述聚类模块包括:初始化子模块、第二计算子模块、第三计算子模块、判断子模块和更新子模块;
所述初始化子模块,用于将所述预处理模块得到的样本集作为输入数据,初始化模糊簇的数量、模糊因子、迭代次数、收敛精度、隶属度矩阵,所述隶属度矩阵满足预设条件并作为当前隶属度矩阵;
所述第二计算子模块,用于计算各模糊簇的聚簇中心,并作为当前聚簇中心;
所述第三计算子模块,用于根据所述初始化子模块初始化的模糊因子、所述当前隶属度矩阵和所述第二计算子模块计算的各当前聚簇中心计算目标函数值;
所述判断子模块,用于判断所述第三计算子模块计算的目标函数值与收敛精度是否满足预设关系;
所述更新子模块,用于当所述判断子模块判断出所述第三计算子模块计算的目标函数值与收敛精度不满足预设关系时,更新当前隶属度矩阵,并将更新后的隶属度矩阵作为当前隶属度矩阵;
所述第二计算子模块,还用于当所述更新子模块更新当前隶属度矩阵之后,计算各模糊簇的聚簇中心,并作为当前聚簇中心。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括:训练模块;
所述训练模块,用于对所述收集模块收集的话题语料进行训练得到分类器;
所述分类模块,用于通过所述训练模块得到的分类器对所述预处理模块得到的样本集进行分类得到各分类类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811062807.2A CN109190009A (zh) | 2018-09-12 | 2018-09-12 | 一种网络社区话题整合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811062807.2A CN109190009A (zh) | 2018-09-12 | 2018-09-12 | 一种网络社区话题整合方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109190009A true CN109190009A (zh) | 2019-01-11 |
Family
ID=64910445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811062807.2A Pending CN109190009A (zh) | 2018-09-12 | 2018-09-12 | 一种网络社区话题整合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190009A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN116680590A (zh) * | 2023-07-28 | 2023-09-01 | 中国人民解放军国防科技大学 | 基于工作说明书解析的岗位画像标签提取方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021578A (zh) * | 2016-06-01 | 2016-10-12 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN108363810A (zh) * | 2018-03-09 | 2018-08-03 | 南京工业大学 | 一种文本分类方法及装置 |
-
2018
- 2018-09-12 CN CN201811062807.2A patent/CN109190009A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021578A (zh) * | 2016-06-01 | 2016-10-12 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN108363810A (zh) * | 2018-03-09 | 2018-08-03 | 南京工业大学 | 一种文本分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
LAN YOU等: ""BBS Based Hot Topic Retrieval Using Back-Propagation Neutral Network"", 《PROCEEDINGS OF THE 1ST INTERNATIONAL SYMPOSIUMON NATURAL LANGUAGE PROCESSING》 * |
鲁明羽等: ""基于模糊聚类的网络论坛热点话题挖掘"", 《大连海事大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN110222172B (zh) * | 2019-05-15 | 2021-03-16 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN116680590A (zh) * | 2023-07-28 | 2023-09-01 | 中国人民解放军国防科技大学 | 基于工作说明书解析的岗位画像标签提取方法及装置 |
CN116680590B (zh) * | 2023-07-28 | 2023-10-20 | 中国人民解放军国防科技大学 | 基于工作说明书解析的岗位画像标签提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Leung et al. | Integrating collaborative filtering and sentiment analysis: A rating inference approach | |
Amine et al. | Evaluation of text clustering methods using wordnet. | |
CN106919689A (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
US20130018824A1 (en) | Sentiment classifiers based on feature extraction | |
US20030233350A1 (en) | System and method for electronic catalog classification using a hybrid of rule based and statistical method | |
CN110209808A (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
CN108829799A (zh) | 基于改进lda主题模型的文本相似度计算方法及系统 | |
Vysotska et al. | Development of Information System for Textual Content Categorizing Based on Ontology. | |
Crockett et al. | Cluster analysis of twitter data: A review of algorithms | |
CN105279264A (zh) | 一种文档的语义相关度计算方法 | |
CN108595525A (zh) | 一种律师信息处理方法和系统 | |
Bales et al. | Bibliometric visualization and analysis software: State of the art, workflows, and best practices | |
CN114548321A (zh) | 基于对比学习的自监督舆情评论观点对象分类方法 | |
CN108681548A (zh) | 一种律师信息处理方法和系统 | |
Sivanantham | Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach | |
Bhopale et al. | Swarm optimized cluster based framework for information retrieval | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
CN108681977A (zh) | 一种律师信息处理方法和系统 | |
CN109190009A (zh) | 一种网络社区话题整合方法及系统 | |
CN108614860A (zh) | 一种律师信息处理方法和系统 | |
de Buenaga Rodriguez et al. | Using WordNet to complement training information in text categorization | |
Jain et al. | FLAKE: fuzzy graph centrality-based automatic keyword extraction | |
Asa et al. | A comprehensive survey on extractive text summarization techniques | |
Bhavani et al. | An efficient clustering approach for fair semantic web content retrieval via tri-level ontology construction model with hybrid dragonfly algorithm | |
Singh et al. | An Insight into Word Sense Disambiguation Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |