CN109446393A - 一种网络社区话题分类方法及装置 - Google Patents

一种网络社区话题分类方法及装置 Download PDF

Info

Publication number
CN109446393A
CN109446393A CN201811062800.0A CN201811062800A CN109446393A CN 109446393 A CN109446393 A CN 109446393A CN 201811062800 A CN201811062800 A CN 201811062800A CN 109446393 A CN109446393 A CN 109446393A
Authority
CN
China
Prior art keywords
sample
cost
submodule
topic
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811062800.0A
Other languages
English (en)
Other versions
CN109446393B (zh
Inventor
吴旭
党习歌
颉夏青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201811062800.0A priority Critical patent/CN109446393B/zh
Publication of CN109446393A publication Critical patent/CN109446393A/zh
Application granted granted Critical
Publication of CN109446393B publication Critical patent/CN109446393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络社区话题分类方法及装置,属于数据处理技术领域。所述方法包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵;基于代价敏感矩阵对样本集进行训练得到分类器;使用分类器对网络社区文本进行分类。本发明中,通过构造代价敏感矩阵,并在分类器的训练过程中,将代价敏感引入随机森林,为各类别加入错分代价,且以错分代价最小为目的进行分类器训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。

Description

一种网络社区话题分类方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种网络社区话题分类方法及装置。
背景技术
上世纪六十年代初,互联网急速发展,而中国在用户规模和信息资源上都位居前列。如今,互联网开始逐渐向人们的日常生活、工作和休闲娱乐中深入,这对于信息化的发展起到极大的推动作用,人们在接连不断的从互联网上接收获取数据的同时,开始创建和分享信息。网络社区提供了一个网友间彼此沟通讨论、进行信息共享的平台,网络社区是指包括论坛、贴吧、公告栏、在线聊天、互动交友及无线增值服务等形式在内的网上交流空间。由于网络社区的开放性强,用户群体广泛,因而成为广大网民信息交流的重要平台和言论传播的有效载体,同时也成为网络舆论情况的重要来源。
网络舆论情况不止是广大网民的态度、观点、情感的传播、表达与互动,还直接反映着社会中的舆论情况,群众的不良情绪极有可能是对网络舆论情况中突发事件的不恰当处理激发而来,从而引发群众作出违反规定或者过于激动的举动,甚至对社会稳定造成威胁,因而对网络社区话题进行有效分类和分析,对舆论情况监管具有重大意义。
然而,网络社区中大量用户对热点话题的集中讨论极易造成数据的不均衡,目前已有的分类方法中,均不能很好的解决数据不均衡问题,从而造成一些数据的分类不准确。
发明内容
为解决现有技术的不足,本发明提供一种网络社区话题分类方法及装置。
第一方面,本发明提供一种网络社区话题分类方法,其特征在于,包括:
收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;
根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵;
基于所述代价敏感矩阵对所述样本集进行训练得到分类器;
使用所述分类器对网络社区文本进行分类。
可选地,所述对收集的话题语料进行预处理后作为样本集,包括:
对收集的话题语料进行分词得到各词汇;
去除得到的各词汇中的停用词得到各有效词汇;
计算各有效词汇的特征值;
根据各有效词汇的特征值,对所述收集的话题语料进行向量化处理得到文本矩阵并作为样本集。
可选地,所述根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵,具体包括:
根据所述样本集中各样本的类别标记统计类别总数,并计算各类别的先验概率;
根据所述先验概率分别计算各样本属于各类别的后验概率;
对所述后验概率进行变换作为对应样本错分的代价敏感值;
根据所述代价敏感值构造代价敏感矩阵。
可选地,所述基于所述代价敏感矩阵对所述样本集进行训练得到分类器,包括:
根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;
根据所述基尼系数选择决策树的分支节点,并对所述样本集进行随机森林训练,得到分类器。
可选地,所述根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数,包括:分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;
所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。
第二方面,本发明提供一种网络社区话题分类装置,包括:
收集模块,用于收集网络社区话题语料并确定对应的类别标记;
预处理模块,用于对所述收集模块收集的话题语料进行预处理后并作为样本集;
构造模块,用于根据所述收集模块确定的类别标记和朴素贝叶斯算法构建所述预处理模块得到的样本集错分的代价敏感矩阵;
训练模块,用于基于所述构造模块构造的代价敏感矩阵对所述预处理模块得到的样本集进行训练得到分类器;
分类模块,用于使用所述训练模块得到的分类器对网络社区文本进行分类。
可选地,所述预处理模块具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块;
所述分词子模块,用于对所述收集模块收集的话题语料进行分词得到各词汇;
所述去词子模块,用于去除所述分词子模块得到的各词汇中的停用词得到有效词汇;
所述第一计算子模块,用于计算所述去词子模块得到各有效词汇的特征值;
所述向量化子模块,用于根据所述第一计算子模块计算的各有效词汇的特征值,对所述收集模块收集的话题语料进行向量化处理得到文本矩阵并作为样本集。
可选地,所述构造模块包括:第二计算子模块、第三计算子模块、变换子模块和构造子模块;
所述第二计算子模块,用于根据所述样本集中各样本的类别标记统计类别总数,并分别计算各类别的先验概率;
所述第三计算子模块,用于根据所述第二计算子模块计算的先验概率分别计算各样本属于各类别的后验概率;
变换子模块,用于对所述第三计算子模块计算的后验概率进行变换作为对应样本错分的代价敏感值;
构造子模块,用于根据所述变换子模块得到的各代价敏感值构造代价敏感矩阵。
可选地,所述训练模块包括:第四计算子模块和训练子模块;
所述第四计算子模块,用于根据所述构造模块构造的代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;
所述训练子模块,用于根据所述第四计算单元确定的基尼系数选择决策树的分支节点,对所述预处理模块得到的样本集进行随机森林训练,得到分类器。
可选地,所述第四计算子模块,具体用于:分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;
所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。
第三方面,本发明提供一种网络社区话题分类设备,包括一个或多个处理器、存储一个或多个程序的存储装置;当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如本发明的第一方面所述的方法。
第四方面,本发明提供一种计算机存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如本发明的第一方面所述的方法。
本发明的优点在于:
本发明中,通过确定收集的网络社区话题语料的类别标记,并根据类别标记和朴素贝叶斯算法构建样本集错分的代价敏感矩阵,在分类器的训练过程中,将代价敏感引入基尼系数,为各类别加入错分代价,并以错分代价最小为目的进行随机森林训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1为本发明提供的一种网络社区话题分类方法流程图;
附图2为本发明提供的一种网络社区话题分类装置的模块组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
根据本发明的实施方式,提供一种网络社区话题分类方法,如图1所示,包括:
步骤101:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;
根据本发明的实施方式,收集网络社区话题语料并确定对应的类别标记包括:通过网络爬虫抓取网络社区各板块中的各话题内容,将抓取的各话题内容作为话题语料,通过对应的板块编号与分类体系中的各类别建立对应关系,根据建立的对应关系确定各话题语料的类别标识;其中,话题内容包括:话题标题、话题正文、话题发布时间、话题作者相关信息、话题点击数量、话题下的留言回复等。
例如,话题语料1通过板块编号3与分类体系中的类别4建立关联关系,则话题语料1的类别标记为类别4。
根据本发明的实施方式,对收集的话题语料进行预处理后作为样本集,包括:
步骤A1:对收集的话题语料进行分词得到各词汇;
具体的,根据分类体系中各类别标识与各板块编号的对应关系,查找对应的各话题语料,将查找到的各话题语料中的话题标题和话题正文作为具有类别标记的样本,并对各具有类别标记的样本进行IK分词得到各词汇;
进一步的,IK分词的分词方法为正向迭代最细粒度切分算法,是当前常用的分词方法,本发明中对IK分词的过程不再进行详述。
步骤A2:去除得到的各词汇中的停用词得到各有效词汇;
具体地,去除没有任何意义但经常出现的词语,包括词汇词、表情词、语气词等;
通过去除停用词,不仅能够减少存储空间的占用,而且能够保证数据的处理性能。
步骤A3:计算各有效词汇的特征值;
优选的,本发明中计算各有效词汇的TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆向文本频率)作为各有效词汇的特征值;
更加具体的,步骤A3包括:
步骤A3-1:统计各有效词汇在所有样本中的出现次数总和作为第一数量,并分别将各有效词汇作为目标词汇,统计目标词汇在各样本中出现的次数作为第二数量,分别根据第一数量和第二数量计算对应的目标词汇在样本集中的词频;
本发明中,将各有效词汇记为x1、x2…xi…xF,其中,1≤i≤F,F为有效词汇的总数;将样本集中的各样本记为d1、d2…di…dH,其中,1≤j≤H,H为样本的总数;
对应的,目标词汇的词频计算公式为:其中,TFi为目标词汇xi在所有样本中的词频,Ni,j为目标词汇xi在样本dj中出现的次数总和,其中1≤j≤H,即第二数量,为各有效词汇在样本集中出现次数的总和,即第一数量。
步骤A3-2:将样本总数作为第三数量,分别将各有效词汇作为目标词汇,统计含有目标词汇的样本的数量作为第四数量,分别根据第三数量和第四数量计算对应的目标词汇的逆向文本频率;
其中,分别根据第三数量和第四数量计算对应的目标词汇的逆向文本频率,具体为:分别将第三数量与第四数量相除得到商,并取商的对数,得到对应的目标词汇的逆向文本频率。
其中,逆向文本频率的计算公式为:其中,IDFi为目标词汇xi的逆向文本频率,H为样本总数,即第三数量,Ni为含有目标词汇xi的样本的数量,即第四数量。
步骤A3-3:根据各有效词汇的词频和逆向文本频率,计算各有效词汇的特征值。
具体的,将各有效词汇的词频与逆向文本频率相乘,并将乘积作为对应有效词汇的特征值。
特征值TF-IDF的计算公式为:Wi=TFi*IDFi,其中Wi即为有效词汇xi的特征值。
步骤A4:根据各有效词汇的特征值,对收集的话题语料进行向量化处理得到文本矩阵并作为样本集;
具体的,将文本矩阵中的每一行对应一个样本,每一列对应一个有效词汇,分别将各有效词汇作为当前有效词汇,依次判断各样本中是否包含当前有效词汇,是则将当前有效词汇的特征值填充至对应样本所在行与当前有效词汇所在列的交叉位置处,否则将0填充到交叉位置处。
步骤102:根据确定的类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵;
根据本发明的实施方式,步骤102包括:
步骤102-1:根据确定的样本集中各样本的类别标记统计类别总数,计算各类别的先验概率;
具体的,根据样本集中各样本的类别标记统计类别总数,并统计各类别中含有的样本数量,分别将各类别作为当前类别,根据样本集中样本的总数及当前类别中含有的样本的数量计算当前类别的先验概率;
先验概率的计算公式为:1≤I≤N,其中,P(CI)为类别CI的先验概率,CIk为类别CI中含有的样本的数量,H为样本的总数。
步骤102-2:根据先验概率分别计算各样本属于各类别的后验概率;
具体的,在各样本中选择一个样本作为当前样本,分别计算当前样本中的各有效词汇在各类别中出现的条件概率,分别将当前样本中的各有效词汇作为当前有效词汇,根据当前有效词汇对应的各条件概率,及各条件概率对应类别的先验概率,计算当前有效词汇属于各类别的后验概率,并将当前样本中各有效词汇属于同一类别的各后验概率相乘,将乘积作为样本属于该类别的后验概率。
本发明中,将样本的特征向量记为x(x1,x2…xi…xF),对于某个样本,当其不含有某个有效词汇时,该样本的特征向量中对应的位置为0,否则为1。对应的,计算样本属于各类别的后验概率的公式为:其中,1≤I≤N,P(xi|CI)为当前有效词汇xi在类别CI中出现的条件概率,P(CI)为类别CI的先验概率,N样本集中的类别数量。
步骤102-3:对计算的后验概率进行变换作为对应样本错分的代价敏感值;
具体的,取计算的各后验概率的倒数作为对应样本错分的代价敏感值。
步骤102-4:根据代价敏感值构造代价敏感矩阵。
具体的,将价敏感矩阵中的每一行对应一个样本,每一列对应一个类别,分别将各类别作为当前类别,依次将各样本作当前样本,根据当前样本的类别标识将当前样本错分的代价敏感值填充到对应的行与列的交叉点处。代价敏感矩阵中的每一个元素记为AIJ,其中,1≤I≤N,1≤J≤N,表示对应样本的类别标记为J通过分类器预测类别为I的代价,当AIJ为0时,表示分类正确,误分代价为零。
例如,样本x3对应于代价敏感矩阵中的第三行,类别1、类别2和类别3分别对应于代价敏感矩阵中的第一列、第二列和第三列,样本x3的类别标记为类别3,计算得到样本x3被误分为类别1的代价敏感值为a,被误分为类别2的代价敏感值为b,被分为类别3的代价敏感值为0,则在代价敏感矩阵中,第三行与第一列的交叉位置处为a,第三行与第二列的交叉位置处为b,第三行与第三列的交叉位置处为0。
本发明中,通过构造代价敏感矩阵,为后续训练分类器过程中提供样本错分代价,从而有效的解决了因数据不均衡而造成分类准确率低的问题。
步骤103:基于代价敏感矩阵对样本集进行训练得到分类器;
根据本发明的实施方式,步骤103包括:
步骤103-1:根据代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;
具体的,分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;
基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价,P(I|d)为样本d属于类别I的概率,P(J|d)为样本d属于类别J的概率。
步骤103-2:根据基尼系数选择决策树的分支节点,并对样本集进行随机森林训练,得到分类器。
具体的,根据基尼系数选择决策树的分支节点,并以错分代价最小为目的进行随机森林训练,其中随机森林训练的过程与现有的随机森林训练过程相同,本发明中不再对其进行详述。
优选地,本发明中,按照预设比例将样本集随机分成训练集和测试集,对训练集进行训练得到分类器,并分别使用训练集和测试集对得到的分类器进行验证。其中,预设比例可以根据需求自行设定,例如,随机在样本集中抽取80%的样本作为训练集,并将剩余20%的样本作为测试集。
本发明中,将代价敏感引入基尼系数,为各类别加入错分代价,并以错分代价最小为目的进行随机森林训练,在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题。
步骤104:使用得到的分类器对网络社区文本进行分类。
优选的,该方法中还包括:每隔预设时间间隔,自动获取保存的最新的话题语料并训练分类器,使用训练得到的分类器更新当前已有的分类器,从而保证分类器的实时性。
实施例二
根据本发明的实施方式,提供一种网络社区话题分类装置,如图2所示,包括:
收集模块201,用于收集网络社区话题语料并确定对应的类别标记;
预处理模块202,用于对收集模块201收集的话题语料进行预处理后并作为样本集;
构造模块203,用于根据收集模块201确定的类别标记和朴素贝叶斯算法构建预处理模块202得到的样本集错分的代价敏感矩阵;
训练模块204,用于基于构造模块203构造的代价敏感矩阵对预处理模块202得到的样本集进行训练得到分类器;
分类模块205,用于使用训练模块204得到的分类器对网络社区文本进行分类。
根据本发明的实施方式,收集模块201具体用于:通过网络爬虫抓取网络社区各板块中的各话题内容,将抓取的各话题内容作为话题语料,通过对应的板块编号与分类体系中的各类别建立对应关系,根据建立的对应关系确定各话题语料的类别标识;其中,话题内容包括:话题标题、话题正文、话题发布时间、话题作者相关信息、话题点击数量、话题下的留言回复等。
根据本发明的实施方式,预处理模块202具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块,其中:
分词子模块,用于对收集模块201收集的话题语料进行分词得到各词汇;
去词子模块,用于去除分词子模块得到的各词汇中的停用词得到有效词汇;
第一计算子模块,用于计算去词子模块得到各有效词汇的特征值;
向量化子模块,用于根据第一计算子模块计算的各有效词汇的特征值,对收集模块201收集的话题语料进行向量化处理得到文本矩阵并作为样本集。
其中,分词子模块具体用于:根据分类体系中各类别标识与各板块编号的对应关系,查找对应的收集模块201收集的各话题语料,将查找到的各话题语料中的话题标题和话题正文作为具有类别标记的样本,并对各具有类别标记的样本进行IK分词得到各词汇;
根据本发明的实施方式,第一计算子模块具体包括:第一计算单元、第二计算单元和第三计算单元,其中:
第一计算单元,用于统计各有效词汇在所有样本中的出现次数总和作为第一数量,并分别将各有效词汇作为目标词汇,统计目标词汇在各样本中出现的次数作为第二数量,分别根据第一数量和第二数量计算对应的目标词汇在所有样本中的词频;
第二计算单元,用于将样本总数作为第三数量,并分别将各有效词汇作为目标词汇,统计含有目标词汇的样本的数量作为第四数量,分别根据第三数量和第四数量计算对应的目标词汇的逆向文本频率;
第三计算单元,用于根据各有效词汇的词频和逆向文本频率,计算各有效词汇的特征值。
本发明中,将各有效词汇记为x1、x2…xi…xF,其中,1≤i≤F,F为有效词汇的总数;将样本集中的各样本记为d1、d2…dj…dH,其中,1≤j≤H,H为样本的总数;
对应的,第一计算单元具体用于:根据词频的计算公式计算目标词汇在所有样本中的词频;其中,词频的计算公式为:其中,TFi为目标词汇xi在所有样本中的词频,Ni,j为目标词汇xi在样本dj中出现的次数总和,其中1≤j≤H,即第二数量,为各有效词汇在所有样本中的出现次数总和,即第一数量。
第二计算单元具体用于:根据逆向文本频率的计算公式计算目标词汇的逆向文本频率;其中,逆向文本频率的计算公式为:其中,IDFi为目标词汇xi的逆向文本频率,H为样本的总数,即第三数量,Ni为含有目标词汇xi的样本的数量,即第四数量。
第三计算单元具体用于:根据特征值的计算公式计算各有效词汇的特征值;其中,特征值的计算公式为:Wi=TFi*IDFi,其中Wi即为有效词汇xi的特征值。
根据本发明的实施方式,向量化子模块具体用于:将文本矩阵中的每一行对应一个样本,每一列对应一个有效词汇,分别将各有效词汇作为当前有效词汇,依次判断各样本中是否包含当前有效词汇,是则将当前有效词汇的特征值填充话至对应样本所在行与当前有效词汇所在列的交叉位置处,否则将0填充到交叉位置处。
根据本发明的实施方式,构造模块203包括:第二计算子模块、第三计算子模块、变换子模块和构造子模块,其中:
第二计算子模块,用于根据样本集中各样本的类别标记统计类别总数,并分别计算各类别的先验概率;
第三计算子模块,用于根据第二计算子模块计算的先验概率分别计算各样本属于各类别的后验概率;
变换子模块,用于对第三计算子模块计算的后验概率进行变换作为对应样本错分的代价敏感值;
构造子模块,用于根据变换子模块得到的各代价敏感值构造代价敏感矩阵。
根据本发明的实施方式,第二计算子模块具体用于:根据样本集中各样本的类别标记统计类别总数,并统计各类别中含有的样本数量,分别将各类别作为当前类别,根据样本集中样本的总数及当前类别中含有的样本的数量计算当前类别的先验概率;其中,先验概率的计算公式为:1≤I≤N,其中,P(CI)为类别CI的先验概率,CIk为类别CI中含有的样本的数量,H为样本的总数。
第三计算子模块具体用于:在各样本中选择一个样本作为当前样本,分别计算当前样本中的各有效词汇在各类别中出现的条件概率,分别将当前样本中的各有效词汇作为当前有效词汇,根据当前有效词汇对应的各条件概率,及各条件概率对应类别的先验概率,计算当前有效词汇属于各类别的后验概率,并将当前样本中各有效词汇属于同一类别的各后验概率相乘,将乘积作为样本属于该类别的后验概率;
其中,将样本的特征向量记为x(x1,x2…xi…xF),对于某个样本,当其不含有某个有效词汇时,该样本的特征向量中对应的位置为0,否则为1。对应的,样本属于各类别的后验概率的计算公式为:其中,1≤I≤N,P(xi|CI)为当前有效词汇xi在类别CI中出现的条件概率,P(CI)为类别CI的先验概率,N样本集中的类别数量。
变换子模块具体用于:取第三计算子模块计算的各后验概率的倒数作为对应样本的代价敏感值。
构造子模块具体用于:将价敏感矩阵中的每一行对应一个样本,每一列对应一个类别,分别将各类别作为当前类别,依次将各样本作当前样本,根据当前样本的类别标识将当前样本错分的代价敏感值填充到对应的行与列的交叉点处。代价敏感矩阵中的每一个元素记为AIJ,其中,1≤I≤N,1≤J≤N,表示对应样本的类别标记为J通过分类器预测类别为I的代价,当AIJ为0时,表示分类正确,误分代价为零。
根据本发明的实施方式,训练模块204包括:第四计算子模块和训练子模块;
第四计算子模块,用于根据构造模块203构造的代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;
训练子模块,用于根据第四计算单元确定的基尼系数选择决策树的分支节点,对所述预处理模块得到的样本集进行随机森林训练,得到分类器。
根据本发明的实施方式,第四计算子模块,具体用于:分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的的基尼系数;
所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。
实施例三
根据本发明的实施方式,还提供一种网络社区话题分类设备,包括一个或多个处理器、存储一个或多个程序的存储装置;当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如上所述的网络社区话题分类方法的步骤。
实施例四
根据本发明的实施方式,还提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如上所述的网络社区话题分类方法的步骤。
本发明中,通过确定收集的网络社区话题语料的类别标记,并根据类别标记和朴素贝叶斯算法构建样本集错分的代价敏感矩阵,以在分类器的训练过程中,将代价敏感引入基尼系数,为各类别加入错分代价,并以错分代价最小为目的进行随机森林训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种网络社区话题分类方法,其特征在于,包括:
收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;
根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵;
基于所述代价敏感矩阵对所述样本集进行训练得到分类器;
使用所述分类器对网络社区文本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述对收集的话题语料进行预处理后作为样本集,包括:
对收集的话题语料进行分词得到各词汇;
去除得到的各词汇中的停用词得到各有效词汇;
计算各有效词汇的特征值;
根据各有效词汇的特征值,对所述收集的话题语料进行向量化处理得到文本矩阵并作为样本集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述类别标记和朴素贝叶斯算法构造所述样本集错分的代价敏感矩阵,具体包括:
根据所述样本集中各样本的类别标记统计类别总数,并计算各类别的先验概率;
根据所述先验概率分别计算各样本属于各类别的后验概率;
对所述后验概率进行变换作为对应样本错分的代价敏感值;
根据所述代价敏感值构造代价敏感矩阵。
4.根据权利要求3所述的方法,其特征在,所述基于所述代价敏感矩阵对所述样本集进行训练得到分类器,包括:
根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;
根据所述基尼系数选择决策树的分支节点,并对所述样本集进行随机森林训练,得到分类器。
5.根据权利要求4所述的方法,其特征在于,所述根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数,包括:
分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;
所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。
6.一种网络社区话题分类装置,其特征在于,包括:
收集模块,用于收集网络社区话题语料并确定对应的类别标记;
预处理模块,用于对所述收集模块收集的话题语料进行预处理后并作为样本集;
构造模块,用于根据所述收集模块确定的类别标记和朴素贝叶斯算法构建所述预处理模块得到的样本集错分的代价敏感矩阵;
训练模块,用于基于所述构造模块构造的代价敏感矩阵对所述预处理模块得到的样本集进行训练得到分类器;
分类模块,用于使用所述训练模块得到的分类器对网络社区文本进行分类。
7.根据权利要求6所述的方法,其特征在于,所述预处理模块具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块;
所述分词子模块,用于对所述收集模块收集的话题语料进行分词得到各词汇;
所述去词子模块,用于去除所述分词子模块得到的各词汇中的停用词得到有效词汇;
所述第一计算子模块,用于计算所述去词子模块得到各有效词汇的特征值;
所述向量化子模块,用于根据所述第一计算子模块计算的各有效词汇的特征值,对所述收集模块收集的话题语料进行向量化处理得到文本矩阵并作为样本集。
8.根据权利要求6所述的装置,其特征在于,所述构造模块包括:第二计算子模块、第三计算子模块、变换子模块和构造子模块;
所述第二计算子模块,用于根据所述样本集中各样本的类别标记统计类别总数,并分别计算各类别的先验概率;
所述第三计算子模块,用于根据所述第二计算子模块计算的先验概率分别计算各样本属于各类别的后验概率;
变换子模块,用于对所述第三计算子模块计算的后验概率进行变换作为对应样本错分的代价敏感值;
构造子模块,用于根据所述变换子模块得到的各代价敏感值构造代价敏感矩阵。
9.根据权利要求8所述的装置,其特征在于,所述训练模块包括:第四计算子模块和训练子模块;
所述第四计算子模块,用于根据所述构造模块构造的代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;
所述训练子模块,用于根据所述第四计算单元确定的基尼系数选择决策树的分支节点,对所述预处理模块得到的样本集进行随机森林训练,得到分类器。
10.根据权利要求9所述的装置,其特征在于,所述第四计算子模块,具体用于:
分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;
所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。
CN201811062800.0A 2018-09-12 2018-09-12 一种网络社区话题分类方法及装置 Active CN109446393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811062800.0A CN109446393B (zh) 2018-09-12 2018-09-12 一种网络社区话题分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811062800.0A CN109446393B (zh) 2018-09-12 2018-09-12 一种网络社区话题分类方法及装置

Publications (2)

Publication Number Publication Date
CN109446393A true CN109446393A (zh) 2019-03-08
CN109446393B CN109446393B (zh) 2020-06-30

Family

ID=65530473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811062800.0A Active CN109446393B (zh) 2018-09-12 2018-09-12 一种网络社区话题分类方法及装置

Country Status (1)

Country Link
CN (1) CN109446393B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263153A (zh) * 2019-05-15 2019-09-20 北京邮电大学 面向多源信息的混合文本话题发现方法
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN113723679A (zh) * 2021-08-27 2021-11-30 暨南大学 基于代价敏感深度级联森林的饮用水质预测方法及系统
CN113762343A (zh) * 2021-08-04 2021-12-07 德邦证券股份有限公司 处理舆情信息和训练分类模型的方法、装置以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289089A1 (en) * 2004-06-28 2005-12-29 Naoki Abe Methods for multi-class cost-sensitive learning
CN102779230A (zh) * 2012-06-14 2012-11-14 华南理工大学 一种电力变压器系统状态分析和维修决策判断方法
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN104504583A (zh) * 2014-12-22 2015-04-08 广州唯品会网络技术有限公司 分类器的评价方法
CN107391772A (zh) * 2017-09-15 2017-11-24 国网四川省电力公司眉山供电公司 一种基于朴素贝叶斯的文本分类方法
CN107993245A (zh) * 2017-11-15 2018-05-04 湖北三江航天红峰控制有限公司 一种空天背景多目标检测和跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289089A1 (en) * 2004-06-28 2005-12-29 Naoki Abe Methods for multi-class cost-sensitive learning
CN102779230A (zh) * 2012-06-14 2012-11-14 华南理工大学 一种电力变压器系统状态分析和维修决策判断方法
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN104504583A (zh) * 2014-12-22 2015-04-08 广州唯品会网络技术有限公司 分类器的评价方法
CN107391772A (zh) * 2017-09-15 2017-11-24 国网四川省电力公司眉山供电公司 一种基于朴素贝叶斯的文本分类方法
CN107993245A (zh) * 2017-11-15 2018-05-04 湖北三江航天红峰控制有限公司 一种空天背景多目标检测和跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尹华 等: "一种代价敏感随机森林算法", 《武汉大学学报(工学版)》 *
李秋洁 等: "代价敏感学习中的损失函数设计", 《控制理论与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263153A (zh) * 2019-05-15 2019-09-20 北京邮电大学 面向多源信息的混合文本话题发现方法
CN110263153B (zh) * 2019-05-15 2021-04-30 北京邮电大学 面向多源信息的混合文本话题发现方法
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN113762343A (zh) * 2021-08-04 2021-12-07 德邦证券股份有限公司 处理舆情信息和训练分类模型的方法、装置以及存储介质
CN113762343B (zh) * 2021-08-04 2024-03-15 德邦证券股份有限公司 处理舆情信息和训练分类模型的方法、装置以及存储介质
CN113723679A (zh) * 2021-08-27 2021-11-30 暨南大学 基于代价敏感深度级联森林的饮用水质预测方法及系统
CN113723679B (zh) * 2021-08-27 2024-04-16 暨南大学 基于代价敏感深度级联森林的饮用水质预测方法及系统

Also Published As

Publication number Publication date
CN109446393B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN108073568B (zh) 关键词提取方法和装置
Enayet et al. NileTMRG at SemEval-2017 task 8: Determining rumour and veracity support for rumours on Twitter.
CN109446393B (zh) 一种网络社区话题分类方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111222305B (zh) 一种信息结构化方法和装置
CN103294778B (zh) 一种推送资讯信息的方法及系统
CN105005594B (zh) 异常微博用户识别方法
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CA3009758A1 (en) Systems and methods for suggesting emoji
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN109815314A (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN106886579B (zh) 实时流式文本分级监控方法和装置
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111737464B (zh) 文本分类方法、装置和电子设备
CN108287848B (zh) 用于语义解析的方法和系统
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN110569495A (zh) 一种基于用户评论的情感倾向分类方法、装置及存储介质
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
Prasad Micro-blogging sentiment analysis using bayesian classification methods
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant