CN104239436B - 一种基于文本分类和聚类分析的网络热点事件发现方法 - Google Patents

一种基于文本分类和聚类分析的网络热点事件发现方法 Download PDF

Info

Publication number
CN104239436B
CN104239436B CN201410432539.4A CN201410432539A CN104239436B CN 104239436 B CN104239436 B CN 104239436B CN 201410432539 A CN201410432539 A CN 201410432539A CN 104239436 B CN104239436 B CN 104239436B
Authority
CN
China
Prior art keywords
text
cluster
classification
test
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410432539.4A
Other languages
English (en)
Other versions
CN104239436A (zh
Inventor
成卫青
范恒亮
卢艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410432539.4A priority Critical patent/CN104239436B/zh
Publication of CN104239436A publication Critical patent/CN104239436A/zh
Application granted granted Critical
Publication of CN104239436B publication Critical patent/CN104239436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本分类和聚类分析的网络热点事件发现方法,该方法解决了已有的基于聚类分析的热点事件发现方法存在的效率和准确率有待进一步提高的问题。该方法首先利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并采用TF‑IDF方法确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。本发明能有效提高热点事件发现的效率和准确率。

Description

一种基于文本分类和聚类分析的网络热点事件发现方法
技术领域
本发明涉及文本挖掘技术领域,特别涉及一种基于文本分类和聚类分析的网络热点事件发现方法。
背景技术
网络的发展,为民众抒发内心的情绪和态度提供了一个理想的表达渠道,人们可以根据新闻来发表自己的观点和意见。热点事件是指在一段时间、一定区域范围引起人们极大关注的事件,也即吸引公众一定注意力的公众事件。突发事件是网络热点事件中相当重要的一个部分。突发事件是指突然形成、造成巨大的财物损失、大量的人员伤亡以及对人们的日常生活造成严重影响的事件。政府部门需要随时对网络的突发舆情信息进行严密的监控,希望可以实时把握和跟踪最新的社会热点,并判断其是否对人们的生活造成了影响。
对于现实出现的各种网络热点事件和相关的网络评论,社会管理者和有关的政府部门必须有能力及时做出反应,防患于未然,防微杜渐,这就需要及时地对网络热点事件进行监控、跟踪和处理。
文本分类是指在给定分类体系下,根据文本的内容将其分到相应预定义类别中的过程。文本分类过程实际上是对文本的模式特征进行识别,其中的关键技术包括文本预处理、特征提取、分类模型等。将物理或抽象对象的集合分成由类似对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。话题发现与跟踪技术是一项针对新闻信息进行话题的提取和后续跟踪的信息处理技术。
热点事件发现是要发现某个以前未知的热点话题,它实际上是一个聚类过程,聚类形成的每个簇都表示一个话题,话题可以通过不同的聚类方法来发现。不过,单纯通过聚类发现热点事件,存在准确率不高和效率低下的问题。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于提供一种基于文本分类和聚类分析的网络热点事件发现方法,该方法用于解决传统的单一基于聚类的热点事件发现方法中存在的聚类方法效率和准确率有待进一步提高的问题。
本发明解决其技术问题所采取的技术方案是:本发明将文本分类应用于热点事件发现中,提出采用先分类再聚类的方法来解决聚类方法存在的一些缺点。本发明采用的方法是先对网络文本进行分类,之后再针对各个类别的文本集分别利用热点发现系统进行处理,从而发现热点事件。本发明基于的原理是:一个热点事件相关联的若干数量的文本,包含一定数量的相同特征词,在文本类别属性上也应该是相同的。
方法流程:
本发明提出一种基于文本分类和聚类技术的网络热点发现方法,该方法是利用KNN分类方法对测试集中的文本进行分类,再利用文本分类结果,分别对各个类别的所有文本进行聚类分析,之后再进行相关统计,进而发现热点事件,该方法包括如下步骤:
步骤1:利用KNN分类方法对测试文本进行分类;
步骤1-1:构建训练语料库(即DTrain)和测试语料库(即DTest),利用训练语料库提取特征词并进行特征选择。训练集可以采用网上发布的已有的中文语料库,测试样本可以从BBS论坛、门户网站新闻版面获取,可利用网页采集模块在互联网上搜索和下载所需的网页,通过网页清洗模块对已下载文档中的广告等干扰信息进行处理,并利用HTMLParser技术对网页中的主体内容进行抽取,完成网页文本信息的前期处理工作。对文本再做分词、去除停用词等处理,得到特征词,再基于χ2特征评价函数进行特征选择,为训练集中各类别文本分别选取一定数量的特征词;
步骤1-2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF-IDF的方法确定向量中每一维的权重;
步骤1-3:对测试集(即DTest)中的每个测试文本X,按余弦距离法在训练集(即DTrain)中找到它的K-最近邻子集{X1,…,Xk};
步骤1-4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:
其中,μj(Xi)∈{0,1}含义为测试文本的近邻文本Xi是否属于Cj;sim(X,Xi)表示测试文本与训练文本Xi的余弦相似度。决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别。最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备;
步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,具体步骤为:
步骤2-1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇。对文本预处理子系统中提供的文本向量,利用K-means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:
步骤1:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;
步骤2:计算该类别中的每个文本对象Xj与各个簇中心的距离,并把Xj划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;
步骤3:重复上述步骤2,直到该类别所有测试文本对象Xj的簇不再变化为止,这样就得到了k个热点簇C1,C2,…,Ck。对测试集中每个类别分别得到若干热点簇;
步骤2-2:热点特征词提取:根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征,这样可以更加明确热点事件,也便于之后的热点事件的分析和描述;
步骤2-3:热点事件分析:利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述。权值排序倒数20%的特征词也有一定的价值,虽然这些特征的权重较小,但可以从侧面为热点提供一定的附加信息。
有益效果:
1、本发明解决了已有的基于聚类分析的热点事件发现方法存在的时空复杂度高和热点事件发现准确率较低等问题,提高了热点事件发现的效率和准确率。
2、本发明减少了聚类方法的时空复杂度。
3、本发明能够有效地提取特征词,也便于文本降维,减少了不同类别热点事件之间的影响,从而提高了热点事件发现的成功率。
附图说明
图1为本发明基于文本分类和聚类分析的网络热点事件发现方法的流程图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
如图1所示,本发明提出一种基于文本分类和聚类技术的网络热点发现方法,该方法包括如下步骤:
步骤1:利用KNN分类方法对测试文本进行分类;
步骤1-1:构建训练语料库(即DTrain)和测试语料库(即DTest),利用训练语料库提取特征词并进行特征选择。训练集采用网上发布的已有的中文语料库,测试样本可以从BBS论坛、门户网站新闻版面获取,利用网页采集模块在互联网上搜索和下载所需的网页,通过网页清洗模块对已下载文档中的广告等干扰信息进行处理,并利用HTMLParser技术对网页中的主体内容进行抽取,完成网页文本信息的前期处理工作。对文本再做分词、去除停用词等处理,得到特征词,再基于χ2特征评价函数进行特征选择,为训练集中各类别文本分别选取一定数量的特征词;
步骤1-2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF-IDF的方法确定向量中每一维的权重;
步骤1-3:对测试集(即DTest)中的每个测试文本X,按余弦距离法在训练集(即DTrain)中找到它的K-最近邻子集{X1,…,Xk};
步骤1-4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:
其中,μj(Xi)∈{0,1}含义为测试文本的近邻文本Xi是否属于Cj;sim(X,Xi)表示测试文本与训练文本Xi的余弦相似度。决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别。最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备;
步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统主要包括聚类、热点特征词提取、热点事件分析等模块,具体步骤为:
步骤2-1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇。对文本预处理子系统中提供的文本向量,利用K-means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合;
步骤2-2:热点特征词提取:根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征,这样可以更加明确热点事件,也便于之后的热点事件的分析和描述;
步骤2-3:热点事件分析:利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述。权值排序倒数20%的特征词也有一定的价值,虽然这些特征的权重较小,但是也可以从侧面为热点提供一定的附加信息。
本发明是采用KNN方法来对文本进行分类处理。
本发明基于传统KNN方法的文本分类过程,具体包括如下步骤:
(1)文本的预处理,主要包括分词、去除停用词等;
(2)特征选择,即从经预处理得到的数量仍然较大的特征词中进行筛选,选取对分类较重要的特征词,其主要方法有:互信息、交叉熵、信息增益、χ2统计方法、文本证据权等;
(3)扫描并统计每一篇训练文本在所有特征空间中的向量,采用TF-IDF的方法确定向量中每一维的权重;
(4)对于一篇待分类的文本,也称测试文本,提取特征词并计算文本向量的各维权重,之后计算该文本与每一篇训练文本的相似度,一般采用余弦距离的方法:
其中wik为文本向量di的第k维属性权重,m是文本特征向量的维度;
(5)将所有文本相似度按降序排列,选出与测试文本最相邻的k个训练文本;
(6)基于测试文本与其k个近邻的相似度,以及k个近邻的类别,计算测试文本属于每一个类别的权重:
其中,μj(Xi)∈{0,1}含义为文本Xi是否属于类别Cj;sim(X,Xi)表示测试文本X与训练文本Xi的相似度。决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别。
本发明中聚类部分使用划分法中的k-means方法,基于传统k-means方法的文本聚类主要包括如下过程:
(1)首先从n个数据对象中任意选择k个对象作为初始聚类中心;
(2)对所有对象,根据它们与聚类中心的相似度(距离),分别将它们划分到与其最相似的簇(聚类中心所代表的簇);
(3)计算每个新簇的聚类中心,也即该簇中所有对象的均值;不断重复(2)(3)直到所有对象的簇不再改变为止;
(4)统计各个对象分别归属于哪一个聚类中心,再对各个簇进行统计分析,从而可以发现热点事件。
本发明从网络上搜集新闻并进行热点事件分析,具体实施方式为:
一、分类部分
(1)利用网络爬虫或相关网络信息抓取工具从互联网上抓取一定数目的各个领域有代表性的文章构成文本分类系统的训练样本集,再从门户新闻网站随机抓取一些文章构成测试样本集。
(2)对这些文本进行预处理,分词后去掉停用词,得到特征词,统计词的频度和反文档频率,并根据χ2特征评价方法分别计算出一个特征词相对于每个类别的权重并求和得到特征评价值。将每个特征词的最终权重设为:TF-IDF。对训练集中文本按类别分别选取一定数量(记为Nf)特征词。利用所有这些特征词将训练集中每篇文章表示为文本向量的形式。
(3)同样,对于测试样本集中的每个测试文本,利用所有类别全部的特征词对其进行特征词扫描,并将每一维的特征权重设为TF-IDF,从而得到测试文本的文本向量。
(4)对每个测试文本Xq,计算它与训练集中每个文本的余弦相似度,在训练集中找到Xq的K-最近邻子集{X1,…,Xk},计算公式如下:
式中dq表示测试文本的特征向量,dj为训练文本序号为j文本的特征向量,m为特征向量的维度,wjk表示文本j的特征向量的第k维权重。
(5)基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:
其中,μj(Xi)∈{0,1}含义为测试文本的近邻文本Xi是否属于Cj;sim(X,Xi)表示测试文本与训练文本Xi的余弦相似度。决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别。
最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备。
二、聚类部分
根据分类结果,利用聚类方法分别对各个类别进行热点事件发现。这里聚类采用的是K-means聚类方法。热点分析子系统主要包括聚类模块,热点特征词提取模块,热点事件分析模块等。
(1)聚类模块:根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇。对文本预处理子系统中提供的文本向量,利用K-means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:
步骤1:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;
步骤2:计算该类别中的每个文本对象Xj与各个簇中心的距离,并把Xj划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;
步骤3:重复上述步骤2,直到该类别所有测试文本对象Xj的簇不再变化为止,这样就得到了平均误差最小的k个热点簇C1,C2,…,Ck。对测试集中每个类别分别得到若干热点簇;
(2)热点特征词提取模块:根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重较大的80%的特征词提取出来,作为该热点的代表性特征,这样可以更加明确热点事件,也便于之后的热点事件的分析和描述;
(3)热点事件分析模块:利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述。权值排序倒数20%的特征词也有一定的价值,虽然这些特征的权重较小,但是也可以从侧面为热点提供一定的附加信息。

Claims (1)

1.一种基于文本分类和聚类分析的网络热点事件发现方法,其特征在于,所述方法是利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词;所述方法采用向量空间模型法将每一篇训练文本、测试文本表示为在所有特征空间中的向量,并采用TF-IDF的方法确定向量中每一维的权重;所述方法是利用KNN分类方法对测试集中的文本进行分类;所述方法是利用文本分类结果,分别对各个类别的所有文本进行聚类分析,之后再进行相关统计,进而发现热点事件,包括如下步骤:
步骤1:利用KNN分类方法对测试文本进行分类,包括:
步骤1-1:构建训练语料库和测试语料库,利用训练语料库提取特征词并进行特征选择;
步骤1-2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF-IDF的方法确定向量中每一维的权重;
步骤1-3:对测试集中的每个测试文本X,按余弦距离法在训练集中找到它的K-最近邻子集{X1,…,Xk};
步骤1-4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:
其中,μj(Xi)∈{0,1}含义为测试文本的近邻文本Xi是否属于Cj;sim(X,Xi)表示测试文本与训练文本Xi的余弦相似度;决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别,最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备;
步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,包括:
步骤2-1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇;对文本预处理子系统中提供的文本向量,利用K-means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:
第一步:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;
第二步:计算该类别中的每个文本对象Xj与各个簇中心的距离,并把Xj划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;
第三步:重复上述第二步,直到该类别所有测试文本对象Xj的簇不再变化为止,这样就得到了k个热点簇C1,C2,…,Ck;对测试集中每个类别分别得到若干热点簇;
步骤2-2:热点特征词提取;根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征;
步骤2-3:热点事件分析;利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述;权值排序倒数20%的特征词也有价值,从侧面为热点提供附加信息;
所述方法基于传统KNN方法的文本分类过程,包括如下步骤:
(1)文本的预处理,主要包括分词、去除停用词;
(2)特征选择,即从经预处理得到的数量仍然较大的特征词中进行筛选,选取对分类较重要的特征词,其方法有:互信息、交叉熵、信息增益、χ2统计方法、文本证据权;
(3)扫描并统计每一篇训练文本在所有特征空间中的向量,采用TF-IDF的方法确定向量中每一维的权重;
(4)对于一篇待分类的文本,也称测试文本,提取特征词并计算文本向量的各维权重,之后计算该文本与每一篇训练文本的相似度,一般采用余弦距离的方法:
其中wik为文本向量di的第k维属性权重,m是文本特征向量的维度;
(5)将所有文本相似度按降序排列,选出与测试文本最相邻的k个训练文本;
(6)基于测试文本与其k个近邻的相似度,以及k个近邻的类别,计算测试文本属于每一个类别的权重:
其中,μj(Xi)∈{0,1}含义为文本Xi是否属于类别Cj;sim(X,Xi)表示测试文本X与训练文本Xi的相似度,决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别;
根据分类结果,利用聚类方法分别对各个类别进行热点事件发现,所述聚类采用的是K-means聚类方法,热点分析子系统包括聚类模块,热点特征词提取模块,热点事件分析模块;
(1)聚类模块:根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇,对文本预处理子系统中提供的文本向量,利用K-means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:
步骤1:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;
步骤2:计算该类别中的每个文本对象Xj与各个簇中心的距离,并把Xj划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;
步骤3:重复上述步骤2,直到该类别所有测试文本对象Xj的簇不再变化为止,这样就得到了平均误差最小的k个热点簇C1,C2,…,Ck,对测试集中每个类别分别得到若干热点簇;
(2)热点特征词提取模块:根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重较大的80%的特征词提取出来,作为该热点的代表性特征;
(3)热点事件分析模块:利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述,权值排序倒数20%的特征词也有一定的价值,虽然这些特征的权重较小,但是也从侧面为热点提供附加信息。
CN201410432539.4A 2014-08-27 2014-08-27 一种基于文本分类和聚类分析的网络热点事件发现方法 Active CN104239436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410432539.4A CN104239436B (zh) 2014-08-27 2014-08-27 一种基于文本分类和聚类分析的网络热点事件发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410432539.4A CN104239436B (zh) 2014-08-27 2014-08-27 一种基于文本分类和聚类分析的网络热点事件发现方法

Publications (2)

Publication Number Publication Date
CN104239436A CN104239436A (zh) 2014-12-24
CN104239436B true CN104239436B (zh) 2018-01-02

Family

ID=52227496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410432539.4A Active CN104239436B (zh) 2014-08-27 2014-08-27 一种基于文本分类和聚类分析的网络热点事件发现方法

Country Status (1)

Country Link
CN (1) CN104239436B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636461B (zh) * 2015-02-06 2018-10-23 北京中搜云商网络技术有限公司 一种基于knn的动态事件聚类和提取的方法
CN104794161A (zh) * 2015-03-24 2015-07-22 浪潮集团有限公司 对网络舆情监控的方法
CN104850998B (zh) * 2015-04-15 2018-11-02 浙江大学 一种基于聚类的移动应用下载量预测方法
CN104809229B (zh) * 2015-05-07 2018-12-04 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN105224689A (zh) * 2015-10-30 2016-01-06 北京信息科技大学 一种东巴文献分类方法
CN106815199A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于机器学习的协议类型分析方法和装置
CN106021578B (zh) * 2016-06-01 2019-07-23 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN106446264B (zh) * 2016-10-18 2019-08-27 哈尔滨工业大学深圳研究生院 文本表示方法及系统
CN106649262B (zh) * 2016-10-31 2020-07-07 复旦大学 一种社交媒体中企业硬件设施敏感信息防护方法
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN106528768A (zh) * 2016-11-04 2017-03-22 北京中电普华信息技术有限公司 一种咨询热点分析方法及装置
CN106777193B (zh) * 2016-12-23 2020-04-10 李鹏 一种自动撰写特定稿件的方法
CN106815605B (zh) * 2017-01-23 2021-04-13 上海上讯信息技术股份有限公司 一种基于机器学习的数据分类方法及设备
CN107122420A (zh) * 2017-04-01 2017-09-01 上海诺悦智能科技有限公司 一种旅游热点事件检测方法及系统
CN107341247A (zh) * 2017-07-07 2017-11-10 河南科技大学 一种数据分析系统及数据分析方法
CN107894994A (zh) * 2017-10-18 2018-04-10 北京京东尚科信息技术有限公司 一种检测热点话题类别的方法和装置
CN107977678B (zh) * 2017-11-28 2021-12-03 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108154178A (zh) * 2017-12-25 2018-06-12 北京工业大学 基于改进的svm-knn算法的半监督托攻击检测方法
CN108363784A (zh) * 2018-01-20 2018-08-03 西北工业大学 一种基于文本机器学习的舆情走向预测方法
CN108647322B (zh) * 2018-05-11 2021-12-17 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN108764671B (zh) * 2018-05-16 2022-04-15 山东师范大学 一种基于自建语料库的创造能力评测方法和装置
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置
CN109145180B (zh) * 2018-06-27 2021-07-20 东华大学 一种基于增量聚类的企业热点事件挖掘方法
CN108959260B (zh) * 2018-07-06 2019-05-28 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
CN110209808B (zh) * 2018-08-08 2023-03-10 腾讯科技(深圳)有限公司 一种基于文本信息的事件生成方法以及相关装置
CN109308317A (zh) * 2018-09-07 2019-02-05 浪潮软件股份有限公司 一种基于聚类的非结构化文本的热点词提取方法
CN109993216B (zh) * 2019-03-11 2021-05-11 深兰科技(上海)有限公司 一种基于k最近邻knn的文本分类方法及其设备
CN109960799B (zh) * 2019-03-12 2021-07-27 中南大学 一种面向短文本的优化分类方法
CN110347827B (zh) * 2019-06-26 2023-08-22 南京理工大学 面向异构文本运维数据的事件提取方法
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质
CN110472057B (zh) * 2019-08-21 2023-07-28 北京明略软件系统有限公司 话题标签的生成方法及装置
CN111723136A (zh) * 2019-11-20 2020-09-29 中共南通市委政法委员会 一种面向网格事件分类分级处置的单维聚类分析方法
CN113449098A (zh) * 2020-03-25 2021-09-28 中移(上海)信息通信科技有限公司 日志的聚类方法、装置、设备及存储介质
CN111930936A (zh) * 2020-06-28 2020-11-13 山东师范大学 一种平台留言文本挖掘方法及系统
CN112487306B (zh) * 2020-12-07 2023-01-17 华东师范大学 基于知识图谱的自动化事件标记与分类方法
CN112612873B (zh) * 2020-12-25 2023-07-07 上海德拓信息技术股份有限公司 一种基于nlp技术的集中性事件挖掘方法
CN113515624B (zh) * 2021-04-28 2023-07-21 乐山师范学院 一种针对突发事件新闻的文本分类方法
CN113468321B (zh) * 2021-09-01 2022-01-04 江苏金陵科技集团有限公司 一种基于大数据的事件聚合分析方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122043B2 (en) * 2009-06-30 2012-02-21 Ebsco Industries, Inc System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于K-means聚类的网络舆情监控系统;张玉珠;《通信技术》;20130110;第46卷(第01期);第57-59页 *

Also Published As

Publication number Publication date
CN104239436A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239436B (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
Nguyen et al. Damage assessment from social media imagery data during disasters
Alam et al. Deep learning benchmarks and datasets for social media image classification for disaster response
CN103345528B (zh) 一种基于关联分析和knn的文本分类方法
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN101516071B (zh) 垃圾短消息的分类方法
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
CN104239485A (zh) 一种基于统计机器学习的互联网暗链检测方法
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN111045847A (zh) 事件审计方法、装置、终端设备以及存储介质
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN105260437A (zh) 文本分类特征选择方法及其在生物医药文本分类中的应用
CN104182805A (zh) 基于服刑人员行为特征集成学习模型的危险倾向预测方法
CN103838835A (zh) 一种网络敏感视频检测方法
CN107895008B (zh) 基于大数据平台的情报信息热点发现方法
CN103886077B (zh) 短文本的聚类方法和系统
KR20190135129A (ko) 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
Agarwal et al. Comparison of machine learning approaches in the prediction of terrorist attacks
CN109889436A (zh) 一种社交网络中垃圾邮件发送者的发现方法
Benny et al. Keyword based tweet extraction and detection of related topics
CN112115712B (zh) 基于话题的群体情感分析方法
CN102567405A (zh) 一种基于改进的文本空间向量表示的热点发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant