CN107862070B - 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 - Google Patents

基于文本聚类的线上课堂讨论短文本即时分组方法及系统 Download PDF

Info

Publication number
CN107862070B
CN107862070B CN201711170964.0A CN201711170964A CN107862070B CN 107862070 B CN107862070 B CN 107862070B CN 201711170964 A CN201711170964 A CN 201711170964A CN 107862070 B CN107862070 B CN 107862070B
Authority
CN
China
Prior art keywords
text
clustering
frequent item
quasi
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711170964.0A
Other languages
English (en)
Other versions
CN107862070A (zh
Inventor
陆以勤
夏儒斐
黄国洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201711170964.0A priority Critical patent/CN107862070B/zh
Publication of CN107862070A publication Critical patent/CN107862070A/zh
Application granted granted Critical
Publication of CN107862070B publication Critical patent/CN107862070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于文本聚类的线上课堂讨论短文本即时分组方法及系统。该方法包括:对文本数据进行分词预处理和停用词预处理;获取各文本项关键词,统计存储于关键词表keyTable;对预处理后的文本集,进行频繁项集挖掘,过滤各子项准频繁项集,结合关键词表定义准频繁项集相似度计算规则,粗归簇;将各簇最靠近簇心的点逆映射到文本集,计算各簇内文本词集TF‑IDF值,按距离迭代更新质心至最优;将获取的K个簇,即时分组推送。本发明采用的结合关键词表定义准频繁项集相似度计算规则有效提高线上讨论短文本聚类准确度;采用准频繁项集过滤策略有效提高归簇效率,加速聚类方法;把线上课堂讨论过的文本信息内容,自动归纳成多个主题,并把文本内容按主题分组。

Description

基于文本聚类的线上课堂讨论短文本即时分组方法及系统
技术领域
本发明涉及计算机技术领域,具体涉及一种基于文本聚类的线上课堂讨论短文本即时分组方法及系统。
背景技术
集成了互联网和传统教育资源的在线云课堂平台兴起于近几年,各大高校、教育机构纷纷开设云课堂在线平台。云课堂为用户创造了一个即时的网络互动课堂,因其高效、便捷、即时性等特点而深受在线学习者欢迎。互动部分中,线上课堂讨论内容实现即时分组可使课上讨论内容条理更明确清晰,可有效提高在线学习者的阅读效率,常采用数据挖掘的方法进行操作。
现有技术中,对无标记文本内容分组的常用方法是文本聚类,对同主题文档进行冗余消除、信息融合处理。在中文线上课堂讨论中大量存在10至50有效中文词组组成的短文本信息。现有对短文本的聚类方法主要基于传统的聚类方法,可分为层次法、划分法、基于密度的方法、基于网格的方法和基于模型的方法。在使用传统的聚类方法对短文本进行数据化时,常用的向量空间模型因具有向量维度高、特征稀疏、语义信息不丰富等特点而影响了聚类的准确度。
在传统聚类方法中,K-means算法以其简洁、快速和较好的准确度而得以广泛运用。K-means算法是基于数据点到初始聚类中心的某种距离作为优化的目标函数,利用迭代运算调整聚类中心至目标函数最优。算法的初始中心,对聚类结果有较大的影响,但是传统的K-means算法初始中心由随机函数获得。且传统的K-means算法不可预测聚类类别数目。
发明内容
本发明为解决上述技术问题,提出了一种基于文本聚类的线上课堂讨论短文本即时分组方法及系统。通过文本预处理、关键词挖掘、准频繁项集粗归簇结合TF-IDF计算簇间文本距离迭代更新质心,调研明确聚类个数,一定程度上克服了传统聚类算法不能准确应用于线上课堂讨论短文本的问题。
本发明提供的基于文本聚类的线上课堂讨论短文本即时分组方法,包括:
获取并存储线上课堂讨论短文本数据;
对文本数据,进行分词预处理和停用词预处理;
获取各文本项关键词,统计存储于关键词表统计表keyTable;
对预处理过后的文本集,进行频繁项集挖掘,过滤各子项的准频繁项集,结合关键词统计表定义准频繁项集相似度计算规则,粗归簇;
将各组最靠近簇心的点逆映射到文本集,计算各簇内文本词集TF-IDF值,根据TF-IDF提取文本的特征,获取文本特征向量;
计算各特征点到各簇簇心距离,划分到距离最近的簇,迭代更新质心至最优。
获取所述文本词汇特征向量的K个簇,即时分组推送各簇内容,按支持度降序排列。
进一步地,所述文本分词预处理及关键词挖掘使用汉语词法分词系统ICTCLAS、基于HTTP协议的开源中文分词系统HTTPCWS或简易中文分词系统SCWS;停用词预处理使用静态停用词表或基于统计学习的停用词表。其中,停用词判定条件为:剔除特殊符号、中英文单字、常见噪声字词。
进一步地,所述获取各文本项关键词存储于关键词表统计表keyTable,关键词统计表keytable记录所有关键词逆文档频数统计。
进一步地,所述频繁项集挖掘采用fp-growth算法。对得到的频繁项集过滤各子项的准频繁项集。包括:
扫描预处理过后的文本集获取各项集并计算其频繁度,过滤低于阈值的项,将过滤后的频繁项集写入表中按降序排列。二次扫描数据,将原始数据中的文本词项压缩到相同前缀路径共用的树中,构建fp-tree。对表中各项依次从fp-tree中获取条件模式基,累加条件模式基上该项的频繁度,过滤低于阈值的项,构建条件fp-tree。递归挖掘每个条件fp-tree,累加后缀频繁项集,直到找到fp-tree为空或fp-tree只有一条路径。
分析挖掘得到的所有频繁项集,是包含各频繁子项的所有集合的集,遍历滤除各频繁子项最大频繁项集的所有子集,得到包含各频繁子项最大频繁项集但不具有包含关系的集合作为准频繁项集。
进一步地,所述结合关键词统计表定义准频繁项集相似度计算规则用于粗归簇。包括:
对关键词统计表中各关键词Ki(i表征关键词编号,取1~n,n为文本数量)对语义相似度的贡献值以逆文档频数Ni来度量;通过包含各关键词的文本个数统计,表征该关键词类别区分能力;若Ni>n/2,将该关键词Ki标记为基础词;否则标记为一般关键词。
在线上课堂讨论短文本中,对于同一个题目,讨论内容大致基于一些基础词发表不同观点。基础词和关键词运用在准频繁项集相似度计算中主要用于区分相同大前提下的小区别。词集中每个词对应几个概念,每个概念由几个义原来描述。对于两个概念s1i和s2i(i表征各概念中义原编号),Sim(S1i,S2i)表示s1i和s2i两个概念之间的语义距离:
Figure BDA0001477223950000031
其中,dmin为s1i、s2i两概念第一义原在中文知识库层次体系中的最小距离。α取1.6。定义词语间语义相似度计算公式如下:
Figure BDA0001477223950000032
准频繁项集间任意两集合t1和t2,若t1和t2含k个相同的基础词:
Figure BDA0001477223950000033
其中,wi,wj不是相同的基础词,δ取1.5,用于区分相同基础关键词大前提下不同表述内容。否则:
Figure BDA0001477223950000034
其中,Δ以较小常数0.1定义任一非空值可空值相似度,l和s分别为较长和较短的两个项的长度。
进一步地,所述根据根据语义相似度粗归簇步骤如下:
1)选取当下最长准频繁项作为第i个质心Ci(i表征质心编号);
2)遍历准频繁项集依次与各质心比较;
3)判断是否有交集,若有则返回2),否则选取为下一个质心;
4)判断是否有6个质心,若有则计算各准频繁项和各质心相似度,归入相似度最大的簇直至处理完全,否则返回1);
进一步地,所述将各组最靠近簇心的点逆映射到文本集,逆映射过程基于SQL记录。
进一步地,所述根据TF-IDF提取文本的特征,获取文本特征向量包括:计算各文本向量中特征词文件词频TF和逆文档频率IDF,设定TF-IDF阈值条件,选取满足条件的特征词做特征词。
进一步地,所述各计算特征点到各簇心的距离,该距离采用余弦距离;质心迭代更新基于簇内数据点距离均值。
所述按支持度将序排列,支持度以该簇内文本数量表征。
所述文本数据包括在规定时间内提交的所有讨论内容。
计算过程及即时推送基于类似spark的大数据并行计算平台,其在文本处理、相似度计算、聚类过程处理上的高效快速特性为即时性提供了保障。
本发明还提供一种线上课堂讨论短文本即时分组系统,通过计算机硬件及类似spark的大数据并行计算平台上的编程软件实现,包括如下模块:
线上课堂讨论短文本获取模块,以递增文本编号文本内容相对应的形式存储。
中文分词模块,对获得的线上课堂讨论短文本内容进行中文切词,得到线上课堂讨论短文本所有词集,然后做停用词处理。
关键词统计模块,对线上课堂讨论短文本依次获得每个编号对应文本的关键词存储于keyTable中。统计keyTable中各关键词出现频数合并统计存储。
聚类模块,挖掘线上课堂讨论短文本词集的频繁项集,过滤准频繁项集,结合keyTable计算准频繁项集相似度,粗归簇,依据频繁项集和文本间逆向关系确定簇心数据点。计算各数据点到初始聚类中心点的余弦距离,归于距离最近的簇,迭代直至最优。
即时分组模块,将按聚类结果分成的组按支持度降序依次排列。得到线上课堂讨论短文本即时分组内容推送。
与现有技术相比,本发明的优点和有益效果在于:
(1)本发明的线上课堂讨论短文本即时分组的方法及系统从当前主流云课堂线上课堂讨论需求出发,偏向于已有教育资源中的定向问题讨论。定义了基础关键词,有效区分了具有相同基础关键词大前提下细化讨论部分内容。采用结合关键词表和准频繁项集语义距离计算语义相似度,以语义相似度作为粗归簇标准有效克服了传统短文本聚类方法中语义信息贡献值低的问题。
(2)本发明的线上课堂讨论短文本即时分组的方法及系统利用频繁项集挖掘,过滤准频繁项集,利用语义相似度粗归簇确定了初始簇群,有效克服了传统K-means方法因初始中心随机影响聚类准确性的问题。
(3)本发明的线上课堂讨论短文本即时分组的方法及系统通过对线上课堂约1000道小学语文类问题的平均约每道题2000条讨论结果调研分析,明确聚类个数取6个最合适,增强了线上课堂讨论短文本即时分组的有效性。
(4)本发明的线上课堂讨论短文本即时分组的方法及系统使用了类似spark的大数据并行计算平台,有效提高了文本处理、相似度计算以及聚类的速度,为即时性提供了保障。
附图说明
图1是本发明的线上课堂讨论短文本即时分组方法流程图;
图2是本发明的线上课堂讨论短文本即时分组系统模型图;
图3是本发明中聚类过程示意图;
图4是本发明中聚类粗归簇流程图。
具体实施方式
针对在线上课堂讨论短文本中使用传统聚类方法时,文本特征量稀疏同时语义贡献度低导致的短文本聚类准确度低的问题,本发明实施例提供一种线上课堂讨论短文本即时分组方法,基于频繁项集挖掘,过滤准频繁项集,利用语义相似度粗归簇确定了初始簇群,基于调研统计结果自适应确定聚类个数,基于TF-IDF计算簇内文本间距离迭代更新质心,有效提高K-means算法在短文本聚类时的准确率,使聚类结果更接近于实际需求。
如图1所示,本发明实施例提供的一种线上课堂讨论短文本即时分组方法包括:
S101:获取并存储线上课堂讨论短文本数据。具体地,对每条发言,以递增文本编号与文本内容相对应的形式存储在sparkSQL表filesDivide中。
S102:对所有文本数据,进行分词预处理和停用词预处理。具体地,使用中科院NLPIR系统进行中文分词;使用静态停用词表进行停用词过滤。
S103:获取各文本项关键词,统计存储于关键词统计表keyTable。具体地,读取filesDivide,获取表中各文本项关键词,新建一列,存储在相应文本编号后面。统计各关键词逆文档频数存储于表keyTable中。
如图3所示,本发明实施例提供一种聚类过程示意图;
S104:对预处理过后的文本集,进行频繁项集挖掘,过滤各子项的准频繁项集,结合关键词统计表定义准频繁项集相似度计算规则,粗归簇;
a)具体地,使用fp-growth算法挖掘文本集频繁项集。两次扫描数据库,将原始数据中的事务压缩到相同前缀路径共用的树中,构建fp-tree;递归挖掘fp-tree获取频繁项集。
b)具体地,对高度冗余的频繁项集,遍历滤除各频繁子项最大频繁项集的所有子集,得到包含各频繁子项最大频繁项集但不具有包含关系的集合作为准频繁项集。
c)具体地,以逆文档频数Ni来度量对关键词统计表中各关键词Ki(i=1.2........n,i表征关键词编号,n为文本数量)对语义相似度的贡献值。结合线上课堂讨论中针对围绕有指向性问题进行作答类题目的局限性,标记逆文档频数Ni>n/2的该关键词为基础词;否则标记为一般关键词。对准频繁项集间任意两集合t1和t2,以如下方式计算项间相似度:
若t1和t2含k个相同的基础词:
Figure BDA0001477223950000061
其中,wi,wj不是相同的基础词(此处i表征基础词编号),δ取1.5,用于区分相同基础关键词大前提下不同表述内容。否则:
Figure BDA0001477223950000062
其中,Δ以较小常数0.1定义任一非空值可空值相似度,l和s分别为较长和较短的两个项的长度。
如图4所示,本发明实施例提供聚类粗归簇流程图;
d)具体地,根据语义相似度归簇步骤如下:
d1)选取当下最长准频繁项作为第i个质心Ci(i表征质心编号);
d2)遍历准频繁项集依次与各质心比较;
d3)判断是否有交集,若有则返回d2),否则选取为下一个质心;
d4)判断是否有6个质心,若有则计算各准频繁项和各质心相似度,归入相似度最大的
簇直至处理完全,否则返回d1)
S105:将各组最靠近簇心的点逆映射到文本集,计算各簇内文本词集TF-IDF值,根据TF-IDF提取文本的特征,获取文本特征向量;
e)具体地,将各簇中准频繁项集逆映射到文本集。对于各簇选取簇中最长的准频繁项集,在包含该准频繁项集的文本中随机选取一个作为该簇质心。
f)具体地,计算各簇内文本中词集TF-IDF值,选取大于TF-IDF阈值的词做该文本中的特征词。本实施例中选择TF-IDF阈值为0.2。
S106:计算各特征点到各簇簇心距离,划分到距离最近的簇,迭代更新质心至最优。
g)具体地,根据数据点间余弦距离度量数据点间距离:
Figure BDA0001477223950000063
计算各簇内数据点间的余弦距离,划分到距离最近的簇。根据数据点距离均值迭代更新质心,至簇不再发生改变。
S107:获取所述文本词汇特征向量的K个簇,即时分组推送各簇内容。具体地,组间按组内容支持度降序排列;每组将最靠近该簇中心的文本放在第一位置,其他簇内文本随机排列。
如图2所示,本发明实施例提供的一种线上课堂讨论短文本即时分组系统,通过计算机硬件及及spark平台上的编程软件实现,包括:
线上课堂讨论短文本获取模块201,用于获取课堂讨论短文本,文本数据包括在规定时间内提交的所有讨论内容。对每条发言,以递增文本编号与文本内容相对应的形式存储。
中文分词模块202,用于对获取的线上课堂讨论短文本内容进行中文切词和停用词处理。得到有效短文本词集。
关键词统计模块203,对线上课堂讨论短文本,依次获得每个编号对应文本的关键词;统计各关键词逆文档频数存储于keyTable中。
聚类模块204,挖掘线上课堂讨论短文本词集的频繁项集,过滤准频繁项集,结合keyTable计算准频繁项集相似度,粗归簇,依据频繁项集和文本间逆向关系确定簇心数据点点。计算各数据点到初始聚类中心点的余弦距离,归于距离最近的簇,迭代直至最优。
即时分组模块205,将按聚类结果分成的组按支持度降序依次排列。得到线上课堂讨论短文本即时分组内容推送。
在本申请方法中涉及到的各阈值的设置均根据实验效果和经验选取。在具体实施情况中,根据文本数量、内容及文本预处理情况应对阈值做相应调节,使效果最优。
提供以上实例仅仅为描述发明目的,而非限制本发明适用范围。凡在本发明原则范围内,所做的数量修改、等同替换等,均应包含在本发明权利要求范围之内。

Claims (9)

1.一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,包括如下步骤的组合:
S101、获取并存储线上课堂讨论短文本数据;
S102、对文本数据,进行文本分词预处理和停用词预处理;
S103、获取各文本项关键词,存储于关键词表统计表keyTable;
S104、对预处理过后的文本集,进行频繁项集挖掘,过滤各子项的准频繁项集,结合关键词统计表定义准频繁项集相似度计算规则,粗归簇;
所述S104中结合关键词统计表定义准频繁项集相似度计算规则用于粗归簇,具体包括:
关键词统计表中各关键词Ki对语义相似度的贡献值以逆文档频数Ni来度量,i表征关键词编号,取1~n,n为文本数量;通过包含各关键词的文本个数统计,表征该关键词类别区分能力;若Ni>n/2,将该关键词Ki标记为基础词;否则标记为一般关键词;
在线上课堂讨论短文本中,对于同一个题目,讨论内容基于一些基础词发表不同观点;基础词和关键词运用在准频繁项集相似度计算中主要用于区分相同大前提下的小区别;词集中每个词对应几个概念,每个概念由几个义原来描述;对于两个概念s1i和s2i,此处下标i表征各概念中义原编号,Sim(S1i,S2i)表示s1i和s2i两个概念之间的语义距离:
Figure FDA0003114816310000011
其中,dmin为s1i、s2i两概念第一义原在中文知识库层次体系中的最小距离;α取1.6;定义词语间语义相似度计算公式如下:
Figure FDA0003114816310000012
准频繁项集间任意两集合t1和t2,若t1和t2含k个相同的基础词:
Figure FDA0003114816310000013
其中,wi,wj不是相同的基础词,δ取1.5,用于区分相同基础关键词大前提下不同表述内容,否则:
Figure FDA0003114816310000021
其中,Δ以较小常数0.1定义任一非空值可空值相似度,l和s分别为较长和较短的两个项的长度;
S105、将各组最靠近簇心的点逆映射到文本集,计算各簇内文本词集TF-IDF值,根据TF-IDF提取文本的特征,获取文本特征向量;
S106、计算各特征点到各簇簇心距离,划分到距离最近的簇,迭代更新质心至最优;
S107、获取文本词汇特征向量的K个簇,即时分组推送各簇内容,按支持度降序排列。
2.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,步骤S102及S103中文本分词预处理及关键词挖掘使用汉语词法分词系统ICTCLAS、基于HTTP协议的开源中文分词系统HTTPCWS或简易中文分词系统SCWS;S102中停用词预处理判定条件为:剔除特殊符号、中英文单字、常见噪声字词;停用词处理使用静态停用词表或基于统计学习的停用词表。
3.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,所述S103获取各文本项关键词存储于关键词表统计表keyTable,关键词统计表keytable记录所有关键词逆文档频数统计。
4.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,所述S104中频繁项集挖掘采用fp-growth算法,对得到的频繁项集过滤各子项的准频繁项集,具体包括:
扫描预处理过后的文本集获取各项集并计算其频繁度,过滤低于阈值的项,将过滤后的频繁项集写入表中按降序排列;二次扫描数据,将原始数据中的文本词项压缩到相同前缀路径共用的树中,构建fp-tree;对表中各项依次从fp-tree中获取条件模式基,累加条件模式基上该项的频繁度,过滤低于阈值的项,构建条件fp-tree;递归挖掘每个条件fp-tree,累加后缀频繁项集,直到找到fp-tree为空或fp-tree只有一条路径;
分析挖掘得到的所有频繁项集,是包含各频繁子项的所有集合的集,遍历虑除各频繁子项最大频繁项集的所有子集,得到包含各频繁子项最大频繁项集但不具有包含关系的集合作为准频繁项集。
5.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,所述S104中粗归簇为根据语义相似度粗归簇,步骤如下:
1)选取当下簇中最长的准频繁项作为第i个质心Ci,i表征质心编号;
2)遍历准频繁项集依次与各质心比较;
3)判断是否有交集,若有则返回2),否则选取为下一个质心;
4)判断是否有6个质心,若有则计算各准频繁项和各质心相似度,归入相似度最大的簇直至处理完全,否则返回1)。
6.根据权利要求5所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,所述处理完全时簇个数等于6个。
7.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,所述S105中将各组最靠近簇心的点逆映射到文本集,逆映射过程基于SQL记录;所述S105中根据TF-IDF提取文本的特征,获取文本特征向量包括:计算各文本向量中特征词文件词频TF和逆文档频率IDF,设定TF-IDF阈值条件,选取满足条件的特征词做特征词;所述S106中计算各特征点到各簇簇心的距离,距离采用余弦距离;质心迭代更新基于簇内数据点距离均值。
8.根据权利要求1所述的一种基于文本聚类的线上课堂讨论短文本即时分组方法,其特征在于,所述S107中,按支持度将序排列,支持度以该簇内文本数量表征。
9.用于权利要求1~8任一项所述方法的一种基于文本聚类的线上课堂讨论短文本即时分组系统,其特征在于,通过计算机硬件及类似spark的高效大数据并行计算平台上的编程软件实现,包括如下模块:
线上课堂讨论短文本获取模块,以递增文本编号文本内容相对应的形式存储;
中文分词模块,对获得的线上课堂讨论短文本内容进行中文切词,得到线上课堂讨论短文本所有词集,然后做停用词处理;
关键词统计模块,对线上课堂讨论短文本依次获得每个编号对应文本的关键词存储于keyTable中,统计keyTable中各关键词出现频数合并统计存储;
聚类模块,挖掘线上课堂讨论短文本词集的频繁项集,过滤准频繁项集,结合keyTable计算准频繁项集相似度,粗归簇,依据频繁项集和文本间逆向关系确定簇心数据点;计算各数据点到初始聚类中心点的余弦距离,归于距离最近的簇,迭代直至最优;
即时分组模块,将按聚类结果分成的组按支持度降序依次排列;得到线上课堂讨论短文本即时分组内容推送。
CN201711170964.0A 2017-11-22 2017-11-22 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 Active CN107862070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711170964.0A CN107862070B (zh) 2017-11-22 2017-11-22 基于文本聚类的线上课堂讨论短文本即时分组方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711170964.0A CN107862070B (zh) 2017-11-22 2017-11-22 基于文本聚类的线上课堂讨论短文本即时分组方法及系统

Publications (2)

Publication Number Publication Date
CN107862070A CN107862070A (zh) 2018-03-30
CN107862070B true CN107862070B (zh) 2021-08-10

Family

ID=61703435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711170964.0A Active CN107862070B (zh) 2017-11-22 2017-11-22 基于文本聚类的线上课堂讨论短文本即时分组方法及系统

Country Status (1)

Country Link
CN (1) CN107862070B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874974A (zh) * 2018-06-08 2018-11-23 成都云数未来信息科学有限公司 基于频繁词集的并行化话题跟踪方法
CN111401388B (zh) * 2018-12-13 2023-06-30 北京嘀嘀无限科技发展有限公司 数据挖掘方法、装置、服务器及可读存储介质
CN110084563A (zh) * 2019-04-18 2019-08-02 常熟市中拓互联电子商务有限公司 基于深度学习的oa协同办公方法、装置及服务器
CN110297901B (zh) * 2019-05-14 2023-11-17 广州数说故事信息科技有限公司 基于距离参数的大规模文本聚类方法
CN110941961B (zh) * 2019-11-29 2023-08-25 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN110990434B (zh) * 2019-11-29 2023-04-18 国网四川省电力公司信息通信公司 Spark平台分组和Fp-Growth关联规则挖掘方法
CN112131463A (zh) * 2020-09-10 2020-12-25 杭州中软安人网络通信股份有限公司 一种热点提取方法、存储介质及服务器
CN112349423A (zh) * 2020-11-04 2021-02-09 吾征智能技术(北京)有限公司 一种基于BiMPM方法的口干信息匹配系统
CN112732867B (zh) * 2020-12-29 2024-03-15 广州视源电子科技股份有限公司 文件的处理方法及装置
CN112885359B (zh) * 2021-01-29 2022-07-05 焦作大学 一种语音识别系统
CN114356911B (zh) * 2022-03-18 2022-05-20 四川省医学科学院·四川省人民医院 基于集合划分信息量最大化的数据缺失处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5545876B2 (ja) * 2011-01-17 2014-07-09 日本電信電話株式会社 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN105095477A (zh) * 2015-08-12 2015-11-25 华南理工大学 一种基于多指标评分的推荐算法
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
CN103095718B (zh) * 2013-01-29 2015-07-15 电子科技大学 一种基于Hadoop的应用层协议特征提取方法
CN103729478B (zh) * 2014-01-26 2016-11-09 重庆邮电大学 基于MapReduce的LBS兴趣点发现方法
CN104573070B (zh) * 2015-01-26 2018-06-15 清华大学 一种针对混合长度文本集的文本聚类方法
CN104820587B (zh) * 2015-04-13 2018-03-02 南京大学 细粒度的基于频繁项集挖掘产生api替换规则的方法
CN104866572B (zh) * 2015-05-22 2018-05-18 齐鲁工业大学 一种网络短文本聚类方法
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN106991171A (zh) * 2017-03-25 2017-07-28 贺州学院 基于智慧校园信息服务平台的话题发现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5545876B2 (ja) * 2011-01-17 2014-07-09 日本電信電話株式会社 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム
CN105095477A (zh) * 2015-08-12 2015-11-25 华南理工大学 一种基于多指标评分的推荐算法
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tracking by cluster analysis of feature points using a mixture particle filter;Wei Du;《IEEE Conference on Advanced Video and Signal Based Surveillance,2005》;20050123;第165-170页 *
不完全语义认知过程中信息特征正确识别仿真;秦恺;《计算机仿真》;20170228;第34卷(第2期);第242-245 *

Also Published As

Publication number Publication date
CN107862070A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
Günther et al. Word counts and topic models: Automated text analysis methods for digital journalism research
US8073877B2 (en) Scalable semi-structured named entity detection
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US20210056571A1 (en) Determining of summary of user-generated content and recommendation of user-generated content
Vosoughi et al. Enhanced twitter sentiment classification using contextual information
US20130060769A1 (en) System and method for identifying social media interactions
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN104199965A (zh) 一种语义信息检索方法
CN107688616B (zh) 使实体的独特事实显现
CN109508458B (zh) 法律实体的识别方法及装置
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN104679738A (zh) 互联网热词挖掘方法及装置
CN102428467A (zh) 用于分类的基于相似度的特征集补充
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
Tayal et al. Fast retrieval approach of sentimental analysis with implementation of bloom filter on Hadoop
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
El-Shishtawy A hybrid algorithm for matching arabic names
CN111782970B (zh) 一种数据分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant