CN109299280A - 短文本聚类分析方法、装置和终端设备 - Google Patents

短文本聚类分析方法、装置和终端设备 Download PDF

Info

Publication number
CN109299280A
CN109299280A CN201811517917.3A CN201811517917A CN109299280A CN 109299280 A CN109299280 A CN 109299280A CN 201811517917 A CN201811517917 A CN 201811517917A CN 109299280 A CN109299280 A CN 109299280A
Authority
CN
China
Prior art keywords
theme
word
word set
feature
short text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811517917.3A
Other languages
English (en)
Other versions
CN109299280B (zh
Inventor
吴迪
杨瑞欣
生龙
马建飞
黄竹韵
张梦甜
孙雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Engineering
Original Assignee
Hebei University of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Engineering filed Critical Hebei University of Engineering
Priority to CN201811517917.3A priority Critical patent/CN109299280B/zh
Publication of CN109299280A publication Critical patent/CN109299280A/zh
Application granted granted Critical
Publication of CN109299280B publication Critical patent/CN109299280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于文本分析技术领域,提供了一种短文本聚类分析方法、装置和终端设备。该方法包括:获取待聚类的短文本数据集,并对短文本数据集进行预处理得到包括至少三种词性的初始词集;对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;根据主题特征词集和主题关联词集的相关性确定预设个数的主题特征词和主题关联词,主题特征词与主题关联词一一对应组成知识对;将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。本发明优化了文本分析算法,能够更准确地进行短文本的情感主题聚类,提高短文本聚类的效率。

Description

短文本聚类分析方法、装置和终端设备
技术领域
本发明属于文本分析技术领域,尤其涉及一种短文本聚类分析方法、装置和终端设备。
背景技术
随着网络的普及,以互联网为平台的微博、论坛、博客等聊天软件产生了海量带有主观情感色彩的短文本,这些短文本携带着大量的用户信息和数据信息。由于短文本具有语义稀疏和高维性等特点,亟需有效的短文本聚类算法对这些信息进行聚类分析,来提升针对短文本的聚类、情感分析、语义分析等在网络舆情领域的应用效果。
近年来,国内外专家学者对短文本聚类算法展开了深入研究,并提出了诸多短文本聚类算法,以实现短文本的聚类及其在网络舆情领域的应用。目前,主题模型(TopicModel)成为短文本挖掘领域的热点,它能够发现文档-词语之间所蕴含的潜在语义关系(即主题),有效提高处理网络舆情中短文本语义信息的性能,其中运用较多的主题聚类模型为LDA(Lantent Dirichlet Allocation,文档主题生成模型)。
然而,传统主题聚类方法对短文本的情感极性分析和主题知识对特征提取方面的能力欠佳,短文本的情感主题聚类准确率不高。
发明内容
有鉴于此,本发明实施例提供了一种短文本聚类分析方法、装置和终端设备,以解决现有技术中传统主题聚类方法进行短文本的情感主题聚类时,准确率不高的问题。
本发明实施例的第一方面提供了一种短文本聚类分析方法,包括:
获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集;
对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;
根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对;
将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
可选的,所述对所述短文本数据集进行预处理得到包括至少三种词性的初始词集,包括:
将所述短文本数据集进行分词处理得到文本词集;
对所述文本词集进行过滤处理得到包括至少三种词性的主词集;
对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
可选的,所述对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集,包括:
根据TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率指数)算法对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集。
可选的,所述特征词集包括与所述词性对应的至少三个特征词子集;
所述根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,包括:
计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集;
计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。
可选的,所述将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题,包括:
对所述预设个数的知识对进行吉布斯抽样得到知识对集;
将所述知识对集输入到LDA中进行聚类得到多个主题;
运用K-means聚类算法对所述多个主题进行二次聚类得到所述待聚类的短文本数据集的情感主题。
本发明实施例的第二方面提供了一种短文本聚类分析装置,包括:
预处理模块,用于获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集;
特征提取模块,用于对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;
知识对确定模块,用于根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对;
主题聚类模块,用于将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
可选的,所述预处理模块具体用于:
将所述短文本数据集进行分词处理得到文本词集;
对所述文本词集进行过滤处理得到包括至少三种词性的主词集;
对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
可选的,所述特征词集包括与所述词性对应的至少三个特征词子集;
所述知识对确定模块具体用于:
计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集;
计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例的第一方面提供的任一项所述短文本聚类分析方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时实现如上述实施例的第一方面提供的任一项所述短文本聚类分析方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:首先对待聚类的短文本数据集进行预处理得到包括至少三种词性的初始词集,得到影响短文本主题的主要词性的初始词集,然后对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集,根据主题特征词集和主题关联词集的相关性确定预设个数的知识对,最后将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题,不仅考虑到词的出现频率,还结合与主题关联的词的分析,提高了短文本的情感主题聚类的准确性,进一步提高了短文本聚类的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的短文本聚类分析方法的实现流程示意图;
图2是图1步骤S101的具体实现流程示意图;
图3是图1步骤S103的具体实现流程示意图;
图4是图1步骤S104的具体实现流程示意图;
图5是本发明实施例提供的短文本聚类分析装置的结构示意图;
图6是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
参见图1,提供了短文本聚类分析方法的一个实施例实现流程示意图,详述如下:
步骤S101,获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集。
短文本有多个词性的词组合而成,表述情感信息,将短文本进行分析时,则需要将短文本数据集拆分成包括多个词性的词集,并去除对情感信息影响较小的出现频率较低的词等。具体的,本实施例可以通过分词算法将短文本分成若干个词,以及可以通过词过滤法删除词干、停止词和文档频率很低的单词等,本步骤的目的是对数据集的降维去噪,得到包括至少三种词性的初始词集,例如词性可以为形容词、名词和动词等,进而可以提高主题聚类的准确性,提高聚类速度。
一个实施例中,参见图2,步骤S101中所述的获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集的具体实现流程包括:
步骤S201,将所述短文本数据集进行分词处理得到文本词集。
步骤S202,对所述文本词集进行过滤处理得到包括至少三种词性的主词集。
步骤S203,对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
具体的,由于短文本中不同词性的词语与情感的关联程度各不相同,最能体现情感的三类词性是形容词、动词和副词,它们都用来修饰名词,以便最后对人物、事件、热点等进行舆情分析。因此,为达到提取情感词汇的目的,本实施例中的初始词集可以包括形容词词袋、副词词袋、动词词袋和动名词组合词袋,即本实施例在聚类主题之前,对短文本预处理后的初始词集进行了词性标注。
所述初始词集可以根据
得到。其中,ST为所述文本词集,F(ST)为所述初始词集;adj代表形容词,adv代表副词,v代表动词,noun代表名词,else代表其他词性,即所述文本词集ST中除形容词、副词、动词和名词之外的词语;i,k,j,h,n分别代表所述文本词集ST中形容词的数量、副词的数量、动词的数量、动名词组合的数量以及其他词性的数量;分别代表形容词词袋、副词词袋、动词词袋、动名词组合词袋和其他词性词袋; 分别代表形容词词袋、副词词袋和动词词袋的约束条件;∪为字符串的拼接。
形容词词袋或副词词袋的约束主要取决于词袋中有无反义词、否定词和转折词,为极性约束条件。具体的,形容词词袋或副词词袋的极性约束条件可表示为:
其中,c(x)代表对形容词词袋或副词词袋的词表的极性约束条件,p=0代表该词所在的短文本中没有反义词、否定词或转折词,p=1代表该词所在的短文本中有反义词、否定词或转折词,“-”代表取与极性相反的词。
由于动词里干扰词语较多,所以本实施例中动词词袋为包含副词或形容词的动词词组的词袋,动词词袋的约束条件主要取决于词库中有无已扩充的形容词或副词。动词词袋的约束条件可表示为:
式中,cv(x)代表动词词袋的约束条件,Rootadj或adv为动词词组中的形容词词根或副词词根,s(v)为带有形容词或副词的动词词组。
动名词组合词袋用来表示动词与名词的共现对(v,noum)组成的词袋,动名词组合词袋依赖于原短文本数据集而文本词集,即在去除停用词之后,将相邻的动词与名词作为目标进行抽取,提高舆情分析质量。
步骤S102,对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集。
其中,所述主题特征词集可以包括至少三个词性的主题特征子词集,所述主题关联词集可以包括至少三个词性的主题关联子词集。主题特征词是某个主题的中心词,是最能代表该主题的词,不同主题具有不同的主题特征词,是区分主题的主要指标;主题关联词是和主题特征词最密切相关的词,代表主题的其他属性,但对主题不具有区分性。
一个实施例中,根据TF-IDF算法对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集。
TF-IDF算法由两部分组成,为TF和IDF。TF为词频,统计了一个文本中各个词的出现频率;IDF为逆文本频率指数,统计了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值较低,比如文中经常出现的“的”,相反的,如果一个词在比较少的文本中出现,那么它的IDF值应该较高,即IDF可以反映一个词的重要性的,进而修正仅仅用词频表示的词特征值。
具体的,词频TF可以通过
得到。其中,l(w)代表词语w出现的次数,l代表所有词语的数目,即初始词集。
逆文本频率指数IDF可以通过
得到。其中,L代表短文本数据集中短文本总数,而L(w)代表短文本数据集中包含词语w的文本总数。由此,TF-IDF算法根据词语的词频TF和逆文本频率指数IDF确定特征词集。
具体的,TF-IDF算法可以计算词频TF和逆文本频率指数IDF之间的相似度,根据相似度大小确定特征词集,例如将30个相似度较大的词语确定为特征词集。可选的,计算相似度的算法可以通过余弦距离法进行计算。
步骤S103,根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对。
一个实施例中,所述特征词集包括与所述词性对应的至少三个特征词子集。
参见图3,步骤S103中所述的根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对的具体实现流程包括:
步骤S301,计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集。
步骤S302,计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。
针对LDA的可控性和可解释性较差的问题,本发明提出主题特征词和主题关联词的概念,将主题特征词和主题关联词组成的知识对输入到LDA中,以便更准确、更精准的进行主题聚类。本实施例通过计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度对特征词集进行归类,归类为主题特征词集和主题关联词集。
具体的,所述特征词集包括与所述词性对应的至少三个特征词子集,例如包括形容词特征词子集、副词特征词子集、动词特征词子集和名词特征词子集。然后计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的相对共现度,例如计算名词特征词子集中每个名词与形容词特征词子集、副词特征词子集或动词特征词子集中的词语的相对共现度,然后再根据相对共现度计算词共现度。
示例性的,名词特征词子集中一个名词wt相对于动词特征词子集中一个动词wu的相对共现度R(wt,wu)可以通过
得到。其中,f(wt,wu)表示名词词语wt和动词词语wu在所述特征词集中作为动名词组(动词和名词的共现对)出现的次数,f(wu)和f(wt)分别表示动词词语wu和名词词语wt在特征词集中出现的次数,很显然R(wt|wu)一般不等于R(wu|wt)。
然后,名词词语wt与动词词语wu的词共现度d(wt,wu)可以通过
得到,可知d(wt,wu)=d(wu,wt)。基于此,所述特征词集中每个特征词均计算得到对应的词共现度,将词共现度超过预设词共现度的词语确定为主题特征词集,将没超过预设词共现度的词语确定为主题关联词集。主题特征词集和主题关联词集均可以包括名词特征词、形容词特征词和副词特征词等。
为了进一步确定与每个主题最相关的中心词,本实施例通过计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。当一个词的权重越大时,说明这个词更具有代表性,与主题更加相关。
可选的,主题特征词集中一个词语w的权重可以通过
得到;其中,w'是主题关联词集中的词语,d(w,w')为上述词共现度的计算公式,即主题特征词集中一个词语w的权重可以看做该词语w与主题关联词集中每个词语w'的共现度的总和,其中w≠w'。
同时,主题特征词集中一个词语w的权重可以通过
得到;其中,w是主题特征词集中一个词语,d(w,w')为上述词共现度的计算公式。
根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的知识对,是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,为后续基于词性的知识对进行主题聚类做好基础准备工作,提高聚类速度,也可以提高主题聚类的准确度和精确度。
步骤S104,将所述预设个数的知识对输入到文档主题生成模型LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
一个实施例中,参见图4,步骤S104中所述的将所述预设个数的知识对输入到文档主题生成模型LDA中进行聚类并确定该待聚类的短文本数据集的情感主题的具体实现流程包括:
步骤S401,对所述预设个数的知识对进行吉布斯抽样得到知识对集。
步骤S402,将所述知识对集输入到LDA中进行聚类得到多个主题。
步骤S403,运用K-means聚类算法对所述多个主题进行二次聚类得到所述待聚类的短文本数据集的情感主题。
具体的,先通过吉布斯抽样(Gibbs)采样生成知识对集Tj,将知识对集Tj输入到LDA中进行聚类,提取知识对集Tj的隐含主题,将其聚类成n个主题,然后运用K-means聚类算法对所述多个主题进行二次聚类得到所述待聚类的短文本数据集的情感主题,即本实施例针对微博等网络中出现的大量短文本,不仅考虑到词的出现频率,还结合与主题关联的词的分析,以及主题词和关联词作为知识对进行主题分析,提高了情感主题聚类的准确性,进一步提高了短文本聚类的效率。
可选的,在运用K-means聚类算法对所述多个主题进行二次聚类得到所述待聚类的短文本数据集的情感主题之后,还可以包括:对聚类的主题进行正确率F1计算,验证本实施例的短文本聚类分析方法的有效性。
具体的,正确率F1的值又取决于精确率Pr和召回率Re。示例性的,精确率Pr可以通过:
得到;其中nj表示聚类出的主题的总数,nij表示正确识别的主题总数。另外,召回率Re可以通过:
得到;ni表示测试集中存在的主题总数;nij表示正确识别的主题总数。进一步的,正确率F1可以通过
得到。通过对聚类的主题进行正确率的验证进一步说明本发明的短文本聚类分析方法的有效性,进一步保证了情感聚类的准确性和有效性。
上述短文本聚类分析方法,首先对待聚类的短文本数据集进行预处理得到包括至少三种词性的初始词集,得到影响短文本主题的主要词性的初始词集,然后对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集,根据主题特征词集和主题关联词集的相关性确定预设个数的知识对,最后将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题,不仅考虑到词的出现频率,还结合与主题关联的词的分析,提高了短文本集的情感主题聚类的准确性,进一步提高了短文本聚类的效率。
本领域技术人员可以理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二
对应于上述实施例一所述的短文本聚类分析方法,图5中示出了本发明实施例二中短文本聚类分析装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
该装置包括:预处理模块110、特征提取模块120、知识对确定模块130和主题聚类模块140。
预处理模块110用于获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集。
特征提取模块120用于对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集。
知识对确定模块130用于根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对。
主题聚类模块140用于将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
可选的,预处理模块110具体用于:将所述短文本数据集进行分词处理得到文本词集;对所述文本词集进行过滤处理得到包括至少三种词性的主词集;对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
可选的,所述特征词集包括与所述词性对应的至少三个特征词子集。知识对确定模块130具体用于:
计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集。
计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。
上述短文本聚类分析装置,首先预处理模块110对待聚类的短文本数据集进行预处理得到包括至少三种词性的初始词集,得到影响短文本主题的主要词性的初始词集,然后特征提取模块120对初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集,知识对确定模块130根据主题特征词集和主题关联词集的相关性确定预设个数的知识对,最后主题聚类模块140将预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题,不仅考虑到词的出现频率,还结合与主题关联的词的分析,提高了短文本的情感主题聚类的准确性,进一步提高了短文本聚类的效率。
实施例三
图6是本发明实施例三提供的终端设备100的示意图。如图6所示,该实施例所述的终端设备100包括:处理器150、存储器160以及存储在所述存储器160中并可在所述处理器150上运行的计算机程序161,例如短文本聚类分析方法的程序。所述处理器150在执行所述计算机程序161时实现上述各个短文本聚类分析方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器150执行所述计算机程序161时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块110至140的功能。
示例性的,所述计算机程序161可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器160中,并由所述处理器150执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序161在所述终端设备100中的执行过程。例如,所述计算机程序161可以被分割成预处理模块、特征提取模块、知识对确定模块和主题聚类模块,各模块具体功能如下:
预处理模块用于获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集。
特征提取模块用于对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集。
知识对确定模块用于根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对。
主题聚类模块用于将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
可选的,预处理模块具体用于:将所述短文本数据集进行分词处理得到文本词集;对所述文本词集进行过滤处理得到包括至少三种词性的主词集;对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
可选的,所述特征词集包括与所述词性对应的至少三个特征词子集。知识对确定模块具体用于:
计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集。
计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。
所述终端设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备100可包括,但不仅限于处理器150、存储器160。本领域技术人员可以理解,图6仅仅是终端设备100的示例,并不构成对终端设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备100还可以包括输入输出设备、网络接入设备、总线等。
所称处理器150可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器160可以是终端设备100的内部存储单元,例如终端设备100的硬盘或内存。所述存储器160也可以是终端设备100的外部存储设备,例如终端设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器160还可以既包括终端设备100的内部存储单元也包括外部存储设备。所述存储器160用于存储所述计算机程序以及终端设备100所需的其他程序和数据。所述存储器160还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包括的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包括在本发明的保护范围之内。

Claims (10)

1.一种短文本聚类分析方法,其特征在于,包括:
获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集;
对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;
根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对;
将所述预设个数的知识对输入到文档主题生成模型LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
2.如权利要求1所述的短文本聚类分析方法,其特征在于,所述对所述短文本数据集进行预处理得到包括至少三种词性的初始词集,包括:
将所述短文本数据集进行分词处理得到文本词集;
对所述文本词集进行过滤处理得到包括至少三种词性的主词集;
对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
3.如权利要求1所述的短文本聚类分析方法,其特征在于,所述对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集,包括:
根据词频-逆文本频率指数TF-IDF算法对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集。
4.如权利要求1所述的短文本聚类分析方法,其特征在于,所述特征词集包括与所述词性对应的至少三个特征词子集;
所述根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,包括:
计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集;
计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。
5.如权利要求1至4任一项所述的短文本聚类分析方法,其特征在于,所述将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题,包括:
对所述预设个数的知识对进行吉布斯抽样得到知识对集;
将所述知识对集输入到LDA中进行聚类得到多个主题;
运用K-means聚类算法对所述多个主题进行二次聚类得到所述待聚类的短文本数据集的情感主题。
6.一种短文本聚类分析装置,其特征在于,包括:
预处理模块,用于获取待聚类的短文本数据集,并对所述短文本数据集进行预处理得到包括至少三种词性的初始词集;
特征提取模块,用于对所述初始词集进行特征提取得到包括主题特征词集和主题关联词集的特征词集;
知识对确定模块,用于根据所述主题特征词集和所述主题关联词集的相关性确定预设个数的主题特征词和主题关联词,所述主题特征词与所述主题关联词一一对应组成知识对;
主题聚类模块,用于将所述预设个数的知识对输入到LDA中进行聚类并确定该待聚类的短文本数据集的情感主题。
7.如权利要求6所述的短文本聚类分析装置,其特征在于,所述预处理模块具体用于:
将所述短文本数据集进行分词处理得到文本词集;
对所述文本词集进行过滤处理得到包括至少三种词性的主词集;
对所述主词集进行词性约束处理得到包括至少三种词性的初始词集。
8.如权利要求6或7所述的短文本聚类分析装置,其特征在于,所述特征词集包括与所述词性对应的至少三个特征词子集;
所述知识对确定模块具体用于:
计算所述特征词子集中的每个词与其他特征词子集中的每个词之间的词共现度,并根据所述词共现度确定所述主题特征词集和所述主题关联词集;
计算所述主题特征词集中每个词的权重和所述主题关联词集中每个词的权重,并根据每个词的权重确定预设个数的主题特征词和主题关联词。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述短文本聚类分析方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述短文本聚类分析方法的步骤。
CN201811517917.3A 2018-12-12 2018-12-12 短文本聚类分析方法、装置和终端设备 Active CN109299280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811517917.3A CN109299280B (zh) 2018-12-12 2018-12-12 短文本聚类分析方法、装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811517917.3A CN109299280B (zh) 2018-12-12 2018-12-12 短文本聚类分析方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN109299280A true CN109299280A (zh) 2019-02-01
CN109299280B CN109299280B (zh) 2020-09-29

Family

ID=65141678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811517917.3A Active CN109299280B (zh) 2018-12-12 2018-12-12 短文本聚类分析方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN109299280B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN111078852A (zh) * 2019-12-09 2020-04-28 武汉大学 基于机器学习的高校前沿科研团队探测系统
CN111339247A (zh) * 2020-02-11 2020-06-26 安徽理工大学 一种微博子话题用户评论情感倾向性分析方法
CN111914536A (zh) * 2020-08-06 2020-11-10 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN112069318A (zh) * 2020-09-07 2020-12-11 北京崔玉涛儿童健康管理中心有限公司 基于lda的母婴问题聚类分析方法、装置、计算机存储介质
CN112560469A (zh) * 2020-12-29 2021-03-26 珠海横琴博易数据技术有限公司 一种自动化中文文本主题探索的方法及系统
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN113450437A (zh) * 2021-07-09 2021-09-28 张书洁 一种思想政治教育宣传系统、数据处理终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850617A (zh) * 2015-05-15 2015-08-19 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105354216A (zh) * 2015-09-28 2016-02-24 哈尔滨工业大学 一种中文微博话题信息处理方法
US20160307114A1 (en) * 2011-10-24 2016-10-20 Hewlett Packard Enterprise Development Lp Performing sentiment analysis
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160307114A1 (en) * 2011-10-24 2016-10-20 Hewlett Packard Enterprise Development Lp Performing sentiment analysis
CN104850617A (zh) * 2015-05-15 2015-08-19 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105354216A (zh) * 2015-09-28 2016-02-24 哈尔滨工业大学 一种中文微博话题信息处理方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
和志强,杨建,王丽鹏: "基于词共现的文本分类算法", 《河北省科学院学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN110941961B (zh) * 2019-11-29 2023-08-25 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN111078852A (zh) * 2019-12-09 2020-04-28 武汉大学 基于机器学习的高校前沿科研团队探测系统
CN111339247B (zh) * 2020-02-11 2022-10-28 安徽理工大学 一种微博子话题用户评论情感倾向性分析方法
CN111339247A (zh) * 2020-02-11 2020-06-26 安徽理工大学 一种微博子话题用户评论情感倾向性分析方法
CN111914536A (zh) * 2020-08-06 2020-11-10 北京嘀嘀无限科技发展有限公司 观点分析方法、装置、设备及存储介质
CN112069318A (zh) * 2020-09-07 2020-12-11 北京崔玉涛儿童健康管理中心有限公司 基于lda的母婴问题聚类分析方法、装置、计算机存储介质
CN112069318B (zh) * 2020-09-07 2024-01-12 北京育学园健康管理中心有限公司 基于lda的母婴问题聚类分析方法、装置、计算机存储介质
CN112560469A (zh) * 2020-12-29 2021-03-26 珠海横琴博易数据技术有限公司 一种自动化中文文本主题探索的方法及系统
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN112860893B (zh) * 2021-02-08 2023-02-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN113450437A (zh) * 2021-07-09 2021-09-28 张书洁 一种思想政治教育宣传系统、数据处理终端及存储介质

Also Published As

Publication number Publication date
CN109299280B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN109299280A (zh) 短文本聚类分析方法、装置和终端设备
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
Karamibekr et al. Sentiment analysis of social issues
Cimiano et al. Learning taxonomic relations from heterogeneous sources of evidence
JP5936698B2 (ja) 単語意味関係抽出装置
CN109471933A (zh) 一种文本摘要的生成方法、存储介质和服务器
Karamibekr et al. Verb oriented sentiment classification
CN109101489B (zh) 一种文本自动摘要方法、装置及一种电子设备
Nikolenko Topic quality metrics based on distributed word representations
CN111126067B (zh) 实体关系抽取方法及装置
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN108062351A (zh) 关于特定主题类别的文本摘要提取方法、可读存储介质
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Hill et al. Concreteness and corpora: A theoretical and practical study
Jiang et al. A constituency parsing tree based method for relation extraction from abstracts of scholarly publications
CN110162597A (zh) 文章数据处理方法、装置、计算机可读介质及电子设备
Kutuzov et al. Cross-Lingual Trends Detection for Named Entities in News Texts with Dynamic Neural Embedding Models.
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN110727842A (zh) 基于辅助性知识的Web服务开发者按需推荐方法及系统
Yan et al. Sentiment Analysis of Short Texts Based on Parallel DenseNet.
Zheng et al. An adaptive LDA optimal topic number selection method in news topic identification
JP2016103156A (ja) テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム
Potash et al. Simihawk at semeval-2016 task 1: A deep ensemble system for semantic textual similarity
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN113742448A (zh) 知识点生成方法、装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant