CN110377695B - 一种舆情主题数据聚类方法、装置及存储介质 - Google Patents
一种舆情主题数据聚类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110377695B CN110377695B CN201910522043.9A CN201910522043A CN110377695B CN 110377695 B CN110377695 B CN 110377695B CN 201910522043 A CN201910522043 A CN 201910522043A CN 110377695 B CN110377695 B CN 110377695B
- Authority
- CN
- China
- Prior art keywords
- clustering
- distance
- existing
- sentence
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种舆情主题数据聚类方法、装置及存储介质,方法包括:对待聚类的文章进行文本处理,得到句子集合,文本处理包括分割;采用word2vec算法计算句子集合到已有聚类的关键词组的距离;根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。本发明通过自适应的距离阈值提供了通用的、可自动学习调整的分类阈值标准,适用性强;结合了已有聚类这一历史聚类成果来进行主题聚类,优化了聚类的结果;采用了word2vec算法这一神经网络学习方法配合关键词组的距离特征,提升了聚类的速度和准确度,可广泛应用于舆情监控领域。
Description
技术领域
本发明涉及舆情监控领域,尤其是一种舆情主题数据聚类方法、装置及存储介质。
背景技术
舆情监控,整合了互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
在舆情监控中,舆情数据聚类是话题发现的重要手段之一,目前的舆情主题数据聚类方法包括以下步骤:对社交网络中的当前数据进行冗余过滤,以获取非冗余数据;对所述非冗余数据进行分析,以在所述非冗余数据中确定相关舆情数据;对所述相关舆情数据进行聚类,以在所述相关舆情数据中确定目标舆情数据。这种方法的问题在于聚类结果没有一个通用的、可自动学习调整的分类阈值标准,同时不可继承历史聚类成果,长期监控过程中舆情文章的巨大增量也对聚类计算带来持续增长的压力。
发明内容
为解决上述技术问题,本发明实施例的目的在于:提供一种舆情主题数据聚类方法、装置及存储介质。
本发明实施例所采取的第一技术方案是:
一种舆情主题数据聚类方法,包括以下步骤:
对待聚类的文章进行文本处理,得到句子集合,所述文本处理包括分割;
采用word2vec算法计算句子集合到已有聚类的关键词组的距离;
根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。
进一步,所述对待聚类的文章进行文本处理,得到句子集合这一步骤,具体包括:
对待聚类的文章进行预处理,所述预处理包括切词、词性标记、去停用词、计算词频和去重;
对预处理后的文章进行杂质过滤;
从杂质过滤后的文章中抽取文章标题和摘要,并将杂质过滤后的文章分割为句子集合。
进一步,所述采用word2vec算法计算句子集合到已有聚类的关键词组的距离这一步骤,具体包括:
提取各个句子的关键词组;
计算各个句子集合之间的相互距离;
提取已有聚类的关键词组;
采用word2vec算法分别计算各个句子的关键词组到各已有聚类的关键词组的距离;
合并计算各个句子集合到已有聚类的关键词组的距离。
进一步,所述采用word2vec算法分别计算各个句子的关键词组到各已有聚类的关键词组的距离这一步骤,具体包括:
提取各个句子的关键词组的特征向量作为第一向量;
提取已有聚类的关键词组的特征向量作为第二向量;
对第一向量与第二向量进行多维距离计算;
将第一向量与第二向量之间的多维距离降维处理为一维距离,从而得到各个句子的关键词组到各已有聚类的关键词组的距离。
进一步,所述根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表这一步骤,具体包括:
将句子集合的相互距离小于等于第一距离阈值的文章主题合并为新分类;
将新分类中与已有聚类的关键词组距离最大的新分类确定为可能分类;
将可能分类与各个已有聚类进行距离对比,从而将与已有聚类的距离小于第二距离阈值的可能分类归入该已有聚类所在的已有聚类主题列表中,并更新该已有聚类的关键词组。
进一步,所述根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表这一步骤,还具体包括:
确定待聚类的文章的各个句子的关键词组与已有聚类的关键词组相同或相似度大于预设相似度阈值时,直接将待聚类的文章主题归入已有聚类所在的已有聚类主题列表中。
本发明实施例所采取的第二技术方案是:
一种舆情主题数据聚类装置,包括:
文本处理模块,用于对待聚类的文章进行文本处理,得到句子集合,所述文本处理包括分割;
距离计算模块,用于采用word2vec算法计算句子集合到已有聚类的关键词组的距离;
主题聚类模块,用于根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。
进一步,所述主题聚类模块具体包括:
新分类合并单元,用于将句子集合的相互距离小于等于第一距离阈值的文章主题合并为新分类;
可能分类确定单元,用于将新分类中与已有聚类的关键词组距离最大的新分类确定为可能分类;
聚类单元,用于将可能分类与各个已有聚类进行距离对比,从而将与已有聚类的距离小于第二距离阈值的可能分类归入该已有聚类所在的已有聚类主题列表中,并更新该已有聚类的关键词组。
本发明实施例所采取的第三技术方案是:
一种舆情主题数据聚类装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明所述的一种舆情主题数据聚类方法。
本发明实施例所采取的第四技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如本发明所述的一种舆情主题数据聚类方法。
上述本发明实施例中的一个或多个技术方案具有如下优点:本发明实施例先通过文本处理将待聚类的文章分割为句子集合,然后采用word2vec算法计算句子集合到已有聚类的关键词组的距离,最后根据计算的距离和自适应的距离阈值进行主题聚类,通过自适应的距离阈值提供了通用的、可自动学习调整的分类阈值标准,适用性强;通过句子集合到已有聚类的关键词组的距离来进行主题聚类,结合了已有聚类这一历史聚类成果来进行主题聚类,优化了聚类的结果;采用word2vec算法计算句子集合到已有聚类的关键词组的距离,采用了word2vec算法这一神经网络学习方法配合关键词组的距离特征,提升了聚类的速度和准确度,减轻了聚类计算的压力。
附图说明
图1为本发明实施例提供的一种舆情主题数据聚类方法流程图;
图2为现有技术的聚类算法流程图;
图3为本发明具体实施例的距离计算方法流程图;
图4为本发明具体实施例句子集合、句子及已有主题聚类关键词的关系示意图;
图5为本发明具体实施例获取聚类结果过程的流程图。
具体实施方式
首先对本发明涉及的名词术语进行解释和说明:
Word2vec:是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
词袋模型(Bag-of-words model):是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在计算机视觉领域。词袋模型被广泛应用在文件分类领域,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在DistributionalStructure的文章。
统计语言模型(Statistical Language Model),是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。统计语言模型直观地解决了一个问题:一个句子是否合理,就看它的可能性大小如何。至于可能性就用概率来衡量。
假定S表示某一个有意义的句子,由一连串特定顺序排列的词W1,W2,…,Wn组成,这里n是句子的长度(句子中词汇的个数)。于是S出现的可能性也就是数学上所说的S的概率P(S)=P(W1,W2,...,Wn)。
利用条件概率公式,以上算式可以展开为:
P(W1,W2,...,Wn)=P(W1)*P(W2|W1)*P(W3|W1,W2)...P(Wn|W1,W2,...,Wn-1)
其中P(W1)表示第一个词W1出现的概率;P(W2|W1)是在已知第一个词的前提下,第二个词出现的概率;以此类推,词Wn出现的概率取决于它前面所有的词。俄国数学家马尔可夫(Andrey Markov)提出假设任意一个词Wi出现的概率只同它前面的词Wi-1有关,S出现的概率就变得简单了:
P(S)=P(W1)*P(W2|W1)*P(W3|W2)...P(Wn|Wn-1)
上述公式就是统计语言模型的二元模型(Bigram Model)。接下来的问题就是如何计算P(Wn|Wn-1),根据概率论,该公式可以变化为:
P(Wn|Wn-1)=P(Wn-1,Wn)/P(Wn-1)
因为在互联网时代有大量的语料库(Corpus)可以作为训练样本,所以只要数一数Wn-1、Wn这对词在语料库中前后相邻出现了多少次,以及Wn-1本身在相同的语料库中出现了多少次,就可得到P(Wn|Wn-1)。
统计语言模型称为N元模型(N-Gram Model)。如果N=2,那么就是上面的二元模型公式。而在实际中应用最多的是N=3的三元模型,更高阶的模型就很少使用了。N取值一般较小,这主要是因为复杂度,当N从1到2,再从2到3时,模型的效果上升显著。而当模型从3到4时,效果的提升就不是很显著了,而资源的耗费却增加得非常快。Google的罗塞塔翻译系统和语音搜索系统,使用的是四元模型,该模型存储于500台以上的Google服务器中。
kip-gram模型:一个简单但却非常实用的模型,用于使用当前词来预测上下文词汇。在自然语言处理中,语料的选取是一个相当重要的问题:第一,语料必须充分。一方面词典的词量要足够大,另一方面要尽可能多地包含反映词语之间关系的句子,例如,只有“鱼在水中游”这种句式在语料中尽可能地多,模型才能够学习到该句中的语义和语法关系,这和人类学习自然语言一个道理,重复的次数多了,也就会模仿了;第二,语料必须准确。也就是说所选取的语料能够正确反映该语言的语义和语法关系,这一点似乎不难做到,例如中文里,《人民日报》的语料比较准确。但是,更多的时候,并不是语料的选取引发了对准确性问题的担忧,而是处理的方法。n元模型中,因为窗口大小的限制,导致超出窗口范围的词语与当前词之间的关系不能被正确地反映到模型之中,如果单纯扩大窗口大小又会增加训练的复杂度。Skip-gram模型的提出很好地解决了这些问题。顾名思义,Skip-gram就是“跳过某些符号”,例如,句子“中国足球踢得真是太烂了”有4个3元词组,分别是“中国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”,可是我们发现,这个句子的本意就是“中国足球太烂”可是上述4个3元词组并不能反映出这个信息。Skip-gram模型却允许某些词被跳过,因此可以组成“中国足球太烂”这个3元词组。如果允许跳过2个词,即2-Skip-gram。
词向量:具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以,可以将词向量的每一维称为一个词语特征。词向量具有多种形式,distributed representation是其中一种。一个distributedrepresentation是一个稠密、低维的实值向量。distributed representation的每一维表示词语的一个潜在特征,该特征捕获了有用的句法和语义特性。可见,distributedrepresentation中的distributed一词体现了词向量这样一个特点:将词语的不同句法和语义特征分布到它的每一个维度去表示。
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。
参照图1,本发明实施例提供了一种舆情主题数据聚类方法,包括以下步骤:
对待聚类的文章进行文本处理,得到句子集合,所述文本处理包括分割;
采用word2vec算法计算句子集合到已有聚类的关键词组的距离;
根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。
具体地,待聚类的文章是一定周期内文章,其可以通过互联网从自媒体网站、新闻门户网站等获取。文本处理主要包括切词、词性标记、去停用词、计算词频、去重、过滤和分割等。分割用于将文章分割为若干个句子的集合。
Word2vec算法,属于无监督的机器学习算法的一种,不需要预先进行人工标注,能提升训练效率和降低人工成本。已有聚类是指已经过聚类计算,确定所属类型的主题类型。
为了降低长期监控过程中舆情文章的巨大增量对聚类计算的压力,本实施例抽取了文章的关键词组的距离特征来进行聚类计算,与传统通过文章的全部特征来进行聚类计算的方式相比,效率更高。距离可以是马氏距离等。
自适应的距离阈值,是指距离阈值可以自动学习调整。例如,自适应的距离阈值可以是判断不同新文章之间的相似性大小的距离阈值,也可以是判断新文章与历史聚类内容(即已有聚类)之间的相似性大小的距离阈值。
新聚类主题列表,用于存储经聚类计算后识别为新聚类主题的文章主题。新聚类主题一般与所有已有聚类主题的距离大于预设的距离阈值。
已有聚类主题列表能累加经聚类计算后识别为已有聚类主题的文章主题并更新。文章主题属于已有聚类主题时,其一般与某个已有聚类主题的距离小于等于预设的距离阈值。
由此可见,本实施例通过句子集合到已有聚类的关键词组的距离来进行主题聚类,结合了已有聚类这一历史聚类成果来进行主题聚类,优化了聚类的结果;采用了word2vec算法这一神经网络学习方法配合关键词组的距离特征,提升了聚类的速度和准确度,减轻了聚类计算的压力;通过自适应的距离阈值提供了通用的、可自动学习调整的分类阈值标准,适用性强。
进一步作为优选的实施方式,所述对待聚类的文章进行文本处理,得到句子集合这一步骤,具体包括:
对待聚类的文章进行预处理,所述预处理包括切词、词性标记、去停用词、计算词频和去重;
对预处理后的文章进行杂质过滤;
从杂质过滤后的文章中抽取文章标题和摘要,并将杂质过滤后的文章分割为句子集合。
具体地,本实施例通过预处理、杂质过滤、抽取和分割等文本处理操作,为后续的距离计算和聚类做好了准备。
进一步作为优选的实施方式,所述采用word2vec算法计算句子集合到已有聚类的关键词组的距离这一步骤,具体包括:
提取各个句子的关键词组;
计算各个句子集合之间的相互距离;
提取已有聚类的关键词组;
采用word2vec算法分别计算各个句子的关键词组到各已有聚类的关键词组的距离;
合并计算各个句子集合到已有聚类的关键词组的距离。
具体地,一个句子集合可以包括若干个句子。在存在多篇文章且每篇文章只有1个句子集合时,各个句子集合之间的相互距离可以反映这些文章的相似性大小。
本实施例可通过Jieba切词中的KeywordExtract方法来提取各个句子的关键词组。已有聚类的关键词组可以分布式存储,提取时可以通过Hadoop的方式来实现。分别计算各个(即单个)句子的关键词组到各已有聚类的关键词组的距离之后,可通过累加(即合并计算)来得到某个句子集合到已有聚类的关键词组的距离。
进一步作为优选的实施方式,所述采用word2vec算法分别计算各个句子的关键词组到各已有聚类的关键词组的距离这一步骤,具体包括:
提取各个句子的关键词组的特征向量作为第一向量;
提取已有聚类的关键词组的特征向量作为第二向量;
对第一向量与第二向量进行多维距离计算;
将第一向量与第二向量之间的多维距离降维处理为一维距离,从而得到各个句子的关键词组到各已有聚类的关键词组的距离。
传统的聚类计算方法,会获取文本的全部特征向量后计算其的相似度,以判断是否聚类;本实施例使用了新的距离计算方法,仅抽取文本中的关键词组获取特征向量,并将特征向量距离降维计算为一维距离后再进行其它计算,极大地降低了计算复杂度,提高了计算效率。
优选地,本实施例的第一向量和第二向量可以是通过word2vec的Skip-gram算法获取的词向量。这些词向量已经包含了上下文的信息,而且数据规模与初始相比也得到较大压缩,能进一步提升聚类计算效率。
进一步作为优选的实施方式,所述根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表这一步骤,具体包括:
将句子集合的相互距离小于等于第一距离阈值的文章主题合并为新分类;
将新分类中与已有聚类的关键词组距离最大的新分类确定为可能分类;
将可能分类与各个已有聚类进行距离对比,从而将与已有聚类的距离小于第二距离阈值的可能分类归入该已有聚类所在的已有聚类主题列表中,并更新该已有聚类的关键词组。
具体地,分类是针对可能是主题但未确定是何种主题的情况,聚类是针对确定为何种主题的情况。本实施例在进行主题聚类时,先判断是否将不同的文章主题合并为新分类,再在新分类中确定可能分类,最后根据可能分类与已有聚类的距离来确定可能分类是属于已有聚类还是新聚类。
句子集合的相互距离小于等于第一距离阈值的文章表明这些文章的相似度较高,可以归入同一个新分类中,此过程用于判断不同的新文章之间是否适合合并到同一个分类中。
合并为新分类后,可结合已有聚类确定好新分类是否为可能分类(即候选的目标分类),根据先验知识,可能分类一般与已有聚类的距离较大。
确定可能分类后,再将该可能分类与所有已有聚类的距离阈值做对比,大于距离阈值则可以确定为新聚类主题;若与一个已有聚类主题的距离小于距离阈值,则将该可能分类归入该已有聚类主题列表,并更新该聚类主题的关键词组。
本实施例结合新文章之间的相似性以及与已有聚类间的距离来进行主题聚类,提升了聚类计算的效率和准确度。
进一步作为优选的实施方式,所述根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表这一步骤,还具体包括:
确定待聚类的文章的各个句子的关键词组与已有聚类的关键词组相同或相似度大于预设相似度阈值时,直接将待聚类的文章主题归入已有聚类所在的已有聚类主题列表中。
具体地,本实施例在检测到待聚类的文章的各个句子的关键词组与已有聚类的关键词相同或相似时,直接将该文章主题归入该已有聚类主题中,从而跳过该文章后续的聚类计算过程,进一步提升了聚类的效率。
为了将一定周期内文本内容高度相近的文章聚类作为主题,本具体实施例提出了一种用于舆情监控的神经网络主题聚类方法。该方法利用了神经网络学习方法,通过对每日新语料内容的词向量关系计算,不仅提高了内容聚类的处理速度和准确度,同时还以词向量的方式将每日新的语料内容聚类关系加入历史结果,以机器学习方法持续地自动训练聚类模型,优化了聚类结果。该方法主要包括以下步骤:
S1、文本处理。
文本处理的过程可进一步细分为:
S11、提取文本预处理;
S12、过滤杂质信息;
S13、抽取文章标题和摘要并分割为句子集合。
S2、聚类距离计算。
具体地,可利用word2vec算法对句子和已有聚类的对应关键词组做距离计算。如图2所示,传统的计算方法,使用全部切词结果来获取文本特征向量,然后计算其的相似度以判断是否聚类。如图3所示,本具体实施例使用了新的距离计算方法,仅抽取文本中的关键词组来获取特征向量距离结果,并将距离结果降维计算为一维距离后再进行其它计算,极大地降低了计算复杂度,提高计算效率。如图3和图4所示,该新的距离计算方法具体步骤如下:
S21、使用Jieba切词中的KeywordExtract方法来对单个句子进行处理,提取关键词组;
S22、计算各句子集合之间的相互距离;
S23、使用Hadoop提取分布式存储的已有聚类的关键词组;
S24、单独计算各句子的关键词组到各已有聚类的关键词组的距离;
S25、合并计算各单个句子集合到已有聚类关键词组的距离。
S3、得出聚类结果,归入聚类主题列表。
如图5所示,该过程可进一步细分为如下步骤:
S31、根据句子集合的相互距离判断是否合并为新分类;
S32、将与其它已有聚类关键词组距离最大的新分类确定为可能分类;
S33、与各个已有聚类的距离阈值做对比,大于阈值则可以确定为新聚类主题;若与一个已有聚类主题的距离小于阈值,则将可能分类归入该已有聚类主题,并更新该已有聚类主题的关键词组。
上述计算过程S31~S33中,每个句子的关键词组可以同时对全量的聚类主题关键词进行同步计算,每次计算过的文本(或文章)写入已计算列表,下次计算将跳过这些文本(或文章),提高了同步计算处理量与计算效率。分类结果也分别归入相应的聚类主题列表。
本具体实施例采用了改进的距离计算算法改良优化了聚类结果,提高了计算处理量和极大地缩短了处理时间,使得聚类结果更加快速优质;同时继承积累了历史舆情文本聚类计算的结果,运用Word2vec算法不断自动训练优化其聚类模型,在舆情监控领域具有广阔的应用前景。
与图1的方法相对应,本发明实施例还提供了一种舆情主题数据聚类装置,包括:
文本处理模块,用于对待聚类的文章进行文本处理,得到句子集合,所述文本处理包括分割;
距离计算模块,用于采用word2vec算法计算句子集合到已有聚类的关键词组的距离;
主题聚类模块,用于根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。
进一步作为优选的实施方式,所述主题聚类模块具体包括:
新分类合并单元,用于将句子集合的相互距离小于等于第一距离阈值的文章主题合并为新分类;
可能分类确定单元,用于将新分类中与已有聚类的关键词组距离最大的新分类确定为可能分类;
聚类单元,用于将可能分类与各个已有聚类进行距离对比,从而将与已有聚类的距离小于第二距离阈值的可能分类归入该已有聚类所在的已有聚类主题列表中,并更新该已有聚类的关键词组。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
与图1的方法相对应,本发明实施例还提供了一种舆情主题数据聚类装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明所述的一种舆情主题数据聚类方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
与图1的方法相对应,本发明实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如本发明所述的一种舆情主题数据聚类方法。
上述方法实施例中的内容均适用于存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种舆情主题数据聚类方法,其特征在于:包括以下步骤:
对待聚类的文章进行预处理,所述预处理包括切词、词性标记、去停用词、计算词频和去重,所述待聚类的文章为预设周期内获取的文章;
对预处理后的文章进行杂质过滤;从杂质过滤后的文章中抽取文章标题和摘要,并将所述杂质过滤后的文章分割为句子集合;
提取各个句子的关键词组;
计算各个句子集合之间的相互距离;
提取已有聚类的关键词组;
通过Skip-gram算法提取各个句子的关键词组的特征向量作为第一向量;
通过所述Skip-gram算法提取已有聚类的关键词组的特征向量作为第二向量;
对第一向量与第二向量进行多维距离计算;
将第一向量与第二向量之间的多维距离降维处理为一维距离,从而得到各个句子的关键词组到各已有聚类的关键词组的距离;
合并计算所述各个句子集合到所述已有聚类的关键词组的距离;
根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。
2.根据权利要求1所述的一种舆情主题数据聚类方法,其特征在于:所述根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表这一步骤,具体包括:
将句子集合的相互距离小于等于第一距离阈值的文章主题合并为新分类;
将新分类中与已有聚类的关键词组距离最大的新分类确定为可能分类;
将可能分类与各个已有聚类进行距离对比,从而将与已有聚类的距离小于第二距离阈值的可能分类归入该已有聚类所在的已有聚类主题列表中,并更新该已有聚类的关键词组。
3.根据权利要求2所述的一种舆情主题数据聚类方法,其特征在于:所述根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表这一步骤,还具体包括:
确定待聚类的文章的各个句子的关键词组与已有聚类的关键词组相同或相似度大于预设相似度阈值时,直接将待聚类的文章主题归入已有聚类所在的已有聚类主题列表中。
4.一种舆情主题数据聚类装置,其特征在于:包括:
文本处理模块,用于对待聚类的文章进行预处理,所述预处理包括切词、词性标记、去停用词、计算词频和去重;对预处理后的文章进行杂质过滤;从杂质过滤后的文章中抽取文章标题和摘要,并将所述杂质过滤后的文章分割为句子集合,所述待聚类的文章为预设周期内获取的文章;
距离计算模块,用于提取各个句子的关键词组;计算各个句子集合之间的相互距离;提取已有聚类的关键词组;通过Skip-gram算法提取各个句子的关键词组的特征向量作为第一向量;通过所述Skip-gram算法提取已有聚类的关键词组的特征向量作为第二向量;对第一向量与第二向量进行多维距离计算;将第一向量与第二向量之间的多维距离降维处理为一维距离,从而得到各个句子的关键词组到各已有聚类的关键词组的距离;
主题聚类模块,用于根据计算的距离和自适应的距离阈值进行主题聚类,得到聚类结果,并将聚类结果写入新聚类主题列表或已有聚类主题列表,所述已有聚类主题列表由已有聚类组成。
5.根据权利要求4所述的一种舆情主题数据聚类装置,其特征在于:所述主题聚类模块具体包括:
新分类合并单元,用于将句子集合的相互距离小于等于第一距离阈值的文章主题合并为新分类;
可能分类确定单元,用于将新分类中与已有聚类的关键词组距离最大的新分类确定为可能分类;
聚类单元,用于将可能分类与各个已有聚类进行距离对比,从而将与已有聚类的距离小于第二距离阈值的可能分类归入该已有聚类所在的已有聚类主题列表中,并更新该已有聚类的关键词组。
6.一种舆情主题数据聚类装置,其特征在于:包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-3所述的一种舆情主题数据聚类方法。
7.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-3任一项所述的一种舆情主题数据聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522043.9A CN110377695B (zh) | 2019-06-17 | 2019-06-17 | 一种舆情主题数据聚类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522043.9A CN110377695B (zh) | 2019-06-17 | 2019-06-17 | 一种舆情主题数据聚类方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377695A CN110377695A (zh) | 2019-10-25 |
CN110377695B true CN110377695B (zh) | 2022-11-22 |
Family
ID=68250367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910522043.9A Active CN110377695B (zh) | 2019-06-17 | 2019-06-17 | 一种舆情主题数据聚类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377695B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929771B (zh) * | 2019-11-15 | 2020-11-20 | 北京达佳互联信息技术有限公司 | 图像样本分类方法及装置、电子设备、可读存储介质 |
CN112989825B (zh) * | 2021-05-13 | 2021-08-03 | 武大吉奥信息技术有限公司 | 社区事务汇聚和任务派发方法、装置、设备及存储介质 |
CN113127605B (zh) * | 2021-06-17 | 2021-11-02 | 明品云(北京)数据科技有限公司 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
CN116527697B (zh) * | 2023-06-30 | 2023-09-08 | 杭州城市大脑有限公司 | 应用于一网统管的区块链和ipfs舆情共享方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN107832467A (zh) * | 2017-11-29 | 2018-03-23 | 北京工业大学 | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 |
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
-
2019
- 2019-06-17 CN CN201910522043.9A patent/CN110377695B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN107832467A (zh) * | 2017-11-29 | 2018-03-23 | 北京工业大学 | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 |
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
Non-Patent Citations (1)
Title |
---|
基于距离阈值的自适应K-均值聚类算法;曾庆山等;《郑州大学学报》;20161230;第90-94页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110377695A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377695B (zh) | 一种舆情主题数据聚类方法、装置及存储介质 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN111104510B (zh) | 一种基于词嵌入的文本分类训练样本扩充方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN111859961B (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN111709242A (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN110263154A (zh) | 一种网络舆情情感态势量化方法、系统及存储介质 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
Kshirsagar et al. | A review on application of deep learning in natural language processing | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
US20230043735A1 (en) | Technology trend prediction method and system | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
Pasad et al. | On the contributions of visual and textual supervision in low-resource semantic speech retrieval | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN116933782A (zh) | 一种电商文本关键词提取处理方法及系统 | |
Siddique et al. | Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230808 Address after: Room 1102, No. 15 Zhigang Street, Xinzao Town, Panyu District, Guangzhou City, Guangdong Province, 510000 Patentee after: Ai Media Consulting (Guangzhou) Co.,Ltd. Address before: 510006 room 701, 26 Qinglan street, Xiaoguwei street, Panyu District, Guangzhou City, Guangdong Province Patentee before: GUANGZHOU IIMEDIA INFORMATION CONSULTING Co.,Ltd. |