CN110858217A - 微博敏感话题的检测方法、装置及可读存储介质 - Google Patents
微博敏感话题的检测方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN110858217A CN110858217A CN201810965144.9A CN201810965144A CN110858217A CN 110858217 A CN110858217 A CN 110858217A CN 201810965144 A CN201810965144 A CN 201810965144A CN 110858217 A CN110858217 A CN 110858217A
- Authority
- CN
- China
- Prior art keywords
- microblog
- clustering
- information
- sensitive
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
本发明提供的微博敏感话题的检测方法、装置及可读存储介质,通过对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;根据敏感信息特征库,在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点,有效提高了对其语义的识别准确度,进而提高了对微博敏感话题检测的准确度。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种微博敏感话题的检测方法、装置及可读存储介质。
背景技术
伴随着互联网的发展,微博等网络社交软件也成为了大多数人生活中必不可少的一部分。如何在微博所发布和传播的信息中快速发现敏感信息成为一个在互联网时代的信息安全的重要课题。
目前关于微博敏感话题检测方法,主要采用层次聚类、K-means聚类、TDT话题检测与追踪等方法进行。
但是,由于微博文本词语稀疏、语义离散、用词随意等特点,导致在对微博信息文本进行聚类时无法达到类似于新闻类长文本的效果,聚类准确度不高,从而也影响了对微博敏感话题检测的准确度。
发明内容
针对上述提及的在现有技术中存在的由于微博文本词语稀疏、语义离散、用词随意等特点而导致的对微博敏感话题检测的准确度不高的问题,本发明提供了一种微博敏感话题的检测方法、装置及可读存储介质。
一方面,本发明提供了一种微博敏感话题的检测方法,包括:
对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;
利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;
利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;
根据敏感信息特征库,在各聚类话题中确定敏感话题。
在其中一种可选的实施方式中,所述利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前,还包括:
根据采集的训练语料集以及网络常用语词典,对预设的待训练的基于表示学习的神经网络模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。
在其中一种可选的实施方式中,所述对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,包括:
对采集获得的微博信息进行文本提取,获得微博文本;
对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重。
在其中一种可选的实施方式中,所述预设的聚类算法包括K-means增量聚类算法;
所述利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题,包括:
根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心;
针对每个当前聚类中心,计算各句子特征向量与其的相似度;
根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心;
重新确定多个聚类中心并作为下一聚类中心,确定每个句子特征向量所属的下一聚类中心;判断当前聚类中心和下一聚类中心之间的偏移量;
当所述偏移量符合预设条件时,则根据该下一聚类中心和属于各下一聚类中心的句子特征向量,构建聚类话题;
当所述偏移量不符合预设条件时,重复所述根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件。
在其中一种可选的实施方式中,所述根据敏感信息特征库,在各聚类话题中确定敏感话题,包括:
根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量;
针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度;
根据相似度计算结果,确定敏感话题。
另一方面,本发明提供了一种微博敏感话题的检测装置,包括:
分词处理模块,用于对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;
特征向量生成模块,用于利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;
聚类模块,用于利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;
敏感话题确定模块,用于根据敏感信息特征库,在各聚类话题中确定敏感话题。
在其中一种可选的实施方式中,还包括词语向量特征库构建模块;
所述词语向量特征库构建模块用于在所述特征向量生成模块利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前,据采集的训练语料集以及网络常用语词典,对预设的待训练的基于表示学习的神经网络模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。
在其中一种可选的实施方式中,所述预设的聚类算法包括K-means增量聚类算法;
其中,所述分词处理模块,具体用于对采集获得的微博信息进行文本提取,获得微博文本;对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重;
所述聚类模块具体用于根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心;针对每个当前聚类中心,计算各句子特征向量与其的相似度;根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心;重新确定多个聚类中心并作为下一聚类中心,确定每个句子特征向量所属的下一聚类中心;判断当前聚类中心和下一聚类中心之间的偏移量;当所述偏移量符合预设条件时,则根据该下一聚类中心和属于各下一聚类中心的句子特征向量,构建聚类话题;当所述偏移量不符合预设条件时,重复所述根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件;
所述敏感话题确定模块具体用于根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量;针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度;根据相似度计算结果,确定敏感话题。
再一方面,本发明提供了一种微博敏感话题的检测装置,包括:存储器、处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如前任一项所述的方法。
最后一方面,本发明还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行以实现如前任一项所述的方法。
本发明提供的微博敏感话题的检测方法、装置及可读存储介质,通过对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;根据敏感信息特征库,在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点,有效提高了对其语义的识别准确度,进而提高了对微博敏感话题检测的准确度。
附图说明
图1为本发明所基于的网络架构示意图;
图2为本发明实施例一提供的一种微博敏感话题的检测方法的流程示意图;
图3为本发明实施例二提供的一种微博敏感话题的检测方法的流程示意图;
图4为本发明实施例三提供的一种微博敏感话题的检测装置的结构示意图;
图5为本发明实施例四提供的一种微博敏感话题的检测装置的硬件结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
伴随着互联网的发展,微博等网络社交软件也成为了大多数人生活中必不可少的一部分。如何在微博所发布和传播的信息中快速发现敏感信息成为一个在互联网时代的信息安全的重要课题。
目前关于微博敏感话题检测方法,主要采用层次聚类、K-means聚类、TDT话题检测与追踪等方法进行。
但是,由于微博文本词语稀疏、语义离散、用词随意等特点,导致在对微博信息文本进行聚类时无法达到类似于新闻类长文本的效果,聚类准确度不高,从而也影响了对微博敏感话题检测的准确度。
因此,针对上述提及的现有技术中存在的由于微博文本词语稀疏、语义离散、用词随意等特点而导致的对微博敏感话题检测的准确度不高的问题,本发明提供了一种微博敏感话题的检测方法、装置及可读存储介质。
图1为本发明所基于的网络架构示意图,如图1所示,在本发明提供的微博敏感话题的检测方法的执行主体具体可为微博敏感话题的检测装置,该检测装置可通过硬件和/或软件的方式实现。一般可集成于微博平台所基于的云端服务器中,与微博平台所基于的存放有各类数据库的数据服务器配合使用,此外,检测装置所基于的服务器可与数据服务器为同一服务器,或者为隶属于同一服务器集群的不同服务器,本发明对此均不进行限制。
图2为本发明实施例一提供的一种微博敏感话题的检测方法的流程示意图。
如图2所示,该检测方法包括:
步骤101、对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重。
步骤102、利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。
步骤103、利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题。
步骤104、根据敏感信息特征库,在各聚类话题中确定敏感话题。
具体来说,用户可通过智能手机、平板电脑和台式终端在微博平台上发布各类微博信息。这些微博信息的词语稀疏、语义离散、用词随意,因此,采用现有的敏感话题检测方式获得的检测结果并不准确。
在本申请中,首先可从前述的微博平台的数据库中采集获得大量的微博信息,采集获得的方式可采用实时采集,也可在预设时间段进行采集,本实施方式对此不进行限制。
然后,对获得的微博信息进行预处理,以获得待分析的微博信息的分词。具体来说,为了提高对微博信息中敏感话题的检测的准确率,由于微博信息中一般包括网址链接、图片链接、转发信息、表情符号等无用信息,首先对先去除该微博信息中的这些无用信息,以保留其中的文本信息。随后,对提取出的纯文本进行中文分词,以获得待分析的微博信息句子特征空间,该句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重。
然后,利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。其中词语向量特征库为预先构建的,其具体可用于将微博信息中的每一分词映射为与之对应的特征向量,而通过每一分词对应的语义特征向量和分词权重可构建微博信息的句子特征向量。
可选的,在本步骤之前还可包括:根据采集的训练语料集以及网络常用语词典,对预设的待训练的连续词袋模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为与之对应的特征向量。
具体来说,针对微博文本用词随意、口语性强的特点,利用新词发现技术,提取出新词并经过人工标注后筛选出常见网络用语,作为网络常用语词典;随后,采用基于表示学习的方式,针对前述的每一分词,根据词频构造赫夫曼树,树的叶子结点即为词向量表示;建立深度学习模型,通过迭代训练的过程更新非叶子节点参数及叶子节点词向量,最终生成词向量组成基于学习的向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为与之对应的特征向量,随后根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。
再后,利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题。具体的,一般的前述的每个句子特征向量包括有多个维度的信息,其每个维度可表示文本的一个特征,通过这个向量可以刻画出分词内在语义含义。利用这一点,结合现有的一些聚类算法,可将这些句子特征向量进行有效的相似度聚类,获得聚类话题。例如,可采用改进的K-means增量聚类算法,使得对于新增的文本满足增量聚类要求的同时使聚类全局最优。
最后,根据敏感信息特征库,在各聚类话题中确定敏感话题。具体的,在得到微博信息的各聚类话题之后,可基于预设的敏感信息特征库,对聚类话题是否为敏感话题进行有效判断。
本发明提供的微博敏感话题的检测方法,通过对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;根据敏感信息特征库,在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点,有效提高了对其语义的识别准确度,进而提高了对微博敏感话题检测的准确度。
在实施例一的基础上,图3为本发明实施例二提供的一种微博敏感话题的检测方法的流程示意图,如图3所示,该检测方法包括:
步骤201、对采集获得的微博信息进行文本提取,获得微博文本。
步骤202、对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重。
步骤203、利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。
步骤204、利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题。
步骤205、根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量。
步骤206、针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度,以根据相似度计算结果,确定敏感话题。
具体来说,用户可通过智能手机、平板电脑和台式终端在微博平台上发布各类微博信息。这些微博信息的词语稀疏、语义离散、用词随意,因此,采用现有的敏感话题检测方式获得的检测结果并不准确。
首先可从前述的微博平台的数据库中采集获得大量的微博信息,采集获得的方式可采用实时采集,也可在预设时间段进行采集,本实施方式对此不进行限制。
随后,对采集获得的微博信息进行文本提取,获得微博文本,对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重,利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量。
具体来说,为了提高对微博信息中敏感话题的检测的准确率,由于微博信息中一般包括网址链接、图片链接、转发信息、表情符号等无用信息,首先对先去除该微博信息中的这些无用信息,以保留其中的文本信息。然后对提取出的纯文本进行中文分词处理,并获得这些分词的特征向量,该处理可采用如下方式:
首先,根据采集的训练语料集以及网络常用语词典,对预设的待训练的连续词袋模型进行训练,获得词语向量特征库,其方式可采用实施例一所记载的方式。
随后,构建微博信息的句子特征空间,如对大规模中文微博短文本训练语料进行中文分词,统计词频,去掉停用词及词频数目过小的词语,利用剩余的词语作为基础词典,构建句子特征空间W={w1,w2,...,wN},其中W表示句子特征空间,wi表示不同维度上的词语,N表示句子特征空间的维数及词典中包含的词语的个数。然后,构建微博信息的特征向量空间,如根据模块一中构建的词语向量特征库V,对于微博信息文本特征空间W中的每一个词语wi,都可以在V中找到与之对应的词向量表示形式vi,由此可构造微博信息的特征向量空间5={v1,v2,...,vN},再后,对微博信息进行分词,如建立基于HMM的分词处理系统,对于给定的观察值序列(中文短文本),通过Viterbi算法求得可能性最大的状态值序列,即分词后的短文本序列sen={word1,word2,...,wordn},其中sen表示中文微博信息的文本,wordi表示微博中的词语在词向量特征库中对应的向量表示形式,n表示微博信息文本中包含的词语的个数。最后,构建微博信息文本的向量,如对于任意的中文微博信息文本,首先经过中文分词得到微博信息文本的词语序列向量表示形式sen,微博信息文本向量由以下方式构建:对于句子特征向量空间构建S中的每一个词向量vi,计算vi与句子序列sen中的词语的相似度的最大值maxSimi,作为最终微博信息文本向量senVec第i维上的分量值,依次类推计算出最终的微博信息文本向量表示形式senVec。
再后,利用预设的聚类算法,对所述微博信息对应的各分词的特征向量进行聚类,以获得聚类话题,具体来说,所述预设的聚类算法包括K-means增量聚类算法,可采用如下方式:根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心;针对每个当前聚类中心,计算各句子特征向量与其的相似度;根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心;重新确定多个聚类中心并作为下一聚类中心,确定每个句子特征向量所属的下一聚类中心;判断当前聚类中心和下一聚类中心之间的偏移量;当所述偏移量符合预设条件时,则根据该下一聚类中心和属于各下一聚类中心的句子特征向量,构建聚类话题;当所述偏移量不符合预设条件时,重复所述根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件。
例如,可将所有的微博信息的每一句子特征向量看做多维空间中的一个点,从句子特征向量集合中随机选择一个句子特征向量作为第一个聚类中心;
对于数据集中的每一个句子特征向量x,计算它与最近聚类中心的距离D(x);选择一个新的句子特征向量作为新的聚类中心,选择的原则是:与当前有选聚类中心距离D(x)较大的句子特征向量,被选取作为聚类中心的概率较大;重复以上过程直到k个聚类中心C=(c1,c1,...ck}被选出来。对于句子特征向量集中的每一个句子特征向量xi,计算其到k个聚类中心的距离,并记录与其距离最小的聚类中心对应的类别簇ci及对应的相似度距离di,其中对于任意类别中心向量senVec1=(a1,a2,...,aN)和微博文本向量senVec2=(b1,b2,...,bN),采用余弦相似度算法计算两个向量之间的相似度:
余弦值越大表示两个向量越相似,进而表明两个句子特征向量之间的语义相似度越高。随后,计算得到的相似度d,如果相似度大于阈值μ,则将句子特征向量归入该聚类话题,如果与所有聚类中心的相似度最大值仍然小于阈值μ,则将句子特征向量列为一个新的聚类中心,并创建新的聚类话题。阈值设置的不同,得到的话题粒度也不同。最后,当所有句子特征向量都聚类完毕后,需要对聚类中心进行更新,对于每个类别ci。
对于所有属于该类别的句子特征向量x,通过重新计算其聚类中心,重复聚类和聚类中心更新,直到聚类中心的位置不再变化,得到聚类结果。
当完成聚类,得到聚类话题之后,还根据敏感信息特征库,在各聚类话题中确定敏感话题。具体来说,根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量;针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度;根据相似度计算结果,确定敏感话题。
例如,可首先对构建敏感信息特征库:基于用户业务需要及工作积累,整理敏感信息词库,获取敏感词库中词语对应的词向量表示形式,构建敏感信息特征库;然后提取聚类话题中的关键词,如针对每个聚类话题,利用TF-IDF算法提取话题下的关键词,匹配话题关键词敏感信息,如基于敏感信息特征库和关键词语义特征向量,对于关键词语义特征向量计算其与敏感信息特征库中词向量相似度的最大值,并该聚类话题对应的各相似度的最大值相加,得到相似度总和sumSim,如果sumSim的值大于指定阈值,则表明该聚类话题与用户业务所重点关注的领域匹配的相似度很高,即应该是用户在业务中重点关注和检测的敏感话题信息。
本发明提供的微博敏感话题的检测方法通过对采集获得的微博信息进行预处理,获得的待分析的微博信息的分词;利用预设的词语向量特征库构建所述微博信息中每一分词对应的特征向量;利用预设的聚类算法,对所述微博信息对应的各分词的特征向量进行聚类,以获得聚类话题;根据敏感信息特征库,在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点,有效提高了对其语义的识别准确度,进而提高了对微博敏感话题检测的准确度。
图4为本发明实施例三提供的一种微博敏感话题的检测装置的结构示意图,如图4所示,该检测装置包括:
分词处理模块10,用于对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;
特征向量生成模块20,用于利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;
聚类模块30,用于利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;
敏感话题确定模块40,用于根据敏感信息特征库,在各聚类话题中确定敏感话题。
在其中一种可选的实施方式中,还包括词语向量特征库构建模块;
所述词语向量特征库构建模块用于在所述特征向量生成模块利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前,据采集的训练语料集以及网络常用语词典,对预设的待训练的基于表示学习的神经网络模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。
在其中一种可选的实施方式中,所述预设的聚类算法包括K-means增量聚类算法;
其中,所述分词处理模块,具体用于对采集获得的微博信息进行文本提取,获得微博文本;对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重;
所述聚类模块具体用于根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心;针对每个当前聚类中心,计算各句子特征向量与其的相似度;根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心;重新确定多个聚类中心并作为下一聚类中心,确定每个句子特征向量所属的下一聚类中心;判断当前聚类中心和下一聚类中心之间的偏移量;当所述偏移量符合预设条件时,则根据该下一聚类中心和属于各下一聚类中心的句子特征向量,构建聚类话题;当所述偏移量不符合预设条件时,重复所述根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件;
所述敏感话题确定模块具体用于根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量;针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度;根据相似度计算结果,确定敏感话题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明提供的微博敏感话题的检测装置对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;根据敏感信息特征库,在各聚类话题中确定敏感话题。从而针对于微博文本词语稀疏、语义离散、用词随意的特点,有效提高了对其语义的识别准确度,进而提高了对微博敏感话题检测的准确度。
图5为本发明提实施例四提供的一种微博敏感话题的检测装置的硬件结构示意图。如图5所示,该微博敏感话题的检测装置包括:存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序,处理器42运行计算机程序时执行上述任一实施例的方法。
本发明还提供一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行上述任一实施例的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种微博敏感话题的检测方法,其特征在于,包括:
对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;
利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;
利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;
根据敏感信息特征库,在各聚类话题中确定敏感话题。
2.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前,还包括:
根据采集的训练语料集以及网络常用语词典,对预设的待训练的基于表示学习的神经网络模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。
3.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,包括:
对采集获得的微博信息进行文本提取,获得微博文本;
对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重。
4.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述预设的聚类算法包括K-means增量聚类算法;
所述利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题,包括:
根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心;
针对每个当前聚类中心,计算各句子特征向量与其的相似度;
根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心;
重新确定多个聚类中心并作为下一聚类中心,确定每个句子特征向量所属的下一聚类中心;判断当前聚类中心和下一聚类中心之间的偏移量;
当所述偏移量符合预设条件时,则根据该下一聚类中心和属于各下一聚类中心的句子特征向量,构建聚类话题;
当所述偏移量不符合预设条件时,重复所述根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件。
5.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述根据敏感信息特征库,在各聚类话题中确定敏感话题,包括:
根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量;
针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度;
根据相似度计算结果,确定敏感话题。
6.一种微博敏感话题的检测装置,其特征在于,包括:
分词处理模块,用于对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;
特征向量生成模块,用于利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;
聚类模块,用于利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;
敏感话题确定模块,用于根据敏感信息特征库,在各聚类话题中确定敏感话题。
7.根据权利要求6所述的微博敏感话题的检测装置,其特征在于,还包括词语向量特征库构建模块;
所述词语向量特征库构建模块用于在所述特征向量生成模块利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前,据采集的训练语料集以及网络常用语词典,对预设的待训练的基于表示学习的神经网络模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。
8.根据权利要求6所述的微博敏感话题的检测装置,其特征在于,所述预设的聚类算法包括K-means增量聚类算法;
其中,所述分词处理模块,具体用于对采集获得的微博信息进行文本提取,获得微博文本;对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重;
所述聚类模块具体用于根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心;针对每个当前聚类中心,计算各句子特征向量与其的相似度;根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心;重新确定多个聚类中心并作为下一聚类中心,确定每个句子特征向量所属的下一聚类中心;判断当前聚类中心和下一聚类中心之间的偏移量;当所述偏移量符合预设条件时,则根据该下一聚类中心和属于各下一聚类中心的句子特征向量,构建聚类话题;当所述偏移量不符合预设条件时,重复所述根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件;
所述敏感话题确定模块具体用于根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量;针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度;根据相似度计算结果,确定敏感话题。
9.一种微博敏感话题的检测装置,其特征在于,包括:存储器、处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-5任一项所述的方法。
10.一种可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理执行以实现如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810965144.9A CN110858217A (zh) | 2018-08-23 | 2018-08-23 | 微博敏感话题的检测方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810965144.9A CN110858217A (zh) | 2018-08-23 | 2018-08-23 | 微博敏感话题的检测方法、装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110858217A true CN110858217A (zh) | 2020-03-03 |
Family
ID=69636127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810965144.9A Pending CN110858217A (zh) | 2018-08-23 | 2018-08-23 | 微博敏感话题的检测方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110858217A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539196A (zh) * | 2020-04-15 | 2020-08-14 | 京东方科技集团股份有限公司 | 文本查重的方法、装置、文本管理系统及电子设备 |
CN113626607A (zh) * | 2021-09-17 | 2021-11-09 | 平安银行股份有限公司 | 异常工单识别方法、装置、电子设备及可读存储介质 |
CN113761930A (zh) * | 2020-06-29 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 广告文本检测方法和装置 |
CN113807073A (zh) * | 2020-06-16 | 2021-12-17 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN114067321A (zh) * | 2022-01-14 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 一种文本检测模型训练方法、装置、设备及存储介质 |
US20220138424A1 (en) * | 2021-03-23 | 2022-05-05 | Beijing Baidu Netcom Science Technology Co., Ltd. | Domain-Specific Phrase Mining Method, Apparatus and Electronic Device |
CN115544240A (zh) * | 2022-11-24 | 2022-12-30 | 闪捷信息科技有限公司 | 文本类敏感信息识别方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103810280A (zh) * | 2014-02-19 | 2014-05-21 | 广西科技大学 | 一种微博话题检测方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN107291886A (zh) * | 2017-06-21 | 2017-10-24 | 广西科技大学 | 一种基于增量聚类算法的微博话题检测方法及系统 |
CN107679135A (zh) * | 2017-09-22 | 2018-02-09 | 深圳市易图资讯股份有限公司 | 面向网络文本大数据的话题检测与跟踪方法、装置 |
CN108228587A (zh) * | 2016-12-13 | 2018-06-29 | 北大方正集团有限公司 | 群体识别方法及群体识别装置 |
-
2018
- 2018-08-23 CN CN201810965144.9A patent/CN110858217A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103810280A (zh) * | 2014-02-19 | 2014-05-21 | 广西科技大学 | 一种微博话题检测方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN108228587A (zh) * | 2016-12-13 | 2018-06-29 | 北大方正集团有限公司 | 群体识别方法及群体识别装置 |
CN107291886A (zh) * | 2017-06-21 | 2017-10-24 | 广西科技大学 | 一种基于增量聚类算法的微博话题检测方法及系统 |
CN107679135A (zh) * | 2017-09-22 | 2018-02-09 | 深圳市易图资讯股份有限公司 | 面向网络文本大数据的话题检测与跟踪方法、装置 |
Non-Patent Citations (2)
Title |
---|
段旭磊: ""微博文本处理及话题分析方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
潘大庆: "基于层次聚类的微博敏感话题检测算法研究", 《广西民族大学学报(自然科学版)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539196A (zh) * | 2020-04-15 | 2020-08-14 | 京东方科技集团股份有限公司 | 文本查重的方法、装置、文本管理系统及电子设备 |
CN113807073A (zh) * | 2020-06-16 | 2021-12-17 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN113807073B (zh) * | 2020-06-16 | 2023-11-14 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN113761930A (zh) * | 2020-06-29 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 广告文本检测方法和装置 |
US20220138424A1 (en) * | 2021-03-23 | 2022-05-05 | Beijing Baidu Netcom Science Technology Co., Ltd. | Domain-Specific Phrase Mining Method, Apparatus and Electronic Device |
CN113626607A (zh) * | 2021-09-17 | 2021-11-09 | 平安银行股份有限公司 | 异常工单识别方法、装置、电子设备及可读存储介质 |
CN113626607B (zh) * | 2021-09-17 | 2023-08-25 | 平安银行股份有限公司 | 异常工单识别方法、装置、电子设备及可读存储介质 |
CN114067321A (zh) * | 2022-01-14 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 一种文本检测模型训练方法、装置、设备及存储介质 |
CN114067321B (zh) * | 2022-01-14 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 一种文本检测模型训练方法、装置、设备及存储介质 |
CN115544240A (zh) * | 2022-11-24 | 2022-12-30 | 闪捷信息科技有限公司 | 文本类敏感信息识别方法、装置、电子设备和存储介质 |
CN115544240B (zh) * | 2022-11-24 | 2023-04-07 | 闪捷信息科技有限公司 | 文本类敏感信息识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN107122352B (zh) | 一种基于k-means、word2vec的抽取关键词的方法 | |
CN111324784B (zh) | 一种字符串处理方法及装置 | |
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN112347223B (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN106599072B (zh) | 一种文本聚类方法及装置 | |
CN112632226A (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN112381038A (zh) | 一种基于图像的文本识别方法、系统和介质 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN115757743A (zh) | 文档的检索词匹配方法及电子设备 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN113111178A (zh) | 无监督的基于表示学习的同名作者消歧方法及装置 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN114492429B (zh) | 文本主题的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200303 |
|
RJ01 | Rejection of invention patent application after publication |