CN106339495A - 一种基于层次增量聚类的话题检测方法及系统 - Google Patents

一种基于层次增量聚类的话题检测方法及系统 Download PDF

Info

Publication number
CN106339495A
CN106339495A CN201610797846.1A CN201610797846A CN106339495A CN 106339495 A CN106339495 A CN 106339495A CN 201610797846 A CN201610797846 A CN 201610797846A CN 106339495 A CN106339495 A CN 106339495A
Authority
CN
China
Prior art keywords
word
similarity
classification
vector
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610797846.1A
Other languages
English (en)
Inventor
李本栋
吴文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Chile Mdt Infotech Ltd
Original Assignee
Guangzhou Chile Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Chile Mdt Infotech Ltd filed Critical Guangzhou Chile Mdt Infotech Ltd
Priority to CN201610797846.1A priority Critical patent/CN106339495A/zh
Publication of CN106339495A publication Critical patent/CN106339495A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于层次增量聚类的话题检测方法及系统,属于自然语言处理领域,该方法首先通过分词器对文本信息进行分词,然后将分词根据切分顺序组成词序列,通过词语的词频—反转文件频率和哈希整数值构建文本词向量,然后计算文本词向量与每个类中心向量的相似度,通过比较相似度与预设的归类阀值,确定文本信息的归类,最后根据预设时间周期性的对每个类别的类中心向量进行聚类计算。本发明通过高阈值的增量聚类获得文本的共性特征,提高了话题聚类的精度,同时降低了程序的时间复杂度。

Description

一种基于层次增量聚类的话题检测方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于层次增量聚类的话题检测方法及系统。
背景技术
随着互联网进行了web 2.0时代,以微博、博客等为主体的社交网络的兴起带来了大量的非正式的文本,截止2015年10月为止,微博的月活跃人数已经达到了2.12亿人,发送的推文数以亿记。微博已经成为中文互联网世界里产生数据最多的平台,如何通过如此庞大数量的数据来获知人们目前正在关注的话题,是当前研究的重点。
在现有技术中,使用基于聚类的话题检测技术是解决该问题的常用解决方案,但是由于新增文本信息数据量巨大,且文本信息中存在较多的表情和非规范化的语言,传统的聚类方法在面对大量网络符号和网络词汇时,会极大降低话题检测的准确率。
发明内容
有鉴于此,本发明提供一种基于层次增量聚类的话题检测方法及系统,本发明通过高阈值的增量聚类获得文本的共性特征,提高了话题聚类的精度,同时降低了程序的时间复杂度。
本发明通过以下技术手段解决上述问题:
一种基于层次增量聚类的话题检测方法,包括以下步骤:
获取文本信息,并采用分词器将所述文本信息划分为至少一个词语;将每个所述词语根据切分顺序组成词序列;分别确定每个所述词语的词频—反转文件频率和哈希整数值;根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量;确定是否预先存储有类别的类中心向量;在确定预先存储有类别的类中心向量时,计算所述文本词向量与每个类中心向量的相似度;将每个所述相似度与预设的归类阈值进行比较,若确定存在有大于所述归类阈值的相似度时,则将大于所述归类阈值的相似度对应的类别确定为候选类集;确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中。
进一步,若确定每个所述相似度均小于等于所述归类阈值,则将所述文本信息确定为新增类别。
进一步,在确定没有预先存储的类中心向量时,将所述文本信息确定为新增类别。
进一步,所述采用分词器将所述文本信息划分为至少一个词语包括:
所述分词器采用正向最大匹配法将所述文本信息划分为至少一个词语。
进一步,所述确定所述词序列中每个所述词语的词频—反转文件频率包括:根据公式确定所述词序列中每个词语的词频,其中,tfi为第i个词语的词频,ni为第i个词语在所述文本信息中出现的次数,∑knk为文本信息中所有词语出现次数的总和,i为正整数,k为正整数;确定第i个词语是否在系统语料库中;在确定第i个词语在系统语料库中时,根据公式确定所述词序列中每个词语的反转文件频率,其中,idfi为第i个词语的反转文件频率,d为所述文本信息,ti为所述词序列中的第i个词语;在确定第i个词语不在系统语料库中时,根据公式确定所述词序列中每个词语的反转文件频率;根据公式tf_idfi=idfi×tfi确定所述词序列中每个词语的词频—反转文件频率,其中,tf_idfi为第i个词语的词频—反转文件频率。
进一步,所述根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量包括:根据公式构建文本词向量,其中,为所述文本词向量,hi为第i个词语的哈希整数值。
进一步,所述计算所述文本词向量与每个类中心向量的相似度包括:根据公式计算所述文本词向量与每个类中心向量的相似度,其中,S为文本词向量与每个类中心向量的相似度,为所述类中心向量,为所述文本词向量的模,||C||为所述类中心向量的模。
进一步,在所述确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中之后,还包括:根据公式更新所述最大相似度对应的类别的类中心向量,其中,m为所述类中心向量被更新的次数,为第j个类中心向量,为更新后的第j个类中心向量。
进一步,在所述根据公式更新所述最大相似度对应的类别的类中心向量之后,还包括:根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算。
本发明的一种基于层次增量聚类的话题检测方法具有以下有益效果:
本发明提供了一种基于层次增量聚类的话题检测方法,首先通过分词器对文本信息进行分词,然后将分词根据预设顺序组成词序列,通过词语的词频—反转文件频率和哈希整数值构建文本词向量,同时计算文本词向量与每个类中心向量的相似度,通过比较相似度与预设的归类阀值,确定文本信息的归类,最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算;综上所示,本发明通过高阈值的增量聚类获得文本的共性特征,提高了话题聚类的精度,同时降低了程序的时间复杂度。
一种基于层次增量聚类的话题检测系统,包括:获取单元,用于获取文本信息,并采用分词器将所述文本信息划分为至少一个词语;处理单元,用于将每个所述词语根据切分顺序组成词序列;确定单元,用于分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值;所述处理单元,还用于根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量;所述确定单元,还用于确定是否预先存储有类别的类中心向量;所述处理单元,还用于在所述确定单元确定预先存储有类别的类中心向量时,计算所述文本词向量与每个类中心向量的相似度;所述确定单元,还用于将每个所述相似度与预设的归类阈值进行比较,若确定存在有大于所述归类阈值的相似度时,则将大于所述归类阈值的相似度对应的类别确定为候选类集;所述确定单元,还用于确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中。
本发明的一种基于层次增量聚类的话题检测系统具有以下有益效果:
本发明提供了一种基于层次增量聚类的话题检测系统,首先通过分词器对文本信息进行分词,然后将分词根据预设顺序组成词序列,通过词语的词频—反转文件频率和哈希整数值构建文本词向量,同时计算文本词向量与每个类中心向量的相似度,通过比较相似度与预设的归类阀值,确定文本信息的归类,最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算;综上所示,本发明通过高阈值的增量聚类获得文本的共性特征,提高了话题聚类的精度,同时降低了程序的时间复杂度。
附图说明
图1是本发明提供的一种基于层次增量聚类的话题检测方法的流程示意图;
图2是本发明提供的一种基于层次增量聚类的话题检测系统的功能示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一种基于层次增量聚类的话题检测方法的流程示意图,具体包括以下步骤:
S1:获取文本信息,并采用分词器将所述文本信息划分为至少一个词语。
具体的,分词器采用正向最大匹配法将所述文本信息划分为至少一个词语。
需要说明的是,本发明还也可以采用逆向最大匹配算法、双向匹配算法等最大匹配算法,将文本信息划分为至少一个词语,对此不做限制。
示例性的,假设获取到的文本信息为“生活就像海洋只有意志坚定的人才能到达彼岸”,那么采用正向最大匹配法可将“生活就像海洋只有意志坚定的人才能到达彼岸”按照文本中出现的顺序划分为五个词语,分别为生活,海洋,意志坚定,到达,彼岸。
S2:将每个所述词语根据切分顺序组成词序列。
示例性的,将上述示例中的五个词语根据切分顺序组成的词序列为:{生活,海洋,意志坚定,到达,彼岸}。
S3:分别确定每个所述词语的词频—反转文件频率和哈希整数值。
具体的,首先根据公式确定所述词序列中词语的词频。
其中,tfi为第i个词语的词频,ni为第i个词语在所述文本信息中出现的次数,∑knk为文本信息中所有词语出现次数的总和,i、ni和nk均为正整数。
其次,确定第i个词语是否在系统语料库,在确定第i个词语在系统语料库时,根据公式确定所述词序列中词语的反转文件频率。
其中,idfi为第i个词语的反转文件频率,d为所述文本信息,ti为所述词序列中第i个词语,|{j:ti∈d}|为系统语料库中包含第i个词语的文件数量,|D|为系统语料库中文件的总数量,|D|和|{j:ti∈d}|为正整数。
在确定第i个词语不在系统语料库时,根据公式确定所述词序列中词语的反转文件频率。
需要说明的是,公式是使用拉普拉斯平滑处理方法,在第i个词语不在语料库时,避免分母为0的情况。
再次,根据公式tf_idfi=idfi×tfi确定所述词序列中词语的词频—反转文件频率。
其中,tf_idfi为第i个词语的词频—反转文件频率。
以上述词序列{生活,海洋,意志坚强,到达,彼岸}为例,计算出的具体数值如表1所示:
表1
S4:根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量。
具体的,根据公式构建文本词向量。
其中,为所述文本词向量,hi为第i个词语的哈希整数值。
示例性的,由表1可知当哈希整数值为1时,词频—反转文件频率为0.00015;当哈希整数值为1时,词频—反转文件频率为0.00015;当哈希整数值为2时,词频—反转文件频率为0.00062;当哈希整数值为3时,词频—反转文件频率为0.0012;当哈希整数值为4时,词频—反转文件频率为0.00046;当哈希整数值为5时,词频—反转文件频率为0.00069,得出举例文本信息的文本词向量为:
V → = { ( 1 : 0.00015 ) , ( 2 : 0.00062 ) , ( 3 : 0.0012 ) , ( 4 : 0.00046 ) , ( 5 : 0.00069 ) }
S5:确定是否预先存储有类别的类中心向量。
需要说明的是,根据确定是否预先存储有类别的类中心向量的结果不同,下述执行的步骤也不同,在确定没有预先存储的类中心向量时,则执行步骤S6;在确定预先存储有类别的类中心向量时,则执行步骤S7-S13。
S6:在确定没有预先存储的类中心向量时,将所述文本信息确定为新增类别。
具体的,将输入的第一个文本信息确定为新增类别,设置新增类别的类编号为1,并将文本词向量设置为新增类别的类中心向量,。
S7:在确定预先存储有类别的类中心向量时,计算所述文本词向量与每个类中心向量的相似度。
具体的,采用公式计算所述文本词向量与每个类中心向量的相似度。
S8:将每个所述相似度与预设的归类阈值进行比较。
其中,归类阈值为0.9。
需要说明的是,根据每个所述相似度与预设的归类阈值进行比较的结果不同,下述执行的步骤也不同,在确定每个所述相似度均小于等于所述归类阈值时,则执行步骤S9;在确定存在有大于所述归类阈值的相似度时,则执行步骤S10-S13。
S9:若确定每个所述相似度均小于等于所述归类阈值,则将所述文本信息确定为新增类别。
具体的,在确定文本信息与所有类别都不相似时,将文本信息确定为新增类别,新增类别的类中心向量为文本词向量新增类别的类编号为原最大类编号加1,示例性的,假设系统一共存储了200个类别,则系统的最大类编号为200,新增类别的类编号应设置为201。
S10:若确定存在有大于所述归类阈值的相似度时,则将大于所述归类阈值的相似度对应的类别确定为候选类集。
S11:确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中。
进一步的,在执行完步骤S11之后,还包括步骤S12和S13。
S12、根据公式更新所述最大相似度对应的类别的类中心向量,其中,m为所述类中心向量被更新的次数,为所述文本词向量,为原类中心向量,为更新后的类中心向量。
S13:根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算。
本实施例中预设时间为7天,每隔7天时间,所有的类中心向量会进行再一次聚类,以提高聚类划分的精度。
本发明提供了一种基于层次增量聚类的话题检测方法,该方法首先通过分词器对文本信息进行分词,然后将分词根据预设顺序组成词序列,通过词语的词频—反转文件频率和哈希整数值构建文本词向量,同时计算文本词向量与每个类中心向量的相似度,通过比较相似度与预设的归类阀值,确定文本信息的归类,最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算;综上所示,本发明使用了两层聚类模式,不仅提高了话题聚类的精度,而且降低了程序的时空复杂度;同时,构建的文本词向量为稀疏向量,使用了基于稀疏矩阵的向量相乘方法,极大降低了程序的时间复杂度。
参见图2,是本发明提供的一种基于层次增量聚类的话题检测系统的功能示意图,包括获取单元201、处理单元202和确定单元203,具体如下:
获取单元201,用于获取文本信息,并采用分词器将所述文本信息划分为至少一个词语。
处理单元202,用于将每个所述词语根据切分顺序组成词序列。
确定单元203,用于分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值。
所述处理单元202,还用于根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量。
所述确定单元203,还用于确定是否预先存储有类别的类中心向量。
所述处理单元202,还用于在所述确定单元202确定预先存储有类别的类中心向量时,计算所述文本词向量与每个类中心向量的相似度。
所述确定单元203,还用于将每个所述相似度与预设的归类阈值进行比较,若确定存在有大于所述归类阈值的相似度时,则将大于所述归类阈值的相似度对应的类别确定为候选类集。
所述确定单元203,还用于确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中。
本发明提供了一种基于层次增量聚类的话题检测系统,首先通过分词器对文本信息进行分词,然后将分词根据预设顺序组成词序列,通过词语的词频—反转文件频率和哈希整数值构建文本词向量,同时计算文本词向量与每个类中心向量的相似度,通过比较相似度与预设的归类阀值,确定文本信息的归类,最后根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算;综上所示,本发明使用了两层聚类模式,不仅提高了话题聚类的精度,而且降低了程序的时空复杂度;同时,构建的文本词向量为稀疏向量,使用了基于稀疏矩阵的向量相乘方法,极大降低了程序的时间复杂度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于层次增量聚类的话题检测方法,其特征在于,包括以下步骤:
获取文本信息,并采用分词器将所述文本信息划分为至少一个词语;
将每个所述词语根据切分顺序组成词序列;
分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值;
根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量;
确定是否预先存储有类别的类中心向量;在确定预先存储有类别的类中心向量时,计算所述文本词向量与每个类中心向量的相似度;
将每个所述相似度与预设的归类阈值进行比较,若确定存在有大于所述归类阈值的相似度时,则将大于所述归类阈值的相似度对应的类别确定为候选类集;
确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中。
2.如权利要求1所述的话题检测方法,其特征在于,若确定每个所述相似度均小于等于所述归类阈值,则将所述文本信息确定为新增类别。
3.如权利要求1所述的话题检测方法,其特征在于,在确定没有预先存储的类中心向量时,将所述文本信息确定为新增类别。
4.如权利要求1所述的话题检测方法,其特征在于,所述采用分词器将所述文本信息划分为至少一个词语包括:
所述分词器采用正向最大匹配法将所述文本信息划分为至少一个词语。
5.如权利要求1所述的话题检测方法,其特征在于,所述确定所述词序列中每个所述词语的词频—反转文件频率包括:
根据公式确定所述词序列中每个词语的词频,其中,tfi为第i个词语的词频,ni为第i个词语在所述文本信息中出现的次数,∑knk为文本信息中所有词语出现次数的总和,i为正整数,k为正整数;
确定第i个词语是否在系统语料库中;
在确定第i个词语在系统语料库中时,根据公式确定所述词序列中每个词语的反转文件频率,其中,idfi为第i个词语的反转文件频率,d为所述文本信息,ti为所述词序列中的第i个词语,|{j:ti∈d}|为系统语料库中包含第i个词语的文件数量,|D|为系统语料库中文件的总数量;
在确定第i个词语不在系统语料库中时,根据公式确定所述词序列中每个词语的反转文件频率;
根据公式tf_idfi=idfi×tfi确定所述词序列中每个词语的词频—反转文件频率,其中,tf_idfi为第i个词语的词频—反转文件频率。
6.如权利要求5所述的话题检测方法,其特征在于,所述根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量包括:
根据公式构建文本词向量,其中,为所述文本词向量,hi为第i个词语的哈希整数值。
7.如权利要求6所述的话题检测方法,其特征在于,所述计算所述文本词向量与每个类中心向量的相似度包括:
根据公式计算所述文本词向量与每个类中心向量的相似度,其中,S为文本词向量与每个类中心向量的相似度,为所述类中心向量,为所述文本词向量的模,||C||为所述类中心向量的模。
8.如权利要求7所述的话题检测方法,其特征在于,在所述确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中之后,还包括:
根据公式更新所述最大相似度对应的类别的类中心向量,其中,m为所述类中心向量被更新的次数,为第j个类中心向量,为更新后的第j个类中心向量。
9.如权利要求8所述的话题检测方法,其特征在于,在所述根据公式更新所述最大相似度对应的类别的类中心向量之后,还包括:
根据预设时间周期性的对每个所述类别的类中心向量进行聚类计算。
10.一种基于层次增量聚类的话题检测系统,其特征在于,包括:
获取单元,用于获取文本信息,并采用分词器将所述文本信息划分为至少一个词语;
处理单元,用于将每个所述词语根据切分顺序组成词序列;
确定单元,用于分别确定所述词序列中每个所述词语的词频—反转文件频率和哈希整数值;
所述处理单元,还用于根据每个词语的所述词频—反转文件频率和哈希整数值构建文本词向量;
所述确定单元,还用于确定是否预先存储有类别的类中心向量;
所述处理单元,还用于在所述确定单元确定预先存储有类别的类中心向量时,计算所述文本词向量与每个类中心向量的相似度;
所述确定单元,还用于将每个所述相似度与预设的归类阈值进行比较,若确定存在有大于所述归类阈值的相似度时,则将大于所述归类阈值的相似度对应的类别确定为候选类集;
所述确定单元,还用于确定出所述候选类集中最大相似度对应的类别,并将所述文本信息归类为所述最大相似度对应的类别中。
CN201610797846.1A 2016-08-31 2016-08-31 一种基于层次增量聚类的话题检测方法及系统 Pending CN106339495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610797846.1A CN106339495A (zh) 2016-08-31 2016-08-31 一种基于层次增量聚类的话题检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610797846.1A CN106339495A (zh) 2016-08-31 2016-08-31 一种基于层次增量聚类的话题检测方法及系统

Publications (1)

Publication Number Publication Date
CN106339495A true CN106339495A (zh) 2017-01-18

Family

ID=57823676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610797846.1A Pending CN106339495A (zh) 2016-08-31 2016-08-31 一种基于层次增量聚类的话题检测方法及系统

Country Status (1)

Country Link
CN (1) CN106339495A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN108874813A (zh) * 2017-05-10 2018-11-23 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN109492109A (zh) * 2018-11-22 2019-03-19 北京神州泰岳软件股份有限公司 一种信息热点挖掘方法及装置
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN109710753A (zh) * 2018-12-29 2019-05-03 北京金山安全软件有限公司 基于个性化主题的快捷信息生成方法、装置和电子设备
CN110019771A (zh) * 2017-07-28 2019-07-16 北京国双科技有限公司 文本处理的方法及装置
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN110781296A (zh) * 2019-09-16 2020-02-11 中国平安人寿保险股份有限公司 基于深度学习的数据归类方法、及其相关设备
CN110888978A (zh) * 2018-09-06 2020-03-17 北京京东金融科技控股有限公司 文章聚类方法、装置、电子设备、存储介质
CN111061877A (zh) * 2019-12-10 2020-04-24 厦门市美亚柏科信息股份有限公司 文本主题提取方法和装置
CN113010670A (zh) * 2021-02-22 2021-06-22 腾讯科技(深圳)有限公司 账号信息聚类方法、检测方法、装置及存储介质
CN113361249A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 文档判重方法、装置、电子设备和存储介质
CN113704465A (zh) * 2021-07-21 2021-11-26 大箴(杭州)科技有限公司 文本聚类方法及装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194012A (zh) * 2011-06-17 2011-09-21 清华大学 微博话题检测方法及系统
US20130151531A1 (en) * 2011-12-13 2013-06-13 Xerox Corporation Systems and methods for scalable topic detection in social media
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN105320646A (zh) * 2015-11-17 2016-02-10 天津大学 一种基于增量聚类的新闻话题挖掘方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194012A (zh) * 2011-06-17 2011-09-21 清华大学 微博话题检测方法及系统
US20130151531A1 (en) * 2011-12-13 2013-06-13 Xerox Corporation Systems and methods for scalable topic detection in social media
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN105320646A (zh) * 2015-11-17 2016-02-10 天津大学 一种基于增量聚类的新闻话题挖掘方法及其装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874813A (zh) * 2017-05-10 2018-11-23 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN108874813B (zh) * 2017-05-10 2022-07-29 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN110019771A (zh) * 2017-07-28 2019-07-16 北京国双科技有限公司 文本处理的方法及装置
CN108763208B (zh) * 2018-05-22 2023-09-05 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN110888978A (zh) * 2018-09-06 2020-03-17 北京京东金融科技控股有限公司 文章聚类方法、装置、电子设备、存储介质
CN109492109B (zh) * 2018-11-22 2021-09-17 鼎富智能科技有限公司 一种信息热点挖掘方法及装置
CN109492109A (zh) * 2018-11-22 2019-03-19 北京神州泰岳软件股份有限公司 一种信息热点挖掘方法及装置
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN109710753A (zh) * 2018-12-29 2019-05-03 北京金山安全软件有限公司 基于个性化主题的快捷信息生成方法、装置和电子设备
CN110781296A (zh) * 2019-09-16 2020-02-11 中国平安人寿保险股份有限公司 基于深度学习的数据归类方法、及其相关设备
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN111061877A (zh) * 2019-12-10 2020-04-24 厦门市美亚柏科信息股份有限公司 文本主题提取方法和装置
CN113010670A (zh) * 2021-02-22 2021-06-22 腾讯科技(深圳)有限公司 账号信息聚类方法、检测方法、装置及存储介质
CN113010670B (zh) * 2021-02-22 2023-09-19 腾讯科技(深圳)有限公司 账号信息聚类方法、检测方法、装置及存储介质
CN113361249A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 文档判重方法、装置、电子设备和存储介质
CN113361249B (zh) * 2021-06-30 2023-11-17 北京百度网讯科技有限公司 文档判重方法、装置、电子设备和存储介质
CN113704465A (zh) * 2021-07-21 2021-11-26 大箴(杭州)科技有限公司 文本聚类方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN106339495A (zh) 一种基于层次增量聚类的话题检测方法及系统
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN106202032B (zh) 一种面向微博短文本的情感分析方法及其系统
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
Do et al. Multiview deep learning for predicting twitter users' location
Faguo et al. Research on short text classification algorithm based on statistics and rules
CN102929861B (zh) 一种文本情感指数计算方法和系统
Chawla et al. Product opinion mining using sentiment analysis on smartphone reviews
TW201839628A (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN110188359B (zh) 一种文本实体抽取方法
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN105760474A (zh) 一种基于位置信息的文档集的特征词提取方法及系统
CN107180075A (zh) 文本分类集成层次聚类分析的标签自动生成方法
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN107688630A (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN105183792B (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
CN109597926A (zh) 一种基于社交媒体突发事件的信息获取方法及系统
CN110705281B (zh) 一种基于机器学习的简历信息抽取方法
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
CN108519978A (zh) 一种基于主动学习的中文正式文本分词方法
CN103268346A (zh) 半监督分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170118