CN102929906B - 基于内容特征和主题特征的文本分组聚类方法 - Google Patents

基于内容特征和主题特征的文本分组聚类方法 Download PDF

Info

Publication number
CN102929906B
CN102929906B CN201210285275.5A CN201210285275A CN102929906B CN 102929906 B CN102929906 B CN 102929906B CN 201210285275 A CN201210285275 A CN 201210285275A CN 102929906 B CN102929906 B CN 102929906B
Authority
CN
China
Prior art keywords
text
feature
theme
theme feature
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210285275.5A
Other languages
English (en)
Other versions
CN102929906A (zh
Inventor
卢美莲
李佳珊
王明华
叶小卫
刘金亮
曹一鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING GOZAP TECHNOLOGY Co Ltd
Beijing University of Posts and Telecommunications
Original Assignee
BEIJING GOZAP TECHNOLOGY Co Ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GOZAP TECHNOLOGY Co Ltd, Beijing University of Posts and Telecommunications filed Critical BEIJING GOZAP TECHNOLOGY Co Ltd
Priority to CN201210285275.5A priority Critical patent/CN102929906B/zh
Publication of CN102929906A publication Critical patent/CN102929906A/zh
Application granted granted Critical
Publication of CN102929906B publication Critical patent/CN102929906B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于内容特征和主题特征的文本分组聚类方法,包括:提取所述文本的内容特征和主题特征;将所述主题特征转换为二进制主题特征;采用相同的分组算法对文本基于所述内容特征和所述二进制主题特征依次进行分组,获得层次化的文本分组结果;对所述文本分组结果进行聚类。使用本发明提供的基于内容特征和主题特征的文本分组聚类方法对新闻文本进行分组聚类,可以令新闻文本的聚类结果在兼顾新闻事件的针对性的基础上避免聚类结果过多的缺陷。

Description

基于内容特征和主题特征的文本分组聚类方法
技术领域
本发明涉及信息处理技术,尤其涉及一种基于内容特征和主题特征的文本分组聚类方法。
背景技术
文本是信息的主要载体,随着互联网的发展,浏览网络上及时发布的新闻文本成为人们获取信息的重要手段,当前网络上的新闻文本信息数量巨大,为了使人们能够快速、方便地导航和浏览新闻,需要对新闻文本使用文本聚类技术进行聚类。
文本聚类技术能够将文本集自动划分成多个簇,使得处于同一个簇中的文本具有一定的相似性,不同簇中的文本之间的相似性尽可能低。目前的文本聚类方法通常按照以下流程处理:(1)文本特征选择和抽取,(2)文本相似性度量,(3)分组聚类。目前的文本聚类技术主要是基于文本的内容特征或主题特征分别进行聚类,且大多采用向量空间模型来表示文本的内容特征。对于新闻文本而言,文本的内容特征可以很好表达该新闻事件的针对性,但内容特征向量维度很高且具有稀疏性,其中还包含影响聚类效率和准确率的噪声等。而主题特征主要采用主题模型训练的方法来提取,主题特征可以有效避免基于内容特征的聚类中聚类结果过多的问题,但对于新闻事件的针对性不强。
由于内容特征与主题特征的特征数据表达方式不同,无法应用同一种分组聚类的方法基于文本的两种特征数据共同对文本进行分组聚类,目前对新闻文本分组聚类没有很好的解决办法。
发明内容
本发明提供一种基于内容特征和主题特征的文本分组聚类方法,以实现对新闻文本基于内容特征和主题特征依次进行分层次的分组聚类。
本发明提供一种基于内容特征和主题特征的文本分组聚类方法,包括:
提取所述文本的内容特征和主题特征;
将所述主题特征转换为二进制主题特征;
采用相同的分组算法对文本基于所述内容特征和所述二进制主题特征依次进行分组,获得层次化的文本分组结果;
对所述文本分组结果进行聚类。
进一步地,上述文本分组聚类方法,将所述主题特征转换为二进制主题特征,具体可以为:
将主题特征Ti=(w1,w2,...,wm)转换为二进制主题特征Ti′=(w′1,w′2,...,w′m),
其中,θ是用于判定所述新闻文本是否具有第i种主题上的信息的参数。φ是用于将m维的主题特征转换到二进制空间上的转换参数。
本发明通过对主题特征向量的转化,可以使用相同的分组方法和聚类方法对文本基于内容和主题两种特征依次进行分组聚类,应用本发明提供的分组聚类方法对新闻文本进行聚类,可以令新闻文本的聚类结果在兼顾新闻事件的针对性的基础上避免聚类结果过多的缺陷。
附图说明
图1为本发明基于内容特征和主题特征的文本分组聚类方法实施例一的流程图;
图2为本发明基于内容特征和主题特征的文本分组聚类方法实施例二的流程图;
图3为本发明基于内容特征和主题特征的文本分组聚类方法实施例三的流程图;
图4为本发明基于内容特征和主题特征的文本分组聚类方法具体实施例的流程图。
具体实施方式
图1为本发明基于内容特征和主题特征的文本分组聚类方法实施例一的流程图,如图1所示,本实施例对文本分组聚类的方法可以包括:
步骤S101,提取文本的内容特征和主题特征。
具体地,在提取文本的内容特征和主题特征之前,还需要对文本进行分词处理,上述分词技术为本领域技术人员可知悉的,此处不再赘述。经过分词处理后,将每篇新闻文本分别转化为文本的词语序列,通过选择短语长度,将词语序列转化成内容词语序列,使用特征提取技术将其转化为二进制空间向量形式,即二进制内容特征向量。通过对词语序列进行主题模型训练,生成主题特征向量。
优选地,在本实施例中使用Shingling算法将文本的词语序列转化为shingle片段,将shingle片段加入shingle库,用shingle库中的编号和该shingle在该文本中出现的次数来生成一个该文本的空间向量,用该空间向量表示文本的内容特征,并将其转化到二进制空间上,生成二进制内容特征向量。
优选地,在本实施例中使用LDA主题模型对文本的词语序列进行训练,首先给定主题数,应用LDA主题模型生成该文本的主题特征向量,主题特征向量中的每个值代表该文本在每一主题下的权重。
步骤S102,将上述主题特征转换为二进制主题特征。
具体地,将步骤S101中生成的主题特征向量转化到二进制空间上,生成二进制主题特征向量,使主题特征向量与内容特征向量处于同一个空间上,以便使用相同的分组聚类方法对文本基于内容特征和主题特征依次进行分组聚类。
步骤S103,采用相同的分组算法对文本基于上述内容特征和上述二进制主题特征依次进行分组,获得层次化的文本分组结果。
具体地,由于步骤S101和步骤S102中将内容特征向量与主题特征向量都转换为二进制空间上的向量表达形式,可以使用同一种分组算法基于内容特征和主题特征依次对文本进行分组,其中基于主题的分组结果建立在基于内容的分组结果的基础上,最后输出层次化的分组结果。
步骤S104,对上述文本分组结果进行聚类。
具体地,根据步骤S103对文本基于内容特征向量和主题特征向量的分组结果,使用聚类算法对文本进行聚类,输出文本聚类结果。
本实施例,通过对主题特征向量的转化,可以使用相同的分组方法和聚类方法对文本基于内容和主题两种特征依次进行分组聚类。应用本发明提供的分组聚类方法对新闻文本进行聚类,可以令新闻文本的聚类结果在兼顾新闻事件的针对性的基础上避免聚类结果过多的缺陷。
进一步地,上述步骤S102将主题特征转换为二进制主题特征的方法,具体可以为:
将主题特征Ti=(w1,w2,...,wm)转换为二进制主题特征Ti′=(w′1,w′2,...,w′m),
其中,θ是用于判定所述文本是否具有第i种主题上的信息的参数。φ是用于将m维的主题特征转换到二进制空间上的转换参数。
具体地,首先在步骤S101中选取m个主题,对每个文本生成主题特征向量Ti,Ti=(w1,w2,...,wm),其中wi表示该文本在第i个主题下的权重,且然后在步骤S102中设定参数θ、φ将特征向量Ti转换为特征向量Ti′,T′i=(w′1,w′2,...,w′m),
参数θ用于判定文本是否具有第i种主题上的信息,对于某文本,当一个主题出现的频率大于等于该值时,才认为该文本中包含该主题信息,参数φ是一个转换参数,用于将m维的主题向量转换到二进制空间上。可以将转化后的主题特征向量中的每个主题下的权值看作该主题出现的次数,即可认为有一个新的向量Ti″,该向量用主题的编号与该主题出现的次数来表示。
使用上述将主题特征转换为二进制主题特征的方法,可以将主题特征向量的表达形式转化为和内容特征向量相同的表达形式,以便于用相同的方法对其进行分组聚类。
图2为本发明基于内容特征和主题特征的文本分组聚类方法实施例二的流程图,如图2所示,在对实施例一中对文本基于内容特征和二进制主题特征依次进行分组之前,还可以包括:
步骤S201,将内容特征向量转换为二进制空间上的第一稀疏向量,并将二进制主题特征向量转换为二进制空间上的第二稀疏向量。
具体地,将上述方法实施例一中表示内容特征的二进制空间向量进行编码处理将其转化为二进制空间上的第一稀疏向量,将上述方法实施例一中的主题特征向量用上述编码方式将其转化为二进制空间上的第二稀疏向量。
步骤S202,采用Minhash算法对上述第一稀疏向量和第二稀疏向量进行降维处理。
具体地,获取内容特征向量的特征总数P,选取Minhash值长度M,生成M对随机数(aj,bj),构成一个hash函数(ajx,bj)modP,对上述第一稀疏向量的每一维进行hash,其中x表示第一稀疏向量中每一维的维度,得到最小的hash值作为该文本的第j个Minhash值,最终生成M维的Minhash向量,即第一Minhash签名向量。
相同地,对第二稀疏向量进行上述操作,将其转化为M维的Minhash向量,即第二Minhash签名向量。
步骤S203,对文本基于上述内容特征和二进制主题特征依次进行分组,包括:对文本基于内容特征对应的上述第一稀疏向量和二进制主题特征对应的上述第二稀疏向量进行分组。
具体地,对文本基于上述步骤S202中生成的第一稀疏向量和第二稀疏向量使用相同的分组算法进行分组操作。
本实施例,通过将内容特征向量和二进制主题特征向量转化为第一稀疏向量和第二稀疏向量使得可以使用Minhash算法将其降维,降维后生成的第一Minhash签名向量和第二Minhash签名向量维度较低,对文本基于所述第一Minhash签名向量和第二Minhash签名向量进行分组聚类可以降低运算复杂度,提高分组聚类的效率。
图3为本发明基于内容特征和主题特征的文本分组聚类方法实施例三的流程图,如图3所示,本实施例对文本分组聚类的方法可以包括:
步骤S301,采用LSH算法对文本基于第一稀疏向量进行相似度分组,获得基于内容特征的文本分组结果。
具体地,对上述方法实施例二中生成的第一Minhash签名向量进行分段LSH处理,选取相似度门限值τ1,根据选择整数b1和r1,其中b1为Minhash的分段数,r1为每段中包含的Minhash值个数,将第一Minhash签名向量分成b1段,对每段r1个Minhash值进行hash,hash值相同即分到同一bucket中,对文本集进行b1次该过程,每篇文本可被分到b1个bucket中,对每个bucket内的文本对象进行相似度检验,去除相似度未达到门限τ1的文本对象,并对组内文本对象相似度高于τ1的bucket进行合并。最后留下的每个bucket即为一个分组,被去除的相似度未达到门限τ1的文本即为无内容分组文本。由此得到基于内容特征的文本分组结果。
步骤S302,确定上述基于内容特征的文本分组结果中各组的中心文本。
具体地,步骤S301对基于内容特征分组的结果中每组可能包括数个文本,在每组中的数个文本中选取一个文本为该组的中心文本。选取中心文本的方法具体可以为:计算该组中每一文本与另外所有文本的相似度之和,该相似度之和最大的文本即为该组的中心文本。上述方法也可以理解为:在用空间向量表示的特征空间中,一个文本的特征向量与其他各文本的特征向量距离之和为最小值的文本即为该组的中心文本。
步骤S303,采用上述LSH算法对上述基于内容特征的文本分组结果中各组的中心文本以及未分组的文本基于所述第二稀疏向量描述的文本进行相似度分组,获得基于主题特征的文本分组结果。
具体地,将步骤S302中确定的分组结果中每组的中心文本的第二稀疏向量与未分组的文本的第二稀疏向量组成向量矩阵,选取相似度门限值τ2,采用上述LSH算法对其进行相似度分组。得到基于主题特征的分组与无主题分组文本。
步骤S304,确定上述基于主题特征的文本分组结果中各组的中心文本。
具体地,采用步骤S302中确定中心文本的方法,确定步骤S303分组后各组的中心文本。
步骤S305,对上述文本分组结果进行聚类,包括:对上述基于主题特征的文本分组结果中各组的中心文本进行聚类。
具体地,将步骤S304中确定的各组的中心文本和步骤S303中无主题分组的文本的主题特征向量组成特征矩阵,采用现有的聚类算法对其进行聚类,输出最终聚类结果。
本实施例,通过LSH算法首先对文本基于内容特征对应的第一稀疏向量进行分组,然后对文本基于二进制主题特征对应的第二稀疏向量进行分组,有效降低了分组数量,提高了分组聚类的效率。
进一步地,上述步骤S301获得基于内容特征的文本分组结果之后,还可以包括:对基于内容特征的文本分组结果进行冗余过滤处理;上述步骤S303获得基于主题特征的文本分组结果之后,还可以包括:对基于主题特征的文本分组结果进行冗余过滤处理。
具体地,设定相似度门限值τ3,比较步骤S301获得的基于内容特征的文本分组结果中各分组之间的相似度,将相似度高于门限值τ3的分组合并,得到过滤后的基于内容特征的文本分组结果,对该结果进行步骤S302所述的确定分组中心文本操作。设定相似度门限值τ4,比较步骤S303获得的基于主题特征的文本分组结果中各分组之间的相似度,将相似度高于门限值τ4的分组合并,得到过滤后的基于主题特征的文本分组结果,对该结果进行步骤S304所述的确定分组中心文本操作。最终得到基于主题特征的文本分组的结果。
通过上述对基于内容特征和基于主题特征的文本分组结果进行冗余过滤处理的操作,有效降低了分组后的分组数量,提高了后续分组聚类算法的效率。
进一步地,上述步骤S301采用LSH算法对文本基于第一稀疏向量进行相似度分组,获得基于内容特征的文本分组结果之前,还可以包括:采用LSH算法对全部文本基于内容特征进行相似度分组,删除各组中的重复文本;采用LSH算法对删除重复文本后的文本基于内容特征进行相似度分组。
具体地,设定相似度门限值τ5,该相似度门限值τ5为一高相似度门限,用以检测相似度很高的文本,将其认为是重复文本。采用上述LSH算法对文本基于第一稀疏向量生成的第一Minhash签名向量进行相似度分组。将相似度高于门限值τ5的文本分为一组,选取每组中长度最大的文本作为该组的代表文本,将每组的代表文本和未分组的文本的内容特征对应的第一Minhash签名向量作为代表文本内容特征的向量,采用上述实施例三的分组聚类方法对其进行分组聚类。
通过上述LSH算法对全部文本基于内容特征进行相似度分组,删除各组中的重复文本,有效降低了内容特征的数量,提高了分组聚类的效率。
需要说明的是,上述实施例中相似度门限值τ1、τ2、τ5可以为Jaccard系数(杰卡德系数),Jaccard系数为样本集的交集与样本集的合集的比值,Jaccard系数常用来表征文本特征的相似度。相似度门限值τ3、τ4可以为cosine系数(余弦系数),cosine系数也被用于度量两个词的相关性。
下面通过一具体实施例说明本发明提供的基于内容特征和主题特征的文本分组聚类方法的具体实现步骤。图4为本发明基于内容特征和主题特征的文本分组聚类方法具体实施例的流程图,如图4所示,
步骤S401,创建文本集。本实施例从多个中文门户网站上提取了3天内的15万条新闻文本作为文本集。
步骤S402,分词处理。本实施例通过中国科学院的ICTCLAS汉语分词系统对文本集进行分词处理,保留标记为n、nr、nrf、ns、nsf、nt、nz、nl的词,将文本表示成词语序列,并剔除词语数少于5的文本。每篇文本可表示为:<Ti,<词语1,词语2,...,词语d>>,其中Ti为第i条文本的编号,d为包含的词数。剔除词语数少于5的短新闻后,剩余约14万条文本。
步骤S403,提取内容特征向量。选取Shingle长度为2,即按文中顺序将每两个词组成一个shingle片段,加入shingle库,用shingle库中的编号和该shingle在文本中出现的次数将文本表示为空间向量形式。每条文本可表示为:
< T i , < < shingle i 1 , f i 1 > , < shingle i 2 , f i 2 > , &CenterDot; &CenterDot; &CenterDot; , < shingle is i , f is i > > >
其中Ti为第i条文本的编号,fij为文本i第j个shingle出现的次数,si为文本i包含的shingle数。
步骤S404,将内容特征向量转化为第一稀疏向量。将步骤S403中文本的特征向量转化为:
<Ti,<shingle1_1,shingle1_2,...,shingle1_fs1,...,
shingles-1,shingles-2,...,shingles-fss>>
其中Ti为第i条文本的编号,shingles-fss表示将第s个shingle扩展成fss个二进制空间上的shingle。将文本集表示成一个由14万个第一稀疏向量组成的内容特征矩阵。
步骤S405,提取主题特征向量。选取主题数为150,通过LDA方法进行主题模型训练,每条文本可表示为:
<Ti,<wt1,wt2,...,wt150>>
其中wtk表示该文本在第k个主题下的权重,且
步骤S406,将主题特征向量转换为二进制主题特征向量。设定参数θ、φ对主题特征向量进行转化:
<T′i,<w′t1,w′t2,...,w′t150>>
其中,
将转化后的主题向量中的每个主题下的权值看作该主题出现的次数,即:
<Ti,<<主题1,w′t1>,<主题2,w′t2>,...,<主题150,w′t150>>>
即为二进制主题特征向量。
步骤S407,将二进制主题特征向量转化为第二稀疏向量。按照步骤S404中的方法将二进制主题向量转化为第二稀疏向量。将文本集表示成一个由14万个第二稀疏向量组成的主题特征矩阵。
步骤S408,对第一稀疏向量和第二稀疏向量降维。选取Minhash值长度M=150,生成150对随机数(aL,bL),获取内容向量的特征总数P,构成一个hash函数(aLx,bL)modP,对第一稀疏向量的每一维进行hash,其中x表示第一稀疏向量中每一维的维度,得到最小的hash值作为该文本的第L个Minhash值,最终生成150维的Minhash向量,即第一Minhash签名向量。将文本集表示成一个14万行,150列的第一Minhash矩阵。使用上述方法将第二稀疏向量转化为第二Minhash签名向量,并将文本集表示成一个14万行,150列的第二Minhash矩阵。
步骤S409,删除重复文本。设定重复文本的Jaccard系数门限为0.5,根据得分段数b1=10,每段包含的minhash值个数r1=4,采用LSH算法对第一Minhash矩阵进行计算,得到重复文本数为28972,将重复文本结果存入数据库。每组重复文本中选取长度最大的文本作为该组的代表文本。
步骤S410,对文本基于内容特征进行分组。将非重复的文本的内容特征向量和重复文本分组中的代表文本的内容特征向量组成第三Minhash矩阵,设定内容相似文本的Jaccard系数门限为0.2,根据得分段数b2=50,每段包含的minhash值个数r2=3,采用LSH算法对第三Minhash矩阵进行计算,得到文本基于内容特征分组数为29361个,无分组的文本75786个,将文本基于内容特征分组结果存入数据库。每组选取中心文本作为该组的代表文本。
步骤S411,对文本基于主题特征进行分组。将步骤S410中无分组的文本的主题特征向量和所有内容分组的代表文本的主题特征向量组成第四Minhash矩阵,设定主题相似文本的Jaccard系数门限为0.25,根据得分段数b3=50,每段包含的minhash值个数r3=3,采用LSH算法对第四Minhash矩阵进行计算,得到文本基于主题特征分组数为53468个,无分组的文本335个,将文本基于主题特征分组结果存入数据库。每组选取中心文本作为该组的代表文本。
步骤S412,对文本进行聚类。将无主题分组文本和主题分组的代表文本的主题特征向量组成特征矩阵。采用快速聚类的方法对文本基于该特征矩阵进行聚类,得到1031个聚类。
通过本具体实施例的描述可知,通过本发明提供的分组聚类方法对采集到的新闻文本进行分组聚类后,将提取的15万条新闻文本转化为1031个聚类,聚类数量较少,并且由于进行了冗余过滤、重复删除等操作,聚类的准确性也较高。用户在上网进行新闻浏览时,可以在1031个聚类中选择感兴趣的聚类进行针对性浏览,并且避免了浏览到描述重复内容的新闻文本。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种基于内容特征和主题特征的文本分组聚类方法,其特征在于,包括:
提取所述文本的内容特征和主题特征;
将所述主题特征转换为二进制主题特征;
采用相同的分组算法对文本基于所述内容特征和所述二进制主题特征依次进行分组,获得层次化的文本分组结果;
对所述文本分组结果进行聚类;
所述将所述主题特征转换为二进制主题特征,具体为:
将主题特征Ti=(w1,w2,...,wm)转换为二进制主题特征Ti'=(w′1,w′2,...,w′m),
其中,θ是用于判定所述文本是否具有第i种主题上的信息的参数,φ是用于将m维的主题特征转换到二进制空间上的转换参数。
2.根据权利要求1所述的方法,其特征在于,对文本基于所述内容特征和所述二进制主题特征进行分组之前,还包括:
将所述内容特征转换为二进制空间上的第一稀疏向量,并将所述二进制主题特征转换为二进制空间上的第二稀疏向量;
采用Minhash算法对所述第一稀疏向量和第二稀疏向量进行降维处理;
对文本基于所述内容特征和所述二进制主题特征依次进行分组,包括:
对文本基于所述内容特征对应的所述第一稀疏向量和所述二进制主题特征对应的所述第二稀疏向量进行分组。
3.根据权利要求2所述的方法,其特征在于,所述对文本基于所述内容特征对应的所述第一稀疏向量和所述二进制主题特征对应的所述第二稀疏向量进行分组,包括:
采用LSH算法对文本基于所述第一稀疏向量进行相似度分组,获得基于内容特征的文本分组结果;
确定所述基于内容特征的文本分组结果中各组的中心文本;
采用所述LSH算法对所述基于内容特征的文本分组结果中各组的中心文本以及未分组的文本基于所述第二稀疏向量进行相似度分组,获得基于主题特征的文本分组结果;
确定所述基于主题特征的文本分组结果中各组的中心文本;
所述对所述文本分组结果进行聚类,包括:
对所述基于主题特征的文本分组结果中各组的中心文本进行聚类。
4.根据权利要求3所述的方法,其特征在于,所述获得基于内容特征的文本分组结果之后,还包括:
对所述基于内容特征的文本分组结果进行冗余过滤处理;
所述获得基于主题特征的文本分组结果之后,还包括:
对所述基于主题特征的文本分组结果进行冗余过滤处理。
5.根据权利要求3或4所述的方法,其特征在于,所述采用LSH算法对文本基于所述第一稀疏向量进行相似度分组,获得基于内容特征的文本分组结果之前,还包括:
采用所述LSH算法对全部文本基于所述内容特征进行相似度计算,删除重复文本;
所述采用LSH算法对文本基于所述内容特征进行相似度分组,包括:
采用LSH算法对删除重复文本后的文本基于内容特征进行相似度分组。
CN201210285275.5A 2012-08-10 2012-08-10 基于内容特征和主题特征的文本分组聚类方法 Expired - Fee Related CN102929906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210285275.5A CN102929906B (zh) 2012-08-10 2012-08-10 基于内容特征和主题特征的文本分组聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210285275.5A CN102929906B (zh) 2012-08-10 2012-08-10 基于内容特征和主题特征的文本分组聚类方法

Publications (2)

Publication Number Publication Date
CN102929906A CN102929906A (zh) 2013-02-13
CN102929906B true CN102929906B (zh) 2015-07-22

Family

ID=47644704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210285275.5A Expired - Fee Related CN102929906B (zh) 2012-08-10 2012-08-10 基于内容特征和主题特征的文本分组聚类方法

Country Status (1)

Country Link
CN (1) CN102929906B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226577A (zh) * 2013-04-01 2013-07-31 儒豹(苏州)科技有限责任公司 一种新闻聚类方法
CN104252465B (zh) * 2013-06-26 2018-10-12 南宁明江智能科技有限公司 一种利用代表向量过滤信息的方法和装置
CN105574005A (zh) * 2014-10-10 2016-05-11 富士通株式会社 对包含多个文档的源数据进行聚类的装置和方法
KR101624272B1 (ko) * 2014-11-28 2016-05-25 비씨카드(주) 사용 업종 예측을 위한 카드 사용 패턴 분석 방법 및 이를 수행하는 서버
CN106294350B (zh) * 2015-05-13 2019-10-11 阿里巴巴集团控股有限公司 一种文本聚合方法及装置
CN105469104B (zh) * 2015-11-03 2019-09-10 小米科技有限责任公司 文本信息相似度的计算方法、装置及服务器
CN106815244B (zh) * 2015-11-30 2020-02-07 北京国双科技有限公司 文本向量表示方法及装置
CN106897276A (zh) * 2015-12-17 2017-06-27 中国科学院深圳先进技术研究院 一种互联网数据聚类方法及系统
CN106921891B (zh) * 2015-12-24 2020-02-11 北京奇虎科技有限公司 一种视频特征信息的展示方法和装置
CN108108371B (zh) * 2016-11-24 2021-06-29 北京国双科技有限公司 一种文本分类方法及装置
CN107145485B (zh) * 2017-05-11 2020-06-23 百度国际科技(深圳)有限公司 用于压缩主题模型的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560466B2 (en) * 2010-02-26 2013-10-15 Trend Micro Incorporated Method and arrangement for automatic charset detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法

Also Published As

Publication number Publication date
CN102929906A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN102929906B (zh) 基于内容特征和主题特征的文本分组聚类方法
CN101710334B (zh) 基于图像哈希的大规模图像库检索方法
Yun et al. Incremental high utility pattern mining with static and dynamic databases
Hassan et al. Twitter sentiment analysis: A bootstrap ensemble framework
CN102799647B (zh) 网页去重方法和设备
KR102028708B1 (ko) 대용량 이벤트 파일에서 시간 관계를 병렬 탐사하기 위한 방법
CN104199857A (zh) 一种基于多标签分类的税务文档层次分类方法
EP2045731A1 (en) Automatic generation of ontologies using word affinities
CN102567464A (zh) 基于扩展主题图的知识资源组织方法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN102521248A (zh) 一种网络用户分类方法及其装置
KR20190075962A (ko) 데이터 처리 방법과 데이터 처리 장치
CN106055621A (zh) 一种日志检索方法及装置
CN109344262A (zh) 知识体系的建立方法、装置及存储介质
CN106557558A (zh) 一种数据分析方法及装置
CN104636424A (zh) 一种基于图谱分析构建文献综述框架的方法
CN103049581A (zh) 一种基于一致性聚类的Web文本分类方法
CN106372105A (zh) 一种基于Spark平台的微博数据预处理方法
CN103970842A (zh) 一种面向防洪减灾领域的水利大数据存取系统及方法
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN109635084A (zh) 一种多源数据文档实时快速去重方法及系统
CN106991090A (zh) 舆情事件实体的分析方法及装置
CN107748739A (zh) 一种短信文本模版的提取方法及相关装置
Subramanian et al. UP-GNIV: an expeditious high utility pattern mining algorithm for itemsets with negative utility values
Du et al. Research on decision tree algorithm based on information entropy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20210810

CF01 Termination of patent right due to non-payment of annual fee