CN103455534A - 对文档进行聚类的方法和装置 - Google Patents

对文档进行聚类的方法和装置 Download PDF

Info

Publication number
CN103455534A
CN103455534A CN2013101571142A CN201310157114A CN103455534A CN 103455534 A CN103455534 A CN 103455534A CN 2013101571142 A CN2013101571142 A CN 2013101571142A CN 201310157114 A CN201310157114 A CN 201310157114A CN 103455534 A CN103455534 A CN 103455534A
Authority
CN
China
Prior art keywords
document
bunch
coordinate
geometric center
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101571142A
Other languages
English (en)
Other versions
CN103455534B (zh
Inventor
黄平春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northern Boundary Of Imagination (beijing) Software Co Ltd
Original Assignee
Northern Boundary Of Imagination (beijing) Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northern Boundary Of Imagination (beijing) Software Co Ltd filed Critical Northern Boundary Of Imagination (beijing) Software Co Ltd
Priority to CN201310157114.2A priority Critical patent/CN103455534B/zh
Publication of CN103455534A publication Critical patent/CN103455534A/zh
Priority to PCT/CN2014/076483 priority patent/WO2014177050A1/zh
Application granted granted Critical
Publication of CN103455534B publication Critical patent/CN103455534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种对文档进行聚类的方法和装置。该方法包括:步骤A、对文档分别进行矢量化,其中,每篇文档在矢量化后对应多维空间中的一个文档坐标;步骤B、将多个文档坐标聚为两个簇并分别获取每个簇在多维空间中的几何中心;步骤C、分别计算每个簇的平均半径,并在平均半径满足预设条件时,将两个簇中的文档坐标对应的文档聚为一个不可分裂的类,在平均半径不满足预设条件时,将两个簇分别对应为两个可分裂的类,其中,平均半径为簇中所有文档坐标到几何中心的距离的平均值;步骤D、在每个可分裂的类中,再次执行步骤B和步骤C;以及步骤E、当每篇文档都属于不可分裂的类时,终止聚类。通过本发明,提高了对文档进行聚类的准确性和智能性。

Description

对文档进行聚类的方法和装置
技术领域
本发明涉及互联网领域,特别涉及一种对文档进行聚类的方法和装置。
背景技术
在互连网信息急剧增加的环境下,如何有效准确的得到所需的信息成为亟待解决的技术问题。其中,如何对网络文档进行聚类以得到多种文档类别尤为关键。
现有技术中对文档进行聚类的方法智能性较低,需要依靠人工的参与,即预先人工输入聚类数值,确定将文档聚为几类后,才能开始聚类,例如,人工输入将文档聚为3类或4类。当人工输入的聚类数值不准时,聚类效果会受到很大影响,进一步地,当文档数量为海量时,人工无法给出一个聚类数值,聚类操作难以进行。
发明内容
本发明实施例提供一种对文档进行聚类的方法和装置,避免了人工参与,提高了对文档进行聚类的准确性和智能性。
本发明为了实现上述目的提供一种对文档进行聚类的方法,包括:步骤A、对文档分别进行矢量化,其中,每篇文档在矢量化后对应多维空间中的一个文档坐标;步骤B、将多个文档坐标聚为两个簇并分别获取每个簇在多维空间中的几何中心;步骤C、分别计算每个簇的平均半径,并在平均半径满足预设条件时,将两个簇中的文档坐标对应的文档聚为一个不可分裂的类,在平均半径不满足预设条件时,将两个簇分别对应为两个可分裂的类,其中,平均半径为簇中所有文档坐标到几何中心的距离的平均值;步骤D、在每个可分裂的类中,再次执行步骤B和步骤C;以及步骤E、当每篇文档都属于不可分裂的类时,终止聚类。
在一个实施例中,步骤B包括:步骤F、根据文档坐标的距离将多个文档坐标聚为两个簇中。
在一个实施例中,步骤F包括:步骤G、等概率选取两个文档坐标;步骤H、分别计算每个未选取的文档坐标与选取的两个文档坐标的距离,并将未选取的文档坐标与距其距离短的选取的文档坐标聚为同一个簇。
在另一个实施例中,步骤F包括:步骤G、随机选取一个文档坐标;步骤H、将在选取的文档坐标预设距离内的多个文档坐标聚为一个簇,将不在选取的文档坐标预设距离内的多个文档坐标聚为一个簇。
在一个实施例中,在步骤B与步骤C之间,还包括:步骤I、将每个文档坐标与两个几何中心进行比较,并将其与两个几何中心中距其距离短的几何中心聚为一个新一代的簇;步骤J、获取每个新一代的簇在多维空间中的几何中心,当相邻两代的簇的几何中心的距离差值不满足预设的阈值时,重复步骤I,当相邻两代的簇的几何中心的距离差值满足预设的阈值时,执行步骤C。
在一个实施例中,预设条件包括:两个簇的平均半径之和不小于两个几何中心之间的距离。
本发明为了实现上述目的还提供一种对文档进行聚类的装置,包括:获取模块,用于对所述文档分别进行矢量化,其中,每篇文档在矢量化后对应多维空间中的一个文档坐标;第一分类模块,用于将多个所述文档坐标聚为两个簇并分别获取每个簇在所述多维空间中的几何中心;处理模块,用于分别计算所述每个簇的平均半径,并在所述平均半径满足预设条件时,将所述两个簇中的所述文档坐标对应的文档聚为一个不可分裂的类,在所述平均半径不满足预设条件时,将所述两个簇分别对应为两个可分裂的类,其中,所述平均半径为所述簇中所有文档坐标到所述几何中心的距离的平均值;第一调用模块,用于在所述每个可分裂的类中,再次调用所述第一分类模块和所述处理模块对所述可分裂的类中的文档坐标进行操作;以及终止模块,用于当每篇文档都属于不可分裂的类时,终止聚类。
在一个实施例中,第一分类模块根据文档坐标的距离将多个文档坐标聚为两个簇中。
在一个实施例中,第一分类模块包括:选取子模块,用于等概率选取两个文档坐标;分类子模块,用于分别计算每个未选取的文档坐标与选取的两个文档坐标的距离,并将未选取的文档坐标与距其距离短的选取的文档坐标聚为同一个簇。
在另一个实施例中,第一分类模块包括:选取子模块,用于随机选取一个文档坐标;分类子模块,用于将在选取的文档坐标预设距离内的多个文档坐标聚为一个簇,将不在选取的文档坐标预设距离内的多个文档坐标聚为一个簇。
在一个实施例中,上述装置还包括:第二分类模块,用于将每个文档坐标与两个几何中心进行比较,并将其与两个几何中心中距其距离短的几何中心聚为一个新一代的簇;第二调用模块,用于获取每个新一代的簇在多维空间中的几何中心,当相邻两代的簇的几何中心的距离差值不满足预设的阈值时,调用第二分类模块,当相邻两代的簇的几何中心的距离差值满足预设的阈值时,调用处理模块。
在一个实施例中,预设条件包括:两个簇的平均半径之和不小于两个几何中心之间的距离。
本发明既能准确地对文档进行聚类,也避免了人工参与,提高了对文档进行聚类的准确性和智能性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是根据本发明实施例的对文档进行聚类的方法的流程图;
图2是根据本发明优选实施例的对文档进行聚类的方法的流程图;
图3是根据本发明实施例的等概率选取2个文档坐标的示意图;
图4A是根据本发明实施例的预设条件判断标准一的示意图;
图4B是根据本发明实施例的预设条件判断标准二的示意图;
图5是根据本发明实施例的对文档进行聚类的装置的结构框图;
图6是根据本发明优选实施例的对文档进行聚类的装置的结构框图;
图7是根据本发明的另一优选实施例的对文档进行聚类的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
现在将参考附图进一步详细描述本发明。本发明可以许多不同的形式来实现,不应该被理解为仅限于此处所阐述的实施例。这些实施例只作为示例提供,以便为本领域技术人员提供对本发明的完全理解。
图1是根据本发明实施例的对文档进行聚类的方法的流程图。如图1所示,包括步骤102至步骤110。
在步骤102中,对获取到的多篇文档分别进行矢量化,其中,每篇文档在矢量化后对应多维空间中的一个文档坐标。
在步骤104中,将多个文档坐标聚为两个簇并分别获取每个簇在多维空间中的几何中心。
在步骤106中,分别计算每个簇的平均半径,并根据平均半径,将每个簇中的文档坐标聚为两个可分裂的类或一个不可分裂的类。具体地,在平均半径满足预设条件时,将两个簇中的文档坐标对应的文档聚为一个不可分裂的类,在平均半径不满足预设条件时,将两个簇分别对应为两个可分裂的类,其中,平均半径为簇中所有文档坐标到几何中心的距离的平均值。
聚类条件可以根据具体情况进行设置,例如预设条件为两个簇的平均半径之和不小于两个几何中心之间的距离。
在步骤108中,在可分裂的类中,再次执行步骤104和步骤106。
在步骤110中,当每篇文档都属于不可分裂的类时,终止聚类。
在本实施例中,先将所有的文档对应的文档坐标聚成两个簇,再在每一类中通过文档坐标的距离判断文档内容的紧密度,并判断每个簇是否需要继续分裂,从而自动根据文档内容对文档进行聚类,该方法既能准确地对文档进行聚类,也避免了人工参与,提高了对文档进行聚类的准确性和智能性。
图2是根据本发明优选实施例的对文档进行聚类的方法的流程图。如图2所示,包括步骤202至步骤220。
步骤202,分别对多篇文档进行分词。
分词过程可以基于词库的正向最大匹配,非词库中的连续出现的英文数字混排字符也会作分词处理。具体步骤可包括:
获取词库,词库中包括常用的词汇,例如各常用的动词和名词。
将网页文档中的文字与词库匹配以进行分词。
步骤204,分别对分词后的各文档进行矢量化。
矢量化后的文档对应一个文档向量,该文档向量同时也表示多维空间中的一个文档坐标。
首先获取在步骤202中分出的所有去重后的词语,生成列表。以3篇文档为例,文档1中包括a、b、c和d四个词语,文档2中包括b、a、e和f四个词语,文档3包括c、b、a、e和d五个词语,去重后生成的列表为a、b、c、d、e和f。
然后可以根据列表中的词语的词频值等词语特性进行矢量化。例如,a的词频值为x1,b的词频值为x2,c的词频值为x3,d的词频值为x4,e的词频值为x5,f的词频值为x6,则列表矢量化的结果为(x1,x2,x3,x4,x5,x6),由于列表矢量化的结果是6维的,因此将各文档按照列表的顺序进行矢量化后,各文档矢量化后分别对应6维空间中的一个文档坐标,文档1对应的文档坐标为(x1,x2,x3,x4,0,0),文档2对应的文档坐标为(x1,x2,0,0,x5,x6),文档3对应的文档坐标为(x1,x2,x3,x4,x5,0)。
步骤206,根据文档坐标的距离将多个文档坐标分到两个簇中。
在本实施例的一种具体实现方式中,可以先等概率选取2个文档坐标,使得n个文档坐标中,每个文档坐标被选取的概率为2/n。
等概率选取2个文档坐标的具体过程如下:
首先,将n个文档坐标中的前2个文档坐标存放在预设位置中。
随即,当出现第3个文档坐标时,由于总共有3个文档坐标,而预设位置仅能存放2个文档坐标,因此第3个文档坐标有2/3的概率被选择存放到预设位置,当第3个文档坐标被选择时,该文档坐标随机替换已存放在预设位置的前2个文档坐标中的一个。同理,当出现第4个文档坐标时,由于总共有4个文档坐标,而预设位置仅能存放2个文档坐标,因此第4个文档坐标有2/4的概率被选择,当第4个文档坐标被选择时,该文档坐标随机替换在预设位置已存放的一个文档坐标,以此类推。由于预设位置每次最多仅有1个文档坐标发生替换,因此每个文档坐标被选取的概率是相等的。
因此,n个文档坐标遍历完毕后,预设位置的2个文档坐标就是等概率随机选取的,概率为2/n。优于随机从n个文档坐标中选取2个文档坐标。因为随机坐标选取中,第一次选取一个文档坐标的概率是1/n,第二次选取一个文档坐标的概率是1/(n-1),后被选取的文档坐标被选取的概率大于先被选取的文档坐标。
图3是根据本发明实施例的等概率选取2个文档坐标的流程图。如图3所示,包括以下步骤302至步骤312。
步骤302,将n个文档坐标的前2个放入预设位置。
步骤304,获取随机数i(2<i≤n),令初始i=3。
其中,n为文档坐标的个数。本实施例因为前2个文档坐标已经放入预设位置,因此初始值i从第3个文档坐标开始,计算从多个文档坐标中选取2个文档坐标的概率。
步骤306,从i个文档坐标中选2个放入预设位置,每个文档坐标概率2/i。
步骤308,判断i<n,如果是,执行步骤310;如果否,执行步骤312。
在本步骤中,判断是否已经遍历了所有的文档坐标。
步骤310,令i=i+1,并执行步骤306。
如果没有遍历所有的文档坐标,则继续计算增加一个文档坐标时选取2个文档坐标的概率。由于每次计算相比上一次计算,仅增加一个文档坐标,因此,预设位置最多只出现一个文档坐标的替换,每个文档坐标被替换的概率是相等的。
步骤312,得到从n个文档坐标中选2个放入预设位置的概率2/n,流程结束。
当i=n时,预设位置存放的2个文档坐标即为等概率选出的,概率均为2/n。
在选取2个文档坐标后,计算未被选取的文档坐标分别和这两个选取的文档坐标的欧几里德距离或余弦距离;本实施例以欧几里德距离为例:假设未被选取的文档坐标z3和两个选取的文档坐标z1及z2的距离分别为||z3-z1||与||z3-z2||,将z3与距其距离短的文档坐标z1或z2聚为同一个簇,以相同的步骤将其他未被选取的坐标文档聚到某一个簇中。
通过等概率选取,避免了后出现的文档坐标被选取的概率较高的情况。
在本实施例的另一种具体实现方式中,可以先随机选取一个文档坐标,然后根据经验值将该文档坐标预设距离内的文档坐标聚为同一个簇,再将所有其他的文档坐标聚为同一个簇。该实现方式的计算量小,聚类效果介于随机选取两个文档坐标和等概率选取两个文档坐标之间。
步骤208,确定每个簇的几何中心。
在本步骤中,分别计算每个簇中文档坐标均值,假设文档坐标的维度为M,则,一个簇的几何中心c=(Σx1/n1,Σx2/n1,Σx3/n1,…,ΣxM/n1),其中,n1为该簇包含的文档坐标的个数。
步骤210,根据几何中心重新将所有文档坐标聚为两个簇。
分别计算所有的文档坐标和这两个几何中心的距离,并根据步骤206的方法将所有文档坐标聚为两个簇。
步骤212,确定每个簇的新一代的几何中心。
步骤214,计算新一代的几何中心和上一代几何中心的距离,当该距离满足预设的阈值内时,执行步骤216;否则,再次执行步骤210至步骤212。例如,阈值为5个单位,当该距离为3个单位时,则满足该阈值,执行步骤216,但该距离为10个单位时,不满足该阈值,返回至步骤210。最终分别获取两个簇中确定的几何中心c1和c2。
步骤216,分别计算每个簇的平均半径。
一个簇的平均半径r=Σ(c-zi)/n1,其中,c为最后该簇确定的几何中心,zi为簇中的文档坐标,i为1到n1之间任一整数,n1为该簇包含的文档坐标的个数。通过本步骤,可以分别测得两个簇的半径r1和r2。
步骤218,判断两个簇的平均半径是否满足预设条件,并据此对上述两个簇进行聚类。在本实施例的一个实现方式中,该预设条件为两个簇的平均半径之和(r1+r2)不小于两个几何中心的距离||c1-c2||的大小。当(r1+r2)≥||c1-c2||时,将两个簇中的文档坐标对应的文档分别聚为两个可分裂的类;当(r1+r2)<||c1-c2||时,将两个簇中的文档坐标对应的文档聚为一个不可分裂的类。
对每个可分裂的类,再次执行步骤206至步骤218。
图4是根据本发明实施例的预设条件判断标准示意图,在计算出两个簇的平均半径r1、r2和两个几何中心的距离||c1-c2||后,可以通过示意图直观的判断两个簇的紧密度。分别生成以c1为圆心,r1为半径的圆,和以c2为圆心,r2为半径的圆,如图4A所示的判断标准一,当两个圆相交时,表示(r1+r2)<||c1-c2||,说明两个簇中的文档坐标对应的文档紧密度高,有交叉的内容,因此这两个簇中的文档坐标对应的文档应该聚为同一类;如图4B所示的判断标准二,当两个圆相离或相切时,表示(r1+r2)≥||c1-c2||,说明两个簇中的文档坐标对应的文档紧密度不高,内容相对独立,因此这两个簇中的文档坐标对应的文档应该分别聚为同一类,对这两个类中的文档,应该再次执行本实施例的上述步骤,判断是否能够继续细分。
步骤220,当所有的文档都属于某一不可分裂的类中时,终止聚类。
通过本实施例,可以通过文档在多维空间中的文档坐标之间的距离判断文档之间内容的紧密程度,从而自动进行聚类。进一步地,还可以根据聚类最终结果获知多篇文档被聚为几类,如若在采用其他聚类方法时,该聚类数目可以作为参考。
本实施例还提供了一种对文档进行聚类的装置,该装置的各模块和子模块分别对应于本实施例中的对文档进行聚类的方法的各步骤。
图5是根据本发明实施例的对文档进行聚类的装置500的结构框图。如图5所示,该装置包括获取模块502、第一分类模块504、处理模块506、第一调用模块508和终止模块510。
获取模块502用于对文档分别进行矢量化,其中,每篇文档在矢量化后对应多维空间中的一个文档坐标。
第一分类模块504用于将多个文档坐标聚为两个簇并分别获取每个簇在多维空间中的几何中心。
处理模块506用于分别计算每个簇的平均半径,并在平均半径满足预设条件时,将两个簇中的文档坐标对应的文档聚为一个不可分裂的类,在平均半径不满足预设条件时,将两个簇分别对应为两个可分裂的类,其中,平均半径为簇中所有文档坐标到几何中心的距离的平均值。
第一调用模块508用于在每个可分裂的类中,再次调用第一分类模块504和处理模块506对上述可分裂的类中的文档坐标进行操作。
终止模块510用于当每篇文档都属于不可分裂的类时,终止聚类。
图6是根据本发明优选实施例的对文档进行聚类的装置600的结构框图。如图6所示,第一分类模块504中包括选取子模块602和分类子模块604。
在一个实施例中,选取子模块602用于等概率选取两个文档坐标。分类子模块604用于分别计算每个未选取的文档坐标与选取的两个文档坐标的距离,并将未选取的文档坐标与距其距离短的选取的文档坐标聚为同一个簇。
在另一个实施例中,选取子模块602用于随机选取一个文档坐标。分类子模块604用于将在选取的文档坐标预设距离内的多个文档坐标聚为一个簇,将不在选取的文档坐标预设距离内的多个文档坐标聚为一个簇。
图7是根据本发明的另一优选实施例的对文档进行聚类的装置700的结构框图。如图7所示,本装置还包括第二分类模块702和第二调用模块704。
第二分类模块702用于将每个文档坐标与两个几何中心进行比较,并将其与两个几何中心中距其距离短的几何中心聚为一个新一代的簇。
第二调用模块704用于获取每个新一代的簇在多维空间中的几何中心,当相邻两代的簇的几何中心的距离差值满足预设的阈值时,调用第二分类模块702,当相邻两代的簇的几何中心的距离差值不满足预设的阈值时,调用处理模块506。
本实施例相比于现有技术,能够快速确定聚类数值,准确完成聚类操作。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种对文档进行聚类的方法,其特征在于,包括:
步骤A、对所述文档分别进行矢量化,其中,每篇文档在矢量化后对应多维空间中的一个文档坐标;
步骤B、将多个所述文档坐标聚为两个簇并分别获取每个簇在所述多维空间中的几何中心;
步骤C、分别计算所述每个簇的平均半径,并在所述平均半径满足预设条件时,将所述两个簇中的所述文档坐标对应的文档聚为一个不可分裂的类,在所述平均半径不满足预设条件时,将所述两个簇分别对应为两个可分裂的类,其中,所述平均半径为所述簇中所有文档坐标到所述几何中心的距离的平均值;
步骤D、在所述每个可分裂的类中,再次执行所述步骤B和所述步骤C;以及
步骤E、当每篇文档都属于不可分裂的类时,终止聚类。
2.根据权利要求1所述的方法,其特征在于,步骤B包括:
步骤F、根据所述文档坐标的距离将多个所述文档坐标聚为两个簇中。
3.根据权利要求2所述的方法,其特征在于,步骤F包括:
步骤G、等概率选取两个所述文档坐标;
步骤H、分别计算每个未选取的所述文档坐标与选取的所述两个所述文档坐标的距离,并将未选取的所述文档坐标与距其距离短的选取的所述文档坐标聚为同一个簇。
4.根据权利要求2所述的方法,其特征在于,步骤F包括:
步骤G、随机选取一个所述文档坐标;
步骤H、将在选取的所述文档坐标预设距离内的多个所述文档坐标聚为一个簇,将不在选取的所述文档坐标预设距离内的多个所述文档坐标聚为一个簇。
5.根据权利要求1所述的方法,其特征在于,在步骤B与步骤C之间,还包括:
步骤I、将每个所述文档坐标与所述两个几何中心进行比较,并将其与所述两个几何中心中距其距离短的几何中心聚为一个新一代的簇;
步骤J、获取每个所述新一代的簇在所述多维空间中的几何中心,当相邻两代的簇的几何中心的距离差值不满足预设的阈值时,重复步骤J,当相邻两代的簇的几何中心的距离差值满足预设的阈值时,执行步骤C。
6.根据权利要求1所述的方法,其特征在于,所述预设条件包括:
两个簇的平均半径之和不小于两个所述几何中心之间的距离。
7.一种对文档进行聚类的装置,其特征在于,包括:
获取模块,用于对所述文档分别进行矢量化,其中,每篇文档在矢量化后对应多维空间中的一个文档坐标;
第一分类模块,用于将多个所述文档坐标聚为两个簇并分别获取每个簇在所述多维空间中的几何中心;
处理模块,用于分别计算所述每个簇的平均半径,并在所述平均半径满足预设条件时,将所述两个簇中的所述文档坐标对应的文档聚为一个不可分裂的类,在所述平均半径不满足预设条件时,将所述两个簇分别对应为两个可分裂的类,其中,所述平均半径为所述簇中所有文档坐标到所述几何中心的距离的平均值;
第一调用模块,用于在所述每个可分裂的类中,再次调用所述第一分类模块和所述处理模块对所述可分裂的类中的文档坐标进行操作;以及
终止模块,用于当每篇文档都属于不可分裂的类时,终止聚类。
8.根据权利要求7所述的装置,其特征在于,所述第一分类模块根据所述文档坐标的距离将多个所述文档坐标聚为两个簇中。
9.根据权利要求8所述的装置,其特征在于,所述第一分类模块包括:
选取子模块,用于等概率选取两个所述文档坐标;
分类子模块,用于分别计算每个未选取的所述文档坐标与选取的所述两个所述文档坐标的距离,并将未选取的所述文档坐标与距其距离短的选取的所述文档坐标聚为同一个簇。
10.根据权利要求8所述的装置,其特征在于,所述第一分类模块包括:
选取子模块,用于随机选取一个所述文档坐标;
分类子模块,用于将在选取的所述文档坐标预设距离内的多个所述文档坐标聚为一个簇,将不在选取的所述文档坐标预设距离内的多个所述文档坐标聚为一个簇。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二分类模块,用于将每个所述文档坐标与所述两个几何中心进行比较,并将其与所述两个几何中心中距其距离短的几何中心聚为一个新一代的簇;
第二调用模块,用于获取每个所述新一代的簇在所述多维空间中的几何中心,当相邻两代的簇的几何中心的距离差值不满足预设的阈值时,调用所述第二分类模块,当相邻两代的簇的几何中心的距离差值满足预设的阈值时,调用所述处理模块。
12.根据权利要求7所述的装置,其特征在于,所述预设条件包括:
两个簇的平均半径之和不小于两个所述几何中心之间的距离。
CN201310157114.2A 2013-04-28 2013-04-28 对文档进行聚类的方法和装置 Active CN103455534B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310157114.2A CN103455534B (zh) 2013-04-28 2013-04-28 对文档进行聚类的方法和装置
PCT/CN2014/076483 WO2014177050A1 (zh) 2013-04-28 2014-04-29 对文档进行聚类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310157114.2A CN103455534B (zh) 2013-04-28 2013-04-28 对文档进行聚类的方法和装置

Publications (2)

Publication Number Publication Date
CN103455534A true CN103455534A (zh) 2013-12-18
CN103455534B CN103455534B (zh) 2017-02-08

Family

ID=49737908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310157114.2A Active CN103455534B (zh) 2013-04-28 2013-04-28 对文档进行聚类的方法和装置

Country Status (2)

Country Link
CN (1) CN103455534B (zh)
WO (1) WO2014177050A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014177050A1 (zh) * 2013-04-28 2014-11-06 北界创想(北京)软件有限公司 对文档进行聚类的方法和装置
CN107229953A (zh) * 2017-06-06 2017-10-03 西南石油大学 一种基于dfs与改进中心聚类法的破碎文档拼接方法
CN108288087A (zh) * 2017-01-09 2018-07-17 三星电子株式会社 用于减少深度学习网络的权重存储位的系统和方法
CN108400800A (zh) * 2017-01-20 2018-08-14 赵李英记 资料传输架构产生聚类分群资料的方法
CN109241200A (zh) * 2018-08-21 2019-01-18 国网河北省电力有限公司石家庄供电分公司 电力物资聚类信息处理方法及系统
CN109597980A (zh) * 2018-12-07 2019-04-09 万兴科技股份有限公司 Pdf文档分割方法、装置及电子设备
CN117708613A (zh) * 2023-12-25 2024-03-15 北京中微盛鼎科技有限公司 一种面向产业链协同运作的数字资源匹配方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2757592C1 (ru) 2019-02-08 2021-10-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для кластеризации документов

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011124A1 (en) * 2010-07-07 2012-01-12 Apple Inc. Unsupervised document clustering using latent semantic density analysis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831116A (zh) * 2011-06-14 2012-12-19 国际商业机器公司 用于文档聚类的方法及系统
CN103455534B (zh) * 2013-04-28 2017-02-08 北界创想(北京)软件有限公司 对文档进行聚类的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011124A1 (en) * 2010-07-07 2012-01-12 Apple Inc. Unsupervised document clustering using latent semantic density analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何飞,蒋冬初: "基于向量空间模型的文档聚类算法研究", 《湖南城市学院学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014177050A1 (zh) * 2013-04-28 2014-11-06 北界创想(北京)软件有限公司 对文档进行聚类的方法和装置
CN108288087A (zh) * 2017-01-09 2018-07-17 三星电子株式会社 用于减少深度学习网络的权重存储位的系统和方法
CN108288087B (zh) * 2017-01-09 2023-07-18 三星电子株式会社 用于减少深度学习网络的权重存储位的系统和方法
US11755908B2 (en) 2017-01-09 2023-09-12 Samsung Electronics Co., Ltd. Method and algorithm of recursive deep learning quantization for weight bit reduction
CN108400800A (zh) * 2017-01-20 2018-08-14 赵李英记 资料传输架构产生聚类分群资料的方法
US10657159B2 (en) 2017-01-20 2020-05-19 Ying-Jih Chao Lee Method for generating a category clustering data using a data transmission structure
CN107229953A (zh) * 2017-06-06 2017-10-03 西南石油大学 一种基于dfs与改进中心聚类法的破碎文档拼接方法
CN109241200A (zh) * 2018-08-21 2019-01-18 国网河北省电力有限公司石家庄供电分公司 电力物资聚类信息处理方法及系统
CN109597980A (zh) * 2018-12-07 2019-04-09 万兴科技股份有限公司 Pdf文档分割方法、装置及电子设备
CN117708613A (zh) * 2023-12-25 2024-03-15 北京中微盛鼎科技有限公司 一种面向产业链协同运作的数字资源匹配方法
CN117708613B (zh) * 2023-12-25 2024-05-14 北京中微盛鼎科技有限公司 一种面向产业链协同运作的数字资源匹配方法

Also Published As

Publication number Publication date
CN103455534B (zh) 2017-02-08
WO2014177050A1 (zh) 2014-11-06

Similar Documents

Publication Publication Date Title
CN103455534A (zh) 对文档进行聚类的方法和装置
Naldi et al. Efficiency issues of evolutionary k-means
JP2019511040A (ja) テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム
US20090327259A1 (en) Automatic concept clustering
CN108170692A (zh) 一种热点事件信息处理方法和装置
CN112395293B (zh) 分库分表方法、分库分表装置、分库分表设备及存储介质
CN108256570A (zh) 基于k邻域相似性的数据聚类方法、装置和存储介质
EP2786221A2 (en) Classifying attribute data intervals
CN106909575B (zh) 文本聚类方法和装置
CN105512156B (zh) 点击模型生成方法和装置
CN109800853B (zh) 融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
CN109978006B (zh) 人脸图像的聚类方法和装置
CN107748739A (zh) 一种短信文本模版的提取方法及相关装置
CN111475511A (zh) 基于树状结构的数据存储方法、访问方法、装置及设备
CN105159927A (zh) 目标文本主题词的选取方法、装置及终端
Chen et al. Binary orientation trees for volume and surface reconstruction from unoriented point clouds
CN109254962B (zh) 一种基于t-树的索引优化方法、装置及存储介质
CN110019763A (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN111767419B (zh) 图片搜索方法、装置、设备及计算机可读存储介质
CN109657060B (zh) 安全生产事故案例推送方法及系统
CN104572687A (zh) 微博传播的关键用户识别方法和装置
CN104391981A (zh) 一种文本分类方法和装置
CN106294096B (zh) 一种信息处理方法及装置
CN108388676A (zh) 一种基于模拟退火算法的模具数据匹配方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant