CN101714142B - 文件群集的合并方法 - Google Patents
文件群集的合并方法 Download PDFInfo
- Publication number
- CN101714142B CN101714142B CN200810161697A CN200810161697A CN101714142B CN 101714142 B CN101714142 B CN 101714142B CN 200810161697 A CN200810161697 A CN 200810161697A CN 200810161697 A CN200810161697 A CN 200810161697A CN 101714142 B CN101714142 B CN 101714142B
- Authority
- CN
- China
- Prior art keywords
- node
- file
- destination
- file clusters
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文件群集的合并方法,其包括以下步骤:建立各个文件群集彼此间的关联图,此一关联图为一有向图,每一个文件群集在关联图中以一个节点(node)来代表,以两两搜寻的方式寻找每一个节点,在任两个彼此关联权重达到一默认值的节点之间建立一有向边,并将有向边的箭头指向可以作为其中一个节点的描述因子的另一节点,在有向边赋予关联权重以表示两个节点间的关联程度;将任两个彼此皆为对方的描述因子,而且关联程度达到预设的阀值的两个文件群集合并为单一文件群集。
Description
技术领域
本发明涉及一种文件处理方法,特别有关于一种文件群集的合并方法,适合用来合并彼此具有关联的网页群集或是文件群集。
背景技术
计算机文书软件的普遍应用,造成数字文件的大量增加。在处理或管理数字文件时,常常需要某些自动检测或比对文件的功能。就如同数字文字在生产与利用过程中,需要基本的词汇比对技术,数字文件本身也需要类似的功能,也就是「比对」的「对象」要从「词汇」提升到「文件」的层次。这里所说的「文件」,是指由自然语文或词汇形成的一段或一篇文字。例如一般的文章、文章的「段落」、文章的「句子」、公文的「主旨」等字段、使用者提问的「问题」或服务人员回答的「答案」等,都可视为是一篇文件。
为能对众多文件进行分类,因此对于文件群集(意即文件的集合)的处理方式多采用由1990年Vladimir Vapnik所提出的支持向量机(Support VectorMachine,简称SVM)来进行分类。SVM基于统计学理论的结构风险最小化原则,进而找出设定空间域中最佳的超平面。更进一步的将正向和负向的样本区分开来,到现在仍有许多的改进及应用被提出。
文件群集为许多篇文件的集合,而每一篇文件又具有一个或一个以上的关键词汇。对于每一篇文件在SVM中被视为一个向量,每篇文件中的关键词汇数量则成为SVM的维度。但是文件分类会因为特征向量空间及维度太高,导致分类效果不佳。
虽然上述的现有技术,可进行文件群集的分类,但只撷取文件的特征,无法完整呈现整份文件的意义。故,一般常用者无法符合使用者于实际使用时的所需。
发明内容
鉴于以上的问题,本发明的主要目的在于提供一种文件的合并方法,其是将关联度高的文件群集(例如网页、文字文件、或是数据库内容的群集)合并在一起。
为达上述目的,本发明所揭露的一种文件群集的合并方法,其包括以下步骤:建立各个文件群集彼此间的关联图,此一关联图为一有向图,每一个文件群集在关联图中以一个节点(node)来代表,并在连接任两个节点的有向边赋予一关联权重以表示各个文件群集间的关联程度;将任两个彼此皆为对方的描述因子,而且关联程度达到预设的阀值的两个文件群集合并为单一文件群集。
依据本发明的另一较佳实施例,还包括了将间接关联程度达到预设的门坎值的两个文件群集合并在一起,而所称的间接关联程度是指两个文件群集的共同描述因子在两个文件群集的描述因子的个数中的占有比例。
依据本发明所揭露的技术方案,在通过计算机程序加以实现的过程中,其处理的速度将会优于现有的向量空间模型法(VSM),也可以解决向量空间模型无法区别文中词汇关联性的问题,可应用于处理例如网页、文字文件、或是数据库等领域的文件群聚或是文件分类的问题。
有关本发明的特征与实作,兹配合图示作最佳实施例详细说明如下。
附图说明
图1为本发明中节点组成的示意图;
图2A为本发明的流程示意图;
图2B为建立有向图的流程示意图;
图2C为本发明一实施态样的文件群集的合并处理示意图;
图2D为计算节点的关联权重流程示意图;
图2E为本发明另一实施态样的文件群集的合并处理示意图;
图3A各文件群集的有向图示意图;
图3B为第一节点与第二节点建立有向边的示意图;
图3C为合并第一节点与第二节点示意图;
图3D为合并第一输出节点与第二节点间的共有的目标节点的示意图;
图3E为合并第一输出节点与第三节点示意图。
【主要组件符号说明】
100 文件群集
110 描述因子
120 文件
311 第一节点
312 第二节点
313 第三节点
321 第一目标节点
322 第二目标节点
323 第三目标节点
324 第四目标节点
325 第五目标节点
326 第六目标节点
327 第七目标节点
328 第八目标节点
329 第九目标节点
331 第一输出节点
332 第二输出节点
具体实施方式
在本发明中所述及的文件群集,其利用一关键词汇所查找的文件集合。其中,查找过程中可以利用数据探勘(data mining)或词频分析等方法作为处理。因此在每一个文件群集中包括有下述组成元素。请参考图1所示,其为本发明中节点组成的示意图。文件群集100(cluster_n),其代表为第100个文件群集。本发明所述及的文件群集100(cluster)为网页、文本文件或数据库内容的群集。在每一个文件群集100中包括有复数笔文件120(document)。描述因子110为至少一字符的字符集合。举例来说,在文本文件的文件120中,描述因子110可以是文件群集的关键词/词或其它类似的特征的组合。
请参考图2A,其为本发明的流程示意图。加载多笔文件群集(步骤S210)。根据文件群集,建立文件群集的有向图(步骤S220)。根据有向图的连结关系进行文件群集的合并处理(步骤S230)。
请参考图2B所示,其为建立有向图的流程示意图。在建立有向图的过程中更包括以下步骤:将每一文件群集设定为节点(步骤S221)。
从节点群中选择一对未做有向边判断的节点序对(A,B),并统计节点A与节点B中具有相同文件的数量(documentamount)(步骤S222)。根据节点A中所具有的文件数量(cluster_i_doucmenttotlal)再除以节点A与节点B中相同文件的数量(documentamount),得到关联值 (步骤S223)。
举例来说,若在节点A具有10份文件;节点B中具有11份文件。从节点A中查找具有描述因子B的文件数量,及在节点B中查找具有描述因子A的文件数量。假设在节点A中具有描述因子B的文件数量为5份,且在节点B中具有描述因子A的文件数量为6份。则节点A对节点B的关联值为(5/10);节点B对节点A的关联值为(6/11)。
判断节点A对节点B的关联值是否符合一阀值(步骤S224)。关联值当此节点A对节点B的关联值符合阀值时,则建立有向边从节点A指向至节点B(步骤S225)。承接步骤S223的例子,假设阀值为0.5时,则上述两个节点的关联值均符合阀值。因此分别建立第一节点对第二节点间的有向边与第二节点对第一节点的有向边。最后,判断是否还有剩余的节点序对尚未建立有向边(步骤S226),其从各节点中选择两个节点相互的比较关联值,直到所有的节点两两的已比对完成为止。若还有未处理的节点时,则重复步骤S222,直至完成所有节点为止。
接着是本发明中对有向图中各节点的连结关系进行文件群集的合并处理。请参考图2C所示,其为本发明一实施态样的文件群集的合并处理示意图。设定第一门坎值(k1)与第二门坎值(k2)(步骤S231)。在本实施态样中并未限定第一门坎值、第二门坎值与关联值是否相同,在此仅先叙明。
判断有向图中的每一对具有相互指向的节点是否已经完成直接关联的比对(步骤S232)。若有未完成直接关联的比对的节点时,则任选一对未做直接关联度判断的节点,并判断相互指向的节点的关联值 否均符合第一门坎值(步骤S233)。
若具有相互指向的节点的两个关联值均符合第一门坎值时,则将相互指向的两个节点合并成一个输出节点(步骤S234)。并重复执行步骤S232,直至完成有向图中每一对相互指向的节点为止。
若在有向图中不存在相互指向的节点或将所有节点已完成上述直接关联比对后,则判断是否存在未作间接关联度判断的节点(步骤S235)。
从未进行间接关联判断的节点中选出一节点A关联(步骤S236)。判断是否存在与节点A有相同描述因子且未与节点A做间接关联度判断的节点B(步骤S237)。计算节点A与节点B的关联权重(步骤S238)。
请另外配合图2D所示,其为计算节点的关联权重流程示意图。在设定关联权重中更包括有下步骤:统计此一节点A中的所有连结的目标节点的数量(cluster_n_featureamount)(步骤S2381)。接着,再统计节点A与节点B中共有相同目标节点的数量(featuretotal)(步骤S2382)。最后,计算关联权重 (步骤S2383),其将这些节点中共有相同目标节点的数量(featuretotal)除以节点中的所有连结的目标节点的数量(cluster_n_featureamount)。举例来说,若在第一节点指向10个目标节点;在第二节点指向12个目标节点。而第一节点与第二节点中共有3个相同内容的目标节点。因此第一节点的关联权重为,第二节点的关联权重为
在取得节点A与节点B间的关联权重后,判断节点A与节点B的关联权重 是否符合第二门坎值(k2)关联(步骤S239)。若具有相同描述因子的目标节点的关联权重 均符合第二门坎值(k2)时,则将节点A与节点B合并成输出节点A(A+B)(步骤S240)。其中,输出节点A(A+B)所代表的意义是将节点A中的文件与节点B中的文件合并至输出节点A。若节点A与节点B不符合第二门坎值时或已将节点A与节点B合并后再重复执行步骤S237,直至有向图中的每一节点完成间接关联的比对为止。重复上述动作,直到不再有合并动作为止。
请参考「图2E」所示,其为本发明另一实施态样的文件群集的合并处理示意图。在本发明的此一实施态样中与上述实施态样不同点在于,上述实施态样为完成直接关联的比对后才进行间接关联的比对。而图2E所示的实施态样,则是依序比对直接关联后再比对间接关联,重复此一步骤直至完成有向图中的每一节点为止。
设定第一门坎值(k1)与第二门坎值(k2)(步骤S251)。判断有向图中的每一对具有相互指向的节点是否已经完成直接关联的比对(步骤S252)。若有未完成直接关联的比对的节点时,则任选一对未做直接关联度判断的节点,并判断相互指向的节点的关联值否均符合第一门坎值(步骤S253)。
若具有相互指向的节点的两个关联值均符合第一门坎值时,则将相互指向的两个节点合并成一个输出节点(步骤S254)。接着,若在有向图中不存在相互指向的节点或将所有节点已完成上述直接关联比对后,则判断是否存在未作间接关联度判断的节点(步骤S255)。
对未进行过间接关联判断的节点中选出一节点A(步骤S256)。判断是否存在与节点A有相同描述因子且未与节点A做间接关联度判断的节点B(步骤S257)。计算节点A与节点B的关联权重(步骤S258)。在取得节点A与节点B间的关联权重后,判断节点A与节点B的关联权重是否符合第二门坎值(k2)(步骤S259)。若具有相同描述因子的目标节点的关联权重均符合第二门坎值(k2)时,则将节点A与节点B合并成输出节点A(A+B)(步骤S260)。
若节点A与节点B不符合第二门坎值时或已将节点A与节点B合并后,则再重复执行步骤S252,直至有向图中的每一节点完成直接关联与间接关联的比对为止。
在此以下述有向图作为对本发明的运作进行解说,并非仅局限于此实施态样的文件种类与数量,在此仅先叙明。请参考图3A所示,为各文件群集的有向图示意图。在此一有向图中定义第一节点311(cluster_1)、第二节点312(cluster_2)与第三节点313(cluster_3)。为能清楚说明每一个描述因子110中所述及的内容,在此更进一步定义目标节点(feature_n(X)),其为第n个目标节点,X为该目标节点的内容。并且更进一步定义阀值为(0.3)、第一门坎值为(0.7)、第二门坎值为(0.5)。
在第一节点311分别指向至第一目标节点321(feature_1(A))、第二目标节点322(feature_2(B))与第三目标节点323(feature_3(C));在第二节点312分别指向至第四目标节点324(feature_4(B))与第五目标节点325(feature_5(D));在第三节点313分别指向至第六目标节点326(featur_6(D))、第七目标节点327(feature_7(A))、第八目标节点328(feature_8(B))与第九目标节点329(feature_9(E))。
在第一节点311中包括有10份文件,第二节点312中包括有9份文件。在第一节点311与第二节点312中共具有5份相同的文件。第一节点311对第二节点312的关联值为(5/10),且第二节点312对第一节点311的关联值为(5/9)。上述两者的关联值均大于阀值(0.3)。因此,在第一节点311与第二节点312间各建立一有向边。请参考图3B所示,其为第一节点与第二节点建立有向边的示意图。此外,上述两者的关联值亦均大于第一门坎值为(0.7)。因此,可以将第一节点311与第二节点312进行合并,用以产生第一输出节点331。请参考图3C所示,其为合并第一节点与第二节点示意图。
接着图3D,对第一输出节点331与第三节点313进行合并的处理。因为第一节点311与第二节点312分别对第三节点313并不具有向边。因此,第一输出节点331对第三节点313间亦不具有向边的存在。所以找出第一输出节点331与第三节点313中具有相同内容的目标节点。其中,为相同内容的目标节点分别为:第一目标节点321(feature_1(A))与第七目标节点327(feature_7(A))、第二目标节点322(feature_2(B))与第八目标节点328(feature_8(B))、第五目标节点325(feature_5(D))与第六目标节点326(feature_6(D))。
请参考图3D所示,其为合并第一输出节点与第二节点间的共有的目标节点的示意图。第一输出节点331与第三节点313具有相同描述因子110的目标节点共有三组。所以,第一输出节点331对目标节点的关联权重为(3/4);第三输出节点对目标节点的关联权重亦为(3/4)。两者对目标节点的关联权重均大于第二门坎值(0.5)。因此第一输出节点331与第三节点313可以进行合并,用以产生第二输出节点332。请参考图3E所示,其为合并第一输出节点与第三节点示意图。
依据本发明所揭露的技术方案,在通过计算机程序加以实现的过程中,其处理的速度将会优于现有的向量空间模型法,也可以解决向量空间模型无法区别文中词汇关联性的问题,可应用于处理例如网页、文字文件、或是数据库等领域的文件群聚或是文件分类的问题。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (6)
1.一种文件群集的合并方法,其对每一描述因子产生相应的一文件群集(cluster),在该文件群集中包括有多笔文件,并对具有高关联度的所述文件群集进行合并,其特征在于,该合并方法包括以下步骤:
建立一有向图,其包括以下步骤:
将所述文件群集的每一文件群集设定为一节点;
统计一节点与另一节点中共同出现相同的文件的数量;
选择一个节点,并统计该节点中的所有目标节点的数量;统计所述一节点与另一节点中共有相同的目标节点的数量;将所述一节点中目标节点的数量除以所述一节点与另一节点中的所有目标节点的数量计算关联权重;以及
当所述一节点对另一节点的关联权重符合一阀值时,则建立一有向边用以从所述一节点指向至另一节点;
判断是否有相互指向的剩余节点;
若具有相互指向的剩余节点的关联权重均大于一第一门坎值时,则将具有相互指向的两个剩余节点合并成一输出节点;
若不具有相互指向的剩余节点时,则找出具有相同描述因子的一目标节点及其指向的另一节点;
计算所述一目标节点与另一节点的一关联权重;以及
若具有相同描述因子的所述目标节点的关联权重均大于一第二门坎值时,则将所述目标节点与另一节点合并成一输出节点。
2.如权利要求1所述的文件群集的合并方法,其特征在于,所述文件为网页、文本文件、或数据库内容。
3.如权利要求1所述的文件群集的合并方法,其特征在于,所述描述因子为至少一文字集合。
4.如权利要求1所述的文件群集的合并方法,其特征在于,建立该有向边更包括以下步骤:
重复选取一节点与另一节点,并计算一节点与另一节点的关联权重,直至完成所有的节点为止。
5.如权利要求1所述的文件群集的合并方法,其特征在于,判断具有相同 描述因子的目标节点的关联权重是否满足该第二门坎值中更包括以下步骤:
设定该第二门坎值(k2);以及
选择所述具有相同描述因子的目标节点的关联权重大于该第二门坎值(k2)的文件群集。
6.如权利要求5所述的文件群集的合并方法,其特征在于,判断具有相同描述因子的目标节点的关联权重是否满足该第二门坎值后更包括以下步骤:
重复执行判断具有相同描述因子的目标节点的关联权重是否满足该第二门坎值,直至完成所有的目标节点为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810161697A CN101714142B (zh) | 2008-10-06 | 2008-10-06 | 文件群集的合并方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810161697A CN101714142B (zh) | 2008-10-06 | 2008-10-06 | 文件群集的合并方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101714142A CN101714142A (zh) | 2010-05-26 |
CN101714142B true CN101714142B (zh) | 2012-10-17 |
Family
ID=42417792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810161697A Expired - Fee Related CN101714142B (zh) | 2008-10-06 | 2008-10-06 | 文件群集的合并方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101714142B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786980B (zh) | 2016-02-14 | 2019-12-20 | 广州神马移动信息科技有限公司 | 对描述同一实体的不同实例进行合并的方法、装置及设备 |
CN107305490B (zh) * | 2016-04-22 | 2020-09-11 | 中国移动通信集团湖南有限公司 | 一种元数据分组方法及装置 |
CN106294870B (zh) * | 2016-08-25 | 2019-09-17 | 北京酷成长科技有限公司 | 基于对象的分布式云存储方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128613A (en) * | 1997-06-26 | 2000-10-03 | The Chinese University Of Hong Kong | Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words |
CN1725213A (zh) * | 2004-07-22 | 2006-01-25 | 国际商业机器公司 | 构造、维护个性化分类树、分类显示文档的方法及系统 |
CN1809830A (zh) * | 2003-06-20 | 2006-07-26 | 新加坡科技研究局 | 从大量文档集合中进行术语提取的方法和平台 |
-
2008
- 2008-10-06 CN CN200810161697A patent/CN101714142B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128613A (en) * | 1997-06-26 | 2000-10-03 | The Chinese University Of Hong Kong | Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words |
CN1809830A (zh) * | 2003-06-20 | 2006-07-26 | 新加坡科技研究局 | 从大量文档集合中进行术语提取的方法和平台 |
CN1725213A (zh) * | 2004-07-22 | 2006-01-25 | 国际商业机器公司 | 构造、维护个性化分类树、分类显示文档的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101714142A (zh) | 2010-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Using chi-square statistics to measure similarities for text categorization | |
Li et al. | News text classification model based on topic model | |
Cagnina et al. | An efficient particle swarm optimization approach to cluster short texts | |
Wang et al. | Research of reduct features in the variable precision rough set model | |
CN104391835A (zh) | 文本中特征词选择方法及装置 | |
CN107885883A (zh) | 一种基于社会媒体的宏观经济领域情感分析方法及系统 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN111966878B (zh) | 基于机器学习的舆情事件反转检测方法 | |
CN101714142B (zh) | 文件群集的合并方法 | |
CN111460158A (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
Malo et al. | Automated query learning with Wikipedia and genetic programming | |
Jedrzejewski et al. | Opinion mining and social networks: A promising match | |
CN103279535A (zh) | 一种专利权人潜在合作伙伴推荐方法 | |
CN108694165B (zh) | 面向产品评论的跨领域对偶情感分析方法 | |
CN105787101B (zh) | 一种信息处理方法和电子设备 | |
CN113705217A (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 | |
Naghibi et al. | Focused crawling using vision-based page segmentation | |
Liu et al. | LLM Based Public Message Refinedly Grading Method | |
Choi et al. | Refinement method of post-processing and training for improvement of automated text classification | |
CN110825824A (zh) | 基于语义化直观/非直观用户性格表示的用户关系画像方法 | |
Zhou et al. | Using Spectral Clustering Association Algorithm upon Teaching Big Data for Precise Education | |
Rukmi et al. | Study of parameters of the nearest neighbour shared algorithm on clustering documents | |
Yuan et al. | A new density-based method for reducing the amount of training data in k-NN text classification | |
Bartik | Association based classification for relational data and its use in web mining | |
Walha et al. | Extract-Transform-Load Process for Recognizing Sentiment from User-Generated Text on Social Media. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121017 Termination date: 20171006 |
|
CF01 | Termination of patent right due to non-payment of annual fee |