CN101055585B - 文档聚类系统和方法 - Google Patents

文档聚类系统和方法 Download PDF

Info

Publication number
CN101055585B
CN101055585B CN2007100854581A CN200710085458A CN101055585B CN 101055585 B CN101055585 B CN 101055585B CN 2007100854581 A CN2007100854581 A CN 2007100854581A CN 200710085458 A CN200710085458 A CN 200710085458A CN 101055585 B CN101055585 B CN 101055585B
Authority
CN
China
Prior art keywords
document
vector
cluster
documents
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100854581A
Other languages
English (en)
Other versions
CN101055585A (zh
Inventor
车完奎
金晶中
安汉峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020060033661A external-priority patent/KR100809751B1/ko
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN101055585A publication Critical patent/CN101055585A/zh
Application granted granted Critical
Publication of CN101055585B publication Critical patent/CN101055585B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

提供一种文档聚类系统和方法。该方法包括:用于存储文档的文档DB、文档特征编写单元、文档检索单元、聚类处理单元以及聚类DB。文档DB存储文档。文档特征编写单元提取在文档数据库中存储的文档的属性信息,以及基于属性信息编写关于各文档的索引。文档检索单元使用索引来检索包括用户输入的查询的文档。聚类处理单元包括代表向量计算器,用于计算检索到的文档的特征向量和代表向量,和相似度计算器,用于使用特征向量和代表向量来计算文档间的相似度。聚类数据库存储由聚类处理单元聚类的文档。

Description

文档聚类系统和方法
技术领域
本发明涉及一种文档聚类系统和方法,其能够确定文档之间的相似度并基于确定的相似度对相似文档进行聚类。
背景技术
近年来,文档检索系统已经得到广泛使用,其能够处理大量的文档信息,提取对应于用户需要的信息,并且将所提取的信息提供给用户。
即,文档检索或者信息检索是指从大量文档和信息中搜索用户期望的文档或者信息。为了检索文档或信息,对自然语言文本来执行关键词处理,为每个关键词分配权值,然后进行检索和排序。
现有技术的文档检索系统接收用户的查询(query),并将普通系统提取出的普通结果输出给用户。这里,一般检索系统仅基于从用户接收的查询范围(area)来搜索文档,因此难以为用户提供针对其喜好和特点而定制的信息。
而且,由于现有技术的检索系统仅搜索关于用户输入的查询的信息,所以这样会建立错误的检索范围。由于这个原因,用户期望的信息和检索结果出现明显的差异,从而导致检索结果的精确度和可靠性下降。
另外,当从用户接收查询时,现有技术的文档检索系统依赖于提供信息的网站所使用的检索系统来执行操作。因此,被检索信息的精确度降低,并且难以实时提供信息。然而,对于应当在生成时尽快检索到或者应当在生成后长时间过去之前检索到的文档(例如专利文档)而言,需要一种针对用户定制的文档访问方法和检索方法。
发明内容
因此,本发明提供一种文档聚类系统和方法,其用于本质上消除由于现有技术的限制和缺点而产生的一个或多个问题。
本发明的目的旨在提供一种文档聚类系统和方法,其能够为用户提供被检索文档之间的相互关系和相似度。
本发明的额外的优点、目的和特征将再下面的说明书中部分地提出,并且对本领域技术人员来讲,在接下来的详查之后,本发明的部分的额外优点、目的和特征将变得清楚,或者可以从本发明的实践中学习。本发明的目的和其他优点可以通过在所编写的说明书及其权利要求以及附图中特别指出的结构来实现和获得。
为了实现这些目的和其他优点并且依据本发明的目的,如其中所实施的并广泛描述的,提供了一种文档聚类系统,包括:文档数据库,用于存储文档;文档特征编写单元,用于提取在所述文档数据库中存储的文档的属性信息,并且基于所述属性信息编写关于各文档的索引;文档检索单元,利用所述索引来检索包含用户输入的查询的文档;聚类处理单元,包括用于计算检索到的文档的特征向量和代表向量的代表向量计算器,以及使用所述特征向量和所述代表向量计算文档之间相似度的相似度计算器;以及聚类数据库,存储由聚类处理单元聚类的文档。
在本发明的另一目的中,提供了一种文档聚类方法,包括:从存储在文档数据库中的每个文档中提取关键词,开且利用所提取的关键词编写单元索引;利用所编写的文档索引选择用于组成每个文档的代表关键词;利用所述代表关键词确定所述文档的特征向量;确定特征向量中的代表向量,以对检索到的文档进行聚类处理;利用所述代表向量和所述特征向量进行计算,来确定检索到文档的相似度;以及根据所述相似度对所述文档进行聚类。
应该理解的是,本发明前面的一般描述和下面的详细描述是可实施的和说明性的,并且旨在提供本发明的进一步解释。
附图说明
所包含的附图提供了对本发明的进一步理解并且被合并于本申请和构成了本申请的一部分,本发明所示出实施例与说明书一起用于解释本发明的原理。在附图中:
图1是示出根据本发明实施例的文档聚类系统的框图;
图2是示出每个文档的属性信息的示意图;
图3是文档检索结果的用户界面;
图4是示出基于所选文档的关键词出现频率的索引文件的示意图;
图5是示出关于每个文档计算出的特征向量的示意图;和
图6是对新文档进行自动聚类处理的方法的流程图。
具体实施方式
现在将详细参考本发明优选实施例,其实例在附图中示出。
现在将参考附图详细描述根据本发明实施例的文档聚类系统和方法。
图1是用于描述根据本发明实施例的文档聚类系统的框图。
参考图1,根据本发明实施例的文档聚类系统包括:客户端200,用户向其输入用于文档检索的查询或者在其上显示关于输入的查询的文档检索结果;和聚类系统100,其通过网络210连接至客户端200,以根据查询执行文档检索,并对检索到的文档进行聚类。
客户端200包括:输入单元,用户使用该输入单元来发送预定查询到聚类系统100,和输出单元,接收从聚类系统100发送的文档信息并将所接收的信息显示给用户。
这里,尽管术语“聚类”被用在聚类系统100中,但是文档聚类不是聚类系统100的唯一功能。聚类系统100执行关于从客户端200输入的查询的文档检索,和对检索到的文档的进行聚类两种处理。
在聚类系统100和客户端200之间的通信介质可以是多种通信网络210,例如因特网、LAN等。
聚类系统100从输入查询提取关键词,使用所提取的关键词检索文档,并且基于检索到的文档之间的相互关系或相似度来对检索到的文档进行聚类处理。聚类系统100包括:查询输入单元190、文档检索单元160、文档数据库(DB)110、文档特征编写单元120、文档特征DB 130、聚类DB 140、聚类处理单元150、文档检索单元160,和字典DB 170。
聚类系统100的硬件配置没有特别限制。例如,聚类系统100可以用包括中央处理单元(CPU)或者存储设备(例如ROM、RAN)和硬盘的计算机来实现。
本公开文件中使用的术语“查询”是指为了从文档DB 110、文档特征DB 130、聚类DB 140、和字典DB170选择部分文档的文本输入,并且包括逻辑表达式或者自然语言的多个查询。
公开的专利文档或者已注册登记的专利文档主要存储于本发明的文档DB 110,但是本发明不限于此。下文中,基于这样的假设来进行描述,即公开的专利文档或者已注册登记的专利文档被存储于文档DB 110中,其中的每个文档包括“发明背景”、“发明摘要”、“优选实施例的详细描述”内容作为识别文档各部分的标记项。
在文档DB 110中,存储了多个专利文档。尽管没有示出,专利文档可以从通过网络机器人(web robot)与网络相连的另一网络服务器获得。
对于在文档DB 110中存储的文档,由文档特征编写单元120提取文档的属性信息,并且基于属性信息编写关于文档的索引。
即,文档特征编写单元120从存储于文档DB 110的文档中获取文本,并且将关于每个关键词的出现频率的索引信息提供给文档特DB 130。这里,每个关键词的出现频率是指每个关键词在每个文档中出现的次数。当通过查询输入单元190输入预定查询时,文档检索单元160使用存储在文档特征DB 130中的各文档的索引文件来检索包含预定查询的文档。
以图3所描述的界面的形式,通过输出单元180向客户端200提供由文档检索单元160检索的文档。
当通过查询输入单元190输入预定查询或者通过网络机器人将新文档提供给文档DB 110时,文档特征编写单元120创建相应文档的索引文件,并且使用索引文件为每个文档确定特征向量。
现在将参考图2来描述。
图2是示出各文档的属性信息的示意图。
图2中所示的文档的属性信息可以通过文档特征编写单元120以索引文件的形式来编写,并且编写的索引文件被存储于文档特征DB 130。
文档特征编写单元120可以使用存储于文档特征DB 130中的索引文件来确定每个文档的特征向量,并且还可以将特征向量存储于文档特征DB 130中。
图2示出关键词A、B、C、D、M、I、K、O、P、Q和Z的出现频率的信息。例如,文档1包括:关键词A 35次、关键词B 19次、关键词C 15次、和关键词D 13次。这里,例如,关键词A的字符“A”不表示字母A,而表示字词,该字词是名词、专有名词或者复合名词。
可以创建各文档中包含的关键词出现频率表,以便按照出现频率从高到低的顺序,依次地排列关键词。
尽管在图2中没有显示,可以在表中排列各文档中关键词出现频率的百分比,以代替关键词出现频率。
例如,可以创建文档1的索引文件,以包含(A、B、C、D)→(4.5%、2.4%、1.9%、1.7%)的含义,以表示在文档1中分别以4.5%、2.4%、1.9%和1.7%的比例包含关键词A、关键词B、关键词C,和关键词D。
以多种方式创建各文档的检索文件。使用所创建的检索文件,可以提取各文档的特征向量。
详细地,文档特征编写单元120基于各文档中的各关键词的出现频率来创建表,还使用该表创建各文档的特征向量。
这里,由文档特征编写单元120确定的特征向量使用各文档的估计值作为分量。例如,在各文档的关键词总数为n的情况下,各文档的特征向量可以被表达为n维空间向量,如下面的表达式1所示:
特征向量=(关键词A的估计值w1、关键词B的估计值w2、...、关键词n的估计值wn)-----(等式1)
为了计算估计值,可以使用在文档“Salton,G:Automatic Text Processing:The transformation,Analysis,and Retrieval of Information by Computer,Addision-Wesely”中公开的tf.idf方案。根据tf.idf方案,计算出不为零的值作为对应于文档1的n维特征向量的分量的估计值,该分量对应于包含在文档1中的关键词。计算出的零作为对应于不包含在文档1中的关键词的分量(例如,字出现频率为0的关键词的分量)的估计值。
在这方面,作为特征向量的一个分量的关键词的估计值可以被认为是各文档中的各关键词的出现频率。
在上面的描述中,已经描述了由文档特征编写单元120创建的各文档的索引文件和特征向量。现在,将描述用于确定各文档的代表向量,并对检索到的文档进行聚类的系统的配置,及其方法。
当用户通过客户端200输入预定查询时,文档检索单元160使用存储在文档特征DB 130中的索引文件,通过输出单元180将包含相应查询的文档检索结果列表显示到客户端200。这里,在图3中示出了提供给客户端200的文档检索结果的用户界面。
参考图3,标题(TITLE)、IPC(IPC)、申请号(Appl.No.)、受让人(Assignee),和文档间的相似度(SIMILIARY)可以作为检索结果来显示。这里,由标识部分文档的各字段来确定和输出文档的相似度。
如上面所描述的,当存储在文档DB 110中的文档是公开或者已注册登记的专利文档时,各文档可以包括诸如“权利要求”、“摘要”、“发明背景”、“发明内容”、“附图说明”、和“优选实施例的详细描述”这样的标记项。这些指示项可以分别被定义为组成文档的字段。
这里,当由用户输入的查询是多个字词的数学组合时,文档的各字段的相似度基于文档的各字段中对应关键词的出现频率。
例如,文档检索单元160对于用户输入的多个查询,在文档DB 110的各文档中以字段为单位执行检索,并且基于各字段中对应查询的出现频率来确定对应字段的相似度。
如图3所示,聚类系统100的输出单元180将作为检索结果所获得的文档列表提供给客户端200。输出单元180包括:文档选择部分310,允许用户单独选择检索到的文档;和聚类请求部分320,基于所选文档的相似度来执行文档的聚类处理。
用户可以设置对于所选文档执行的聚类处理的条件。为此,客户端200配置有聚类数量输入部分330和文档数量输入部分340,其中通过该聚类数量输入部分330输入文档聚类的数量,以及通过该文档数量输入部分340输入每个聚类的文档数量。
因此,用户可以通过聚类数量输入部分330和文档数量输入部分340来设置文档聚类的数量和每个聚类的文档数量,作为关于所选文档的聚类条件。
在下文中,将以通过文档选择部分310来选择上部的十个文档的情况下的实例来说明文档的聚类。
当用户从提供给客户端200的检索到的文档列表中选择十个文档时,将十个所选文档的索引文件从文档特征DB 130提供给聚类处理单元150。
聚类处理单元150的代表向量计算器151确定从索引文件选择的各文档的特征向量,并且计算在这些确定的特征向量中用于聚类所需的代表向量。这里,不应该因为其名字而认为计算代表向量是代表向量计算器151的唯一功能。
图4示出基于所选文档的关键词出现频率的索引文件,并且特别地,按照出现频率从高到低的顺序排列关键词A、B、E、D、M、I、K、O、Q,和Z。
这里,代表向量计算器151可以提取在各文档的关键词中具有最高频率的代表关键词。例如,可以从各文档的索引文件中选择对应于四个最高出现频率的四个关键词。
在这种情况下,可以在文档1中选择关键词A、关键词B、关键词E,和关键词D,以及可以在文档10中选择关键词O、关键词B、关键词Q,和关键词C。
代表向量计算器151可以计算各文档中各所选关键词的出现频率的百分比。例如,代表向量计算器151可以计算各关键词的出现频率的百分比,如下:关键词A为4.5%、关键词B为2.4%、关键词C为1.9%、关键词D为1.7%。
以上面提到的方式,计算关于每一所选文档的各关键词的出现频率百分比。
在用户所选的这十个文档上执行该处理之后,按照关于这十个所选文档的各关键词来对百分比进行累加,并且选择与通过累加运算所获得的值的四个最大值对应的四个特定关键词作为代表关键词。
例如,当通过按照全部十个文档的各关键词对百分比进行累加所获得的值以关键词B、关键词A、关键词E、关键词D、关键词O、关键词C,和关键词K的顺序递减时,可以选择关键词B、关键词A、关键词E,和关键词D作为用于对所选文档进行聚类的代表关键词。
所选代表关键词被用作代表向量的分量,因此计算关于各文档的特征向量。
即,按照出现频率从高到低的顺序,依次排列所选代表关键词。这些代表关键词被选出作为代表向量的分量。
基于所选关键词B、A、E和D编写各文档的特征向量。这里,四个所选关键词对应于文档索引文件中的四个最高出现频率。在当前实施例中,四个代表关键词被选出作为代表向量的分量,并且使用在文档中的以最高频率出现的四个关键词来编写各文档的特征向量。但是,这只是本发明的实例,可以由系统管理员任意改变。
当所选代表关键词包含在相应文档中时,将向量分量设为“1”,如果所选代表关键词没有包含在相应文档中,则将向量分量设为“0”。代替1和0,可以将对各关键词计算权值而获得的值编写为向量分量。
参考图5,当代表关键词包含在相应文档中时,每个文档的特征向量通过设置为“1”来完成,并且在代表关键词被包含其中时设置为“0”。
通过上述过程,文档1的特征向量被确定为(1,1,1,1),文档2的特征向量被确定为(1,1,0,1)。尽管在当前实施例中各特征向量的分量是1或0,但是根据代表关键词的出现频率,可以分配不同的值作为向量分量。
使用这些文档的特征向量来执行代表向量(或者中心向量)的选择处理。这里,可以选择特征向量大小最大的特征向量作为代表向量。
在这种情况下,可选择文档1的特征向量(1,1,1,1)作为图5所示的特征向量的代表向量。可以根据文档1的特征向量(下文中,称为代表向量)和多个文档的特征向量之间的内积值来确定文档之间的相似度。
详细地,特征向量可以表示各相应文档,并且可以在这些特征向量中选择代表向量,以根据文档的相似度来执行聚类处理。
另外,可以使用所选代表向量的内积来计算各文档的相似度。例如,当通过代表向量和文档2的特征向量之间的内积而获得的值落在预设范围内时,与文档2的特征向量对应的文档可以聚类为与代表向量对应的一个文档。
假设代表向量被称为代表向量A,并且为了确定相似度而与代表向量A比较的文档的特征向量是特征向量B,聚类处理单元150的相似度计算器152根据“1”与一个值(这个值是代表向量A和特征向量B之间的内积值除以|A|2所获得的值)之间的差值来确定对应于代表向量A的文档和对应于特征向量B的文档之间的相似度。
但是,如果由各文档的代表向量和特征向量之间的内积获得的值落在预设范围内,则对应于特征向量的文档不能与代表向量的文档聚类到一起,而用作另一个聚类的文档。
即,如果例如代表向量(文档1的特征向量)和文档2的特征向量之间的内积获得的值落在预设范围内,则对应于特征向量的文档2可以与对应于代表向量的文档1聚类,但是如果没有落在预设范围内,则文档2不与文档1聚类。
对于没有与文档1聚类的文档,执行另一个代表向量的计算处理。在这种情况下,以如图5所示的相同方式再次计算各文档的特征向量。
即,与文档1聚类的文档可以分类为第一组。对于没有被分为第一组的其他文档,执行如下处理:从文档的索引文件中选择代表关键词,使用所选的代表关键词选择文档的特征向量,从所选特征向量中选择代表向量,并且使用所选代表向量和其他文件的各特征向量之间的内积值来确定文档的相似度。
通过上述处理来设置与第一组不同的第二组文档。由聚类处理单元50聚类的文档按每组进行分类,并存储在聚类DB 140中。
在当前实施例中,对各文档来提取特征向量,从提取的特征向量中选择代表向量,并且由所选代表向量和每一特征向量之间的内积获得的值与预设参考值相比较,由此对文档进行分类。因此,可以对相似文档进行聚类。
上述文档聚类教导了可以执行下面的功能。
如图3所示,用户可以通过聚类数量输入单元330来设置文档聚类的数量,并且可以通过文档数量输入单元340来设定每个聚类的文档数量的限制。
由代表向量和各文档的特征向量之间的内积获得的值与参考值比较,并且确定对应于特征向量的文档是否可以与对应于代表向量的文档一起聚类。这个事实表明根据参考值来确定待聚类文档的数量范围。
用于将多个文档聚类为组的代表向量与被聚类的文档一起通过聚类处理单元150的聚类DB管理器153存储在聚类DB 140中。
由于存储了用于聚类的代表向量,可以利用所使用的代表向量来确定新文档的相似度。
这里,组成代表向量分量的代表关键词必须与代表向量一起存储。
由于文档被聚类,所以用户可以选择和研究已分类的组的文档。因此,可以将更精确的,而不仅仅是大量的信息提供给用户。
在本发明的上述实施例中,使用对存储在文档DB 110中的文档所编写的索引文件来提取文档的特征向量,并且使用所提取的特征向量选择代表向量和计算文档的相似度。在下文中,将描述存储在文档DB 110中的新文档的自动聚类。
根据本发明的聚类处理单元150包括聚类DB管理器153,用于管理存储在聚类DB 140中的被聚类的文档。当将新文档存储到文档DB 110中时,聚类DB管理器153使得通过使用聚类DB 140中的多个预选的代表向量对新文档进行自动聚类。
现在参考图6,详细描述自动聚类。
图6是根据本发明实施例的对新文档进行自动聚类的方法的流程图。
图6示出当通过网络机器人提供新文档给系统的文档DB 110时的自动聚类方法。
首先,将新文档存储在文档DB 110中(S601),并且由文档特征编写单元120编写新文档的索引文件。
聚类处理单元150的代表向量计算器151使用所编写的索引文件来确定关于新文档的特征向量(S603)。这里,由代表向量计算器151编写的特征向量分量的数量被设定为预设数量。在前面的图4和图5的实施例中,对于特征向量设置四个向量分量。
聚类处理单元150的相似度计算器152通过新文档的特征向量和聚类DB 140中预先存储的代表向量之间的内积值来确定新文档的相似度(S605)。
即,文档向量计算器151根据新文档的索引文件确定关于新文档的特征向量,并且聚类DB管理器153通过对新文档所确定的特征向量和预先存储的代表向量之间的内积值来确定相似度。
这里,如上所述,随着由代表向量A和新文档的特征向量C之间的内积值除以|A|2而得到的值与“1”越接近,则新文档和对应于代表向量A的文档之间的相似度越高。
因此,聚类DB管理器153可以使用多个预先存储的代表向量来确定新文档的相似度,并且可以将新文档聚类到对应于代表向量的具有高相似度的文档所属的组(S607)。
通过上述处理,当由网络机器人将新文档提供给文档DB 110时,新文档可以自动聚类到最相似的组,而不需要用户执行聚类操作。
在前面的实施例中,从文档中提取关键词,根据所提取的关键词编写索引文件,并且使用所编写的索引文件来计算特征向量和代表向量,并且使用计算出的向量来确定文档之间的相似度,以用于聚类。
另外,可以编写关于文档的特定字段的索引文件,因此可以通过所编写的索引文件将具有相似特定字段的文档聚类到一起。
聚类处理单元150包括字段聚类部分154,用于根据字段(即,标记项)之间的相似度对文档进行聚类。字段聚类部分154可以将具有相似特定字段的文档聚类在一起。
即,如果本发明中使用的文档是专利文档,那么每个专利文档包括诸如“权利要求”、“摘要”、“背景技术”、“发明内容”、“附图说明”和“优选实施例的详细说明”这样的标记项。这里,专利文档可以根据特定标记项(或字段)被聚类。
由于例如“背景技术”和“发明内容”的字段而彼此相似的专利文档可以被聚类到一起。
在这种情况下,文档特征编写单元120从文档DB 110中存储的专利文档的“背景技术”和“发明内容”的字段中提取关键词,利用所提取的关键词编写文档的索引文件,并且将索引文件存储在文档特征DB 130中。
聚类处理单元150的代表向量计算器151使用包含在文档的“背景技术”和“发明内容”字段中的关键词的出现频率来选择特征向量和代表向量。
因此,代表向量和特征向量之间的内积,和文档之间的相似度,使用相似度计算器,参考文档的“背景技术”和“发明内容”的字段来确定。
因此,具有相似的字段的专利文档可以被聚类到一起。这样,具有相似的背景技术问题的专利文档可以被聚类。另外,使用“背景技术”和“发明内容”的字段彼此相似的专利文档可以聚类到一起。
可以以特定字段为单位对文档进行聚类的事实表明可以由字段聚类部分154以特定字段为单位对新文档进行自动聚类。
本领域技术人员应该明白,可以对本发明做出各种修改和变化。因此,本发明旨在覆盖在所属权利要求及其等同物的范围内对本发明所进行的修改和变化。

Claims (10)

1.一种文档聚类系统,包括:
文档存储单元,用于存储文档;
文档特征生成单元,用于提取在所述文档存储单元中存储的文档的属性信息,并且基于所述属性信息生成关于各文档的索引;
文档特征数据库,用于存储所述各文档的索引;
文档检索单元,利用所述索引来检索包含用户输入的查询的文档;
聚类处理单元,包括用于计算检索到的文档的特征向量和代表向量的代表向量计算器,以及使用所述特征向量和所述代表向量计算文档之间相似度的相似度计算器;
聚类数据库,存储由聚类处理单元聚类的文档;以及
输出单元,将作为检索结果所获得的文档列表提供给客户端,所述输出单元的文档选择部分允许用户单独选择所检索到的文档,所述输出单元的聚类请求部分基于所选文档的相似度来执行文档的聚类处理,通过所述客户端的聚类数量输入部分输入文档聚类的数量,以及通过所述客户端的文档数量输入部分输入每个聚类的文档数量。
2.根据权利要求1所述的系统,其中所述代表向量计算器基于在每个检索到的文档中包含的关键词的出现频率来计算特征向量。
3.根据权利要求1所述的系统,其中所述代表向量是具有在多个文档特征向量的绝对值中最大绝对值的向量。
4.根据权利要求1所述的系统,其中所述相似度计算器利用代表向量和特征向量之间的内积而获得的值来确定文档之间的相似度。
5.根据权利要求1所述的系统,其中所述文档是专利文档,并且
所述聚类处理单元还包括字段聚类单元,其使用组成所述专利文档的标记项对彼此相似的文档进行聚类处理。
6.根据权利要求1所述的系统,其中所述聚类处理单元将所述代表向量计算器计算的代表向量和所聚类的文档存储在所述聚类数据库中。
7.根据权利要求6所述的系统,其中所述文档存储单元存储由网络机器人提供的新文档,以及
在新文档提供给文档存储单元时,所述聚类处理单元使用关于新文档的特征向量和存储在所述聚类数据库中的代表向量来对新文档进行聚类处理。
8.根据权利要求7所述的系统,其中所述聚类处理单元还包括聚类数据库管理器,用于管理在所述聚类数据库中存储的已聚类的文档和用于聚类处理的代表向量,以及
所述聚类数据库管理器执行新文档的聚类处理。
9.根据权利要求1所述的系统,其中所述文档特征生成单元利用包含在每个文档中的特定字段的关键词来生成索引,以及
所述聚类处理单元计算关于文档的特定字段的特征向量和代表向量。
10.根据权利要求9所述的系统,其中所述聚类处理单元还包括字段聚类单元,用于根据文档之间的特定字段相似度对文档进行聚类,
其中所述字段聚类处理单元基于由所述代表向量和所述特征向量之间的内积值除以所述特征向量的绝对值的平方而获得的值来确定字段相似度。
CN2007100854581A 2006-04-13 2007-03-05 文档聚类系统和方法 Expired - Fee Related CN101055585B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR1020060033659A KR100816934B1 (ko) 2006-04-13 2006-04-13 문서검색 결과를 이용한 군집화 시스템 및 그 방법
KR10-2006-0033661 2006-04-13
KR1020060033661A KR100809751B1 (ko) 2006-04-13 2006-04-13 문서분석 시스템 및 그 방법
KR1020060033661 2006-04-13
KR10-2006-0033659 2006-04-13
KR1020060033659 2006-04-13

Publications (2)

Publication Number Publication Date
CN101055585A CN101055585A (zh) 2007-10-17
CN101055585B true CN101055585B (zh) 2013-01-02

Family

ID=38795422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100854581A Expired - Fee Related CN101055585B (zh) 2006-04-13 2007-03-05 文档聚类系统和方法

Country Status (2)

Country Link
KR (1) KR100816934B1 (zh)
CN (1) CN101055585B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100932843B1 (ko) * 2008-01-29 2009-12-21 엔에이치엔(주) 검색결과간의 연관도에 기초하여 클러스터링된 검색결과를제공하는 방법 및 시스템 그리고 검색결과를클러스터링하는 방법 및 시스템
CN101251862B (zh) * 2008-03-25 2010-06-09 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
US20090313228A1 (en) * 2008-06-13 2009-12-17 Roopnath Grandhi Method and system for clustering
CN101729440B (zh) * 2008-10-31 2012-12-05 国际商业机器公司 发送文件的以及接收文件的设备与方法
CN102272754B (zh) * 2008-11-05 2015-04-01 谷歌公司 定制语言模型
KR101054824B1 (ko) * 2008-11-28 2011-08-05 한국과학기술원 키워드 시맨틱 네트워크 구성을 통한 특허정보 시각화 시스템 및 그 방법
JP4666065B2 (ja) * 2008-12-03 2011-04-06 富士ゼロックス株式会社 情報処理装置及びプログラム
CN102122296B (zh) * 2008-12-05 2012-09-12 北京大学 检索结果聚类方法及装置
KR101043630B1 (ko) * 2009-07-31 2011-06-22 고려대학교 산학협력단 뉴스 제공 방법 및 시스템
CN101989289B (zh) * 2009-08-06 2014-05-07 富士通株式会社 数据聚类方法和装置
CN101694668B (zh) * 2009-09-29 2012-04-18 北京百度网讯科技有限公司 网页结构相似性确定方法及装置
CN102053992B (zh) * 2009-11-10 2014-12-10 阿里巴巴集团控股有限公司 聚类方法和系统
US8560519B2 (en) * 2010-03-19 2013-10-15 Microsoft Corporation Indexing and searching employing virtual documents
KR101347884B1 (ko) * 2010-11-19 2014-01-07 네이버 주식회사 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템
CN102750289B (zh) * 2011-04-19 2015-08-05 富士通株式会社 基于标签组对数据进行混合的方法和设备
CN103164540B (zh) * 2013-04-15 2016-08-17 武汉大学 一种专利热点发现与趋势分析方法
JP2015060581A (ja) * 2013-09-20 2015-03-30 株式会社東芝 キーワード抽出装置、方法およびプログラム
CN103514284B (zh) * 2013-09-29 2017-05-10 北大医疗信息技术有限公司 数据显示系统和数据显示方法
CN104699707A (zh) * 2013-12-06 2015-06-10 深圳先进技术研究院 一种聚类数据的方法和装置
CN107430824B (zh) * 2015-02-06 2021-05-04 意识教育以色列公司 用于评价响应的半自动系统和方法
CN106126758B (zh) * 2016-08-30 2021-01-05 西安航空学院 用于信息处理和信息评估的云系统
CN107085583B (zh) * 2016-10-27 2021-05-28 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN106815310B (zh) * 2016-12-20 2020-04-21 华南师范大学 一种对海量文档集的层次聚类方法及系统
JP7078429B2 (ja) * 2018-03-20 2022-05-31 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
CN109213855A (zh) * 2018-09-12 2019-01-15 合肥汇众知识产权管理有限公司 基于专利撰写的文献标记方法
CN109522410B (zh) * 2018-11-09 2021-02-09 北京百度网讯科技有限公司 文档聚类方法及平台、服务器和计算机可读介质
CN110727762B (zh) * 2019-09-17 2022-04-29 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4651289A (en) * 1982-01-29 1987-03-17 Tokyo Shibaura Denki Kabushiki Kaisha Pattern recognition apparatus and method for making same
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282331A (ja) * 1996-04-09 1997-10-31 Canon Inc 文書類似判定装置および文書類似判定方法
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR100505848B1 (ko) * 2002-10-02 2005-08-04 씨씨알 주식회사 검색 시스템
KR20040042065A (ko) * 2002-11-12 2004-05-20 하창승 사례기반추론기법과 연관규칙탐사기법을 이용한 지능형정보검색방법
KR20040054308A (ko) * 2002-12-18 2004-06-25 엘지전자 주식회사 뉴스 비디오의 개별기사 군집화 방법 및 뉴스 브라우징방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4651289A (en) * 1982-01-29 1987-03-17 Tokyo Shibaura Denki Kabushiki Kaisha Pattern recognition apparatus and method for making same
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法

Also Published As

Publication number Publication date
CN101055585A (zh) 2007-10-17
KR100816934B1 (ko) 2008-03-26
KR20070102034A (ko) 2007-10-18

Similar Documents

Publication Publication Date Title
CN101055585B (zh) 文档聚类系统和方法
Zhang et al. Ad hoc table retrieval using semantic similarity
US8046363B2 (en) System and method for clustering documents
US6965900B2 (en) Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
Lu et al. Annotating structured data of the deep Web
Roshdi et al. Information retrieval techniques and applications
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN106547864B (zh) 一种基于查询扩展的个性化信息检索方法
EP2410446A1 (en) Personal music recommendation mapping
KR100797232B1 (ko) 계층적 데이터 지향 네비게이션 시스템 및 정보 인출 방법
US10467265B2 (en) Method for extracting entries from a database
US20040107221A1 (en) Information storage and retrieval
CN101692223A (zh) 响应于用户输入精炼搜索空间
JP2000090103A (ja) 情報検索装置及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
CN103778206A (zh) 一种网络服务资源的提供方法
CN103678710A (zh) 一种基于用户行为的信息推荐方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
US9552415B2 (en) Category classification processing device and method
Ramkumar et al. Text document clustering using k-means algorithm
CN103186650A (zh) 一种搜索方法和装置
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
Huang et al. Rough-set-based approach to manufacturing process document retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20150305

EXPY Termination of patent right or utility model