CN1306440C

CN1306440C - 关联性文件连结管理系统及方法

Info

Publication number: CN1306440C
Application number: CNB2004100384008A
Authority: CN
Inventors: 范纲明; 陈丁豪
Original assignee: Via Technologies Inc
Current assignee: Via Technologies Inc
Priority date: 2004-05-27
Filing date: 2004-05-27
Publication date: 2007-03-21
Anticipated expiration: 2024-05-27
Also published as: CN1584883A

Abstract

一种关联性文件连结管理系统，包括文件接收模块、关键字词类别数据库、分类模块、分类文件数据库、文件检索模块、以及输出模块。其中，文件接收模块用于接收多份文件资料；关键字词类别数据库记录有多个关键字词，以及各关键字词所属的至少一个类别；分类模块依据这些关键字词的关联字词萃取权值以及其类别来分析这些文件资料，以便产生多份分类文件资料；分类文件数据库储存这些分类文件资料；文件检索模块搜索分类文件数据库从这些分类文件资料检索出至少一份特定文件资料；输出模块输出所检索出的至少一份特定文件资料。另外，本发明还揭示了一种关联性文件连结管理方法，以及记录让计算机实施关联性文件连结管理方法的程序的记录媒体。

Description

关联性文件连结管理系统及方法

技术领域

本发明涉及一种文件管理系统，特别是涉及一种管理文件的关联性文件连结管理系统。

背景技术

随着时代的进步，电子媒体已经成为主要的文件提供媒介之一。一般而言，电子文件通常会被储存在一电子数据库，而且电子数据库可以储存有非常庞大数量的电子文件，因此在检索电子数据库中所储存的电子文件时，通常必须透过搜索引擎并配合关键字词来进行检索，以便找到所需的电子文件。

在熟知技术中，举例来说，如图1所示，使用者通常会先输入关键字词到搜索引擎(S01)；接着，搜索引擎会依据关键字词来搜索电子数据库以便检索出所需的电子文件(S02)；最后，则输出所检索出的电子文件(S03)，例如利用屏幕显示方式将电子文件呈现给使用者。在步骤S02中，搜索引擎通常会分析各电子文件中是否包含有关键字词，并进一步分析各关键字词在电子文件中出现的次数与位置等信息，以便进一步判断各电子文件的相关性。

然而，上述的检索方式并未针对各文件的内容性质作分类，因此，在使用关键字词来进行检索时，往往会找到一些具有这些关键字词的不相关的文件，特别是当某些关键字词是一个字词具有多种解释时，或是搜索引擎所引用的算法则对文章的分解不当而没有产生正确的字词时。举例而言，使用者接收关键字词“威盛”，并希望可以搜索到有关于“威盛电子股份有限公司”的电子文件，但实际上可能同时会找到完全不相关的电子文件，如文件中包含以下文字：“…宴会主人林大‘威盛’意拳拳地款待所有来宾，…”(搜索引擎错误地将“林大威”与“盛意拳拳”给分解成“威盛”)。又例如，另外，使用者接收关键字词“IDF”，并希望可以搜索到有关于美国专利法所规定的“Information Disclosure Form，IDF”的相关资料，但实际上可能同时会找到完全不相关的电子文件，例如其可能找到有关于台湾“IDF”战斗机的相关电子文件。

此外，熟知技术尚有其它缺点，例如：当要从某电子文件出发开始找寻相关信息时，往往或是必须针对整个电子数据库中所有电子文件进行检索，或是只能就目前已有的搜索结果再作检索，而不能集中检索某特定相关范围的电子文件，所以整个搜索程序的效率较低，且其成本相对较高；以及，要从某电子文件出发开始找寻相关主题，必须重新接收不同关键字词以进行检索，亦即没有一个有效便捷的方法可以自动自某一电子文件出发并找出具相关主题的其它电子文件。

发明内容

有鉴于上述课题，本发明的目的为提供一种能够有效地搜索出所需的文件的关联性文件连结管理系统及方法。

另外，本发明的另一目的为提供一种能够检索特定相关范围的文件的关联性文件连结管理系统及方法。

本发明的又一目的为提供一种能够便捷地找出具有相关主题的文件的关联性文件连结管理系统及方法。

因此，为达到上述目的，根据本发明的关联性文件连结管理系统，包括一个文件接收模块、一个关键字词类别数据库、一个分类模块、一个分类文件数据库、一个文件检索模块、以及一个输出模块。在本实施例中，文件接收模块用于接收多份文件资料；关键字词类别数据库记录有多个关键字词，以及各关键字词所属的一个类别；分类模块是依据各该关键字词的各关联字词萃取权值以及其类别来分析这些文件资料，以产生多份分类文件资料；分类文件数据库储存这些分类文件资料；文件检索模块搜索分类文件数据库以检索出至少一份文件资料；输出模块输出所检索出的文件资料。

另外，本发明还揭示一种关联性文件连结管理方法，其至少包括以下步骤：接收多份文件资料以及建立一个关键字词类别数据库，其记录有多个关键字词，以及各关键字词所属的类别；依据这些关键字词的关联字词萃取权值以及类别来分析这些文件资料，以产生多份分类文件资料；搜索这些分类文件资料以检索出至少一份文件资料；以及输出所检索出的文件资料。

本发明还提供一种记录媒体，其记录计算机可读取(readable)的关联性文件连结管理程序，以便执行上述的关联性文件连结管理方法。

综上所述，因根据本发明的关联性文件连结管理系统及方法，是预先建立关键字词类别数据库，以便记录各关键字词及其所属的类别，所以能够预先分析出各文件资料所属的类别，即产生分类文件资料。因此，依本发明的关联性文件连结管理系统及方法，能够有效地搜索出所需的文件、检索特定相关范围的文件、便捷地找出具有相关主题的文件、找出某文件的相关主题或甚至再找出对应相关主题的文件，进而能够提升整个搜索程序的效率，且相对降低其成本。

附图说明

图1为熟知的关联性文件管理方法的流程图；

图2为本发明优选实施例的关联性文件连结管理系统的示意图；以及

图3为本发明优选实施例的关联性文件连结管理方法的流程图。

具体实施方式

以下将参照相关附图，说明依本发明优选实施例的关联性文件连结管理系统及方法，其中相同的组件将以相同的附图标记加以说明。

请参照图2所示，依本发明优选实施例的关联性文件连结管理系统2，包括一个文件接收模块21、一个关键字词类别数据库22、一个分类模块23、一个分类文件数据库24、一个文件检索模块25、以及一个输出模块26。在本实施例中，文件接收模块21用于接收多份文件资料31；关键字词类别数据库22记录有多个关键字词41，以及各关键字词41所属的至少一类别42；分类模块23是依据关键字词类别数据库22所记录的关键字词41(特别是其与各文件资料31的关联字词萃取权值)以及类别42来分析所有的文件资料31，以产生多份分类文件资料32；分类文件数据库24储存这些分类文件资料32；文件检索模块25搜索分类文件数据库24(例如根据使用者所输入的搜索条件)，以检索出至少一文件资料或一分类文件资料32(因为文件资料与分类文件资料有一定的对应关系，如无特别限定，文件资料与分类文件资料可以互相替换)；输出模块26是输出所检索出的分类文件资料32(或说文件资料)，或是输出相关的资料。

在本实施例中，分类模块23可以依据所有文件资料31以及包含有某关联字词41的文件资料31的数量，产生一比值，该比值是此关键字词41的收录频率权值(collection frequency weight)，可以代表此关键字词41与某文件资料31之间的相关程度。分类模块23亦可以依据此关键字词41在此文件资料31中的出现次数，得到一个关键字词出现权重(termsFrequency)，可以代表此关键字词41在文件资料31的出现频率(或可能的重要性)。分类模块23亦可以根据收录频率权值以及关键字词出现权重二者的乘积，得到一个关键字词萃取权值，可以代表此关键字词41对此文件资料31的重要程度。

显然地，某个关键字词的收录频率权值越高，代表其在文件资料中出现的数目越少，也就越不与某特定类别的文件资料相关。因此，若某文件资料的某个关键字词，其收录频率权值小，便代表此关键字词与此文件资料相关性很大，也代表具有该关键字词的其它文件资料，应该与此文件资料十分相关。当然，本发明的重点仅在于二者间比例的概念，至于是直接使用两个数目相除得到的值，或是将这个值再取对数，或是再开根号等等，都是本发明在收录频率权值上可以有的变化。举例来说，收录频率权值可以由下式表示(但不一定要如此)：

并且，为简化计算，关键字词出现权重也可以是由简单的计分取代，例如将与某文章相关的各个关键词依序排列，然后排在越前面给予越高的权重。举例而言，若某一关键字词为出现在所检索出的分类文件资料中所有关键字词中的第一顺位，则给予此一关键字词与所检索出的分类文件资料的相关度分级为5分；依此类推，第二顺位为3分，第三顺位为1分。这是由于，关键字词出现权重的目地，是要衡量某个关键字词在某文件资料所占的份量。除此之外，某关键字词的关键字词萃取权值越高，便代表其在某文件资料中占的份量越重，且其在其它文件资料中出现的几率越低，亦即由关键字词所找到的此文件资料，越是使用者所想要检索到的内容。另外，这些类别42是例如产品类别、技术类别、厂商类别或人物类别，但不限于此。

另外，关联性文件连结管理系统2还可以再包括一个关联性关键字词检索模块27，其分析所检索出的分类文件资料32，以便检索出至少一个关联性关键字词321；此时，输出模块26还可以输出所检索出的关联性关键字词321。举例而言，关联性关键字词检索模块27可以对所检索出的多个关联性关键字词321进行分级动作，然后输出模块26依据各关联性关键字词321的等级来排序、输出这些关联性关键字词321；又例如，关联性关键字词检索模块27可以根据关键字词类别数据库22，找出(甚至显示)与所检索出的多个关联性关键字词321相关的其它关键字词，以供使用者参考(如考虑要不要作更广泛的检索)。

再者，关联性文件连结管理系统2还可以包括一个关联性文件检索模块28，其分析所检索出的分类文件资料32，以便进一步检索出与此分类文件资料32相关联的其它分类文件资料32。接着，再由输出模块26同时输出所检索出的相关联的其它分类文件资料32。举例来说，当所检索出的分类文件资料32对应到某些关键字词时，关联性文件检索模块28可以找出有对应到部份这些关键字词的其它文件资料，或是找到具有与该些关键字词相关联(如属在相同或相似的关键字词分类)的其它关键字词，以供使用者考虑是否进行更广泛的检索。

在本实施例中，关联性关键字词检索模块27亦可以依据所有分类文件资料32的数量以及包含有所检索出的关联性关键字词321的分类文件资料32的数量，产生一比值，该比值是所检索出的关联性关键字词321的收录频率权值(collection frequency weight)，可以代表某关键性关键字词321与某文件资料31之间的相关度。关联性关键字词检索模块27也可以依据某关联性关键字词321在某文件资料31中的出现次数，得到一个关键字词出现权重(terms Frequency)，可以代表某关键字词41在文件资料31的出现频率(或可能的重要性)。关联性关键字词检索模块27也可以根据收录频率权值以及关键字词出现权重二者的乘积，得到一个关键字词萃取权值，可以代表某关键字词41对某文件资料31而言重要的程度。在此，由于相关的计算细节等与分类模块部份相同，将不再重复描述。

必须强调地是，关联性文件连结管理系统2可以实施于任何电子设备中；并且本发明的各实施例中的各部份都可以是使用软件或硬件或固件来实现，本领域技术人员可以综合利用各种现有的软件、固件或硬件，而不违反本发明的精神与范畴。

为使本发明的内容更容易理解，以下将参照图3来说明根据本发明优选实施例的关联性文件连结管理方法的流程。

首先，在步骤S11中，多份文件资料经由文件接收模块接收。在本实施例中，所接收的文件资料例如为新闻文件资料，其可以是能够在因特网上搜索取得的新闻电子报，此时，文件接收模块是从因特网中搜索并下载新闻电子报，而这些新闻电子报的内容即为本实施例的文件资料。当然，也可以是使用者所主动输入的资料，或是某个电子数据库的内容，本发明并不限于此。

接着，在步骤S12中，是利用关键字词类别数据库建立模块来建立一个关键词类别数据库，而所建立的关键字词类别数据库记录有多个关键字词，以及各关键字词所属的至少一个类别。在本实施例中，关键字词可以是产品名称、制造技术名称、或是人名，而其相对应的类别为产品类别、技术类别、厂商类别、或人物类别。例如，前述的关键字词“威盛”属于厂商类别，而另一关键字词“IDF”属于法律类别。在此，关键字词数据库可以是由使用者主动建立的(例如键入(key-in)各个关键字词及其分组)、也可以是根据预先输入的资料与规则所建立的，也可以由计算机人工智能功能，在使用者设定不同文章分别属于那些分类的文章后，主动解析各文章，以得到相对应的关键字词以及关键字词所属类别。

必须强调的是，本发明的重点是在进行诸如步骤S13的内容之前，必须已经有关键字词数据库，但是关键字词数据库是如何建立的，并不是本发明的重点。同时，步骤S11与步骤S12的先后关系，本发明并不需要限制，本发明仅需要接收多份文件资料以及具有关键字词数据库，便可以开始进行诸如步骤S13的内容。

在步骤S13中，是利用分类模块来分析所接收的文件资料，以便依据记录在关键字词类别数据库中的关键字词及类别，产生多份分类文件资料。在本实施例中，每份分类文件资料可以包括相对应的文件资料以及索引资料，而这些分类文件资料可以是储存在一分类文件数据库中。其中，索引资料记录有每份分类文件资料所应属的类别，在此，每份分类文件资料可以是属于产品类别、技术类别、厂商类别、及人物类别等其中之一，其亦可以同时属于多个类别。索引资料也可以记录相对应的关键字词及其类别。

在步骤S14中，是利用文件检索模块来搜索分类文件数据库所储存的这些分类文件资料，以便检索出至少一份分类文件资料(或说至少一份文件资料)。在本实施例中，本步骤S14通常与使用者配合，其可以是由使用者接收一关键字词然后从关键字词类别数据库中先找出此关键字词所属的类别，接着搜索分类文件数据库中所储存的属于此一类别的分类文件资料，以便检索取得所需的分类文件资料。其也可以是由使用者输入至少一个关键字词(甚至此关键字词所属的类别)，然后找出所有具有这些关键字词的文件资料，特别是找出相对应的关键字词萃取权值高(如高于某一定比率)的文件资料。因此，本实施例能够检索特定相关范围的分类文件资料，并有效地搜索出所需的文件资料。相较于熟知技术直接使用关键词检索整个数据库的所有文件资料，本发明可以或是只检索某特定类别的文件资料，或是先检索整个数据库再过滤掉不是所要类别的文件资料，将可以有效减少因为某关键字词具有多个意义而搜索到不相关文件资料的几率。特别是，藉由设定调整检索出来的文件资料所必须具备的关键字词萃取权值的下限(甚至不同关键字词可以分别设定调整)，便可以调整改变检索得到的文件资料。

接着，在步骤S15中，是利用输出模块输出所检索出的分类文件资料(或说文件资料)。在本实施例中，所检索出的资料是显示在一电子浏览器(browser)中，并以HTTP格式或TEX格式等等呈现给使用者。

另外，关联性文件连结管理方法也能够先分析所检索出的分类文件资料以检索出至少一个关联性关键字词(步骤S16)，然后再经由输出模块输出所检索出的关联性关键字词(步骤S17)。在本实施例中，步骤S16是利用关联性关键字词检索模块来分析所检索出的分类文件资料，从而检索出至少一关联性关键字词，步骤S17是输出关联性关键字词，例如依照这些关联性关键字词的关键字词出现权重的高低，依序输出这些关联性关键字词。在此，关联性关键字词是指某些关键字词，其与某文件资料的关联性没有大到很相关(如关键字词萃取权值小于一上限)，但又没有小到基本上不相关(如关键字词萃取权值大于一上限)。举例来说，当搜索条件是关键字词“Intel”、“毫微米制程”、“微处理器原理”，而得当某文件资料是“P-IIII微处理器简介”时，相对应的关联性关键字词可以是“高速缓存”、“AMD”、“计算机行情”。

此外，关联性文件连结管理方法亦能够分析所检索出的分类文件资料，以便至少取得与所检索出的分类文件资料有相关联的另一分类文件资料(步骤S18)，然后再经由输出模块输出所检索出的另一分类文件资料(步骤S19)。在本实施例中，步骤S18是利用关联性文件检索模块来分析所检索出的分类文件资料，以便进一步检索出与此一分类文件资料相关联的另一分类文件资料。如前所述，输出模块可以依据两个分类文件资料的相关度的等级来依序输出该另一分类文件资料。

举例来说，在可以同时使用第一关键字词、第二关键字词以及第三关键字词，以关键字词萃取权值不小于一个第一临界值为标准，找到一份文件资料时，至少进行下列处理之一：(1)以关键字词萃取权值小于第一临界值但不小于第二临界值为标准，找到其它的文件资料，并加以显示。(2)在仅使用某一关键字词时，以关键字词萃取权值不小于第一临界值为标准，找到至少一份文件资料，并加以显示。(2)在使用两个关键字词时，以关键字词萃取权值不小于第一临界值且不小于第二临界值为标准，找到至少一份文件资料，并加以显示。

本发明还提供一种记录媒体(例如光盘片、磁盘片与抽取式硬盘等等)，其记录一计算机可读取的关联性文件连结管理程序，以便执行上述的关联性文件连结管理方法。在此，储存在记录媒体上的关联性文件连结管理程序，基本上是由多个程序代码片段所组成的，并且这些程序代码片段的功能对应上述实施例所述的关联性文件连结管理方法。

综上所述，本发明预先建立关键字词类别数据库，记载各关键字词及其所属的类别，所以能够预先分析出各文件资料所属的类别，亦即是产生分类文件资料。因此，根据本发明的关联性文件连结管理系统及方法，能够有效地搜索出所需的文件、检索特定相关范围的文件、及便捷地找出具有相关主题的文件，进而能够提升整个搜索程序的效率，且相对降低其成本。特别是，凭借提供关联性关键字词的功能以及提供相关联文件资料的功能，本发明可以自某一文件资料出发，根据关键字词类别数据库以及分类文件数据库，有效率地查出与此文件资料相关的其它关键词或其它文件资料，而不需要再重新设定搜索条件并对所有文件资料(或先前检索所得的部份文件资料)再次进行搜索。

以上所述仅为举例性，而非为限制性。任何未脱离本发明的精神与范畴，而对其进行的等效修改或变更，均应包含在所附的权利要求书中。

Claims

1、一种关联性文件连结管理系统，包含：

文件接收模块，其用于接收多份文件资料；

关键字词类别数据库，其记录有多个关键字词，以及各该关键字词所属的至少一个类别；

分类模块，其是依据任一该关键字词在这些文件资料的关联字词萃取权值以及其类别来分析这些文件资料，以产生所述多份分类文件资料，其中任一该分类文件资料都至少包含相对应的一份该文件资料以及一份索引资料，而该索引资料记录对应该文件资料所属的类别，其中该关联字词萃取权值是藉由计算一关键字词出现权重与一收录频率权值的乘积获得的，该关键字词出现权重是代表该关键字词在该文件资料的份量的值，而该收录频率权值是代表该关键字词与该文件资料的相关度的值，其表示所有文件资料总数和包含该关键字词的文件资料总数之间的比例；

分类文件数据库，其储存这些分类文件资料；以及

文件检索模块，其根据至少一个搜索条件，搜索该分类文件数据库以检索出相对应的至少一份文件资料。

2.如权利要求1所述的系统，该分类模块计算该关键字词的关键字词出现权重的方式，至少包含：

根据该关键字词在该文件资料中的出现次数，该关键字词出现的次数越多，该关键字词的关键字词出现权重也越大；以及

根据该关键字词在所有与该文件资料相关的多数关键字词中的顺位，该关键字词的顺位越高，该关键字词的关键字词出现权重也越大。

3.如权利要求1所述的系统，该分类模块是根据下列方程式计算对应到该关键字词的收录频率权值：

4、如权利要求1所述的系统，当某一该文件资料具有至少一个该关键字词时，该分类模块是依照所述关键字词所对应的至少一个类别，将此特定文件资料指定到这些分类。

5、如权利要求1所述的系统，还包含：

关联性文件检索模块，其分析所检索出的至少这些文件资料之一，以检索出与该文件资料相关联的至少一份该文件资料，相关联的至少一份该文件资料的来源至少包含：

与被检索出的这些文件资料具有相同且至少一个该关键字词，但每一个该相对应的关联字词萃取权值都小于可以成为被检索出的文件资料的第一值但大于第二值；

与被检索出的这些文件资料具有相同且至少一个该关键字词，但至少一个该相对应的关联字词萃取权值小于可以成为被检索出的文件资料的第一值但大于第二值；以及

仅具有被检索出的这些文件资料所对应的至少一个关键字词的一部份。

6、如权利要求1所述的系统，还包含：

关联性关键字词检索模块，其分析所检索出的至少这些文件资料之一，以检索出至少一关联性关键字词，该关联性关键字词的来源至少包含：

与被检索出的这些文件资料相关，但相对应的关联字词萃取权值小于相对应搜索条件的至少一关键字词的关联字词萃取权值的至少一该关键字词；以及

与被检索出的这些文件资料相关，但相对应的关联字词萃取权值小于一预定值的至少一个该关键字词。

7、如权利要求1所述的系统，还包含输出模块，该输出模块至少：

输出被检索出相对应的至少一份这些分类文件资料；

在输出某一所述文件资料时，同时输出与该文件资料相关的至少一该关键字词；以及

在输出某一所述文件资料时，同时输出与该文件资料属于相同分类的至少一其它文件资料。

8、一种关联性文件连结管理方法，包含：

接收多份文件资料；

记录多个关键字词，以及各该关键字词所属的至少一个类别；

依据任一个所述关键字词在这些文件资料的关联字词萃取权值以及其类别来分析这些文件资料，以产生多份分类文件资料，其中任一该分类文件资料都至少包含相对应的一份该文件资料以及一份索引资料，而该索引资料记录相对应该文件资料所属的类别；其中该关键字词萃取权值是通过计算一关键字词出现权重与一收录频率权值的乘积获得的，该关键字词出现权重是代表该关键字词在该文件资料的份量的值，而该收录频率权值是代表该关键字词与该文件资料的相关度的值，其表示所有文件资料总数和包含所述关键字词的文件资料总数之间的比例；

储存这些分类文件资料；以及

根据至少一个搜索条件，搜索这些分类文件资料以检索出相对应的至少一份这些文件资料。

9、如权利要求8所述的方法，计算该关键字词的关键字词出现权重的方式，至少包含：

根据该关键字词在该文件资料中的出现次数，在此出现次数越多，关键字词出现权重也越大；以及根据该关键字词在所有与该文件资料相关的多数关键字词中的顺位，在此顺位越高，关键字词出现权重也越大。

10.如权利要求8所述的方法，是根据下列方程式计算对应该关键字词的收录频率权值：

11、如权利要求8所述的方法，当某一所述文件资料具有至少一个该关键字词，依照该些关键字词所对应的至少一个类别，指定特定文件资料到这些分类。

12、如权利要求8所述的方法，还包含分析所检索出的至少这些文件资料之一，以检索出与该文件资料相关联的至少一份该文件资料，在此相关联的至少一份该文件资料的来源至少包含：

与被检索出的这些文件资料具有相同且至少一个该关键字词，但每一个该相对应的关联字词萃取权值都小于可以成为被检索出的这些文件资料的第一值但大于第二值；

与被检索出的这些文件资料具有相同且至少一个该关键字词，但至少一个该相对应的关联字词萃取权值小于可以成为被检索出的这些文件资料的第一值但大于第二值；以及

仅具有被检索出的这些文件资料相对应的至少一个关键字词的一部份。

13、如权利要求8所述的方法，还包含分析所检索出的至少一份这些文件资料，以检索至少一个关联性关键字词，该关联性关键字词的来源至少包含：

与被检索出的这些文件资料相关，但相对应的关联字词萃取权值小于相对应搜索条件的至少一个关键字词的关联字词萃取权值的至少一个该关键字词；以及

与被检索出的这些文件资料相关，但相对应的关联字词萃取权值小于预定值的至少一个该关键字词。

14、如权利要求8所述的方法，还包含：

输出被检索出相对应的至少一份这些分类文件资料；

在输出某一份该文件资料时，同时输出与该文件资料相关的至少一个所述关键字词；以及

在输出某一份该文件资料时，同时输出与该文件资料属于相同分类的至少一份其它所述文件资料。