CN1133127C

CN1133127C - 文件检索系统

Info

Publication number: CN1133127C
Application number: CN97105515A
Authority: CN
Inventors: 稻叶光昭; 安川秀树; 野口彦; 菅野祐司; 佐藤光弘; 野本昌子
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-05-29
Filing date: 1997-05-29
Publication date: 2003-12-31
Anticipated expiration: 2017-05-29
Also published as: JPH1049549A; DE69731142T2; KR100295354B1; US6154737A; EP0810535B1; EP0810535A2; EP0810535A3; CN1172994A; KR970076328A; DE69731142D1

Abstract

一种文件检索系统，其字频度计算部分找出出现某字的文件号和该字在文件中的出现频度，并得出该字的加权参数；频度得分计算部分得出频度得分。此外，字一同出现相关性检查部分检查检索要求与文件的字一同出现相关性，一同出现得分计算部分计算一同出现得分，文件得分计算部分次序排好的文件显示给用户。

Description

文件检索系统

技术领域

本发明涉及一种文件检索系统，尤其涉及一种从大量文件数据库中搜索出同用户输入的检索要求相符或相对应的文件，并根据它们之间的符合度来编排或分类诸文件的文件检索系统。

背景技术

近年，由于文件数据库规模逐渐扩大到巨大的数量，所以常常难以通过应用原先的关键字搜索技术或全球检索技术方便地搜索目标文件，而且即使能以高速度产生检索结果，也并不总能缩短总检索时间。实现减少组合文件数量的一个可行办法是减少候选者，诸如加用另一个关键字，但是碰到的困难在于加用有关关键字后不致于遗漏必要的文件。为此除了注意字母串(字)在被搜索文件中是否出现以外，一种已知的令人注目的方法是根据其出现频度对被搜索文件排序(定次序)，以便高效检索目标文件。

图27是已有的对检索结果定序的文件检索系统结构的框图。如图27所示，该系统包括：待检索的文件数据库3101，字典3102，持有字典字在该文件中出现频度的字频度标引存储装置3103，从文件数据库3101中得到字出现频度信息的字频度信息提取装置3104，接收用户输入检索要求的检索要求输入装置3105，根据字频度标引存储装置3103计算字出现频度的字频度计算装置3106，根据字出现频度计算每个文件频度得分的频度得分计算装置，根据频度得分计算文件得分(表示每个文件与检索要求符合度)的文件得分计算装置3108，按文件得分次序重排文件编排装置3109，以及显示以得分次序编排组合文件的检索结果显示装置3110。

图28是说明已有的对检索结果定序的文献检索系统检索步骤的流程图。首先，检索前，字频度信息提取装置3104查阅文件数据库3101获得字频度信息，之后把该信息同文件总数与出现文件号一起输出给预先发现字频度标引的字频度标引存储装置3103。在步骤4201，想检索的用户通过检索要求输入装置3105输入检索要求，而在步骤4202，字频度计算装置3106参照字频度标引存储装置3103计算包括在经检索要求输入装置3105输入的检索要求的字典字Wi(i＝1，2，…NW，而NW对应于检索要求内包括的字典字号)在文件Dj(j＝1，2，…ND)中的出现频度TFij，并进一步计算出现该字的文件号NDi。

另外，在步骤4203，频度得分计算装置3107根据字频度计算装置3106的输出，按公式(1)计算文件Dj的频度得分SFj。

SFj = \underset{i}{Σ} (TFij \times IDFi)

IDFi＝1-log(NDi/ND) (1)

其中IDFi指明某个表示字Wi在所有文件中倾向性的参数。

还有，在步骤4204，根据频度得分计算装置3107输出的文件Dj的频度得分SFj，文件得分计算装置3108得出文件得分Sj，表明文件Dj与检索要求的符合度。在原先的检索系统中，文件得分Sj就是按公式(2)算出的频度得分SFj。

Sj＝SFj (2)

此外，在步骤4205，文件编排装置3109按文件得分计算装置3108算出的文件得分次序重排检索结果，接着由检索结果显示装置3110在步骤4206把检索结果显示给用户。

然而，根据上述的原先结构，在图29所示检索要求中一个字以极高频度出现的情况下，会出现把某个甚至与用户检索意图对立的文件排成较高次序的问题。此外，由于用于编排被检索文件的得分计算是以文件为单位进行的，不计其字段，所以难以将论文标题或专利申请发明篇名一类的信息供实际使用。

此外，还有各种各样的问题：在提出多种检索要求时，无法规定这些检索要求的优先度，难以灵活地表达用户的要求；若把包括所有必要字的一组字规定为检索要求，如果有一个字以极高的频度出现，该文件就会有高的排序；在表述一组字方面也有难处，这要求在密切的条件下出现，并作为检索要求对它们进行搜索。

发明内容

所以，本发明的一个目的是提供一种文件检索系统，它灵活地接收用户的检索要求并执行检索与编排操作以产生较少遭拒绝(不需要数据)的正确检索结果，且通过减少检索结果等办法从总体上缩短检索时间。

根据本发明的一个方面，文件检索系统响应于检索要求搜索被检目标文件(下称目标文件)并编排检索结果，该系统包括：持有某个字在目标文件中出现频度与字出现信息的标引存储装置、多个检索要求输入装置以及字出现相关性检查装置(检查目标文件中是否有包括在检索要求里的出现相关性)，其中，由用户输入多个不同优先权的检索要求，对字出现相关性高的目标文件提高得分，并优先显示诸文件。这样就可正确地检索出用户要的文件。

根据本发明的另一个方面，文件检索系统响应于检索要求搜索目标文件并编排检索结果，配备了多个检索要求输入装置，能让用户输入多个不同优先权的检索要求，结果能高精度地检索到用户想要的文件。

根据本发明的另一个不同的方面，文件检索系统响应于检索要求搜索目标文件并编排检索结果，它具有目标文件每一字段的标引信息，而系统包括的字段率(field rate)输入装置允许用户规定影响(加权)被检文件排序的字段率。这样就让用户在每一字段规定影响目标文件排序的比率，结果能以高精度检索用户要的文件。

根据本发明的一个不同方面，响应于检索要求搜索目标文件并编排检索结果的文件检索系统包括一个出现字号计算装置，用于计算同样出现在目标文件中的多个检索要求字的字号。包括在检索要求内的多个字同时出现于目标文件的情况下，对被检目标文件增加得分并优先显示该目标文件。这样就能高精度地检索到用户要的文件。

根据本发明的一个不同方面，响应于检索要求检索目标文件并编排检索结果的文件检索系统包括一个含有字出现频度和目标文件中字出现位置地标引存储装置，及一个字接近度计算装置，用于计算多个检索要求字在目标文件中出现位置的接近度，从而按接近度对目标文件增加得分并优先显示该目标文件。这样就能高精度地检索用户要的文件。

另外，根据本发明，还配备了响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统，它包括：字频度标引存储装置，用于贮存字典字在目标文件中的出现频度；字一同出现标引存储装置，用于贮存出现于目标文件的字一同出现信息；字频度信息提取装置，用于把字频度信息从被检文件数据库中取出并存入字频度标引存储装置；字一同出现信息提取装置，用于把字一同出现信息从文件数据库中取出并存入一同出现标引存储装置；检索要求输入装置，用户通过其输入检索要求；字频度计算装置，用于检阅字频度标引以得到字典字(包含在经检索要求输入装置输入的检索要求内)在文件数据库某一文件中的出现频度；频度得分计算装置，用于根据经字频度计算装置得到的字出现频度计算文件的频度得分(表明检索要求与该文件的符合度)；检索请求字字一同出现信息提取装置，用于按检索要求提取字一同出现信息；字一同出现相关性检索装置，用于参照字一同出现标引而找出在文件中出现多少字一同出现相关性(包括在检索要求内并由检索请求字一同出现信息提取装置输出)；一同出现得分计算装置，用于根据在检索要求与文件中共同出现的字一同出现相关性的数量计算该文件的一同出现得分；文件得分计算装置，用于根据频度得分计算装置与一同出现得分计算装置的输出计算文件得分；文件编排装置，用于按文件得分计算装置得出的得分次序重排目标文件作为检索结果；以及用于显示编排检索结果的检索结果显示装置。

根据本发明，提供的一种响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统，包括：字频度标引存储装置，用于贮存字典字在目标文件中的出现频度；字频度信息提取装置，用于把字频度信息从被检文件数据库中取出并存入字频度标引存储装置；主检索要求输入装置，允许用户输入要求优先处理的第一检索要求；辅检索要求输入装置，允许用户输入优先度低于第一检索要求的第二检索要求；字频度计算装置，用于查阅字频度标引以得到字典字(包含在第一和第二检索要求内)在文件数据库某一文件中的出现频度；频度得分计算装置，用于根据字频度计算装置得出的字出现频度计算文件的频度得分(表明文件同第一与第二检索要求的符合度)；文件得分计算装置，用于根据频度得分计算装置输出的频度得分计算该文件的文件得分(表明该文件和第一与第二检索要求之一)；文件编排装置，按文件得分计算装置得出的得分次序重排目标文件作为检索结果；以及检索结果显示装置，显示编排好的检索结果。

根据本发明提供的一种响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统，包括：字段字频度标引存储装置，贮存字典字在每一字段目标文件中的出现频度；字频度信息提取装置，把字频度信息从被检文件数据库里取出并放入字段字频度标引存储装置；检索要求输入装置，让用户输入检索要求；字段率输入装置，让用户输入某个表明文件某字段得分对文件得分影响度的比率；字段字频度计算装置，用包含在检索要求里的字典字查阅字段字频度标引以得出该字典字在文件里每个字段的出现频度；字段频度得分计算装置，根据字段字频度计算装置得到的字出现频度计算表明某一字段各文件与检索要求符合度的频度得分；文件得分计算装置，根据字段频度得分计算装置输出的字段字出现频度和输入给字段率输入装置的比率，计算表明文件与检索要求符合度的文件得分；文件编排装置，按文件得分计算装置得出的得分次序重排目标文件作为检索结果；及检索结果显示装置，显示排好的检索结果。

根据本发明提供的一种响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统，包括：字频度标引存储装置，贮存字典字在目标文件中的出现频度；字频度信息提取装置，从被检文件数据库中提出字频度信息并把它存入字频度标引存储装置；检索要求输入装置，用户用它输入检索要求；字频度计算装置，查阅字频度标引以计算字典字(包含在目标要求内)在文件数据库某文件中的出现频度；频度得分计算装置，根据字频度计算装置得出的字出现频度计算表明文件与检索要求符合度的文件得分；字频度号计算装置，参照出现字标引找出包含在检索要求内的字有多少字出现在文件中；出现字得分计算装置，根据出现字号计算装置得出的出现字号获取要加到该文件的出现字得分；文件得分计算装置，根据频度得分计算装置输出的频度得分和出现字号得分计算装置输出的出现字得分，计算表明检索要与文件符合度的文件的文件得分；文件编排装置，按文件得分计算装置得出的得分次序重排目标文件作为检索结果；检索结果显示装置，显示排好的检索结果。

根据本发明提供的一种响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统，包括：字频度标引存储装置，贮存字典字在目标文件中的出现频度；字出现位置标引存储装置，贮存字出现在目标文件中的位置；字频度信息提取装置，把字频度信息从被检文件数据库中提出并存入字频度标引存储装置；字出现位置信息提取装置，从文件数据库里获取字位置信息并把它保持在字出现位置标引存储装置里；检索要求输入装置，用户用它输入检索要求；字频度计算装置，查阅字频度标引以计算字典字(包含在检索要求内)在文件数据库某一文件里的出现频度；频度得分计算装置，根据字频度算计装置得出的字出现频度，获得表明文件与检索要求符合度的文件得分；出现位置计算装置，参照字出现位置标引以获取包含在检索要求内的字在文件中的出现位置；字接近计算装置，根据字出现位置计算装置输出的字出现位置，计算文件各字的接近度；接近得分计算装置，根据字接近计算装置输出的接近度，获得规定给该文件的接近得分；文件得分计算装置，根据频度得分计算装置输出的频度得分和接近得分计算装置输出的接近得分，计算表明文件与检索要求符合度的文件得分；文件编排装置，按文件得分计算装置得出的得分次序重排目标文件作为检索结果；及检索结果显示装置，显示排好的检索结果。

根据本发明的一个不同方面，响应于检索要求搜索目标文件并编排检索结果的文件检索系统包括：一标引存储装置，其中包括每一字段目标文件中的字出现频度和字一同出现信息；字段率输入装置，让用户规定影响目标文件排位的字段比率；以及字段字一同出现相关检查装置，检查包含在检索要求中的字一同出现相关性是否出现在目标文件里。其中，对于出现该字一同出现相关性的目标文件在每一字段增加其得分，从而优先显示该目标文件。这样就能高精度地检索用户要的文件。

根据本发明的一个不同方面，响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统包括：一个标引存储装置，包括目标文件里字出现频度和字一同出现信息；出现字计算装置，计算同时出现在目标文件里的多个检索要求字的字号；以及字一同出现相关性检索装置，检索包含在检索要求里的字一同出现相关性是否出现在目标文件里。其中，包含在检索要求内的多个字同时出现在目标文件里且字一同出现相关性出现在目标文件里的情况下，增加给目标文件的得分，从而优先显示该目标文件。这一结构能高精度地检索用户要的文件。

此外，根据本发明提供的一种响应于检索要求搜索目标文件并编排检索结果的文件检索系统，包括：字频度标引存储装置，贮存字典字在目标文件中的出现频度；字一同出现标引存储装置，贮存出现在目标文件中的字一同出现信息；字频度信息提取装置，从制备的文件数据库里提取字频度信息并把它放入字频度标引存储装置；字一同出现信息提取装置，从文件数据库里提取字一同出现信息并把它放入字一同出现标引存储装置；主检索要求输入装置，让用户输入认为重要的主检索要求；辅检索要求输入装置，让用户输入其重要性被认为比主检索要求低的辅检索要求；字频度计算装置，查阅字频度标引以获得字典字(包含在经主检索要求与辅检索要求输入装置的检索要求内)在文件中的出现频度；频度得分计算装置，根据字频度算计装置得出的字出现频度算计每个文件的频度得分；检索要求字一同出现信息提取装置，从经主、辅检索要求输入装置输入的检索要求里提取字一同出现信息；字一同出现相关性检查装置，参照字一同出现标引的内容以获取包含在检索要求字一同出现信息提取装置输出的检索要求内并出现在文件里的字一同出现相关性编号；一同出现得分计算装置，根据字一同出现相关性检查装置得出的字一同出现相关性编号和共同出现在检索要求和文件里的状况获得文件的一同出现得分；文件得分计算装置，根据频度得分计算装置输出的频度得分和一同出现得分计算装置输出的一同出现得分，计算该文件的最后得分；文件编排装置，按文件得分计算装置得出的得分次序重排目标文件作为检索结果；以及检索结果检索装置，显示排好的检索结果。

根据本发明提供的一种响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统，包括：字段字频度标引存储装置，贮存字典字在每个字段的目标文件中的出现频度；字段字一同出现标引存储装置，贮存出现在每个字段目标文件中的字一同出现信息；字频度信息提取装置，从制备的文件数据库里提取字频度信息并把它放入字段字频度标引存储装置；字一同出现信息提取装置，从文件数据库里提取字一同出现信息并把它放入字段字一同出现标引存储装置；检索要求输入装置，用户用它输入检索要求；字段字频度计算装置，查阅字段字频度标引以找出字典字(包含在经检索要求输入装置在每个字段输入的检索要求内)在文件中的出现频度；字段频度得分计算装置，根据字段字频度计算装置得出的字出现频度获得每个字段的频度得分；检索要求字一同出现信息提取装置，从经检索要求输入装置输入的检索要求中提取字一同出现信息；字段字一同出现相关性检查装置，参照字段字一同出现标引的内容，找出包含在检索要求字一同出现信息提取装置输出的检索要求内并出现在某一字段文件里的字一同出现相关性编号；字段一同出现得分计算装置，根据共同出现在该字段文件和检索要求里的字一同出现相关性编号(由字段字一同出现相关性检查装置获得)，计算该文件在每个字段的一同出现得分；字段率输入装置，用户用它输入某个表示该字段得分对文件编排产生的影响度的比率；文件得分计算装置，根据字段频度得分计算装置输出的频度得分、字段一同出现得分计算装置输出的一同出现得分和字段率输入装置输出的比率，计算文件的最后得分；文件编排装置，按文件得分计算装置得出的得分次序重排目标文件作为检索结果；以及检索结果显示装置，显示排好的检索结果。

根据本发明提供的一种响应于检索要求搜索被检目标文件并编排检索结果的文件检索系统，包括：字频度标引存储装置，贮存字典字在目标文件中的出现频度；字一同出现标引存储装置，贮存出现在目标文件中的字一同出现信息；字频度信息提取装置，从制备的文件数据库里提取字频度信息并把它放入字频度标引存储装置；字一同出现信息提取装置，从文件数据库里提取字一同出现信息并把它放入字一同出现标引存储装置；检索要求输入装置，用户用它输入检索要求；字频度计算装置，查阅字频度标引以计算字典字(包含在经检索要求输入装置输入的检索要求内)在文件中的出现频度；频度得分计算装置，根据字频度计算装置获得的字频度获取该文件的频度得分；出现字号计算装置，查阅字频度标引以获取字典字(包含在经检索要求输入装置输入的检索要求内并出现在文件里)的编号；出现字号得分计算装置，根据出现字号计算装置得出的出现字号计算出现字号得分；检索要求字一同出现信息提取装置，从经检索要求输入装置输入的检索要求里提取字一同出现信息；字一同出现相关性检查装置，参照字一同出现标引的内容从检索要求字一同出现信息提取装置输出的检索要求里计算出现在文件里的字一同出现相关性的字一同出现相关号；一同出现得分计算装置，根据共同出现在检索要求和文件里并由字一同出现相关性检查装置获得的字一同出现相关号，获取该文件的一同出现得分；文件得分计算装置，根据频度得分计算装置输出的频度得分、出现字号得分计算装置输出的出现字号得分和一同出现得分计算装置输出的一同出现得分，计算文件的最后得分；文件编排装置，按文件得分计算装置得出的得分次序重排目标文件作为检索结果；以及检索结果显示装置，显示排好的检索结果。

附图说明

通过以下结合附图对较佳实施例的详述，本发明的目的和特点将更加明显，其中：

图1的框图表示根据本发明第一实施例的文件检索系统的结构；

图2的流程图表示根据本发明第一实施例的文件检索系统的检索步骤；

图3的框图表示根据本发明第二实施例的文件检索系统的结构；

图4的流程图表示根据本发明第二实施例的文件检索系统的检索步骤；

图5的框图表示根据本发明第三实施例的文件检索系统的结构；

图6的流程图表示根据本发明第三实施例的文件检索系统的检索步骤；

图7的框图表示根据本发明第四实施例的文件检索系统的结构；

图8的流程图表示根据本发明第四实施例的文件检索系统的检索步骤；

图9的框图表示根据本发明第五实施例的文件检索系统的结构；

图10的流程图表示根据本发明第五实施例的文件检索系统的检索步骤；

图11的框图表示根据本发明第六实施例的文件检索系统的结构；

图12的流程图表示根据本发明第六实施例的文件检索系统的检索步骤；

图13的流程图表示根据本发明第六实施例的文件检索系统的检索步骤；

图14的流程图表示根据本发明第六实施例的文件检索系统的检索步骤；

图15的流程图表示根据本发明第六实施例的文件检索系统的检索步骤；

图16的框图表示根据本发明第七实施例的文件检索系统的结构；

图17的流程图表示根据本发明第七实施例的文件检索系统的检索步骤；

图18的流程图表示根据本发明第七实施例的文件检索系统的检索步骤；

图19的流程图表示根据本发明第七实施例的文件检索系统的检索步骤；

图20的流程图表示根据本发明第七实施例的文件检索系统的检索步骤；

图21的框图表示根据本发明第八实施例的文件检索系统的结构；

图22的流程图表示根据本发明第八实施例的文件检索系统的检索步骤；

图23的流程图表示根据本发明第八实施例的文件检索系统的检索步骤；

图24的流程图表示根据本发明第八实施例的文件检索系统的检索步骤；

图25的流程图表示根据本发明第八实施例的文件检索系统的检索步骤；

图26的流程图表示根据本发明第八实施例的文件检索系统的检索步骤；

图27的框图表示原先文件检索系统的结构；

图28的流程图表示原先文件检索系统的检索步骤；以及

图29是一例原先文件检索系统的检索。

下面参照附图描述本发明的实施例。具体实施方式

第一实施例

图1的框图表示根据本发明第一实施例的文件检索系统的结构。图1中，该系统包括：被检索的文件数据库101；字典102；持有字典字在目标文件中出现频度标引存储装置103；贮存出现在目标文件中的字一同出现信息的字一同出现标引存储装置104；从文件数据库101里提取定频度信息并把它存入字频度标引存储装置103的字频度信息提取装置105；从文件数据库101里提取字一同出现信息并把它保持在字一同出现标引存储装置104的字一同出现提取装置106；通过其用户输入检索要求的检索要求输入装置107；字频度计算装置108，查阅字频度标引存储装置103而获得字典字(包含在经检索要求输入装置107输入的检索要求内)在文件中的出现频度；频度得分计算装置109，根据字频度计算装置108得出的字频度计算每个文件的频度得分；检索要求字一同出现信息提取装置110，从检索要求输入装置107输入的检索要求里提取字一同出现信息；字一同出现相关性检查装置111，参照字一同出现标引存储装置104的内容，找出包含在检索要求内由检索要求字一同出现信息提取装置110输出的多少字一同出现相关性出现在每个文件中；一同出现得分计算装置112，根据共同出现在检索要求和文件内并由字一同出现相关性检查装置111获得的字一同出现相关性，计算每个文件的一同出现得分；文件得分计算装置113，根据频度得分计算装置109的输出和一同出现得分计算装置112的输出，计算文件得分；按得分次序重排文件的文编排装置114；及检索结果显示装置115，显示按得分次序编排的组合文件。

图2的流程图表示根据本发明第一实施例的文件检索系统的检索操作步骤。检索前，字频度信息提取装置105预先扫描文件数据库101，找出字频度信息，然后同文件总编号与字频度标引存储装置103存在该字的文件号一起输出，同时字一同出现信息提取装置106扫描文件数据库101，获得每个文件中的字一同出现信息，并把它输出给字一同出现标引存储装置104进行标引输出。作为一种获取字一同出现信息的方法，例如有一种办法是判定出现在同一句子中的一对字相互具有一同出现的相关性并把它们提取出来，另一种办法是作一次词素分析，提取为Np-Np主语属性或宾语属性关系的成对字。

在步骤201，用户经检索要求输入装置107以句子形式输入对目标文件的检索要求。在步骤202，字频度计算装置108参照字频度标引存储装置103以获得文件总编号ND，并进一步获得包含在经检索要求输入装置107输入的检索要求内的字典字Wi(i＝1，2，…NW，其中NW对应于包含在检索要求内的字典字号)在文件Dj(j＝1，2，…ND)中的出现频度TFij及出现该字的文件号NDi，再把它们输出给频度得分计算装置109。

在步骤203，频度得分计算装置109根据文件总编号ND、出现字Wi的文件号NDi和字频度计算装置108输出的字Wi在文件Dj中的出现频度TFij，按上述公式(1)计算表示归于字频度的文件Dj与检索要求符合度的频度得分SFj。即，把基于该字的频度得分加到文件Dj的频度得分里可得出频度得分SFj。

在步骤204，检索要求字一同出现信息提取装置110以标引产生同样的方法从检索要求输入装置107输入的检索要求里提取字一同出现相关性CK(K＝1，2，…NC，这里的NC代表包含在检索要求里的字一同出现相关号)。在步骤205，字一同出现相关性检查装置111参照字一同出现标引存储装置104，计算与检索要求字一同出现信息提取装置110提供的检索要求字一同出现相关CK一致的、在文件Dj中出现的那些字一同出现相关号，再把计算结果输出给一同出现得分计算装置112。

在步骤206，一同出现得分计算装置112根据在检索要求和文件中相互一致的字一同出现号相关性计算文件Dj的一同出现得分SCj。在最简例子中，把一同出现号直接用作一同出现得分SCj，如公式(3)所示：

SCj＝NCj (3)

在步骤207，文件得分计算装置113根据频度得分计算装置109输出的频度得分和一同出现得分计算装置112输出的一同出现得分，按公式(4)计算表示文件Dj与检索要求符合度的文件得分Sj。

Sj＝SFj+SCj×常数 (4)

在步骤208，文件编排装置114按文件得分计算装置113输出的每个文件Dj的文件得分Sj的递减次序重排文件，而在步骤209，检索结果显示装置115把文件编排装置114输出给出的分类文件作为检索结果显示给用户。

如上所述，除了字频度外，通过查找包含在检索要求和目标文件里的字一同出现相关性来确定对编排的影响作用，所以能在检索结果中以更有意义的排序显示出更接近用户检索意图的文件，使检索有一定效率。

第二实施例

图3的框图表示根据本发明第二实施例的文件检索系统的结构。图3的文件检索系统包括：进行检索的文件数据库301；字典302；贮存字典字在目标文件中出现频度的字频度标引存储装置303；字频度信息提取装置304，把字频度信息从文件数据库301里取出并存入字频度标引存储装置303；主检索要求输入装置305，让用户输入想优先处理的检索要求；辅检索要求输入装置306，让用户输入优先度低于主检索要求的检索要求；字频度计算装置307，查阅字频度标引存储装置303，获取包含在检索要求(经主、辅检索要求输入装置305和306输入)内的字典字在每个文件中的出现频度；频度得分计算装置308，根据字频度计算装置307得出的字频度计算每个文件的频度得分；文件得分计算装置309，根据频度得分计算装置308的输出计算每个文件的文件得分；按得分次序重排文件的文件编排装置310；及检索结果显示装置311，显示按得分次序排好的组合文件。

图4的流程图表示根据本发明第二实施例的文件检索系统的检索操作步骤。

首先，检索前，字频度信息提取装置304扫描文件数据库301，找出字典302中的字典字在每个文件中的出现频度，并把该出现频度与文件总编号、出现该字的文件号一起输出给字频度标引存储装置303以找出某个标引。

在步骤401，用户经主检索要求输入装置305输入作为主检索要求的对要搜索的文件的检索要求，而在步骤402，用户经辅检索要求输入装置306输入作为辅检索要求的对较低重要度的文件的检索要求。

在步骤403，字频度计算装置307参照字频度标引存储装置303获取文件的总编号ND，并获取包含在检索要求(经主辅检索要求输入装置305和306输入)内的字典字Wi(i＝1，2，…NW，其中NW对应于包含在检索要求内的字典字号)在文件Dj(j＝1，2，…ND)中的出现频度TFij以及出现该字的文件号NDi，再把它们输出给频度得分计算装置308。在步骤404，根据字Wi是包含在主检索要求内还是辅检索要求内，取参数WTi。再在步骤405，根据文件总编号ND、出现字Wi的文件号NDi、字Wi在文件Dj中的出现频度TFij及字频度计算装置307输出的字Wi的加权参数WTi，频度得分计算装置308按下述公式(5)计算频度得分SFi，它表示基于字频度的文件Dj与检索要求的符合度。即，把基于该字的频度得分加到文件Dj的频度在而获得频度得分Sfj。

SFj = \underset{i}{Σ} (TFij \times IDFi \times WTi)

IDFi＝1-log(NDi/ND) (5)

其中的IDFi指某个表示字Wi在所有文件中倾向性的参数。

在步骤406，文件得分计算装置309按上述公式(2)计算作为频度得分计算装置308输出的频度得分之函数的文件Sj，表示文件Dj与检索要求的符合度。在步骤407，文件编排装置310按文件得分计算装置309得出的每个文件Dj的文件得分Sj递减次序重排文件，同时在步骤408，检索结果显示装置311把文件编排310输出的分类文件作为检索结果显示给用户。

如上所述，对用户输入的每个检索要求规定了优先权，故能灵活表达用户的检索意图并实现有效的检索。

第三实施例

图5的框图表示根据本发明第三实施例的文件检索系统的结构。图5的系统包括：作为检索目标的文件数据库501；字典502；贮存字典字在各字段目标文件中出现频度的字段字频度标引存储装置503；把字频度信息从文件数据库501中取出并放入字段字频度标引存储装置503的字频度信息提取装置504，让用户输入检索要求的检索要求输入装置505；让用户输入表示文件某字段得分对文件得分产生影响的比率的字段率输入装置506；字段字频度计算装置507，以包含在检索要求(经检索要求输入装置505输入)内的字典字查阅字段字频度标引存储装置503，获得它在每个文件中的出现频度；字段频度得分计算装置508，根据字段字频度计算装置507获得的字频度计算每个字段各文件的频度得分；文件得分计算装置509，根据字段频度得分计算装置508的输出和对字段率输入装置506的输入计算每个文件得分；按得分次序重排文件的文件编排装置510；及显示按得分次序排好的组合文件的检索结果显示装置511。

图6的流程图表示根据本发明第三实施例的文件检索系统的检索操作。检索前，字频度信息提取装置504扫描文件数据库501，找出包含在字典502内的字典字在每个文件中的出现频度，把它与文件总编号和出现该字的文件号一一起输出给预先做好标引的字段字频度标引存储装置503。

在步骤601，用户经检索要求输入装置505输入需要的检索要求。在步骤602，用户经字段率输入装置506输入字段得分Fk(k＝1，2，…NF，这里的NF指字段总编号)对排序的影响率Rk。

在步骤603，字段字频度计算装置507参照字段字频度标引存储装置503获得文件总编号ND，再获得包含在检索要求(经检索要求输入装置505输入)内的字典字Wi(i＝1，2，…NW，其中NW对应于包含在检索要求内的字典字号)在文件Dj(j＝1，2，…ND)的字段Fk中的出现频度TFijk及字段Fk中出现该字的文件号NDik，并把它们再输出给字段频度得分计算装置508。

在步骤604，根据文件总编号ND、字Wi出现在字段Fk的文件号NDik以及字Wi在文件Dj(由字段字频度计算装置507输出)的字段Fk中的出现频度TFijk，字段频度得分计算装置508按下述公式(6)计算频度SFjk，表示基于字频度的文件Dj的字段Fk与检索要求的符合度。即，把基于该字的频度得分加到文件Dj字段Fk的频度得分里而获得频度得分Sfk。

SFjk = \underset{i}{Σ} (TFijk \times IDFik)

IDFik＝1-log(NDik/ND) (6)

在步骤605，根据字段频度得分计算装置508输出的每个字段的频度得分和输入给得分字段率输入装置506的字段Fk的影响率Rk，文件得分计算装置509按下述公式(7)计算表示文件Dj与检索要求符合度的文件得分Sj。即，把文件Dj字段Fk的频度得分SFjk与文件得分Sj作为字段率Rk的函数进行相加计算。

Sj = \underset{i}{Σ} (SFjk \times Rk) - - - - (7)

在步骤606，文件编排装置510以文件得分计算装置509输出的每个文件Dj的递减文件得分Sj的次序重排文件，而在步骤607，检索结果显示装置511把文件编排装置510输出的分类文件作为检索结果显示给用户。

如上所述，用户能改变检索字段的得分分配率，故能灵活地表达用户的检索意图而实现有效的检索。

第四实施例

图7的框图表示根据本发明第四实施例的文件检索系统的结构。图7的系统包括：作为检索目标的文件数据库701；字典702；持有字典字在目标文件中出现频度的字频度标引存储装置703；把字频度信息从文件数据库701中提出并存入字频度标引存储装置703里的字频度信息提取装置705；用户经其输入检索要求的检索要求输入装置707；字频度计算装置708，查阅字频度标引存储装置703以计算包括在检索要求(经检索要求输入装置707输入)内的字典字在文件中的出现频度；根据字频度计算装置708得出的字频度计算每个文件得分的频度得分计算装置709；出现字号计算装置710，查阅字频度标引存储装置703以找出包含在检索要求(经检索要求输入装置707输入)内的字中有多少字出现在文件中；出现字号得分计算装置711，根据出现字号计算装置710得到的出现字号获取准备加到每个文件里的得分；文件得分计算装置712，根据频度得分计算装置709和出现字号得分计算装置711的输出计算每个文件的文件得分；以得分次序重排文件的文件编排装置713；及显示以得分次序编排的组合文件的检索结果显示装置714。

图8的流程图表示根据本发明第四实施例的文件检索系统的检索操作。检索前，字频度信息提取装置705扫描文件数据库701以发现包含在字典702里的字典字在每个文件中的出现频度，并把它与文件总编号、出现该字的文件号一起输出给字频度标引存储装置703而产生一个标引。

在步骤801，用户经检索要求输入装置707输入要搜索文件的检索要求。较合适的是输入多个作为检索要求的字或输入某个句子，并通过额外使用字提取装置从该句子中提取字。

在步骤802，字频度计算装置708参照字频度标引存储装置703以获得文件总编号N，再获取包含在检索要求(经检索要求输入装置707输入)内的多个字典字Wi(i＝1，2，…NW，其中NW对应于包含在检索要求内的字典字号)在文件Dj(j＝1，2，…ND)中的出现频度TFij以及出现字Wi的文件号NDi，并把它们输出给频度得分计算装置709。

在步骤803，根据文件总编号ND、出现字Wi的文件号NDi和字Wi在文件Dj中的出现频度TFij，频度得分计算装置709按上述公式(1)计算频度得分SFj，表示归于字频度的文件Dj与检索要求的符合度。即，把基于该字的频度得分加到文件Dj的频度得分而获得频度得分SFj。

在步骤804，出现字号计算装置710把步骤802之前已经得到的出现于多个字Wi外的文件Dj里的信息同包含在检索要求(经检索要求输入707输入)内的多个字Wi、出现在文件Dj中的多个字Wi的字号NAj(正被计算并输出给出现字号得分计算装置711)进行比较。

在步骤805，出现字号得分计算装置711根据出现在文件Dj中的字号NAj，例如按下述公式(8)计算包含在检索要求(由出现字号计算装置710输出)内的字的出现字号得分SAj。

SAj＝NAj-1 (8)

在步骤806，根据频度得分计算装置709输出的频度得分SFj和出现字得分计算装置711输出的出现字号得分SAj，文件得分计算装置712按下述公式(9)计算得分Sj，表示检索要求与文件Dj的符合度。

Sj＝SFj+SAj×常数 (9)

制备出现字得分SAj可提高包含检索要求字的文件的得分，从而可优先显示。此外，基于出现字号的优先显示度的方式可变化，即改变公式(9)中的常数值。

在步骤807、文件编排装置713以文件得分计算装置712输出的递减文件得分Sj的次序重排文件Dj。另外，在步骤808，检索结果显示装置714把文件编排装置713输出的分类文件作为检索结果显示给用户。

如上所述，若检索要求包括多个字，就可避免在检索结果中把只包含一个高频度字的文件排在高位，因而能作有效的检索。

第五实施例

图9的框图表示根据本发明第五实施例的文件检索系统的结构。图9的系统包括：当作检索目标的文件数据库901；字典902；贮存字典字在目标文件中出现频度的字频度标引存储装置903；贮存字出现在目标文件中位置的字出现位置标引存储装置904；把字频度信息从文件数据库901中取出并存入字频度标引存储装置903里的字频度信息提取装置905；把字位置信息从文件数据库901中取出并保持在字出现位置标引存储装置904里的字出现位置信息提取装置；用户经其输入检索要求的检索要求输入装置907；字频度计算装置908，查阅字频度标引存储装置903，计算包含在检索要求(经检索要求输入装置907输入)内的字典字在文件中的出现频度；频度得分计算装置909，根据字频度计算装置908得到的字频度获取每个文件的得分；出现位置计算装置910，参照字出现位置标引存储装置904，获取包含在检索要求(经检索要求输入装置907输入)内的某字在文件中的出现位置；字接近计算装置911，根据字出现位置计算装置910的输出计算字之间的接近度；接近度得分计算装置912，根据字接近度计算装置911的输出获取被加给每个文件的得分；文件得分计算装置913，根据频度得分计算装置909与接近度得分计算装置912的输出计算每个文件的得分；按得分次序重排文件的文件编排装置914；及显示按得分次序排好的组合文件的检索结果显示装置915。

图10的流程图表示本发明第五实施例的检索操作。检索前，字频度信息提取装置905扫描文件数据库901查找字典902某字典字在每个文件中的出现频度，把它与文件总编号、出现该字的文件号一起输出给字频度标引存储装置903，而字出现位置信息提取装置906发现该字典字在每个文件中的出现位置，并把它输出给字出现位置标引存储装置904，从而形成标引。

在步骤1001，用户经检索要求输入装置907输入多个字作为对目标文件的检索要求。同样可行的是用户输入一个句子作为检索要求，并用附设的字提取装置从该句中提取字。

在步骤1002，字频度计算装置908参照字频度标引存储装置903以找出文件总编写ND，并了解包含在经检索要求输入装置907输入的检索要求内的字典字Wi(i＝1，2，……NW，其中NW对应于包含在检索要求内的字典字号)在文件Dj(j＝1，2，……ND)中的出现频度TFij和出现字Wi的文件号NDi，并把它们输出给频度得分计算装置909。

在步骤1003，字出现位置计算装置910参照字出现位置标引存储装置904，获取经检索要求输入907输入的多个字Wi在文件Dj中的所有出现位置并把它们输出给字接近度计算装置911。在步骤1004，根据文件总编号ND、出现字Wi的文件号NDi和字Wi在文件Dj中的出现频度TFij，频度得分计算装置909按上述公式(1)计算频度得分SFj，表示基于该字频度的文件Dj与检索要求的符合度。即，把基于该字的频度得分加到文件Dj的频度得分里来计算频度得分SFj。

在步骤1005，根据字出现位置计算装置910输出的每个字Wi在文件Dj中的出现位置以及字长，字接近度计算装置911运用不同字所有出现位置的组合Pk(k＝1，2，……Np，其中NP代表不同字所有出现位置的组合号)来计算两字之间的距离DSTjK，并在步骤1006根据DSTjK算出字接近度NEjK。例如，可用下述公式(90)给出字接近度NEjK。

NEjK＝1/(DSTjk+1) (10)

顺便提一下，要获得所有组合的字接近度要花大量的运算费用，故可设一个阈值d，这样就只要对距离DSTjK小于d的出现位置组合作运算，或用户限制作接近度运算的字对。

在步骤1007，接近度得分计算装置912按下述公式(11)把每个Dj的接近度得分SNj作为字接近度NEjk(由字接近度计算装置911输出)的函数来计算。具体地讲，把算出的字接近度NEjK加到文件Dj的接近度得分里面得到接近度得分SNj。

SNj = \underset{K}{Σ} (NEjk) - - - - (11)

在步骤1008，根据频度得分计算装置909输出的频度得分SFj和接近度得分计算装置912输出的接近度得分SNj，文件得分计算装置913按下述公式(12)计算得分Sj，即检索要求与文件Dj的符合度。

Sj＝SFj+SNj×常数

这样，制备接近度得分SNj能提高包含在检索要求内的不同字以相互密切相关性出现的文件的得分，并进一步允许优先显示。此外，改变上述公式(12)中的常数值，允许根据字接近改变优先显示。

在步骤1009，文件编排装置914按文件得分计算装置913输出的每个文件的递减文件得分次序重排文件。另在步骤1010，检索结果显示装置915把文件编排装置914输出的分类文件作为检索结果显示给用户。

上述结构在不使用提检索要求的情况下(除非包含在检索要求内的多个字以相互密切相关出现)，可避免把不需要的文件排成高排位，由此实现有效的检索。

第六实施例

图11的框图表示根据本发明第六实施例的文件检索系统的结构。图11的系统包括：作为检索目标的文件数据库1401；字典1402；贮存字典字在目标文件中出现频度的字频度标引存储装置1403；贮存出现在目标文件中的字一同现信息的字一同出现标引存储装置1404；把字频度信息从文件数据库1401里取出并放入字频度标引存储装置1403的字频度信息提取装置1405；把字一同出现信息从文件数据库1401里取出并放入字一同出现标引存储装置1404的字一同出现信息提取装置1406；让用户输入附有重要度的检索要求的主检索要求输入装置1407；让用户输入重要度低于主检索要求的检索要求的辅检索要求输入装置1408；字频度计算装置1409，查阅字频度标引存储装置1403以获取包含在检索要求(由立辅检索要求输入装置1407与1408输入)内的字典字在文件中的出现频度；根据字频度计算装置1409得出的字出现频度频度计算每个文件的频度得分的频度得分计算装置1410；从主辅检索要求输入装置1407和1408输入的检索要求里提取字一同出现信息的检索要求字一同出现信息提取装置1411；字一同出现相关性检查装置1412，参照字一同出现标引存储装置1404的内容获取包含在检索要求字一同出现信息提取装置1411输出的检索要求内并出现在每个文件中的字一同出现号相关性；一同出现得分计算装置1413，根据字一同出现相关性检查装置1412得到的并共同出现在检索要求和文件里的字一同出现号相关性获取每个文件的一同出现得分；文件得分计算装置1414，根据频度得分计算装置1410和一同出现得分计算装置1413的输出计算每个文件的最后得分；按得分次序重排文件的文件编排装置1415；及显示按得分次序编排的组合文件的检索结果显示装置1416。

图12至15的流程图表示根据本发明第六实施例的文件检索系统的检索步骤。检索前，字频度信息提取装置1405扫描文件数据库1401找出包含在字典1402里的某字典字在每个文件中的出现频度，把它与文件总编号、出现该字的文件号一起输出给字频度标引存储装置1403，同时字一同出现信息提取装置1406扫描文件数据库1401获取每个文件中的字一同出现信息，并把它输出给字一同出现标引存储装置1404，由此预先输出某个标引。作为一种获取字一同出现信息的方法，例如有一种办法是确定出现在同一语句中的一对字具有相互一同出现的相关性并把它们提取出来，另一种办法是作一次词素分析，以提取相互具有Np-Np，主语属性或宾语属性相关性的字对。

在步骤1501，用户用主检索要求输入装置1407对要求搜索并附有重要度的文件输入主检索要求。此外，在步骤1502，用户用辅检索要求输入装置1408输入附设的重要度低于主检索要求的辅检索要求。

在步骤1503，字频度计算装置1409参照字频度标引存储装置1403获得文件总编号ND，再获取包含在检索要求(由主辅检索要求输入装置1407与1408输入)内的字典字Wi(i＝1，2，……NW，其中NW对应于包含在检索要求里的字典字号)在文件Dj(j＝1，2，……ND)中的出现频度TFij及出现该字的文件号NDi。在步骤1504，字频度计算装置1405根据字Wi包含在主检索要求里还是包含在辅检索要求里选择加权参数WTi，并把它输出给频度得分计算装置1410。

在步骤1505，根据文件总编号ND、出现字Wi的文件号NDi、字Wi在文件Dj中的出现频度TFij以及字频度计算装置1409给出的字Wi的加权参数WTi，频度得分计算装置1410按上述公式(5)计算频度得分SFj，表示基于字频度的文件Dj与检索要求的符合度，并把频度得分SFj输出给文件得分计算装置1414。即，把归于该字的频度得分加到文件Dj的频度得分里。

在步骤1506，检索要求字一同出现信息提取装置1411以标引产生同样的方法从主检索要求输出1407输入的主检索要求里提取主一同出现相关性CSK(K＝1，2，……NCs，其中NCs指包含在主检索要求内的字一同出现相关号)，并把Csk给字一同出现相关性检查装置1412。

在步骤1507，字一同出现相关性检查装置1412参照字一同出现标引存储装置1404，计算出现在文件Dj里的字一同出现相关性的字一同出现相关号NCsj，它同检索要求字一同出现信息提取装置1411得到的主一同出现相关Csk相一致，并把得到的Ncsj输出给一同出现得分计算装置1413。

在步骤1508，检索要求字一同出现信息提取装置1411以标引产生同样的方法从辅检索要求输入装置1408输入的辅检索要求里提取辅一同出现相关Cfm(m＝1，2，……NCf，其中NCf指包含在辅检索要求里的字一同出现相关号)，并把Cfm输出给字一同出现相关性检查装置1412。

在步骤1509，字一同出现相关性检查装置1412参照字一同出现标引存储装置1404计算出现在文件Dj中的字一同出现相关性的字一同出现相关号NCfj，它同检索要求字一同出现信息提取装置1411得到的辅一同出现相关Cfm一致，并把算出的NCfj输出给一同出现得分计算装置1413。

在步骤1510，一同出现得分计算装置1413按下述公式(13)计算文件Dj的一同出现SCj，并把它输出给文件得分计算装置1414。

SCj＝NCsj×(NCf+1)+NCfj (13)

在步骤1511，文件得分计算装置1414按下述公式(14)计算频度得分最大与最小值之差SR。

SR＝Max(SFj)-Min(SFj) (14)

在步骤1512，根据频度得分计算装置1410输出的频度得分和一同出现得分计算装置1413输出的一同出现得分，文件得分计算装置1414按下述公式(15)计算文件得分Sj，表示文件Dj要求的符合度。

Sj＝SFj+SCj×SR (15)

在步骤1513，文件编排装置1415以文件得分计算装置1414输出的每个文件Dj的递减文件得分值Sj的次序重排文件，而在步骤1514，检索结果显示装置1416把文件编排装置1415输出的分类文件作为检索结果显示给用户。

如上所述，该系统把接收的重要度相互不同的主辅检索要求作为检索要求与文件符合度的判据，排出的优先次序为主一同出现相关＞辅一同出现相关＞主字频度＞辅字频度，从而把更接近用户检索意图的文件在检索结果中作为更重要的文件来显示。

第七实施例

图16的框图表示根据本发明第七实施例的文件检索系统的结构。图16的系统包括：经受检索的文件数据库1901；字典1902；贮存字典字在各字段目标文件中出现频度的字段字频度标引存储装置1903；贮存出现在各字段目标文件中的字一同出现信息的字段字一同出现标引存储装置1904；把字频度信息从文件数据库1901里取出并放入字段字频度标引存储装置1903的字频度信息提取装置1905；把字一同出现信息从文件数据库1901里取出并存入字段字一同出现标引存储装置1904的字一同出现信息提取装置1906；用户经其输入检索要求的检索要求输入装置1907；字段字频度计算装置1908，查阅字段字频度度标引存储装置1903找出包含在检索要求(由检索要求输入装置1907输入)内的字典字在文件各字段的出现频度；字段频度得分计算装置1909，根据字段字频度计算装置1908得出的字频度获得每个文件各字段的频度得分；检索要求字一同出现信息提取装置1910，从检索要求输入装置1907输入的检索要求里提取字一同出现信息；字段字一同出现相关性检索装置1911，参照字段字一同出现标引存储装置1904的内容找出包含在检索要求(由字一同出现信息提取装置1901输出)并出现在每个文件某字段的字一同出现相关号；字段一同出现得分计算装置1912，根据共同出现在每个文件某一字段和检索要求里的字一同出现相关号(由字段字一同出现相关性检索装置1911获得)计算每个文件各字段的一同出现得分；字段率输入装置1913，用户通过其输入一个比率，代表各字段得分对文件编排的影响度；文件得分计算装置1914，根据字段频度得分计算装置1909的输出、字段一同出现得分计算装置1912的输出和字段率输入装置1913的输出计算各文件的最后得分；按得分次序重排文件的文件编排装置1915；及显示以得分次序编排的组合文件的检索结果显示装置1916。

图17至20的流程图表示根据本发明第七实施例的文件检索系统的检索步骤。检索前，字频度信息提取装置扫描文件数据库1901查找包含在字典1902里的某个字典字在每个文件各字段内的出现频度，并把它与文件总编号、出现该字的文件号一起输出给字段字频度标引存储装置1903，而字一同出现信息提取装置1906也扫描文件数据库1901以获取每个文件各字段的字一同出现信息，并把它输出给字段字一同出现标引存储装置1904，由此作标引输出。作为一种获取字一同出现信息的方法，例如有一种办法是确定出现在同一语句中的一对字具有相互一同出现的相关性并提取它们，另一种办法是作一次词素分析以提取处于Np-Np主语属性或宾语属性关系的字对。

在步骤2001，用户经检索要求输入装置1907对要搜索的文件输入检索要求。此外，在步骤2002，用户用字段率输入装置1913输入字段得分Fm(m＝1，2，……NF，其中NF指字段总编号)对编排的影响率Rm。

在步骤2003，字段字频度计算装置1908参照字段字频度标引存储装置1903找出文件总编号ND，并计算包含在检索要求(经检索要求输入装置1907输入)内的字典字Wi(i＝1，2，……NW，其中NW对应于包含在检索要求里的字典字号)在文件Dj(j＝1，2，……ND)字段Fm中的出现频度TFijm，再计算在字段Fm里出现该字的文件号NDim，并把它们输出给字段频度得分计算装置1909。

在步骤2004，根据文件总编号ND、在字段Fm中出现字Wi的文件号NDim和字Wi在文件Dj的字段Fm中的出现频度TFijm(由字段字频度计算装置1908输出)，字段频度得分计算装置按上述公式(6)计算频度得分SFjm，表示基于字频度的文件Dj的字段Fm与检索要求的符合度，并把得分SFjm输出给文件得分计算装置1914。此时，把基于字频度的频度得分加到文件Dj的字段Fm的频度得分里。

在步骤2005，检索要求字一同出现信息提取装置1910按标引产生同样的方法从检索要求输入装置1907输入的检索要求里提取一同出现相关性Ck＝(k＝1，2，……NC，其中NC指包含在检索要求里的字一同出现相关号)，并把Ck输出给字段字一同出现相关性检索装置1911。

在步骤2006，字段字一同出现相关性检查装置1911参照字段字一同出现标引存储装置1904计算出现在文件Dj字段Fm中的字一同出现相关性的字一同出现相关号NDjm，它与字一同出现信息提取装置1910得到的字一同出现相关性Ck相一致，并把与Ck相一致的NCjm输出给字一同出现得分计算装置1912。

在步骤2007，字段一同出现得分计算装置1912按下述公式(16)计算文件Dj字段Fm的一同出现得分SCjm，并把SCjm输出给文件得分计算装置1914。

SCjm＝NCjm (16)

在步骤2008，文件得分计算装置1914按下述公式(17)计算字段频度得分的最大与最小值之差SR。

SR＝Max(SFjm)-Min(SFjm) (17)

在步骤2009，根据字段频度得分计算装置1909输出的每个字段的字段频度得分SFjm、字段一同出现得分计算装置1912输出的各字段的一同出现得分SCjm和经字段率输入装置1913输入的得分分配率Rm，文件得分计算装置1914按下述公式(18)计算文件得分Sj，表示文件Dj与检索要求的符合度。

Sj = \underset{m}{Σ} [CSFjm + SCjm \times SR) \times Rm] - - - - (18)

在步骤2010，文件编排装置1915按文件得分计算装置1914输出的各文件Dj的递减文件得分Sj的次序重排文件，而在步骤2011，检索结果显示装置1916把文件编排装置1915输出的分数文件作为检索结果显示给用户。

如上所述，用户能改变目标字段的得分分配率，因而可灵活地表达用户的检索意图并实现有效的检索。

第八实施例

图21的框图表示根据本发明第八实施例的文件检索系统的结构。图21的系统包括：经历检索的文件数据库2401；字典2402；贮存字典字在目标文件中出现频度的字频度标引存储装置2403；贮存出现在目标文件中的字一同出现信息的字一同出现标引存储装置2404；把字频度信息从文件数据库2401中取出并存入字频度标引存储装置2403的字频度信息提取装置2405；把字一同出现信息从文件数据库2401中取出并放入字一同出现标引存储装置2404的字一同出现信息提取装置2406；用户经其输入检索要求的检索要求输入装置2407；字频度计算装置2408，查阅字频度标引存储装置2403计算包含在检索要求(经检索要求输入装置2407输入)内的字典字在文件中的出现频度；频度得分计算装置2409，根据字频度计算装置2408得出的字频度获取各文件的频度得分；出现字号计算装置2410，查阅字频度标引存储装置2403获取包含在检索要求(经检索要求输入装置2407输入)内并出现在各文件中的字典字号；出现字号得分计算装置2411，根据出现字号计算装置2410得到的出现字号计算出现字号得分；把字一同出现信息从检索要求输入装置2407输入的检索要求里提取字一同出现信息的检索要求字一同出现信息提取装置2412；字一同出现相关性检查装置2413，参照字一同出标引存储装置2404的内容，计算检索要求字一同出现信息提取装置2412输出的检索要求出现在每个文件里的字一同出现相关性的字一同出现相关号；一同出现得分计算装置2414，根据共同出现在检索要求和文件里的字一同出现相关号(由字一同出现相关性检查装置2413获得)获取每个文件的一同出现得分；文件得分计算装置2415，根据频度得分计算装置2409的输出、出现字号得分计算装置2411的输出和一同出现得分计算装置2415的输出，计算各文件的最后得分；以得分次序重排文件的文件编排装置2416；及显示以得分次序编排的组合文件的检索结果显示装置2417。

图22至26的流程图表示根据本发明第八实施例的文件检索系统的检索步骤。检索前，字频度信息提取装置2405扫描文件数据库2401，在每个文件中找出包括在字典2402内的某字典字的出现频度，并与文件总编号、出现该字的文件号一起输出给字频度标引存储装置2403，而字一同出现信息提取装置2406也扫描文件数据库2401，找出各文件中的字一同出现信息并把它输出给字一同出现标引存储装置2404，从而制出标引。作为一种获取字一同出现信息的方法，例如有一种办法是判定相互有一同出现相关性的一对字出现在同一语句中并作提取，或者通过作词素分析来提取处NP-NP主语属性或宾语属性关系的字对。

在步骤2501，用户经检索要求输入装置2407对要搜索的文件输入检索要求。在步骤2502，字频度计算装置2408参照字频度标引存储装置2403了解文件总编号ND，再获取包含在检索要求(经检索要求输入装置2407输入)内的字典字Wi(i＝1，2，……NW，其中NW对应于包含在检索要求内的字典字号)在文件Dj(j＝1，2，……ND)中的出现频度TFij，进一步得到出现字Wi的文件号NDi，再把它们输出给频度得分计算装置2409。

在步骤2503，根据文件总编号ND、出现字Wi的文件号NDi和字Wi在文件Dj中的出现频度TFij，频度得分计算装置2409按上述公式(1)计算频度得分SFj，表示归于字频度的文件和检索要求的符合度。此时，要把基于字频度的频度得分加到文件Dj的频度得分里。

在步骤2504，出现字号计算装置2410参照字频度标引存储装置2403，计算包含在检索要求(经检索要求输入装置2407输入)内的字典字Wi同时出现在文件Dj中的字号NAj，并把字号NAj输出给出现字号得分计算装置2411。

在步骤2505，根据出现字号计算装置2410给出的出现字号NAj，出现字号得分计算装置2411按上述公式(8)计算出现字号得分并把它输出给文件得分计算装置2415。

在步骤2506，检索要求字一同出现信息提取装置2412应用类似于标引制作的方法，从经检索要求输入装置2407输入的检索要求里提取一同出现相关性Ck(k＝1，2，……NC，其中NC指包含在检索要求中的字一同出现相关号)，并把Ck输出给字一同出现相关性检查装置2413。

在步骤2507，字一同出现相关性检查装置2413参照字一同出现标引存储装置2404找出出现每个字一同出现相关性Ck(由字一同出现信息提取装置2404获得)，计算字一同出相关性Ck的字一同出现相关号Ncj，并把结果输出给一同出现得分计算装置2414。

在步骤2508，一同出现得分计算装置2414按上述公式(3)计算文件Dj的一同出现得分SCj，并把SCj输出给文件得分计算装置2415。在步骤2509，文件得分计算装置2415按上述公式(14)计算频度得分最大与最小值的差值SR。

在步骤2510，根据频度得分计算装置2409输出的频度得分SFj、出现字号得分计算装置2411输出的出现字号得分SAj和一同出现得分计算装置2414输出的一同出现得分SCj，文件得分计算装置2415按下述公式(19)计算文件得分Sj，表示文件Dj与检索要求的符合度。

Sj＝SFj+(SAj+SCj×NW)×SR (19)

在步骤2510，文件编排装置2416按文件得分计算装置2415输出的各文件Dj的递减文件得分Sj的次序编排诸文件，而在步骤2512，检索结果显示装置2417把文件编排装置2416输出的分类文件作为检索结果显示给用户。

如上所述，作为判定文件与检索要求符合度的判据，除了字频度外，还采用了一同出现相关性和出现字号，因而优先次序为一同出现相关性＞出现字号＞字频度，结果能在检索结果中以高排位显示出更接近用户检索意图的文件，这样实现了高精度、高效率的检索。

如前所述，在根据本发明的文件检索系统中，标引具有字在目标文件中的一同出现信息，配备的字一同出现相关性检查装置用于检查包含在检索要求内的字一同出现相关性是否出现在目标文件里，并且制备了与目标文件各字段相关的标引信息，配备了字段率输入装置，因而用户可限定字段对编排的影响率，而且还配备了多个检索要求输入装置以便输入多个优先度不同的检索要求，配备的出现字号计算装置用于计算包含在目标文件中的多个检索要求字的字号，而标引含有字在目标文件里的出现位置信息，配备的字接近度计算装置则用于检查多个检索要求字的出现位置是否相互邻接或相互比较靠近。因此，能灵活地接受用户的要求进行检索与编排。

此外，文件检索系统还配备了：包括字在目标文件各字段中的出现频度与一同出现信息的标引存储装置；字段率输入装置，用户经其能限定对目标文件编排产生影响的字段率；及字段字一同出现相关性检查装置，用于检查包含在检索要求内的字一同出现相关性是否出现在目标文件中。另外，文件检索系统还包括：包括字出现频度与目标文件中字一同出现信息的标引存储装置；出现字号计算装置，用于计算包含在检索要求内的多个字有多少出现在目标文件中；及字一同出现相关性检查装置，用于检查包含在检索要求内的字一同出现相关性是否出现在目标文件里，这类结构允许灵活地接受用户的检索要求并执行检索与编排操作。

这样，能高精度地产生检索结果且减少了拒绝现象，并通过减少组合文件而从整体上缩短了检索时间。

应当理解，上述描述只同本发明的若干较佳实施例相关，在不违背本发明的精神和范围的前提下，旨在涵盖这里用作揭示目的的本发明实施例的所有变动和修饰。

Claims

1.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

字频度标引存储装置，用于贮存字典字在所述目标文件中的出现频度；

字一同出现标引存储装置，用于贮存出现在所述目标文件中的字一同出现信息；

字频度信息提取装置，用于把字频度信息从被检索文件数据库里取出并存入所述字频度标引存储装置；

字一同出现信息提取装置，用于把字一同出现信息从所述文件数据库里取出并存入所述字一同出现标引存储装置；

检索要求输入装置，用户经其输入所述检索要求；

字频度计算装置，用于查阅所述字频度标引存储装置以获取包含在经所述检索要求输入装置输入的所述检索要求内的字典字在所述文件数据库某文件里的出现频度；

频度得分计算装置，用于根据所述字频度计算装置得出的所述字出现频度计算所述文件的频度得分，表示所述检索要求与所述文件的符合度；

检索请求字一同出现信息提取装置，用于从所述检索要求里提取字一同出现信息；

字一同出现相关性检索装置，用于参照所述字一同出现标引，找出包含在所述检索要求里并由所述检索要求字一同出现信息提取装置输出的字一同出现相关性有多少出现在所述文件里；

一同出现得分计算装置，根据共同出现在所述检索要求和所述文件里的所述字一同出现相关的数量计算所述文件的一同出现得分；

文件得分计算装置，根据所述频度得分计算装置与所述一同出现得分计算装置的输出计算文件得分；

文件编排装置，按由所述文件得分计算装置获得的文件得分次序重排所述作为检索结果的目标文件；及

检索结果显示装置，显示排好的所述检索结果。

2.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

字频度标引存储装置，用于贮存字典字在所述目标文件里的出现频度；

主检索要求输入装置，让用户输入要优先处理的第一检索要求；

辅检索要求输入装置，让用户输入其优先度低于所述第一检索要求优先度的第二检索要求；

字频度计算装置，用于查阅所述字频度标引存储装置，以获取包含在所述第一和第二检索要求内的字典字在所述文件数据库某一文件中的出现频度；

频度得分计算装置，根据所述字频度计算装置得出的所述字出现频度计算所述文件的频度得分，表示所述文件与所述第一、第二检索要求之一的符合度；

文件得分计算装置，根据所述频度得分计算装置输出的所述频度得分计算所述文件的文件得分，表示所述文件与所述第一、第二检索要求之一的符合度；

文件编排装置，按所述文件得分计算装置得出的文件得分次序重排作为检索结果的所述目标文件；及

检索结果显示装置，显示排好的所述检索结果。

3.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

字段字频度标引存储装置，用于贮存字典字在所述目标文件各字段中的出现频度；

字频度信息提取装置，用于把字频度信息从被检文件数据库里取出并放入所述字段字频度标引存储装置；

检索要求输入装置，让用户输入所述检索要求；

字段率输入装置，让用户输入某一比率，表示文件某字段得分对文件得分的影响度；

字段字频度计算装置，用于查阅以字典字形式包含在所述检索要求内的所述字段字频度标引存储装置，以获取所述字典字在所述文件中的出现频度；

字段频度得分计算装置，根据所述字段字频度计算装置得出的所述字出现频度计算频度得分，表示各文件的字段与所述检索要求的符合度；

文件得分计算装置，根据所述字段频度得分计算装置输出的所述字段的所述字出现频度和输入给所述字段率输入装置的所述比率计算文件得分，表示所述文件与所述检索要求的符合度；

文件编排装置，按所述文件得分计算装置得出的文件得分次序重排所述作为检索结果的目标文件；及

检索结果显示装置，用于显示排好的所述检索结果。

4.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

出现字标引存储装置，用于贮存出现在所述目标文件里的字清单；

字频度信息提取装置，用于把字频度信息从被检索文件数据库里提出并存入所述字频度标引存储装置；

出现字信息提取装置，把出现字信息从所述文件数据库里提出并保持在所述出现字标引存储装置里；

检索要求输入装置，用户经其输入所述检索要求；

字频度计算装置，用于查阅所述字频度标引存储装置，以计算包含在所述目标文件里的字典字在所述文件数据库某文件中的出现频度；

频度得分计算装置，根据所述字频度计算装置得出的所述字出现频度计算所述文件的得分，表示所述文件与所述检索要求的符合度；

出现字号计算装置，用于参照所述出现字标引存储装置以找出包含在所述检索要求里的字有多少字出现在所述文件中；

出现字得分计算装置，根据所述出现字号计算装置得出的出现字号获得出现字得分并把它加到所述文件；

文件得分计算装置，根据所述频度得分计算装置输出的所述频度得分和所述出现字号得分计算装置输出的所述出现字得分计算所述文件的文件得分，表示所述检索要求与所述文件的符合度；

检索结果显示装置，用于显示排好的所述检索结果。

5.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

字出现位置标引存储装置，用于贮存出现在所述目标文件中的字的位置；

字出现位置信息提取装置，用于从所述文件数据库里获取字位置信息并把它保持在所述字出现位置标引存储装置里；

检索要求输入装置，用户经其输入所述检索要求；

字频度计算装置，用于查阅所述字频度标引存储装置，以计算包含在所述检索要求内的字典字在所述文件数据库某文件中的出现频度；

频度得分计算装置，根据所述字频度计算装置得出的所述字出现频度获得所述文件的得分，表示所述文件与所述检索要求的符合度；

出现位置计算装置，用于参照所述字出现位置标引存储装置以获取包含在所述检索要求内的字在所述文件中的出现位置；

字接近度计算装置，根据所述字出现位置计算装置输出的字出现位置计算所述文件字间的接近度；

接近度得分计算装置，根据所述字接近度计算装置输出的接近度得到规定给所述文件的接近度得分；

文件得分计算装置，根据所述频度得分计算装置输出的所述频度得分和所述接近度得分计算装置输出的所述接近度得分计算所述文件的得分，表示所述文件与所述检索要求的符合度；

文件编排装置，按所述文件得分计算装置得出的文件得分次序重排为检索结果的所述目标文件；及

检索结果显示装置，用于显示排好的所述检索结果。

6.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

标引存储装置，用于存储所述目标文件各字段中的字出现频度和字一同出现信息；

字段率输入装置，用以接收用户输入的限定影响所述目标文件各字段的编排的字段率；及

字段字一同出现相关性检查装置，用于检索包含在所述检索要求内的字一同出现相关性是否出现在所述目标文件中，提高出现所述一同出现相关性的所述目标文件的得分，从而优先显示所述目标文件。

7.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

字一同出现标引存储装置，用于贮存出现在所述目标文件里的字一同出现信息；

字频度信息提取装置，把字频度信息从制备的文件数据库里取出并放入所述字频度标引存储装置；

字一同出现信息提取装置，把字一同出现信息从所述文件数据库里取出并放入所述字一同出标引存储装置；

主检索要求输入装置，让用户输入附上重要度的主检索要求；

辅检索要求输入装置，让用户输入附上的重要度低于所述主检索要求的辅检索要求；

字频度计算装置，查阅所述字频度标引存储装置以获取包含在经所述主辅检索要求输入装置输入的所述检索要求内的字典字在文件中的出现频度；

频度得分计算装置，根据所述字频度计算装置得出的字出现频度计算各文件的频度得分；

检索要求字一同出现信息提取装置，用于从经主辅检索要求输入装置输入的所述检索要求里提取字一同出现信息；

字一同出现相关性检查装置，参照所述字一同出现标引存储装置的内容以获取包含在由所述检索要求字一同出现信息提取装置输出的所述检索要求内并出现在所述文件里的字一同出现相关号；

一同出现得分计算装置，根据所述字一同出现相关性检查装置得出的并共同出现于所述检索要求与所述文件的字一同出现相关号，获取所述文件的一同出现得分；

文件得分计算装置，根据所述频度得分计算装置输出的频度得分和所述一同出现得分计算装置输出的一同出现得分，计算所述文件的最后得分；

检索结果显示装置，用于显示排好的所述检索结果。

8.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

字段字一同出现标引存储装置，用于贮存出现在所述目标文件各字段里的字一同出现信息；

字频度信息提取装置，把字频度信息从制备的文件数据库里取出并放入所述字段字频度标引存储装置；

字一同出现信息提取装置，字一同出现信息从所述文件数据库里取出并放入所述字段一同出现标引存储装置；

检索要求输入装置，用户经其输入所述检索要求；

字段字频度计算装置，用于查阅所述字段字频度标引存储装置以找出包含在经所述检索要求输入装置输入的所述检索要求内的字典字在文件各字段里的出现频度；

字段频度得分计算装置，根据所述字段字频度计算装置得出的字出现频度获取所述文件各字段的频度得分；

检索要求字一同出现信息提取装置，用于从经检索要求输入装置输入的检索要求里提取字一同出现信息；

字段字一同出现相关性检索装置，参照所述字段字一同出现标引存储装置的内容，找出包含在由所述检索要求字一同出现信息提取装置输出的所述检索要求内并出现于所述文件某字段的字一同出现相关号；

字段一同出现得分计算装置，根据共同出现于所述文件所述字段和所述检索要求的由所述字段字一同出现相关性检查装置得出的字一同出现相关号，计算所述文件各字段的一同出现得分；

字段率输入装置，用户经其输入某个比率，表示所述字段的得分对所述文件的编排的影响度；

文件得分计算装置，根据所述字段频度得分计算装置输出的频度得分、所述字段一同出现得分计算装置输出的一同出现得分和所述字段率输入装置输出的比率，计算所述文件的最后得分；

检索结果显示装置，用于显示排好的所述检索结果。

9.一种响应于检索要求搜索被检索目标文件并编排检索结果的文件检索系统，包括：

字一同出现标引存储装置，用于贮存出现于所述目标文件的字一同出现信息；

字频度信息提取装置，用于把字频度信息从制备的文件数据库里取出并存入所述字频度标引存储装置；

字一同出现信息提取装置，用于把字一同出现信息从所述文件数据库里取出并放入所述字一同出现标引存储装置；

检索要求输入装置，用户经其输入所述检索要求；

字频度计算装置，查阅所述字频度标引存储装置以计算包含在经所述检索要求输入装置输入的所述检索要求内的字典字在文件中的出现频度；

频度得分计算装置，根据所述字频度计算装置得出的字频度获取所述文件的频度得分；

出现字号计算装置，查阅所述字频度标引存储装置以获取包含在经所述检索要求输入装置输入的所述检索要求内并出现于所述文件的字典字号；

出现字号得分计算装置，根据所述出现字号计算装置得出的出现字号计算出现字号得分；

检索要求字一同出现信息提取装置，用于把字一同出现信息从所述经所述检索要求输入装置输入的检索要求里提取出来；

字一同出现相关性检查装置，参照所述字一同出现标引存储装置的内容，计算由所述检索要求字一同出现信息提取装置输出的一同出现相关性出现在所述文件中的字一同出现相关性编号；

一同出现得分计算装置，根据共同出现于所述检索要求与所述文件的由所述字一同出现相关性检查装置得出的字一同出现相关号获取所述文件的一同出现得分；

文件得分计算装置，根据所述频度得分计算装置输出的频度得分、所述出现字号得分计算装置输出的出现字号得分和所述一同出现得分计算装置输出的一同出现得分，计算所述文件的最后得分；

检索结果显示装置，用于显示排好的所述检索结果。