CN1324046A

CN1324046A - 信息检索系统

Info

Publication number: CN1324046A
Application number: CN01118060A
Authority: CN
Inventors: 内藤荣一; 荒木昭一; 九津见洋; 小泽顺; 丸野进
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-05-17
Filing date: 2001-05-17
Publication date: 2001-11-28
Also published as: US6993517B2; US20020065845A1; KR20010105241A; EP1156430A2

Abstract

一种信息检索系统将相对应的询问和回答保存在文档存储部中,簇分类部根据文档存储部中的各回答的特征矢量将回答进行簇分类,数据库更新部当利用者用自由文输入询问时检索相似询问并将对应的回答按簇归类后向利用者和专家提供。数据库更新部当选择利用者或者专家判定为最恰当的回答时以所选择的回答为基础,如没有恰当的回答时以专家新输入的回答为基础分别自动更新文档存储部。专家所输入的自由文的回答原样提供给利用者。

Description

信息检索系统

本发明涉及一种能够从大量的信息中利用者容易发现所需求的信息的信息检索系统。

近年，随着互联网的普及，在WWW(World Wide Web)上登载有由HTML(Hyper Text Markup Language)记述的各种各样的首页，一般利用者需要处理大量的信息的时代已经到来。另外，公开有称为FAQ(FrequentlyAsked Questions)集的、针对频繁询问和解答的列表，利用者可以得到有关询问的解答。这些信息，对于利用者来说，如果知道所需求的信息的所在就可以立即阅览，非常方便，相反如果要从大量的信息中发现自己所需要的信息将是一件件难的事情。

为此，产生了从文档中选出关键词作为该文档的特征量，计算出特征量的内积求出为文挡间的近似度，检索针对询问的近似文档的检索技术。

但是，由于互联网上的信息或者在事例基础上积蓄的FAQ集是向很多人独立提供信息，不能避免信息的重复，大量存在具有相同内容的文档。因此，在现有技术中，作为类似于询问文的文档，结果检索出大量具有相同内容的文档，而利用者仍然需要从大量的检索结果中找出自己需要的信息的作业。如果将检索结果限制在一定数量内，又可能没有自己所需要的信息，这成为检索技术的课题。

另外，即使利用者成功地从检索结果中找出了自己希望的信息，由于在FAQ集中没有反应，其他利用者在相同条件下检索时需要同样的手续。在避免信息的重复的同时进一步充实FAQ集，必须要检查同样的信息是否存在，成为信息提供者的负担。

本发明的目的在于提供一种可以减轻利用者的信息检索的负担的信息检索系统。

本发明的另一目的在于提供一种容易更新检索对象的信息的信息检索系统。

为了达成上述目的，本发明的信息检索系统，计算文档的特征矢量，根据特征矢量对文档进行簇分类，将文档的检索结果按簇归类进行显示。这样，把检索结果为相似文档的集合，利用者容易把握。

另外，本发明的信息检索系统，当利用者输入询问时检索相似询问，将对应的回答向利用者或者专家提示，利用者或者专家选择了认为最恰当的回答时，以该选择的回答为基础自动更新文档数据库。如果没有恰当的回答，以专家输入的回答为基础自动更新文档数据库。这样，当下次输入了同样的询问时就可以适合的回答了。

下面对附图进行简要说明。

图1为表示本发明实施例的信息检索系统的构成的方框图。

图2为表示图1所示的文档存储部中所保存的文档例的图。

图3为表示图1所示的利用者显示部中检索结果的显示例的图。

图4为表示图1所示的特征矢量抽出部的处理顺序的流程图。

图5为表示所抽出的文档特征矢量例的图。

图6为表示图1所示的簇分类部的处理顺序的流程图。

图7为表示簇分类结果例的图。

图8为表示图1所示的簇标签作成部中单词标签作成顺序的流程图。

图9为表示作成的单词标签例的图。

图10为表示图1所示的簇标签作成部中文标签作成顺序的流程图。

图11为表示作成的文标签例的图。

图12为表示图1所示的文档标签作成部的处理顺序的流程图。

图13为表示作成的文档标签例的图。

图14为表示本发明实施例2的信息检索系统的构成的方框图。

图15为表示图14所示的文档存储部中所保存的文档中询问表部分例的图。

图16为表示图14所示的文档存储部中所保存的文档中回答表部分例的图。

图17为表示图14所示的专家显示部中检索结果的显示例的图。

图18为表示图14所示的利用者显示部中检索结果的显示例的图。

图19为表示图14所示的特征矢量抽出部中利用者询问的特征矢量抽出顺序的流程图。

图20为表示从利用者询问中抽出的特征矢量例的图。

图21为表示图14所示的近似度运算部的处理顺序的流程图。

图22为表示以图14所示的数据库检索更新部的处理顺序为主的流程图。

以下参照附图说明本发明的2个实施例。

实施例1

图1为表示本发明实施例1的信息检索系统的构成的方框图。图1所示的信息检索系统由文档存储部11、簇存储部12、簇标签存储部13、文档标签部14、特征矢量抽出部15、簇分类部16、簇标签作成部17、文档标签作成部18、数据库检索部19、接口部20、利用者输入部21和利用者显示部22所构成，例如通过互联网在相互连接的文档服务器和利用者终端之间实现。文档存储部11保存多个文档。特征矢量抽出部15从保存在文档存储部11中的文档中抽出特征矢量。簇分类部16根据特征矢量抽出部15获得的特征矢量，对保存在文档存储部11中的文档进行簇分类。簇存储部12保存由簇分类部16进行簇分类后的文档的簇。簇标签作成部17对于由簇分类部16作成的各簇作成表示该簇内容的簇标签。簇标签表示由单词构成的单词标签和由文句构成的文句标签。簇标签存储部13保存由簇标签作成部17作成的簇标签。文档标签作成部18根据由簇标签作成部17作成的簇标签的要素的各文档，作成表示该文档内容的文档标签。文档标签部14保存文档标签作成部18作成的文档标签。利用者输入部21接收由利用者给出的检索条件。作为检索条件，只要是文档的关键词、文档ID等文档检索的条件即可。接口部20管理与利用者之间的输入输出。数据库检索部19从文档存储部11中检索满足检索条件的文档。利用者显示部22向利用者提供检索结果。

图2为表示图1所示的文档存储部11中所保存的文档的例。在文档存储部11中保存成为检索对象的给定n(n≥2)个文档。各文档由唯一的文档ID和文章形式的正文构成。第i条文档记为Di(1≤i≤n)。

图3为表示图1所示的利用者显示部22中检索结果的显示例。依据图3，对于某一检索条件的文档检索结果按每一簇归类显示。具体讲，簇ID和包含在该簇中的文档的文档ID以及正文，按每一簇以表的形式显示，用鼠标点击[前一簇]或者[后一簇]按键，将显示其他簇的内容，这样可以显示所有的显示结果。这样利用者容易把握类似检索结果的文档。并且，在所显示的簇中，显示表示该簇内容的簇标签的同时，文句标签所指定的文句用下划线表示。因此，利用者容易把握簇的内容。此外，作为检索结果、虽然也显示了簇ID和文档ID，也可以部显示。

以下，分别按文档录入时动作和文档检索时动作说明上述实施例1的详细内容。文档录入时动作是指最初将文档录入到文档存储部11中时，或者在这之后进行文档的追加/变更/删除时的动作。文档检索时动作是指检索录入的文档进行阅览时的动作。

<文档录入时动作>

图4为表示图1所示的特征矢量抽出部15的处理顺序。首先，特征矢量抽出部15依次取出保存在文档存储部11中的所有文档Di，抽出各文档Di的特征矢量Vi。特征矢量是表示文档特征的单词Tj及其重要度Wij的组作为要素的矢量，其要素的数量依据文档而不同。在此，j表示识别单词的唯一的编号。在图4中，在第S101步，将文档计数i设定为i=1。在第S102步，从文档存储部11中取出文档Di，通过周知的形态要素解析、构文解析、除去不要词等方法，从正文中抽出所出现的单词Tj，计算在文档Di中单词Tj出现的次数Fij。在结束判定的第S103步，对于所有文档如果第S102步的处理已经结束，即i=n时进入到第S105步。没有结束时进入到第S104步。在第S104步，将计数器i加1进入到第S102步。在第S105步，作为单词Ti的相对于所有文档的重要度，由单词Tj出现的文档数的多少表示，即IDF(inverse document frequency)值由式(1)计算。

IDFj = \log \frac{n}{Mj} + 1 \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (1)

式中，Mj表示单词Tj出现的文档数。在第S106步，将文档计数器i设定为i=1。在第S107步，作为单词Tj在文档Di中的特征的重要度Wij，表示文档Di中单词Tj出现的几率的值TF(term frequency)和上述IDF值相乘后的TFIDF值由式(2)计算。

Wij = \frac{Fij}{\underset{j : Tj &Element; Di}{Σ} Fij} \cdot IDFj \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (2)

在结束判定的第S108步，对于所有文档如果第S107步的处理已经结束，即i=n时结束。没有结束时进入到第S109步。在第S109步，将计数器i加1进入到第S107步。

图5为表示所抽出的文档特征矢量Vi的例。此外，在上述特征矢量的计算中虽然采用了TFIDF值，也可以采用单纯的单词出现次数等其他方法。

图6为表示图1所示的簇分类部16的处理顺序。簇分类部16利用特征矢量抽出部15所抽出的特征矢量，将所有文档分类成m个簇(1＜m＜n)。在此，第k个簇由Ck表示(1≤k≤m)。作为簇分类的顺序，采用按树状图依次分类的阶层式簇分类。在图6中，在第S111步，进行簇间距离的初始计算。作为初始簇，设定以只有各个文档Di作为要素的n个簇Ci。各簇Ck、Cl(1≤k、1≤m)之间的距离为Lkl，各文档的特征矢量之间的距离采用式(3)表示。

…………………(3)

在第S112步，设定聚类次数的计数器i位i=1。在第S113步中，在所有簇的组合中，搜索簇间距离Lkl为最小的簇Ck、Cl(k＜1)。在第S114步中，将簇Ck、Cl合并作为簇Cg。即Cg=Ck∪Cl,Cl=φ(φ表示空集)。伴随簇的合并，簇Cg和其他簇Ch(1≤h≤n)之间的簇间距离采用区域法由式(4)计算。

Lgh = \frac{(Nk + Nh) \cdot Lkh + (Nl + Nh) \cdot Llh - Nh \cdot Lkl}{Ng + Nh} \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (4)

式中，Nk表示簇Ck的要素的数量。在结束判定的第S115步，当聚类次数为n-1时，即所有初始簇合并在各簇中时进入到第S117步。否则进入到第S116步。在第S116步，将计数器i加1进入到第S112步。在第S117步，确定簇的数。在从第S111步到第S115步的簇分类过程中，对于每一聚类次数的簇的数量减1。在第S117步，返回簇分类过程，确定适当的聚类次数。在此，要素具有2个以上的簇的数量为最大的聚类次数为适当的聚类次数。在第S118步，将包含由第S117步确定的聚类次数之前进行聚分类时的各簇中的要素写入到簇存储部12中。

图7为表示保存在簇存储部12中的簇的例。各簇由簇ID和包含在该簇中的文档的文档ID构成。例如，在簇1中包含1、190、432、644号的4个文档。这表示这4个文档的特征矢量之间和其他矢量相比较要更相似一些。此外，在上述例中，作为簇分类的方法虽然采用的是阶层聚类法，也可以采用非阶层聚类法。作为初始簇间距离虽然采用的是式(3)的相似比，也可以采用欧几里得平方距离等其他距离。作为簇合并时的簇间距离的计算方法虽然采用的是式(4)的区域法，也可以采用最长距离法等其他手法。作为簇数量的确定方法，虽然采用的是具有2个以上要素的簇的数量最大的聚类次数，也可以采用簇数量为文档数量的一定比例等其他确定手法。

图8为表示图1所示的簇标签作成部17中单词标签作成顺序。在第S201步，设定簇的计数器k为k=1。在第S202步，对于每一个包含在簇Ck的要素的所有文档Di的特征矢量Vi中的单词Tj，在簇Ck的要素的文档Di中，有单词Tj出现的文档数进行计数。在第S203步，对于每一个包含在簇Ck的要素的所有文档Di中的单词Tj，计算出单词Tj的TFIDF值(=Wij)的、针对簇Ck的要素的所有文档Di的合计。在第S204步，对于每一个包含在簇Ck的要素的所有文档Di的特征矢量Vi中的单词Tj，按第S202步出现文档数的多少顺序进行排序。当出现文档数相同时按第S203步求出的TFIDF值的大小顺序进行排序。在第S205步，选择在第S204步排序后的上位3个单词，作为簇的单词标签写入到簇标签存储部13中。在结束判定的第S206步，当对于所有簇从第202步到第205步之间的处理结束时，即k=m时结束。否则进入到第S207步。在第S207步，将计数器k加1进入到第S202步。

图9为表示写入到簇标签存储部13中的单词标签的例。例如，在簇1中表示有[点心]、[零食]、[乳酪]等单词标签。此外，作为单词标签的作成方法，虽然采用的是按单词出现的文档数排序后的方法，也可以采用只按TFIDF值排序等其他方法。又，单词标签的单词数虽然选择的是3个，也可以采用3个之外的其他个数。

图10为表示图1所示的簇标签作成部17中文句标签作成顺序。在第S301步，设定簇的计数器k为k=1。在第S302步，对于每一个包含在簇Ck的要素的所有文档Di的特征矢量Vi中的单词Tj，在簇Ck的要素的文档Di中，有单词Tj出现的文档数进行计数。在第S303步，对于每一个构成簇Ck的要素的所有文档Di的文句，计算包含在该文句中的单词Tj，在第S302步计数的文档数的合计。在此，文句表示文档中由[。]句点区分的文字列。在第S304步，对于构成簇Ck的要素的所有文档Di的文句，按第S303步获得的出现文档数的合计的大小顺序进行排序。在第S305步，选择在第S304步排序后的最上位的文句，作为簇的文句标签写入到簇标签存储部13中。当最上位的文句为多个时，选择其中文字数最少的文句。在结束判定的第S306步，当对于所有簇从第302步到第305步之间的处理结束时，即k=m时结束。否则进入到第S307步。在第S307步，将计数器k加1进入到第S302步。

图11为表示写入到簇标签存储部13中的文句标签的例。例如，在簇1中，表示有[水分多的物品(果子冻、嘌呤、酸乳酪)…]文句标签。此外，作为文句标签的作成方法虽然采用的是按单词出现的文档数的合计排序，也可以采用TFIDF值的合计排序等其他方法。另外，当最上位的文句为多个时，虽然选择的是其中文字数最少的文句，也可以采用选择从文句开始位置最前方的文句等其他方法。

图12为表示图1所示的文档标签作成部18的处理顺序。在第S401步，设定簇的计数器i为i=1。在第S402步，对于每一个构成文档Di的各文句，计算包含在该文句中的所有单词Tj的TFIDF值(=Wij)。在结束判定的第S403步，当对于所有文档进行第402步的处理结束时，即i=n时进入到第405步。否则进入到第S404步。在第S404步，将计数器i加1进入到第S402步。在第S405步，设定簇的计数器k为k=1。在第S406步，对于构成簇Ck的要素的所有文档Di的文句，按第S402步获得的合计的大小顺序进行排序。在第S407步，作为文档Di的文档标签选择在第S406步排序后的最上位的文句。如果所选择的文句和由簇标签作成部17所作成的簇的文句标签相同时，作为文档Di的文档标签选择在第S406步排序后的最上位开始的第2号文句。在第S408步，将在第S407步所选择的文档Di的文档标签写入到文档标签部14中。在结束判定的第S409步，当对于所有簇从第406步到第408步之间的处理结束时，即k=m时结束。否则进入到第S410步。在第S410步，将计数器k加1进入到第S406步。

图13为表示写入到文档标签部14中的文档标签的例。例如，包含在簇1内的文档1中，表示有答复，不要向后翻，…]的文档标签。

依据以上的动作，在文档录入时，针对各文档抽出特征矢量，然后作成簇、簇标签以及文档标签，并分别保存在相应的存储部中。

<文档检索时动作>

首先，接口部20通过利用者输入部21接收文档检索条件。数据库检索部19从文档存储部11中检索满足检索条件的文档，从簇存储部12中检索包含在所检索的文档的簇，再从文档存储部11中检索包含所检索的簇的文档，其结果与簇标签以及文档标签一起送给接口部20。接口部20通过利用者显示部22向利用者提示检索结果(图1)。

此外，在本实施例中，文档虽然是预先保存的，也可以通过光盘等存储媒体或者通过互联网等网络媒体，在之后导入或者修正。又，文档的检索，除了关键词或者文档ID以外，也可以是全文检索或者模糊检索。

实施例2

图14为表示本发明实施例2的信息检索系统的构成。图14所示的信息检索系统，是针对利用者用自由文的询问，根据过去的事例检索，进行恰当回答的系统。例如可以通过互联网相互连接的文档服务器、利用者终端以及专家终端实现。图14的构成，是在图1的构成的基础上，追加了特征矢量存储部31、相似度运算部32、专家输入部41、专家显示部42，并且将图1中的数据库检索部19置换成数据库检索更新部33。文档存储部11保存相互对应的多个询问文档和多个回答文档。专家显示部42向专家提示检索结果。专家输入部41接收专家的选择输入以及自由文的回答输入。接口部20管理利用者以及专家的输入输出。特征矢量抽出部15包括从文档存储部11的询问文档和回答文档中分别抽出特征矢量的功能、从利用者用自由文询问输入中抽出特征矢量的功能、从专家用自由文回答输入中抽出特征矢量的功能。特征矢量存储部31保存由特征矢量抽出部15分别从文档存储部11的询问文档和回答文档中抽出的特征矢量。相似度运算部32包括计算从利用者询问文档中抽出的特征矢量与特征矢量存储部31保存的询问文档的特征矢量的相似度的功能、以及计算从专家回答文档中抽出的特征矢量与特征矢量存储部31保存的回答文档的特征矢量的相似度的功能。数据库检索更新部33，在检索文档存储部11的文档的功能的基础上，还包括根据利用者或者专家的应答更新文档存储部11的功能。

图15以及图16为表示图14所示的文档存储部11中所保存的文档的例。图15表示收集了询问文档的询问表的部分。该询问表由唯一的询问ID、文章形式的询问、以及与该询问对应的回答ID构成。图16表示收集了回答文档的回答表的部分。该回答表由唯一的回答ID、文章形式的回答构成。第i个询问记为Qi，第k个回答记为Ak(1≤i≤n并且1≤k≤m)。在此，n≥m的关系成立。即，有可能对于多个询问只有一个回答。

图17为表示图14所示的专家显示部42中检索结果的显示例。在图17中，在利用者的询问的基础上，将回答候选分类成簇的状态下，并且也显示了簇的文句标签以及簇中的文档标签。在图17中，通过用鼠标按下[前页]按键或者[后页]按键显示另外的页面，可以显示所有的显示结果。这样，专家参照作为相似文档的集合所显示的检索结果，可以容易选择最恰当的回答。或者，也可以用自由文输入专家回答。此外，在图17的例中，作为簇标签虽然显示的是文句标签，也可以用单词标签替代显示或者同时显示。又，作为检索结果虽然也显示了簇ID和文档ID，也可以不显示。

图18为表示图14所示的利用者显示部22中的检索结果的显示例。在此，选择编号1的文档作为专家回答。

以下和上述实施例1相同，分为文档录入时动作和文档检索时动作说明实施例2的详细内容。

<文档录入时动作>

首先，特征矢量抽出部15从保存在文档存储部的所有文档中抽出询问的特征矢量VQi和回答的特征矢量VAk，所抽出的特征矢量写入到特征矢量存储部31中。特征矢量的抽出顺序和实施例1相同。和实施例1不同点在于对于询问和回答的部分分别计算特征矢量，以及将特征矢量写入到特征矢量存储部31中。

然后，簇分类部16从特征矢量存储部31中读取回答的特征矢量VAk，将所有的回答文档分类成簇，在簇存储部12中写入簇。簇分类的顺序和实施例1相同。和实施例1不同点在于采用回答的特征矢量VAk进行簇分类。簇标签作成部17以及文档标签作成部18的各个动作和实施例1相同。

依据以上的动作，文档录入时，针对询问和回答分别抽出特征矢量，又，对于回答，在作成簇、簇标签、文档标签之后分别保存在相应的存储部中。

<文档检索时动作>

首先，接口部20通过利用者输入部21接收利用者的询问Q。特征矢量抽出部15抽出利用者询问的特征矢量VQ。

图19为表示图14所示的特征矢量抽出部15中利用者询问的特征矢量抽出顺序。在第S501步，从利用者询问Q中抽出出现的单词Tj，计算单词Tj在文档内出现的次数Fij。单词的抽出方法和实施例1相同。在第S502步，计算单词的IDF值。当单词Tj在文档存储部11的任一个文档中存在时，由于其IDF值已经在文档录入时计算出，则在第S502步直接使用。如果单词Tj不存在时，用式(5)计算单词Tj的IDF值IDFj=log(n+1)+1 ……………(5)

在第S503步，计算利用者询问Q中的单词Tj的重要度WQj(TFIDF值)。TFIDF值的计算方法和实施例1相同。图20为表示从利用者询问Q中抽出的特征矢量VQ的例。

然后，相似度运算部32从特征矢量存储部31中取出所有的询问的特征矢量VQi，计算这些特征矢量VQi与利用者询问的特征矢量VQ之间的相似度。

图21为表示图14所示的相似度运算部32的处理顺序。在第S511步，设定文档的计数器i为i=1。在第S512步，用式(6)计算矢量的内积求出特征矢量VQi与来自利用者的询问的特征矢量VQ之间的相似度Ei。

Ei = VQi \cdot VQ = \frac{\underset{j}{Σ} Wij \cdot WQj}{| VQi | \cdot | VQ |} \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (6)

在结束判定的第S513步，当对于所有询问进行第512步的处理结束时，即i=n时进入到第515步。否则进入到第S514步。在第S514步，将计数器i加1进入到第S512步。在第S515步，对所有询问文档按第512步获得的相似度Ei高低顺序进行排序。

然后，数据库检索更新部33从文档存储部11中检索出由相似度运算部33计算的相似度Ei处于上位的给定数量的询问文档和与其相对应的回答文档，从簇存储部12中检索出包含该检索的回答文档的簇，再次从文档存储部11中检索出包含在该簇中的回答文档，并将其结果与簇标签以及文档标签一起送向接口部22。此外，作为特征矢量的相似度运算方法虽然采用的是矢量的内积，也可以采用矢量的相似比等其他方法。

然后，接口部20通过专家显示部42向专家提示检索结果的回答部分(图17)，通过专家输入部41，接收参照了专家显示部42的显示的专家的回答选择或者用自由文的回答输入。进一步，接口部20通过利用者显示部22向利用者提示专家的回答(图18)。因此，只向利用者提供有用的信息。

图22为以流程图的形式表示的图14所示数据库检索更新部33的处理顺序。在第S601步，进行回答事例检索显示。具体讲，接口部20接收利用者用自由文的询问Q，通过专家显示部42向专家提示检索结果(图17)。在第S602步，进行检索结果的判断。专家看到图17的显示后，针对利用者询问Q判定是否有认为是恰当的回答。如果认为有恰当的回答时进入到第S603步。如果认为没有恰当的回答时进入到第S606步。在第S603步，专家选择认为针对利用者询问Q是最恰当的回答的文档ID。，接口部20通过专家输入部41，接收所选择的文档ID的输入。又，该文档ID由于后述的第S605步的原因，传递给数据库检索更新部33。在第S604步，作为回答，接口部20通过利用者显示部22向利用者提示专家所选择的文档ID的文档(图18)。

在第S605步，进行询问追加处理。数据库检索更新部33从与所传递的文档ID的回答对应的1个以上的询问中，当和利用者询问Q的相似度最高的询问的相似度在给定值以下时，作为不能恰当进行自动回答的询问，在图15的询问表中，追加由新的唯一的询问ID、利用者询问Q以及所选择的文档ID构成的行。然后，进入到第S612步。在第S612步，特征矢量抽出部15和文档录入时相同，从保存在文档存储部11中的所有询问Qi以及回答Ak中，分别抽出特征矢量VQi、VAk，将所抽出的特征矢量写入到特征矢量存储部31中。

如果在第S602步没有恰当的回答时，专家，在第S606步针对利用者询问Q用自由文输入恰当的回答A。接口部20通过专家输入部41接收自由文的回答。在第S607步，接口部20把专家输入的回答A提示给利用者。在第608步，特征矢量抽出部15抽出专家输入的回答A的特征矢量。该特征矢量的抽出顺序和图19中说明的利用者询问Q的特征矢量VQ的抽出顺序相同。在第S609步，相似度运算部32从特征矢量存储部31中取出所有回答的特征矢量VAk，计算和专家所输入的回答A的特征矢量VA之间的相似度。在此，该相似度的计算顺序和图21中说明的利用者询问Q的相似度的计算顺序相同。在第S610步，相似度运算部32，当在第S609步中获得的相似度Ek中的最大值在给定值以上时，则判定为在文档存储部11中有和专家输入的回答A相类似的回答，将类似回答Ak的文档ID传递给数据库更新部33，进入到第S605步。否则进入到第S611步。在第S611步，进行询问回答追加处理。数据库更新部33在图16所示的回答表中追加新的唯一的文档ID以及专家输入的回答A构成的行。又，在图15的询问表中，追加新的唯一的询问ID、利用者询问Q以及给与所追加的回答的文档ID构成的行。然后，进入到第S612步。第S612步的处理如上所述。

另一方面，如果没有选择或者输入回答的专家时，接口部20通过利用者显示部22，向利用者提供和图17相同的检索结果。利用者看见图17的显示后，选择认为对自己的询问Q是最恰当的回答的文档ID，接口部20通过利用者输入部21，接收所选择的文档ID的输入。数据库更新部33，在对应于所选择的文档ID回答的1个以上的询问中，当和利用者询问Q的相似度最高的询问的相似度在给定值以下时，作为不能恰当进行自动回答的询问，在图15的询问表中，追加由新的唯一的询问ID、利用者询问Q以及所选择的文档ID构成的行(和第605步相同)。然后，特征矢量抽出部15和文档录入时相同，从保存在文档存储部11中的所有询问Qi以及回答Ak中，分别抽出特征矢量VQi、VAk，将所抽出的特征矢量写入到特征矢量存储部31中(和第612步相同)。

如上所述，依据实施例2，可以提供一种根据利用者或者专家的应答，可以自动更新文档存储部11，当下一次输入相同的询问时，可以恰当回答的信息检索系统。

Claims

1．一种信息检索系统，是从多个文档中检索出利用者所需要的信息，其特征是包括为保存所述多个文档的文档存储装置、

为抽出保存在所述文档存储装置中的多个文档的各个特征量的特征量抽出装置、

根据所述抽出的特征量，按照各簇由1个文档或者具有相互相似的特征量的多个文档构成的原则，将保存在所述文档存储装置中的多个文档分类成多个簇的簇分类装置、

从保存在所述文档存储装置中的多个文档中，为检索出满足所述利用者给出的检索条件的文档的文档检索装置、

所述检索的文档，当该检索出的文档所属的簇由多个文档构成时与该簇中的其他文档一起作为检索结果提示的接口装置。

2．根据权利要求1所述的信息检索系统，其特征是所述特征量抽出装置具有分别从保存在所述文档存储装置中的多个文档中，抽出作为特征量的以在该文档中出现1次或者多次的单词和表明该文档特征的该单词的重要度的组为要素的特征矢量的构成。

3．根据权利要求1所述的信息检索系统，其特征是所述簇分类装置为采用让多个文档构成的簇的数量为最大的聚类方式的构成。

4．根据权利要求1所述的信息检索系统，其特征是进一步包括为作成在各个所述多个簇中表示相对应的簇的内容的多个簇标签的簇标签作成装置，

所述接口装置具有从所述作成的多个簇标签中将表示所述检索的文档所属的簇的内容的簇标签与所述检索结果一起提示的构成。

5．根据权利要求4所述的信息检索系统，其特征是所述簇标签作成装置具有对于所述多个簇的每一个，从属于该簇的所有文档中选择以表征该簇的特征的1个或者多个单词作为所述簇标签的构成。

6．根据权利要求4所述的信息检索系统，其特征是所述簇标签作成装置具有对于所述多个簇的每一个，从属于该簇的所有文档中选择以表征该簇的特征的1个文句作为所述簇标签的构成。

7．根据权利要求4所述的信息检索系统，其特征是进一步包括为作成在保存在所述文档存储装置中的多个文档中表示相对应的文档的内容的多个文档标签的文档标签作成装置，

所述接口装置具有从所述作成的多个文档标签中将表示所述检索的文档所属的簇中个文档的内容的文档标签与所述检索结果一起提示的构成。

8．根据权利要求7所述的信息检索系统，其特征是所述文档标签作成装置具有对于保存在所述文档存储装置中的多个文档的每一个，从该文档中的所有文句中，选择以表征该文档的特征的1个文句作为所述文档标签的构成。

9．根据权利要求1所述的信息检索系统，其特征是所述多个文档包括相互对应的多个询问文档和多个回答文档，

所述检索条件是用自由文的利用者询问，

所述特征量抽出装置为了将保存在所述文档存储装置中的多个回答文档由所述簇分类装置分类成多个簇而抽出保存在所述文档存储装置中的多个回答文档的特征量，

所述信息检索系统进一步包括对于保存在所述文档存储装置中的多个询问文档的每一个，计算出与所述利用者询问相关的文档之间的相似度的相似度运算装置，

所述文档检索装置根据所述计算的相似度，从保存在所述文档存储装置中的多个询问文档中检索相似度高的询问文档，并且从保存在所述文档存储装置中的多个回答文档中检索与所述检索的询问文档对应的回答文档，

所述接口装置将所述检索的回答文档在该所检索的回答文档所属的簇由多个回答文档构成时与该簇中的其他回答文档一起作为所述检索结果提示。

10．根据权利要求9所述的信息检索系统，其特征是所述接口装置将所述检索结果向所述利用者提示。

11．根据权利要求10所述的信息检索系统，其特征是所述接口装置接收从所述提示检索结果中由所述利用者对回答文档的选择，

所述信息检索系统进一步包括为从保存在所述文档存储装置中的多个询问文档中检索与所述检索的回答文档相对应的询问文档，当该检索的询问文档和与所述利用者询问相关的文档之间的相似度在给定值以下时，让与所述利用者询问相关的文档与所选择的回答文档对应重新保存在所属文档存储装置中的文档更新装置。

12．根据权利要求9所述的信息检索系统，其特征是所述接口装置将所述检索结果和与所述利用者询问相关的文档向所述专家提示，并且从该提示的检索结果中又所述专家选择回答文档，向所述利用者提示。

13．根据权利要求12所述的信息检索系统，其特征是进一步包括为从保存在所述文档存储装置中的多个询问文档中检索与所述检索的回答文档相对应的询问文档，当该检索的询问文档和与所述利用者询问相关的文档之间的相似度在给定值以下时，让与所述利用者询问相关的文档与所选择的回答文档对应重新保存在所属文档存储装置中的文档更新装置。

14．根据权利要求9所述的信息检索系统，其特征是所述接口装置将所述检索结果和与所述利用者询问相关的文档向所述专家提示，并且参照该提示的检索结果、由所述专家用自由文输入回答文档，向所述利用者提示。

15．根据权利要求14所述的信息检索系统，其特征是进一步包括当保存在所述文档存储装置中的多个回答文档的每一个和所述输入的回答文档之间的相似度均比给定值低时，让与所述利用者询问相关的文档与所输入的回答文档相互对应重新保存在所属文档存储装置中的文档更新装置。

16．一种信息检索系统，是从多个文档中检索出利用者所需要的信息，其特征是包括为保存相互对应的多个询问文档和多个回答文档的文档存储装置、

当所述利用者用自由文给出利用者询问时，针对保存在所述文档存储装置中的多个询问文档的每一个，计算和与所述利用者询问相关的文档之间的相似度的相似度运算装置、

根据所述计算的相似度，从保存在所述文档存储装置中的多个询问文档中检索相似度高的多个询问文档，并且从保存在所述文档存储装置中的多个回答文档检索分别与所检索的多个询问文档对应的回答文档的文档检索装置、

将所述检索的多个回答文档与和所述利用者询问相关的文档一起作为检索结果向专家提示，并且将从该提示的检索结果中由所述专家选择的回答文档或者参照该提示的检索结果由所述专家输入的回答文档向所述利用者提示的接口装置。

17．根据权利要求16所述的信息检索系统，其特征是进一步包括从保存在所述文档存储装置中的多个询问文档中检索与所述选择的回答文档对应的询问文档，当该检索的询问文档和与所述利用者询问相关的文档之间的相似度在给定值以下时，让与所述利用者询问相关的文档与所选择的回答文档对应重新保存在所属文档存储装置中的文档更新装置。

18．根据权利要求16所述的信息检索系统，其特征是进一步包括当保存在所述文档存储装置中的多个回答文档的每一个和所述输入的回答文档之间的相似度均比给定值低时，让与所述利用者询问相关的文档与所输入的回答文档相互对应重新保存在所属文档存储装置中的文档更新装置。