JP2002041573A - Information retrieval system - Google Patents

Information retrieval system

Info

Publication number
JP2002041573A
JP2002041573A JP2001139609A JP2001139609A JP2002041573A JP 2002041573 A JP2002041573 A JP 2002041573A JP 2001139609 A JP2001139609 A JP 2001139609A JP 2001139609 A JP2001139609 A JP 2001139609A JP 2002041573 A JP2002041573 A JP 2002041573A
Authority
JP
Japan
Prior art keywords
document
answer
question
documents
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001139609A
Other languages
Japanese (ja)
Other versions
JP3654850B2 (en
Inventor
Eiichi Naito
栄一 内藤
Shoichi Araki
昭一 荒木
Hiroshi Kutsumi
洋 九津見
Jun Ozawa
順 小澤
Susumu Maruno
進 丸野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001139609A priority Critical patent/JP3654850B2/en
Publication of JP2002041573A publication Critical patent/JP2002041573A/en
Application granted granted Critical
Publication of JP3654850B2 publication Critical patent/JP3654850B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce the burden on user required for information retrieval and to automatically update an information to be retrieved. SOLUTION: A question and an answer, which are made correspond to each other, are stored in a document storage part 11. A cluster sorting part 16 performs cluster sorting of the answers on the basis of the feature vectors of respective answers in the document storage part 11. When the question of a free sentence is inputted from the user, a database retrieving and updating part 33 retrieves similar questions and presents the correspondent answers to the user or an expert by collecting these answers for every cluster. Further, the database retrieving and updating part 33 automatically updates the document storage part 11 on the basis of the relevant selected answer when the user or the expert selects the most appropriate answer, or on the basis of answer newly inputted by the expert when there is no appropriate answer. The answer of the free sentence inputted by the expert is presented to the user as it is.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、大量の情報の中か
ら利用者が求める情報を容易に見つけ出すことを可能と
するための情報検索システムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information retrieval system for enabling a user to easily find information desired from a large amount of information.

【0002】[0002]

【従来の技術】近年、インターネットの普及に伴い、W
WW(World Wide Web)上にHTML(Hyper Text Mar
kup Language)で記述された様々なホームページが掲載
されるようになるなど、一般利用者が大量の情報にアク
セスすることが可能となっている。また、FAQ(Freq
uently Asked Questions)集と称した、頻繁に問い合わ
せられる質問とその回答とを対にしたリストが公開され
ていて、利用者は質問に対する回答を得ることが可能で
ある。これらの情報は、利用者にとって、求める情報の
所在がわかれば即座に閲覧できるので便利であるが、逆
に大量の情報の中から自分の求める情報を見つけ出すこ
とが大変な作業となっている。
2. Description of the Related Art In recent years, with the spread of the Internet, W
HTML (Hyper Text Mar) on WW (World Wide Web)
General users can access a large amount of information, for example, by posting various homepages described in kup Language). FAQ (Freq
A list of frequently asked questions and their answers, referred to as a collection of uently Asked Questions), is disclosed, and users can get answers to the questions. Such information is convenient for the user because it can be viewed immediately if the location of the desired information is known. On the contrary, finding the desired information from a large amount of information is a serious task.

【0003】このため、文書からキーワードを切り出し
てその文書の特徴量とし、特徴量間の内積を算出して文
書間の類似度を求め、質問文に対する類似文書を検索す
るという検索技術が知られている。
For this reason, a search technique has been known in which a keyword is cut out from a document and used as a feature amount of the document, an inner product between the feature amounts is calculated to obtain a similarity between the documents, and a similar document is searched for a query. ing.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、インタ
ーネット上の情報や、あるいは、事例ベースで蓄積され
たFAQ集は、多くの人が独立して情報を提供している
ので、情報の重複は避けられず、同じような内容を持つ
文書が大量に存在する。したがって、従来の技術では、
質問文に類似した文書として、同じような内容の文書が
大量に検索されてしまうことが多いので、利用者は結局
大量の検索結果の中から欲しい情報を見つけ出す作業が
必要であった。検索結果を一定の数に制限すると、自分
の欲しい情報がなかったりするという課題があった。
However, since information on the Internet or a collection of FAQs stored on a case basis is provided independently by many people, duplication of information can be avoided. And there are many documents with similar contents. Therefore, in the prior art,
In many cases, a large number of documents having similar contents are searched as documents similar to a question sentence, so that the user has to work to find desired information from a large amount of search results. If you limit the search results to a certain number, there is a problem that you do not have the information you want.

【0005】また、利用者が検索結果から欲しい情報を
見つけ出すのに成功しても、それがFAQ集に反映され
ないので、別の利用者が同じ条件で検索した場合にも同
様の見つけ出す手間が必要であった。情報の重複を避け
ながらFAQ集をより充実させるためには、同様の情報
が既に存在しているかどうかをチェックしなければなら
ず、情報提供者の負担にもなっていた。
[0005] Further, even if the user succeeds in finding the desired information from the search results, the information is not reflected in the FAQ collection. Therefore, even when another user performs a search under the same conditions, the same trouble of finding the same is necessary. Met. In order to further enhance the FAQ collection while avoiding duplication of information, it was necessary to check whether or not similar information already existed, which was a burden on the information provider.

【0006】本発明の目的は、利用者の情報検索にかか
る負担を軽減させる情報検索システムを提供することに
ある。
[0006] It is an object of the present invention to provide an information retrieval system which reduces the burden on a user for information retrieval.

【0007】本発明の他の目的は、検索対象の情報を容
易に更新できる情報検索システムを提供することにあ
る。
Another object of the present invention is to provide an information retrieval system that can easily update information to be retrieved.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するた
め、本発明は、文書の特徴ベクトルを算出し、特徴ベク
トルに基づいて文書をクラスタ分類し、文書の検索結果
をクラスタごとにまとめて表示することとしたものであ
る。これにより、利用者は、検索結果を類似した文書の
固まりとして把握することが容易となる。
In order to achieve the above object, the present invention calculates a feature vector of a document, classifies the documents into clusters based on the feature vectors, and collectively displays the search results of the documents for each cluster. It is decided to do. This makes it easy for the user to grasp the search result as a set of similar documents.

【0009】また、本発明は、利用者からの質問が入力
された場合に類似質問を検索し、対応する回答を利用者
又は専門家に提示し、利用者又は専門家が最も適切であ
ると判断した回答を選択したとき、当該選択された回答
をもとに文書データベースを自動的に更新することとし
たものである。適切な回答がないときには、専門家が新
たに入力した回答をもとに文書データベースを更新す
る。これにより、次回から同様の質問が入力された場合
に適切な回答ができる。
Further, according to the present invention, when a question from a user is input, a similar question is searched, and a corresponding answer is presented to the user or expert, and the user or expert is determined to be most appropriate. When the determined answer is selected, the document database is automatically updated based on the selected answer. If there is no appropriate answer, the expert updates the document database based on the newly entered answer. Thereby, when the same question is input from the next time, an appropriate answer can be made.

【0010】[0010]

【発明の実施の形態】以下、本発明の2つの実施形態に
ついて、図面を参照しながら説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, two embodiments of the present invention will be described with reference to the drawings.

【0011】《第1の実施形態》図1は、本発明の第1
の実施形態に係る情報検索システムの構成を示す。図1
の情報検索システムは、文書記憶部11と、クラスタ記
憶部12と、クラスタラベル記憶部13と、文書ラベル
記憶部14と、特徴ベクトル抽出部15と、クラスタ分
類部16と、クラスタラベル作成部17と、文書ラベル
作成部18と、データベース検索部19と、インタフェ
ース部20と、利用者入力部21と、利用者表示部22
とで構成され、例えばインターネットを介して互いに接
続された文書サーバと利用者端末とで実現される。文書
記憶部11は、複数の文書を記憶する。特徴ベクトル抽
出部15は、文書記憶部11に記憶されている文書から
特徴ベクトルを抽出する。クラスタ分類部16は、特徴
ベクトル抽出部15が求めた特徴ベクトルに基づき、文
書記憶部11に記憶されている文書のクラスタ分類を行
う。クラスタ記憶部12は、クラスタ分類部16がクラ
スタ分類した文書のクラスタを記憶する。クラスタラベ
ル作成部17は、クラスタ分類部16が作成した各クラ
スタについて、当該クラスタの内容を表すクラスタラベ
ルを作成する。クラスタラベルは、単語からなる単語ラ
ベル、あるいは文からなる文ラベルである。クラスタラ
ベル記憶部13は、クラスタラベル作成部17が作成し
たクラスタラベルを記憶する。文書ラベル作成部18
は、クラスタ分類部16が作成したクラスタの要素であ
る各文書について、当該文書の内容を表す文書ラベルを
作成する。文書ラベル記憶部14は、文書ラベル作成部
18が作成した文書ラベルを記憶する。利用者入力部2
1は、利用者から与えられた検索条件を受け付ける。検
索条件としては、文書のキーワード、文書IDなど文書
検索の条件となるものなら何でもよい。インタフェース
部20は、利用者との入出力を管理する。データベース
検索部19は、文書記憶部11から検索条件を満たす文
書を検索する。利用者表示部22は、検索結果を利用者
に提示する。
<< First Embodiment >> FIG. 1 shows a first embodiment of the present invention.
1 shows a configuration of an information search system according to an embodiment. Figure 1
The information retrieval system includes a document storage unit 11, a cluster storage unit 12, a cluster label storage unit 13, a document label storage unit 14, a feature vector extraction unit 15, a cluster classification unit 16, a cluster label creation unit 17 A document label creating unit 18, a database searching unit 19, an interface unit 20, a user input unit 21, and a user display unit 22.
And is realized by, for example, a document server and a user terminal connected to each other via the Internet. The document storage unit 11 stores a plurality of documents. The feature vector extraction unit 15 extracts a feature vector from a document stored in the document storage unit 11. The cluster classification unit 16 classifies documents stored in the document storage unit 11 into clusters based on the feature vectors obtained by the feature vector extraction unit 15. The cluster storage unit 12 stores clusters of documents classified by the cluster classification unit 16. The cluster label creating unit 17 creates, for each cluster created by the cluster classifying unit 16, a cluster label representing the content of the cluster. The cluster label is a word label composed of words or a sentence label composed of sentences. The cluster label storage unit 13 stores the cluster label created by the cluster label creation unit 17. Document label creation unit 18
Creates, for each document that is an element of the cluster created by the cluster classification unit 16, a document label representing the content of the document. The document label storage unit 14 stores the document label created by the document label creation unit 18. User input section 2
1 receives a search condition given by a user. The search condition may be anything that can be a document search condition, such as a document keyword or a document ID. The interface unit 20 manages input and output with the user. The database search unit 19 searches the document storage unit 11 for documents that satisfy the search condition. The user display unit 22 presents a search result to the user.

【0012】図2は、図1中の文書記憶部11に記憶さ
れている文書の例を示す。文書記憶部11には、検索の
対象となる所与のn(n≧2)個の文書が記憶されてい
る。各文書は、ユニークな文書IDと、文章形式の本文
とからなる。i番目の文書をDiとする(1≦i≦
n)。
FIG. 2 shows an example of a document stored in the document storage unit 11 in FIG. The document storage unit 11 stores given n (n ≧ 2) documents to be searched. Each document is composed of a unique document ID and a text body. Let the i-th document be Di (1 ≦ i ≦
n).

【0013】図3は、図1中の利用者表示部22におけ
る検索結果の表示例を示す。図3によれば、ある検索条
件に対する文書の検索結果がクラスタごとにまとめて表
示される。具体的には、クラスタIDと、そのクラスタ
に含まれる文書の文書ID及び本文とを、クラスタごと
に表形式で表示し、マウスで「前のクラスタ」ボタンや
「次のクラスタ」ボタンを押して別のクラスタを表示す
ることにより、全ての検索結果を表示することができ
る。これにより、利用者は、検索結果を類似した文書の
固まりとして把握することが容易となる。しかも、表示
されたクラスタには、当該クラスタの内容を表すクラス
タラベルが表示されるとともに、文書ラベルに指定され
た文が下線付きで表示されている。したがって、クラス
タの内容を利用者が把握しやすくなる。なお、検索結果
としてクラスタID、文書IDをも表示したが、表示し
なくてもよい。
FIG. 3 shows a display example of a search result on the user display unit 22 in FIG. According to FIG. 3, the search results of documents for a certain search condition are displayed collectively for each cluster. Specifically, the cluster ID, the document ID of the document included in the cluster, and the body of the document are displayed in a table format for each cluster. By displaying the cluster of, all search results can be displayed. This makes it easy for the user to grasp the search result as a set of similar documents. Moreover, in the displayed cluster, a cluster label indicating the content of the cluster is displayed, and a sentence specified in the document label is displayed with an underline. Therefore, the user can easily grasp the contents of the cluster. Although the cluster ID and the document ID are also displayed as the search result, they need not be displayed.

【0014】以下、上記第1の実施形態の詳細を、文書
登録時動作と文書検索時動作とに分けて説明する。文書
登録時動作とは、初めて文書が文書記憶部11に登録さ
れる場合、あるいは、それ以降に文書の追加/変更/削
除があった場合の動作である。文書検索時動作とは、登
録文書を検索して閲覧する場合の動作である。
Hereinafter, the details of the first embodiment will be described separately for a document registration operation and a document search operation. The document registration operation is an operation when a document is registered in the document storage unit 11 for the first time or when a document is added / changed / deleted thereafter. The document search operation is an operation when a registered document is searched and browsed.

【0015】〈文書登録時動作〉図4は、図1中の特徴
ベクトル抽出部15の処理手順を示す。まず、特徴ベク
トル抽出部15は、文書記憶部11に記憶されている全
ての文書Diを順次取り出し、各文書Diの特徴ベクト
ルViを抽出する。特徴ベクトルは、文書の特徴を表す
単語Tjとその重みWijとの組を要素とするベクトル
であり、その要素の数は文書によって異なる。ここで、
jは単語を識別するユニークな番号である。図4におい
て、ステップS101では、文書のカウンタiにi=1
を設定する。ステップS102では、文書記憶部11か
ら文書Diを取り出し、形態素解析、構文解析、不要語
除去など、一般に知られている方法により、出現する単
語Tjを本文から抽出し、文書Di内での単語Tjの出
現回数Fijをカウントする。終了判定ステップS10
3では、全文書につきステップS102の処理が終了し
た場合、すなわちi=nの場合にはS105に進む。そ
うでない場合にはS104に進む。ステップS104で
は、カウンタiを1増加しステップS102に進む。ス
テップS105では、単語Tjの全文書に対する重要度
として、単語Tjが出現する文書数の少なさを表す度合
い、すなわちIDF(inverse documentfrequency)値
を数式(1)により算出する。
<Operation at Document Registration> FIG. 4 shows a processing procedure of the feature vector extracting unit 15 in FIG. First, the feature vector extraction unit 15 sequentially retrieves all documents Di stored in the document storage unit 11 and extracts a feature vector Vi of each document Di. The feature vector is a vector having a set of a word Tj representing the feature of the document and its weight Wij as an element, and the number of elements differs depending on the document. here,
j is a unique number that identifies a word. In FIG. 4, in step S101, the counter i of the document is set to i = 1.
Set. In step S102, the document Di is extracted from the document storage unit 11, and the appearing word Tj is extracted from the body by a generally known method such as morphological analysis, syntax analysis, or unnecessary word removal, and the word Tj in the document Di is extracted. Is counted. End determination step S10
In 3, if the processing of step S102 is completed for all documents, that is, if i = n, the process proceeds to S105. If not, the process proceeds to S104. In step S104, the counter i is incremented by 1, and the process proceeds to step S102. In step S105, as a degree of importance of the word Tj with respect to all the documents, a degree indicating a small number of documents in which the word Tj appears, that is, an IDF (inverse document frequency) value is calculated by the equation (1).

【0016】[0016]

【数1】 (Equation 1)

【0017】ここで、Mjは単語Tjが出現する文書の
数を表す。ステップS106では、文書のカウンタiに
i=1を設定する。ステップS107では、単語Tjが
文書Diを特徴付ける重みWijとして、文書Di内で
の単語Tjの出現割合を表すTF(term frequency)値
と、上記IDF値とをかけ合わせたTFIDF値を数式
(2)により算出する。
Here, Mj represents the number of documents in which the word Tj appears. In step S106, i = 1 is set in the counter i of the document. In step S107, the TFIDF value obtained by multiplying the IDF value by the TF (term frequency) value representing the appearance ratio of the word Tj in the document Di as the weight Wij that characterizes the document Di by the word Tj is given by the following equation (2). It is calculated by:

【0018】[0018]

【数2】 (Equation 2)

【0019】終了判定ステップS108では、全文書に
つきステップS107の処理が終了した場合、すなわち
i=nの場合には終了する。そうでない場合にはS10
9に進む。ステップS109では、カウンタiを1増加
しステップS107に進む。
In the end determination step S108, when the processing in step S107 has been completed for all documents, that is, when i = n, the processing ends. Otherwise, S10
Go to 9. In step S109, the counter i is incremented by 1, and the process proceeds to step S107.

【0020】図5は、抽出された文書特徴ベクトルVi
の例を示す。なお、上記特徴ベクトルの算出ではTFI
DF値を用いていたが、単純に単語の出現回数とするな
ど、他の方法でもよい。
FIG. 5 shows the extracted document feature vector Vi.
Here is an example. Note that the calculation of the feature vector
Although the DF value has been used, another method such as simply setting the number of appearances of a word may be used.

【0021】図6は、図1中のクラスタ分類部16の処
理手順を示す。クラスタ分類部16は、特徴ベクトル抽
出部15が抽出した特徴ベクトルを用いて、全ての文書
をm個のクラスタに分類する(1<m<n)。ここで、
k番目のクラスタをCkとする(1≦k≦m)。クラス
タ分類の手順として、樹形図的に逐次クラスタに分類し
ていく階層的クラスタリングを用いるものとする。図6
において、ステップS111では、クラスタ間距離の初
期計算を行う。ここでは、初期クラスタとして、各々1
つの文書Diだけを要素として持つn個のクラスタCi
を設定する。各クラスタCk,Cl(1≦k,l≦n)
間の距離Lklとして、各文書の特徴ベクトル間の距離
を表す数式(3)の類似比を採用する。
FIG. 6 shows a processing procedure of the cluster classification unit 16 in FIG. The cluster classification unit 16 classifies all documents into m clusters using the feature vectors extracted by the feature vector extraction unit 15 (1 <m <n). here,
The k-th cluster is Ck (1 ≦ k ≦ m). As a procedure of cluster classification, hierarchical clustering in which clusters are sequentially classified in a tree diagram is used. FIG.
In step S111, an initial calculation of the inter-cluster distance is performed. Here, each of the initial clusters is 1
Clusters Ci having only one document Di as an element
Set. Each cluster Ck, Cl (1 ≦ k, l ≦ n)
As the distance Lkl, the similarity ratio of Expression (3) representing the distance between the feature vectors of each document is adopted.

【0022】[0022]

【数3】 (Equation 3)

【0023】ステップS112では、クラスタリング回
数のカウンタiにi=1を設定する。ステップS113
では、全てのクラスタの組み合わせの中で、クラスタ間
距離Lklが最も小さいクラスタCk,Cl(k<l)
の組を探索する。ステップS114では、クラスタC
k,Clを統合してクラスタCgとする。すなわち、C
g=Ck∪Cl、Cl=φとする(φは空集合を表
す)。クラスタの統合に伴い、クラスタCgと他のクラ
スタCh(1≦h≦n)とのクラスタ間距離をウォード
法を用いて数式(4)により算出する。
In step S112, i = 1 is set in a counter i for the number of times of clustering. Step S113
Then, among the combinations of all clusters, the clusters Ck, Cl (k <l) with the smallest intercluster distance Lkl
Search for a set of. In step S114, the cluster C
k and Cl are integrated into a cluster Cg. That is, C
Let g = Ck∪Cl, Cl = φ (φ represents an empty set). With the integration of the clusters, the inter-cluster distance between the cluster Cg and another cluster Ch (1 ≦ h ≦ n) is calculated by the equation (4) using the Ward method.

【0024】[0024]

【数4】 (Equation 4)

【0025】ここで、NkはクラスタCkの要素の数で
ある。終了判定ステップS115では、クラスタリング
回数がn−1の場合、すなわち全ての初期クラスタが1
つのクラスタに統合された場合にはステップS117に
進む。そうでない場合にはS116に進む。ステップS
116では、カウンタiを1増加しステップS112に
進む。ステップS117では、クラスタ数を決定する。
ステップS111からステップS115までのクラスタ
分類過程においては、クラスタリング回数ごとにクラス
タの数は1つずつ減少する。ステップS117では、ク
ラスタ分類過程を振り返り、適切なクラスタリング回数
を決定する。ここでは、要素を2つ以上持つクラスタの
数が最大になるクラスタリング回数を適切なクラスタリ
ング回数であるとする。ステップS118では、ステッ
プS117で決定したクラスタリング回数までクラスタ
分類を行った時点での各クラスタに含まれる要素をクラ
スタ記憶部12に書き出す。
Here, Nk is the number of elements of the cluster Ck. In the end determination step S115, when the number of clustering is n-1, that is, when all the initial clusters are 1
If they are integrated into one cluster, the process proceeds to step S117. If not, the process proceeds to S116. Step S
At 116, the counter i is incremented by 1, and the process proceeds to step S112. In step S117, the number of clusters is determined.
In the cluster classification process from step S111 to step S115, the number of clusters decreases by one for each clustering count. In step S117, the cluster classification process is reviewed, and an appropriate number of times of clustering is determined. Here, it is assumed that the number of times of clustering that maximizes the number of clusters having two or more elements is an appropriate number of times of clustering. In step S118, the elements included in each cluster at the time of performing the cluster classification up to the number of times of clustering determined in step S117 are written to the cluster storage unit 12.

【0026】図7は、クラスタ記憶部12に書き出され
たクラスタの例を示す。各クラスタは、クラスタID
と、そのクラスタに含まれる文書の文書IDとからな
る。例えば、クラスタ1には、1,190,432,6
44番の4つの文書が含まれている。これは、これら4
つの文書の特徴ベクトル同士が、他の文書に比べて類似
していることを表している。なお、上記の例ではクラス
タ分類の方法として階層的クラスタリングを用いたが、
非階層的クラスタリングでもよい。初期クラスタ間距離
として数式(3)の類似比を用いたが、ユークリッド平
方距離など他の距離を用いてもよい。クラスタ統合時の
クラスタ間距離の算出手法として数式(4)のウォード
法を用いたが、最長距離法など他の手法を用いてもよ
い。クラスタ数の決定手法として、要素を2つ以上持つ
クラスタの数が最大になるクラスタリング回数とした
が、クラスタ数を文書数の一定の割合とするなど他の決
定手法でもよい。
FIG. 7 shows an example of a cluster written to the cluster storage unit 12. Each cluster has a cluster ID
And the document ID of the document included in the cluster. For example, cluster 1, 1,190,432,6
It contains four documents, number 44. This is these four
This indicates that the feature vectors of one document are similar to those of another document. In the above example, hierarchical clustering is used as a method of cluster classification.
Non-hierarchical clustering may be used. Although the similarity ratio of Expression (3) is used as the initial inter-cluster distance, another distance such as a Euclidean square distance may be used. Although the Ward method of Expression (4) is used as a method of calculating the distance between clusters at the time of cluster integration, another method such as the longest distance method may be used. As a method of determining the number of clusters, the number of clusterings is set such that the number of clusters having two or more elements is maximized.

【0027】図8は、図1中のクラスタラベル作成部1
7における単語ラベル作成手順を示す。ステップS20
1では、クラスタのカウンタkにk=1を設定する。ス
テップS202では、クラスタCkの要素である全ての
文書Diの特徴ベクトルViに含まれる単語Tjごと
に、クラスタCkの要素である文書Diのうち、単語T
jが出現する出現文書数をカウントする。ステップS2
03では、クラスタCkの要素である全ての文書Diに
含まれる単語Tjごとに、単語TjのTFIDF値(=
Wij)の、クラスタCkの要素である全ての文書Di
についての合計を算出する。ステップS204では、ク
ラスタCkの要素である全ての文書Diの特徴ベクトル
Viに含まれる全ての単語Tjを、ステップS202で
求めた出現文書数の多い順にソートする。出現文書数が
同じ場合はステップS203で求めたTFIDF値の合
計の大きい順にソートする。ステップS205では、ス
テップS204でソートされた上位の3つの単語を選択
し、クラスタの単語ラベルとしてクラスタラベル記憶部
13に書き出す。終了判定ステップS206では、全ク
ラスタにつきステップS202からステップS205ま
での処理が終了した場合、すなわちk=mの場合には終
了する。そうでない場合にはS207に進む。ステップ
S207では、カウンタkを1増加しステップS202
に進む。
FIG. 8 shows the cluster label creating unit 1 in FIG.
7 shows a word label creation procedure. Step S20
At 1, k = 1 is set to the counter k of the cluster. In step S202, for each word Tj included in the feature vector Vi of every document Di that is an element of the cluster Ck, the word Tj of the document Di that is an element of the cluster Ck
The number of appearing documents in which j appears is counted. Step S2
03, for each word Tj included in all documents Di that are elements of the cluster Ck, the TFIDF value of the word Tj (=
Wij), all documents Di that are elements of cluster Ck
Is calculated. In step S204, all the words Tj included in the feature vectors Vi of all the documents Di, which are the elements of the cluster Ck, are sorted in descending order of the number of appearing documents obtained in step S202. If the number of appearing documents is the same, the documents are sorted in descending order of the sum of the TFIDF values obtained in step S203. In step S205, the top three words sorted in step S204 are selected and written to the cluster label storage unit 13 as cluster word labels. In the end determination step S206, when the processing from step S202 to step S205 has been completed for all clusters, that is, when k = m, the processing ends. Otherwise, the process proceeds to S207. In step S207, the counter k is incremented by 1 and step S202
Proceed to.

【0028】図9は、クラスタラベル記憶部13に書き
出された単語ラベルの例を示す。例えば、クラスタ1に
は、「お菓子」「間食」「チーズ」という単語ラベルが
付いていることを表す。なお、単語ラベルの作成方法と
して単語の出現文書数でソートしたが、TFIDF値の
みでソートするなど他の方法でもよい。また、単語ラベ
ルの単語数を3つにしたが、3つ以外でもよい。
FIG. 9 shows an example of a word label written in the cluster label storage 13. For example, it indicates that the cluster 1 has a word label of “candy”, “snacks”, and “cheese”. Although the method of creating the word labels is based on the number of documents in which the words appear, other methods such as sorting only the TFIDF values may be used. Further, the number of words in the word label is set to three, but may be other than three.

【0029】図10は、図1中のクラスタラベル作成部
17における文ラベル作成手順を示す。ステップS30
1では、クラスタのカウンタkにk=1を設定する。ス
テップS302では、クラスタCkの要素である全ての
文書Diの特徴ベクトルViに含まれる単語Tjごと
に、クラスタCkの要素である文書Diのうち、単語T
jが出現する出現文書数をカウントする。ステップS3
03では、クラスタCkの要素である全ての文書Diを
構成する文ごとに、その文に含まれる単語Tjの、ステ
ップS302でカウントした出現文書数の合計を算出す
る。ここで、文とは、文書を「。」などの句点で区切っ
た1つ1つの文字列をいう。ステップS304では、ク
ラスタCkの要素である全ての文書Diを構成する文
を、ステップS303で求めた出現文書数の合計の大き
い順にソートする。ステップS305では、ステップS
304でソートされた最上位の文を選択し、クラスタの
文ラベルとしてクラスタラベル記憶部13に書き出す。
最上位の文が複数ある場合は、その中から文字数が最少
の文を選択する。終了判定ステップS306では、全ク
ラスタにつきステップS302からステップS305ま
での処理が終了した場合、すなわちk=mの場合には終
了する。そうでない場合にはS307に進む。ステップ
S307では、カウンタkを1増加しステップS302
に進む。
FIG. 10 shows a sentence label creating procedure in the cluster label creating section 17 in FIG. Step S30
At 1, k = 1 is set to the counter k of the cluster. In step S302, for each word Tj included in the feature vector Vi of every document Di that is an element of the cluster Ck, the word T
The number of appearing documents in which j appears is counted. Step S3
In step 03, for each sentence constituting all the documents Di which are elements of the cluster Ck, the sum of the number of appearing documents counted in step S302 of the word Tj included in the sentence is calculated. Here, a sentence refers to each character string obtained by separating a document with a period such as “.”. In step S304, the sentences constituting all the documents Di that are elements of the cluster Ck are sorted in descending order of the total number of appearing documents obtained in step S303. In step S305, step S305
The top sentence sorted in 304 is selected and written to the cluster label storage unit 13 as a sentence label of the cluster.
If there are a plurality of top-level sentences, a sentence with the smallest number of characters is selected from among them. In the end determination step S306, when the processing from step S302 to step S305 is completed for all clusters, that is, when k = m, the processing ends. If not, the process proceeds to S307. In step S307, the counter k is incremented by 1 and step S302
Proceed to.

【0030】図11は、クラスタラベル記憶部13に書
き出された文ラベルの例を示す。例えば、クラスタ1に
は、「水分の多い物(ゼリー、プリン、ヨーグルト)を
…」という文ラベルが付いていることを表す。なお、文
ラベルの作成方法として単語の出現文書数の合計でソー
トしたが、TFIDF値の合計でソートするなど他の方
法でもよい。また、出現文書数の合計が最上位の文が複
数ある場合に、文字数が最少の文を選択したが、文の開
始位置が最も前方の文を選択するなど他の方法でもよ
い。
FIG. 11 shows an example of a sentence label written in the cluster label storage unit 13. For example, it is indicated that the cluster 1 has a sentence label of "a substance with a lot of water (jelly, pudding, yogurt) ...". Although the sentence label is created based on the total number of documents in which the words appear, other methods such as sorting based on the total TFIDF values may be used. Further, when there are a plurality of sentences having the highest number of appearing documents, the sentence with the smallest number of characters is selected, but another method such as selecting the sentence with the start position of the sentence being the foremost may be used.

【0031】図12は、図1中の文書ラベル作成部18
の処理手順を示す。ステップS401では、文書のカウ
ンタiにi=1を設定する。ステップS402では、文
書Diを構成する各文ごとに、その文に含まれる全単語
TjのTFIDF値(=Wij)の合計を算出する。終
了判定ステップS403では、全文書につきステップS
402の処理が終了した場合、すなわちi=nの場合に
はS405へ進む。そうでない場合にはS404に進
む。ステップS404では、カウンタiを1増加しステ
ップS402に進む。ステップS405では、クラスタ
のカウンタkにk=1を設定する。ステップS406で
は、クラスタCkの要素である全ての文書Diを構成す
る文を、ステップS402で求めた合計の多い順にソー
トする。ステップS407では、文書Diの文書ラベル
としてステップS406でソートされた最上位の文を選
択する。ただし、選択された文が、クラスタラベル作成
部17が作成したクラスタの文ラベルと同一の場合に
は、文書Diの文書ラベルとしてステップS406でソ
ートされた上位から2番目の文を選択する。ステップS
408では、ステップS407で選択された文書Diの
文書ラベルを文書ラベル記憶部14に書き出す。終了判
定ステップS409では、全クラスタにつきステップS
406からステップS408までの処理が終了した場
合、すなわちk=mの場合には終了する。そうでない場
合にはS410に進む。ステップS410では、カウン
タkを1増加しステップS406に進む。
FIG. 12 shows the document label creating section 18 in FIG.
The following shows the processing procedure. In step S401, i = 1 is set in a document counter i. In step S402, a total of TFIDF values (= Wij) of all words Tj included in the sentence is calculated for each sentence constituting the document Di. In end determination step S403, step S403 is performed for all documents.
When the process of 402 is completed, that is, when i = n, the process proceeds to S405. If not, the process proceeds to S404. In step S404, the counter i is incremented by 1, and the process proceeds to step S402. In step S405, k = 1 is set to the cluster counter k. In step S406, the sentences constituting all the documents Di which are the elements of the cluster Ck are sorted in descending order of the total obtained in step S402. In step S407, the top sentence sorted in step S406 is selected as the document label of the document Di. However, when the selected sentence is the same as the sentence label of the cluster created by the cluster label creating unit 17, the second highest sentence sorted in step S406 is selected as the document label of the document Di. Step S
In 408, the document label of the document Di selected in step S407 is written to the document label storage unit 14. In the end determination step S409, the step S
When the process from 406 to step S408 is completed, that is, when k = m, the process ends. Otherwise, the process proceeds to S410. In step S410, the counter k is incremented by 1, and the process proceeds to step S406.

【0032】図13は、文書ラベル記憶部14に書き出
された文書ラベルの例を示す。例えば、クラスタ1に含
まれる文書1には、「かみごたえがあり、後を引かない
もので、…」という文書ラベルが付いていることを表
す。
FIG. 13 shows an example of a document label written in the document label storage unit 14. For example, it indicates that the document 1 included in the cluster 1 has a document label of “there is a crispness and is not left behind,...”.

【0033】以上の動作により、文書登録時に、各文書
について特徴ベクトルを抽出し、また、クラスタ、クラ
スタラベル及び文書ラベルを作成してそれぞれの記憶部
に記憶しておく。
According to the above operation, at the time of document registration, a feature vector is extracted for each document, and a cluster, a cluster label, and a document label are created and stored in the respective storage units.

【0034】〈文書検索時動作〉まず、インタフェース
部20は、利用者入力部21を通じて文書の検索条件を
受け付ける。データベース検索部19は、検索条件を満
たす文書を文書記憶部11から検索し、当該検索された
文書が含まれるクラスタをクラスタ記憶部12から検索
し、当該検索されたクラスタに含まれる文書を再び文書
記憶部11から検索し、その結果をクラスタラベル及び
文書ラベルとともにインタフェース部20へ送る。イン
タフェース部20は、利用者表示部22を通じて検索結
果を利用者に提示する(図3)。
<Operation During Document Search> First, the interface unit 20 receives a document search condition through the user input unit 21. The database search unit 19 searches the document storage unit 11 for a document that satisfies the search condition, searches the cluster storage unit 12 for a cluster including the searched document, and returns the document included in the searched cluster to the document again. The search is performed from the storage unit 11 and the result is sent to the interface unit 20 together with the cluster label and the document label. The interface unit 20 presents the search result to the user through the user display unit 22 (FIG. 3).

【0035】なお、本実施形態では、文書は所与のもの
が予め記憶されていたが、光ディスクなどの記憶媒体や
インターネットなどのネットワーク媒体などにより、後
から新たに導入、又は改訂されてもよい。また、文書の
検索は、キーワードや文書IDによるもの以外に、全文
検索であってもあいまい検索であってもよい。
In this embodiment, a given document is stored in advance. However, the document may be newly introduced or revised later using a storage medium such as an optical disk or a network medium such as the Internet. . Further, the document search may be a full-text search or a fuzzy search other than the search using the keyword or the document ID.

【0036】《第2の実施形態》図14は、本発明の第
2の実施形態に係る情報検索システムの構成を示す。図
14の情報検索システムは、利用者の自由文による質問
に対して、過去の事例検索に基づく適切な回答を返すシ
ステムであって、例えばインターネットを介して互いに
接続された文書サーバ、利用者端末及び専門家端末で実
現される。図14の構成は、図1の構成に特徴ベクトル
記憶部31と、類似度演算部32と、専門家入力部41
と、専門家表示部42とを追加し、かつ図1中のデータ
ベース検索部19をデータベース検索更新部33に置き
換えたものである。文書記憶部11は、互いに対応付け
られた複数の質問文書と複数の回答文書とを記憶する。
専門家表示部42は、専門家に検索結果を提示する。専
門家入力部41は、専門家からの選択入力及び自由文に
よる回答入力を受け付ける。インタフェース部20は、
利用者及び専門家との入出力を管理する。特徴ベクトル
抽出部15は、文書記憶部11の質問文書及び回答文書
の各々から特徴ベクトルを抽出する機能と、利用者の自
由文による質問入力から特徴ベクトルを抽出する機能
と、専門家の自由文による回答入力から特徴ベクトルを
抽出する機能とを有する。特徴ベクトル記憶部31は、
特徴ベクトル抽出部15が文書記憶部11の質問文書及
び回答文書の各々から抽出した特徴ベクトルを記憶す
る。類似度演算部32は、利用者質問入力から抽出され
た特徴ベクトルと、特徴ベクトル記憶部31が記憶して
いる質問文書の特徴ベクトルとの類似度を求める機能
と、専門家回答入力から抽出された特徴ベクトルと、特
徴ベクトル記憶部31が記憶している回答文書の特徴ベ
クトルとの類似度を求める機能とを有する。データベー
ス検索更新部33は、文書記憶部11の文書を検索する
機能に加えて、利用者又は専門家の応答に基づいて文書
記憶部11を更新する機能を有する。
<< Second Embodiment >> FIG. 14 shows the configuration of an information retrieval system according to a second embodiment of the present invention. The information search system in FIG. 14 is a system that returns an appropriate answer based on past case searches to a user's question in a free sentence, such as a document server and a user terminal connected to each other via the Internet. And an expert terminal. The configuration of FIG. 14 is different from the configuration of FIG. 1 in that the feature vector storage unit 31, the similarity calculation unit 32, and the expert input unit 41
And an expert display section 42, and the database search section 19 in FIG. The document storage unit 11 stores a plurality of question documents and a plurality of answer documents associated with each other.
The expert display unit 42 presents a search result to an expert. The expert input unit 41 receives a selection input from a specialist and a response input in a free sentence. The interface unit 20
Manage input and output with users and experts. The feature vector extraction unit 15 has a function of extracting a feature vector from each of the question document and the answer document in the document storage unit 11, a function of extracting a feature vector from a user's free text question input, and an expert free sentence. And a function of extracting a feature vector from an answer input by the The feature vector storage unit 31
The feature vector extraction unit 15 stores the feature vectors extracted from each of the question document and the answer document in the document storage unit 11. The similarity calculation unit 32 has a function of calculating the similarity between the feature vector extracted from the user question input and the feature vector of the question document stored in the feature vector storage unit 31, and the similarity calculation unit 32 And a function of calculating the similarity between the extracted feature vector and the feature vector of the answer document stored in the feature vector storage unit 31. The database search updating unit 33 has a function of updating the document storage unit 11 based on a response from a user or an expert, in addition to a function of searching for a document in the document storage unit 11.

【0037】図15及び図16は、図14中の文書記憶
部11に記憶されている文書の例を示す。図15は、質
問文書を集めた質問表の部分を示す。この質問表は、ユ
ニークな質問ID、文章形式の質問、及び当該質問に対
応する回答IDからなる。図16は、回答文書を集めた
回答表の部分を示す。この回答表は、ユニークな回答I
D、及び文章形式の回答からなる。i番目の質問をQi
とし、k番目の回答をAkとする(1≦i≦nかつ1≦
k≦m)。ここで、n≧mの関係が成り立っている。す
なわち、複数の質問に対して1つの回答が対応する場合
がある。
FIGS. 15 and 16 show examples of documents stored in the document storage unit 11 in FIG. FIG. 15 shows a part of a questionnaire in which question documents are collected. This questionnaire includes a unique question ID, a question in text format, and an answer ID corresponding to the question. FIG. 16 shows a part of an answer table in which answer documents are collected. This answer table is unique answer I
D, and answer in text format. Qi for i-th question
And the k-th answer is Ak (1 ≦ i ≦ n and 1 ≦
k ≦ m). Here, the relationship of n ≧ m holds. That is, one answer may correspond to a plurality of questions.

【0038】図17は、図14中の専門家表示部42に
おける検索結果の表示例を示す。図17では、利用者か
らの質問に加えて、回答候補がクラスタに分類された状
態で、かつクラスタの文ラベル及びクラスタ中の文書ラ
ベルとともに表示されている。図17では、マウスで
「前のページ」ボタンや「次のページ」ボタンを押して
別のページを表示することにより、全ての検索結果を表
示することができる。これにより、専門家は、類似した
文書の固まりとして表示された検索結果を参照して、最
も適切な回答を容易に選択することができる。あるい
は、自由文による専門家回答を入力することもできる。
なお、図17の例ではクラスタラベルとして文ラベルを
表示したが、これとともに又はこれに代えて単語ラベル
を表示してもよい。また、検索結果としてクラスタI
D、文書IDをも表示したが、表示しなくてもよい。
FIG. 17 shows a display example of the search result on the expert display section 42 in FIG. In FIG. 17, in addition to the question from the user, the answer candidates are displayed in a state where they are classified into clusters, together with the sentence labels of the clusters and the document labels in the clusters. In FIG. 17, all search results can be displayed by pressing the "previous page" button or the "next page" button with the mouse to display another page. Thus, the expert can easily select the most appropriate answer by referring to the search result displayed as a group of similar documents. Alternatively, an expert answer in a free text can be input.
Although the sentence label is displayed as the cluster label in the example of FIG. 17, a word label may be displayed together with or instead of this. Also, as a search result, cluster I
D, the document ID is also displayed, but need not be displayed.

【0039】図18は、図14中の利用者表示部22に
おける検索結果の表示例を示す。ここでは、番号1の文
書が専門家回答として選択されたものとしている。
FIG. 18 shows a display example of search results on the user display section 22 in FIG. Here, it is assumed that the document with the number 1 is selected as the expert answer.

【0040】以下、上記第2の実施形態の詳細を、第1
の実施形態と同様に、文書登録時動作と文書検索時動作
とに分けて説明する。
The details of the second embodiment will be described below with reference to the first embodiment.
In the same manner as in the first embodiment, the operation during document registration and the operation during document search will be described separately.

【0041】〈文書登録時動作〉まず、特徴ベクトル抽
出部15は、文書記憶部11に記憶されている全ての文
書から質問の特徴ベクトルVQiと回答の特徴ベクトル
VAkとを抽出し、抽出された特徴ベクトルを特徴ベク
トル記憶部31に書き出す。特徴ベクトルの抽出手順は
第1の実施形態と同様である。第1の実施形態との違い
は、質問と回答の部分についてそれぞれ特徴ベクトルを
算出する点と、特徴ベクトルを特徴ベクトル記憶部31
に書き出す点である。
<Operation at the time of document registration> First, the feature vector extraction unit 15 extracts and extracts the feature vector VQi of the question and the feature vector VAk of the answer from all the documents stored in the document storage unit 11. The feature vector is written to the feature vector storage unit 31. The procedure for extracting the feature vector is the same as in the first embodiment. The difference from the first embodiment is that a feature vector is calculated for each of a question and an answer, and the feature vector is stored in a feature vector storage unit 31.
It is a point to write out.

【0042】次に、クラスタ分類部16は、特徴ベクト
ル記憶部31から回答の特徴ベクトルVAkを読み出
し、全ての回答文書をクラスタに分類し、クラスタ記憶
部12にクラスタを書き出す。クラスタ分類の手順は第
1の実施形態と同様である。第1の実施形態との違い
は、回答の特徴ベクトルVAkを用いてクラスタ分類を
行う点である。クラスタラベル作成部17及び文書ラベ
ル作成部18の各々の動作は、第1の実施形態と同様で
ある。
Next, the cluster classification unit 16 reads the answer feature vector VAk from the feature vector storage unit 31, classifies all answer documents into clusters, and writes the clusters into the cluster storage unit 12. The procedure of cluster classification is the same as in the first embodiment. The difference from the first embodiment is that cluster classification is performed using the answer feature vector VAk. The operations of the cluster label creating unit 17 and the document label creating unit 18 are the same as in the first embodiment.

【0043】以上の動作により、文書登録時に、質問と
回答についてそれぞれ特徴ベクトルを抽出し、また回答
について、クラスタ、クラスタラベル、及び文書ラベル
を作成してそれぞれの記憶部に記憶しておく。
With the above operation, at the time of document registration, a feature vector is extracted for each of a question and an answer, and a cluster, a cluster label, and a document label are created for the answer and stored in their respective storage units.

【0044】〈文書検索時動作〉まず、インタフェース
部20は、利用者入力部21を通じて、自由文による利
用者質問Qを受け付ける。特徴ベクトル抽出部15は、
利用者質問の特徴ベクトルVQを抽出する。
<Operation at Document Retrieval> First, the interface unit 20 receives a user question Q in a free sentence through the user input unit 21. The feature vector extraction unit 15
The feature vector VQ of the user question is extracted.

【0045】図19は、図14中の特徴ベクトル抽出部
15における利用者質問の特徴ベクトル抽出手順を示
す。ステップS501では、出現する単語Tjを利用者
質問Qから抽出し、単語Tjの文書内での出現回数Fi
jをカウントする。単語の抽方法は、第1の実施形態と
同様である。ステップS502では、単語TjのIDF
値を算出する。単語Tjが文書記憶部11のいずれかの
文書中に存在する場合はそのIDF値が文書登録時に既
に算出されているので、それをステップS502で用い
る。単語Tjが存在しない場合は数式(5)により単語
TjのIDF値(IDFj)を算出する。
FIG. 19 shows a procedure for extracting a feature vector of a user question in the feature vector extracting unit 15 in FIG. In step S501, the word Tj that appears is extracted from the user question Q, and the number Fi of occurrences of the word Tj in the document is extracted.
Count j. The method of extracting words is the same as in the first embodiment. In step S502, the IDF of the word Tj
Calculate the value. If the word Tj exists in any of the documents in the document storage unit 11, the IDF value has already been calculated at the time of document registration, and is used in step S502. If the word Tj does not exist, the IDF value (IDFj) of the word Tj is calculated by Expression (5).

【0046】[0046]

【数5】 (Equation 5)

【0047】ステップS503では、利用者質問Qにお
ける単語Tjの重みWQj(TFIDF値)を算出す
る。TFIDF値の算出方法は第1の実施形態と同様で
ある。図20は、利用者質問Qから抽出された特徴ベク
トルVQの例を示す。
In step S503, the weight WQj (TFIDF value) of the word Tj in the user question Q is calculated. The method of calculating the TFIDF value is the same as in the first embodiment. FIG. 20 shows an example of the feature vector VQ extracted from the user question Q.

【0048】次に、類似度演算部32は、特徴ベクトル
記憶部31から全ての質問の特徴ベクトルVQiを取り
出し、これらの特徴ベクトルVQiと利用者質問の特徴
ベクトルVQとの類似度を算出する。
Next, the similarity calculation unit 32 extracts the feature vectors VQi of all questions from the feature vector storage unit 31 and calculates the similarity between these feature vectors VQi and the feature vector VQ of the user question.

【0049】図21は、図14中の類似度演算部32の
処理手順を示す。ステップS511では、文書のカウン
タiにi=1を設定する。ステップS512では、特徴
ベクトルVQiと利用者からの質問の特徴ベクトルVQ
との類似度Eiを数式(6)によりベクトルの内積で算
出する。
FIG. 21 shows a processing procedure of the similarity calculating section 32 in FIG. In step S511, i = 1 is set in the counter i of the document. In step S512, the feature vector VQi and the feature vector VQ of the question from the user
Is calculated as the inner product of the vectors by the equation (6).

【0050】[0050]

【数6】 (Equation 6)

【0051】終了判定ステップS513では、全質問に
つきステップS512の処理が終了した場合、すなわち
i=nの場合にはS515に進む。そうでない場合には
S514に進む。ステップS514では、カウンタiを
1増加しステップS512に進む。ステップS515で
は、全ての質問文書を、ステップS512で求めた類似
度Eiの高い順にソートする。
In the end determination step S513, if the processing of step S512 has been completed for all questions, that is, if i = n, the flow proceeds to S515. Otherwise, the process proceeds to S514. In step S514, the counter i is incremented by 1, and the process proceeds to step S512. In step S515, all the question documents are sorted in descending order of the similarity Ei obtained in step S512.

【0052】次に、データベース検索更新部33は、類
似度演算部32が算出した類似度Eiが上位の所定の数
の質問文書とそれに対応する回答文書とを文書記憶部1
1から検索し、当該検索された回答文書が含まれるクラ
スタをクラスタ記憶部12から検索し、当該検索された
クラスタに含まれる回答文書を再び文書記憶部11から
検索し、その結果をクラスタラベル及び文書ラベルとと
もにインタフェース部20へ送る。なお、特徴ベクトル
の類似度演算方法としてベクトルの内積を用いたが、ベ
クトルの類似比を用いるなど他の方法でもよい。
Next, the database retrieval / updating unit 33 stores the predetermined number of question documents having the higher similarity Ei calculated by the similarity calculator 32 and the corresponding answer documents in the document storage unit 1.
1, the cluster including the searched answer document is searched from the cluster storage unit 12, the answer document included in the searched cluster is searched again from the document storage unit 11, and the result is referred to as the cluster label and The document is sent to the interface unit 20 together with the document label. Although the inner product of the vectors is used as the method of calculating the similarity of the feature vectors, another method such as using the similarity ratio of the vectors may be used.

【0053】次に、インタフェース部20は、専門家表
示部42を通じて検索結果の回答部分を専門家に提示し
(図17)、専門家入力部41を通じて、専門家表示部
42の表示を参照した専門家の回答選択又は自由文によ
る回答の入力を受け付ける。更に、インタフェース部2
0は、利用者表示部22を通じて専門家回答を利用者に
提示する(図18)。したがって、利用者へは有用な情
報のみが提示される。
Next, the interface unit 20 presents the answer part of the search result to the expert through the expert display unit 42 (FIG. 17), and refers to the display of the expert display unit 42 through the expert input unit 41. Accepts expert's choice of answer or input of free text answer. Further, the interface unit 2
0 indicates an expert answer to the user through the user display unit 22 (FIG. 18). Therefore, only useful information is presented to the user.

【0054】図22は、図14中のデータベース検索更
新部33の処理手順をフローチャートの形式で示す。ス
テップS601では、回答事例検索表示を行う。具体的
には、インタフェース部20は、自由文による利用者質
問Qを受け付け、専門家表示部42を通じて検索結果を
専門家に提示する(図17)。ステップS602では、
検索結果の判断を行う。専門家は、図17の表示を見
て、利用者質問Qに対して適切であると思われる回答が
あるかどうか判断する。適切であると思われる回答があ
った場合にはS603に進む。適切であると思われる回
答がなかった場合にはS606に進む。ステップS60
3では、専門家は、利用者質問Qに対して最も適切であ
ると思われる回答の文書IDを選択する。インタフェー
ス部20は、専門家入力部41を通じて、選択された文
書IDの入力を受け付ける。また、当該文書IDを後述
するステップS605のために、データベース検索更新
部33に受け渡す。ステップS604では、インタフェ
ース部20は、利用者表示部22を通じて、専門家が選
択した文書IDの文書を回答として利用者に提示する
(図18)。
FIG. 22 is a flowchart showing the processing procedure of the database search / update unit 33 in FIG. In step S601, an answer case search display is performed. Specifically, the interface unit 20 receives the user question Q in a free sentence, and presents the search result to the expert through the expert display unit 42 (FIG. 17). In step S602,
Judge the search results. The expert looks at the display of FIG. 17 and determines whether or not there is an answer that seems appropriate to the user question Q. If there is an answer deemed appropriate, the process proceeds to S603. If there is no answer deemed appropriate, the process proceeds to S606. Step S60
In 3, the expert selects the document ID of the answer deemed most appropriate for the user question Q. The interface unit 20 receives an input of the selected document ID through the expert input unit 41. Further, the document ID is transferred to the database search / update unit 33 for step S605 to be described later. In step S604, the interface unit 20 presents the document of the document ID selected by the expert to the user through the user display unit 22 as a response (FIG. 18).

【0055】ステップS605では、質問追加処理を行
う。データベース検索更新部33は、受け渡された文書
IDの回答に対応する1以上の質問のうち、利用者質問
Qとの類似度が最も高い質問の類似度が所定の値以下で
ある場合には、適切な自動回答がなされなかったものと
して、図15の質問表に、新規のユニークな質問ID、
利用者質問Q及び選択された文書IDからなる行を追加
する。次にステップS612に進む。ステップS612
では、特徴ベクトル抽出部15は、文書登録時と同様
に、文書記憶部11に記憶されている全ての質問Qi及
び回答Akから、それぞれの特徴ベクトルVQi,VA
kを抽出し、抽出された特徴ベクトルを特徴ベクトル記
憶部31に書き出す。
In step S605, a question adding process is performed. If the similarity of the question having the highest similarity to the user question Q is one or more of the one or more questions corresponding to the answer of the received document ID, the database search updating unit 33 determines that the similarity is equal to or less than a predetermined value. Assuming that an appropriate automatic answer has not been made, a new unique question ID,
A line consisting of the user question Q and the selected document ID is added. Next, the process proceeds to step S612. Step S612
Then, the feature vector extraction unit 15 extracts the feature vectors VQi and VA from all the questions Qi and answers Ak stored in the document storage
k is extracted, and the extracted feature vector is written to the feature vector storage unit 31.

【0056】ステップS602で適切な回答がなかった
場合、専門家は、ステップS606において利用者質問
Qに対して適切な回答Aを自由文で入力する。インタフ
ェース部20は、専門家入力部41を通じて、自由文の
回答を受け付ける。ステップS607では、インタフェ
ース部20は、専門家が入力した回答Aを利用者に提示
する。ステップS608では、特徴ベクトル抽出部15
は、専門家が入力した回答Aの特徴ベクトルVAを抽出
する。この特徴ベクトルの抽出手順は、図19で説明し
た利用者質問Qの特徴ベクトルVQの抽出手順と同様で
ある。ステップS609では、類似度演算部32は、特
徴ベクトル記憶部31から全ての回答の特徴ベクトルV
Akを取り出し、専門家が入力した回答Aの特徴ベクト
ルVAとの類似度Ekを算出する。この類似度の算出手
順は、図21で説明した利用者質問Qの類似度の算出手
順と同様である。ステップS610では、類似度演算部
32は、ステップS609で求めた類似度Ekの中で最
も大きいものが所定の値以上の場合は、文書記憶部11
の中に専門家が入力した回答Aと類似する回答があるも
のと判断し、類似する回答Akの文書IDをデータベー
ス検索更新部33に受け渡し、ステップS605に進
む。そうでない場合はステップS611に進む。ステッ
プS611では、質問回答追加処理を行う。データベー
ス検索更新部33は、図16の回答表に、新規のユニー
クな文書ID及び専門家が入力した回答Aからなる行を
追加する。また、図15の質問表に、新規のユニークな
質問IDと、利用者質問Qと、追加した回答に付与した
文書IDとからなる行を追加する。そして、ステップS
612に進む。ステップS612における処理は上述の
とおりである。
If there is no appropriate answer in step S602, the expert inputs an appropriate answer A to the user question Q in a free sentence in step S606. The interface unit 20 accepts a free sentence answer through the expert input unit 41. In step S607, the interface unit 20 presents the answer A input by the expert to the user. In step S608, the feature vector extraction unit 15
Extracts the feature vector VA of the answer A input by the expert. The procedure for extracting the feature vector is the same as the procedure for extracting the feature vector VQ of the user question Q described with reference to FIG. In step S609, the similarity calculation unit 32 stores the feature vectors V of all the answers from the feature vector storage unit 31.
Ak is taken out, and the similarity Ek of the answer A input by the expert with the feature vector VA is calculated. The procedure for calculating the similarity is the same as the procedure for calculating the similarity of the user question Q described with reference to FIG. In step S610, the similarity calculating unit 32 determines that the largest one of the similarities Ek obtained in step S609 is equal to or greater than a predetermined value, and the document storage unit 11
It is determined that there is an answer similar to the answer A input by the expert, and the document ID of the similar answer Ak is passed to the database search and update unit 33, and the process proceeds to step S605. Otherwise, the process proceeds to step S611. In step S611, a question answer addition process is performed. The database search / update unit 33 adds a row including the new unique document ID and the answer A input by the expert to the answer table in FIG. In addition, a row including a new unique question ID, a user question Q, and a document ID assigned to the added answer is added to the questionnaire in FIG. And step S
Proceed to 612. The processing in step S612 is as described above.

【0057】一方、回答を選択又は入力できる専門家が
いない場合には、インタフェース部20は、利用者表示
部22を通じて、図17と同様の検索結果を利用者に提
示する。利用者は、図17の表示を見て、自分の質問Q
に対して最も適切であると思われる回答の文書IDを選
択し、インタフェース部20は、利用者入力部21を通
じて、選択された文書IDの入力を受け付ける。データ
ベース検索更新部33は、入力された文書IDの回答に
対応する1以上の質問のうち、利用者質問Qとの類似度
が最も高い質問の類似度が所定の値以下である場合に
は、適切な自動回答がなされなかったものとして、図1
5の質問表に、新規のユニークな質問ID、利用者質問
Q及び選択された文書IDからなる行を追加する(ステ
ップS605と同様)。そして、特徴ベクトル抽出部1
5は、文書登録時と同様に、文書記憶部11に記憶され
ている全ての質問Qi及び回答Akから、それぞれの特
徴ベクトルVQi,VAkを抽出し、抽出された特徴ベ
クトルを特徴ベクトル記憶部31に書き出す(ステップ
S612と同様)。
On the other hand, when there is no expert who can select or input an answer, the interface unit 20 presents the same search result as that of FIG. 17 to the user through the user display unit 22. The user looks at the display in FIG.
The interface unit 20 receives the input of the selected document ID through the user input unit 21 by selecting the document ID of the answer that seems to be the most appropriate. When the similarity of the question having the highest similarity to the user question Q is one or more of the questions corresponding to the answer of the input document ID, the database search updating unit 33 determines that Assuming that no appropriate automatic answer was given,
A row including a new unique question ID, a user question Q, and a selected document ID is added to the questionnaire of No. 5 (similar to step S605). Then, the feature vector extraction unit 1
5 extracts the feature vectors VQi and VAk from all the questions Qi and answers Ak stored in the document storage unit 11 and stores the extracted feature vectors in the feature vector storage unit 31 in the same manner as in the document registration. (Similar to step S612).

【0058】以上のように、第2の実施形態によれば、
利用者又は専門家の応答に応じて文書記憶部11が自動
的に更新されるようにしたので、次回から同様の質問が
入力された場合に適切な回答ができる情報検索システム
を提供することができる。
As described above, according to the second embodiment,
Since the document storage unit 11 is automatically updated in response to a response from a user or an expert, it is possible to provide an information search system that can provide an appropriate answer when a similar question is input from the next time. it can.

【0059】[0059]

【発明の効果】以上説明してきたとおり、本発明によれ
ば、文書の特徴ベクトルを算出し、特徴ベクトルに基づ
いて文書をクラスタ分類し、文書の検索結果をクラスタ
ごとにまとめて表示することとしたので、利用者は、検
索結果を類似した文書の固まりとして把握することが容
易となる。したがって、利用者の情報検索にかかる負担
を軽減させる情報検索システムを提供することができ
る。
As described above, according to the present invention, a feature vector of a document is calculated, documents are classified into clusters based on the feature vector, and the search results of the documents are displayed collectively for each cluster. Therefore, the user can easily grasp the search result as a set of similar documents. Therefore, it is possible to provide an information search system that reduces the burden on the user for information search.

【0060】また、本発明によれば、利用者からの質問
が入力された場合に類似質問を検索し、対応する回答を
利用者又は専門家に提示し、利用者又は専門家が最も適
切であると判断した回答を選択したときには当該選択さ
れた回答をもとに、また適切な回答がないときには専門
家が新たに入力した回答をもとにそれぞれ文書データベ
ースを自動的に更新することとしたので、検索対象の情
報を容易に更新できる情報検索システムを提供すること
ができる。
Further, according to the present invention, when a question from a user is input, a similar question is searched and a corresponding answer is presented to the user or expert, and the user or expert is most appropriate. The document database is automatically updated based on the selected answer when the answer is judged to be present, or based on the newly entered answer when there is no appropriate answer. Therefore, it is possible to provide an information search system capable of easily updating information to be searched.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態に係る情報検索システ
ムの構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of an information search system according to a first embodiment of the present invention.

【図2】図1中の文書記憶部に記憶されている文書の例
を示す図である。
FIG. 2 is a diagram illustrating an example of a document stored in a document storage unit in FIG. 1;

【図3】図1中の利用者表示部における検索結果の表示
例を示す図である。
FIG. 3 is a diagram showing a display example of a search result on a user display unit in FIG. 1;

【図4】図1中の特徴ベクトル抽出部の処理手順を示す
フローチャートである。
FIG. 4 is a flowchart illustrating a processing procedure of a feature vector extracting unit in FIG. 1;

【図5】抽出された文書特徴ベクトルの例を示す図であ
る。
FIG. 5 is a diagram illustrating an example of an extracted document feature vector.

【図6】図1中のクラスタ分類部の処理手順を示すフロ
ーチャートである。
FIG. 6 is a flowchart illustrating a processing procedure of a cluster classification unit in FIG. 1;

【図7】クラスタ分類結果の例を示す図である。FIG. 7 is a diagram illustrating an example of a cluster classification result.

【図8】図1中のクラスタラベル作成部における単語ラ
ベル作成手順を示すフローチャートである。
FIG. 8 is a flowchart showing a word label creation procedure in a cluster label creation unit in FIG. 1;

【図9】作成された単語ラベルの例を示す図である。FIG. 9 is a diagram illustrating an example of a created word label.

【図10】図1中のクラスタラベル作成部における文ラ
ベル作成手順を示すフローチャートである。
FIG. 10 is a flowchart showing a sentence label creating procedure in a cluster label creating unit in FIG. 1;

【図11】作成された文ラベルの例を示す図である。FIG. 11 is a diagram illustrating an example of a created sentence label.

【図12】図1中の文書ラベル作成部の処理手順を示す
フローチャートである。
FIG. 12 is a flowchart illustrating a processing procedure of a document label creating unit in FIG. 1;

【図13】作成された文書ラベルの例を示す図である。FIG. 13 is a diagram illustrating an example of a created document label.

【図14】本発明の第2の実施形態に係る情報検索シス
テムの構成を示すブロック図である。
FIG. 14 is a block diagram illustrating a configuration of an information search system according to a second embodiment of the present invention.

【図15】図14中の文書記憶部に記憶されている文書
のうちの質問表の部分の例を示す図である。
FIG. 15 is a diagram illustrating an example of a questionnaire portion of a document stored in the document storage unit in FIG. 14;

【図16】図14中の文書記憶部に記憶されている文書
のうちの回答表の部分の例を示す図である。
FIG. 16 is a diagram illustrating an example of a part of an answer table in a document stored in a document storage unit in FIG. 14;

【図17】図14中の専門家表示部における検索結果の
表示例を示す図である。
FIG. 17 is a diagram showing a display example of a search result on an expert display unit in FIG. 14;

【図18】図14中の利用者表示部における検索結果の
表示例を示す図である。
FIG. 18 is a diagram showing a display example of a search result in a user display unit in FIG.

【図19】図14中の特徴ベクトル抽出部における利用
者質問の特徴ベクトル抽出手順を示すフローチャートで
ある。
FIG. 19 is a flowchart showing a procedure for extracting a feature vector of a user question in a feature vector extracting unit in FIG. 14;

【図20】利用者質問から抽出された特徴ベクトルの例
を示す図である。
FIG. 20 is a diagram illustrating an example of a feature vector extracted from a user question.

【図21】図14中の類似度演算部の処理手順を示すフ
ローチャートである。
FIG. 21 is a flowchart illustrating a processing procedure of a similarity calculation unit in FIG. 14;

【図22】図14中のデータベース検索更新部の処理手
順を主として示すフローチャートである。
FIG. 22 is a flowchart mainly showing a processing procedure of a database search / update unit in FIG. 14;

【符号の説明】[Explanation of symbols]

11 文書記憶部 12 クラスタ記憶部 13 クラスタラベル記憶部 14 文書ラベル記憶部 15 特徴ベクトル抽出部 16 クラスタ分類部 17 クラスタラベル作成部 18 文書ラベル作成部 19 データベース検索部 20 インタフェース部 21 利用者入力部 22 利用者表示部 31 特徴ベクトル記憶部 32 類似度演算部 33 データベース検索更新部 41 専門家入力部 42 専門家表示部 Reference Signs List 11 document storage unit 12 cluster storage unit 13 cluster label storage unit 14 document label storage unit 15 feature vector extraction unit 16 cluster classification unit 17 cluster label creation unit 18 document label creation unit 19 database search unit 20 interface unit 21 user input unit 22 User display unit 31 Feature vector storage unit 32 Similarity calculation unit 33 Database search and update unit 41 Expert input unit 42 Expert display unit

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 17/30 350 G06F 17/30 350C (72)発明者 九津見 洋 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 小澤 順 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 丸野 進 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B075 KK07 ND03 NK32 NR02 NR12 NR20 PP24 PQ02 PQ41 PQ46 PR06 QM08 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G06F 17/30 350 G06F 17/30 350C (72) Inventor Hiroshi Kutsumi 1006 Kadoma Kadoma, Kadoma City, Osaka Matsushita Electric Industrial Co., Ltd. (72) Inventor Jun Ozawa 1006 Kadoma Kadoma, Osaka Prefecture Matsushita Electric Industrial Co., Ltd. (72) Inventor Susumu Susumu Maruno 1006 Kadoma Kadoma, Osaka Pref. 1006 Matsushita Electric Industrial Co., Ltd. (Reference) 5B075 KK07 ND03 NK32 NR02 NR12 NR20 PP24 PQ02 PQ41 PQ46 PR06 QM08

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 複数の文書の中から利用者が求める情報
を検索するための情報検索システムであって、 前記複数の文書を記憶するための文書記憶手段と、 前記文書記憶手段に記憶された複数の文書の各々の特徴
量を抽出するための特徴量抽出手段と、 前記抽出された特徴量に基づき、前記文書記憶手段に記
憶された複数の文書を、各クラスタが1つの文書又は互
いに近似した特徴量を持つ複数の文書からなるように、
複数のクラスタに分類するためのクラスタ分類手段と、 前記文書記憶手段に記憶された複数の文書の中から、前
記利用者から与えられた検索条件を満たす文書を検索す
るための文書検索手段と、 前記検索された文書を、当該検索された文書が属するク
ラスタが複数の文書からなる場合には当該クラスタ中の
他の文書とともに、検索結果として提示するためのイン
タフェース手段とを備えたことを特徴とする情報検索シ
ステム。
1. An information retrieval system for retrieving information desired by a user from a plurality of documents, comprising: a document storage means for storing the plurality of documents; and a document storage means for storing the plurality of documents. A feature amount extraction unit for extracting a feature amount of each of the plurality of documents; and a plurality of documents stored in the document storage unit, each cluster of which is a single document or approximate to each other, based on the extracted feature amounts. So that it consists of multiple documents with
Cluster classification means for classifying into a plurality of clusters; and a document search means for searching a document satisfying a search condition given by the user from a plurality of documents stored in the document storage means, Interface means for presenting the searched document together with other documents in the cluster when the cluster to which the searched document belongs is composed of a plurality of documents, as a search result, Information retrieval system.
【請求項2】 請求項1記載の情報検索システムにおい
て、 前記特徴量抽出手段は、前記文書記憶手段に記憶された
複数の文書の各々から、当該文書中に出現する1又は複
数の単語と、当該単語が当該文書を特徴付ける重みとの
組を要素とする特徴ベクトルを前記特徴量として抽出す
るように構成されたことを特徴とする情報検索システ
ム。
2. The information retrieval system according to claim 1, wherein the feature amount extracting unit includes one or more words appearing in the document from each of the plurality of documents stored in the document storage unit; An information retrieval system characterized by extracting a feature vector having a set of a word and a weight that characterizes the document as an element.
【請求項3】 請求項1記載の情報検索システムにおい
て、 前記クラスタ分類手段は、複数の文書からなるクラスタ
の数が最大になるクラスタリングを採用するように構成
されたことを特徴とする情報検索システム。
3. The information retrieval system according to claim 1, wherein said cluster classification means is configured to employ clustering that maximizes the number of clusters composed of a plurality of documents. .
【請求項4】 請求項1記載の情報検索システムにおい
て、 各々前記複数のクラスタのうちの対応するクラスタの内
容を表す複数のクラスタラベルを作成するためのクラス
タラベル作成手段を更に備え、 前記インタフェース手段は、前記作成された複数のクラ
スタラベルのうち、前記検索された文書が属するクラス
タの内容を表すクラスタラベルを前記検索結果とともに
提示するように構成されたことを特徴とする情報検索シ
ステム。
4. The information retrieval system according to claim 1, further comprising: cluster label creating means for creating a plurality of cluster labels each representing the contents of a corresponding cluster among the plurality of clusters, wherein said interface means Is an information retrieval system configured to present, together with the search result, a cluster label representing the contents of a cluster to which the searched document belongs, among the plurality of created cluster labels.
【請求項5】 請求項4記載の情報検索システムにおい
て、 前記クラスタラベル作成手段は、前記複数のクラスタの
各々について、当該クラスタに属する全ての文書の中か
ら、当該クラスタを特徴付ける1又は複数の単語を前記
クラスタラベルとして選択するように構成されたことを
特徴とする情報検索システム。
5. The information retrieval system according to claim 4, wherein, for each of the plurality of clusters, one or a plurality of words characterizing the cluster from among all the documents belonging to the cluster. Is selected as the cluster label.
【請求項6】 請求項4記載の情報検索システムにおい
て、 前記クラスタラベル作成手段は、前記複数のクラスタの
各々について、当該クラスタに属する全ての文書の中か
ら、当該クラスタを特徴付ける1つの文を前記クラスタ
ラベルとして選択するように構成されたことを特徴とす
る情報検索システム。
6. The information retrieval system according to claim 4, wherein the cluster label creating unit is configured to, for each of the plurality of clusters, select one sentence characterizing the cluster from all documents belonging to the cluster. An information retrieval system, which is configured to select a cluster label.
【請求項7】 請求項4記載の情報検索システムにおい
て、 各々前記文書記憶手段に記憶された複数の文書のうちの
対応する文書の内容を表す複数の文書ラベルを作成する
ための文書ラベル作成手段を更に備え、 前記インタフェース手段は、前記作成された複数の文書
ラベルのうち、前記検索された文書が属するクラスタ中
の各文書の内容を表す文書ラベルを、前記検索結果とと
もに提示するように構成されたことを特徴とする情報検
索システム。
7. The information retrieval system according to claim 4, wherein a plurality of document labels are generated for each of the plurality of documents stored in the document storage unit, the plurality of document labels representing the contents of the corresponding document. The interface unit is configured to present a document label representing the contents of each document in a cluster to which the searched document belongs, among the created document labels, together with the search result. An information retrieval system characterized by the following.
【請求項8】 請求項7記載の情報検索システムにおい
て、 前記文書ラベル作成手段は、前記文書記憶手段に記憶さ
れた複数の文書の各々について、当該文書中の全ての文
の中から、当該文書を特徴付ける1つの文を前記文書ラ
ベルとして選択するように構成されたことを特徴とする
情報検索システム。
8. The information retrieval system according to claim 7, wherein the document label creating unit is configured to, for each of the plurality of documents stored in the document storage unit, select the document from all the sentences in the document. An information retrieval system characterized in that one sentence characterizing is selected as the document label.
【請求項9】 請求項1記載の情報検索システムにおい
て、 前記複数の文書は、互いに対応付けられた複数の質問文
書と複数の回答文書とを含み、 前記検索条件は、自由文による利用者質問であり、 前記特徴量抽出手段は、前記文書記憶手段に記憶された
複数の回答文書が前記クラスタ分類手段により複数のク
ラスタに分類されるように、前記文書記憶手段に記憶さ
れた複数の回答文書の各々の特徴量を抽出し、 前記情報検索システムは、前記文書記憶手段に記憶され
た複数の質問文書の各々について、前記利用者質問に係
る文書との間の類似度を算出するための類似度演算手段
を更に備え、 前記文書検索手段は、前記算出された類似度に基づき、
前記文書記憶手段に記憶された複数の質問文書の中から
類似度の高い質問文書を検索し、かつ前記文書記憶手段
に記憶された複数の回答文書の中から前記検索された質
問文書に対応付けられた回答文書を検索し、 前記インタフェース手段は、前記検索された回答文書
を、当該検索された回答文書が属するクラスタが複数の
回答文書からなる場合には当該クラスタ中の他の回答文
書とともに、前記検索結果として提示するように構成さ
れたことを特徴とする情報検索システム。
9. The information search system according to claim 1, wherein the plurality of documents include a plurality of question documents and a plurality of answer documents which are associated with each other, and the search condition is a user question in a free sentence. The feature amount extracting means comprises: a plurality of answer documents stored in the document storage means such that the plurality of answer documents stored in the document storage means are classified into a plurality of clusters by the cluster classification means. The information retrieval system extracts a feature amount of each of the plurality of question documents stored in the document storage means, and calculates a similarity between the plurality of question documents and the document related to the user question. Further comprising a degree calculation means, wherein the document search means is based on the calculated similarity degree,
Search for a question document having a high degree of similarity from among the plurality of question documents stored in the document storage means, and associate with the searched question document from among the plurality of answer documents stored in the document storage means When the retrieved answer document is searched, the interface means, together with the other answer documents in the cluster, if the retrieved answer document belongs to a cluster including a plurality of answer documents, An information search system characterized in that it is configured to be presented as the search result.
【請求項10】 請求項9記載の情報検索システムにお
いて、 前記インタフェース手段は、前記検索結果を前記利用者
に提示するように構成されたことを特徴とする情報検索
システム。
10. The information search system according to claim 9, wherein said interface means is configured to present said search result to said user.
【請求項11】 請求項10記載の情報検索システムに
おいて、 前記インタフェース手段は、前記提示された検索結果の
中からの前記利用者による回答文書の選択を受け付ける
ように構成され、 前記情報検索システムは、前記文書記憶手段に記憶され
た複数の質問文書の中から、前記選択された回答文書に
対応付けられた質問文書を検索し、当該検索された質問
文書と前記利用者質問に係る文書との類似度が所定の値
より低い場合には、前記利用者質問に係る文書を、前記
選択された回答文書と対応付けて前記文書記憶手段に新
たに記憶させるための文書更新手段を更に備えたことを
特徴とする情報検索システム。
11. The information search system according to claim 10, wherein the interface unit is configured to receive a selection of the answer document by the user from the presented search results. Searching for a question document associated with the selected answer document from among the plurality of question documents stored in the document storage unit, and comparing the searched question document with the document related to the user question. When the similarity is lower than a predetermined value, a document updating unit for newly storing the document related to the user question in the document storage unit in association with the selected answer document is further provided. An information retrieval system characterized by the following.
【請求項12】 請求項9記載の情報検索システムにお
いて、 前記インタフェース手段は、前記検索結果を前記利用者
質問に係る文書とともに専門家に提示し、かつ当該提示
された検索結果の中から前記専門家により選択された回
答文書を前記利用者に提示するように構成されたことを
特徴とする情報検索システム。
12. The information search system according to claim 9, wherein the interface unit presents the search result to an expert together with a document related to the user question, and selects the specialized search result from the presented search result. An information retrieval system, wherein an answer document selected by a house is presented to the user.
【請求項13】 請求項12記載の情報検索システムに
おいて、 前記文書記憶手段に記憶された複数の質問文書の中か
ら、前記選択された回答文書に対応付けられた質問文書
を検索し、当該検索された質問文書と前記利用者質問に
係る文書との類似度が所定の値より低い場合には、前記
利用者質問に係る文書を、前記選択された回答文書と対
応付けて前記文書記憶手段に新たに記憶させるための文
書更新手段を更に備えたことを特徴とする情報検索シス
テム。
13. The information search system according to claim 12, wherein a question document associated with the selected answer document is searched from a plurality of question documents stored in the document storage unit. If the similarity between the question document and the document related to the user question is lower than a predetermined value, the document related to the user question is associated with the selected answer document and stored in the document storage unit. An information retrieval system, further comprising a document updating unit for newly storing the document.
【請求項14】 請求項9記載の情報検索システムにお
いて、 前記インタフェース手段は、前記検索結果を前記利用者
質問に係る文書とともに専門家に提示し、かつ当該提示
された検索結果を参照して前記専門家が自由文により入
力した回答文書を前記利用者に提示するように構成され
たことを特徴とする情報検索システム。
14. The information search system according to claim 9, wherein the interface unit presents the search result to an expert together with a document relating to the user question, and refers to the presented search result to execute the search. An information retrieval system, characterized in that an answer document input by an expert in a free sentence is presented to the user.
【請求項15】 請求項14記載の情報検索システムに
おいて、 前記文書記憶手段に記憶された複数の回答文書の各々と
前記入力された回答文書との類似度がいずれも所定の値
より低い場合には、前記利用者質問に係る文書と前記入
力された回答文書とを互いに対応付けて前記文書記憶手
段に新たに記憶させるための文書更新手段を更に備えた
ことを特徴とする情報検索システム。
15. The information retrieval system according to claim 14, wherein a similarity between each of the plurality of answer documents stored in the document storage unit and the input answer document is lower than a predetermined value. The information retrieval system according to claim 1, further comprising a document updating unit for associating the document relating to the user question and the input answer document with each other and newly storing the document in the document storage unit.
【請求項16】 複数の文書の中から利用者が求める情
報を検索するための情報検索システムであって、 互いに対応付けられた複数の質問文書と複数の回答文書
とを記憶するための文書記憶手段と、 前記利用者から自由文による利用者質問が与えられたと
きに、前記文書記憶手段に記憶された複数の質問文書の
各々について、前記利用者質問に係る文書との間の類似
度を算出するための類似度演算手段と、 前記算出された類似度に基づき、前記文書記憶手段に記
憶された複数の質問文書の中から類似度の高い複数の質
問文書を検索し、かつ前記文書記憶手段に記憶された複
数の回答文書の中から前記検索された複数の質問文書の
各々に対応付けられた回答文書を検索するための文書検
索手段と、 前記利用者質問に係る文書とともに前記検索された複数
の回答文書を検索結果として専門家に提示し、かつ当該
提示された検索結果の中から前記専門家により選択され
た回答文書、又は当該提示された検索結果を参照して前
記専門家が自由文により入力した回答文書を前記利用者
に提示するためのインタフェース手段とを備えたことを
特徴とする情報検索システム。
16. An information retrieval system for retrieving information required by a user from a plurality of documents, the document storage for storing a plurality of question documents and a plurality of answer documents associated with each other. Means, when a user question in a free sentence is given by the user, for each of a plurality of question documents stored in the document storage means, a similarity between the document related to the user question and A similarity calculating means for calculating, based on the calculated similarity, searching a plurality of question documents having a high similarity from a plurality of question documents stored in the document storage means, and storing the document A document search unit for searching an answer document associated with each of the plurality of searched question documents from a plurality of answer documents stored in the means; and the search together with a document related to the user question. The plurality of answer documents presented to the expert as search results, and the expert referring to the answer document selected by the expert from the presented search results or the presented search result. And an interface means for presenting to the user a response document input by the user in a free sentence.
【請求項17】 請求項16記載の情報検索システムに
おいて、 前記文書記憶手段に記憶された複数の質問文書の中か
ら、前記選択された回答文書に対応付けられた質問文書
を検索し、当該検索された質問文書と前記利用者質問に
係る文書との類似度が所定の値より低い場合には、前記
利用者質問に係る文書を、前記選択された回答文書と対
応付けて前記文書記憶手段に新たに記憶させるための文
書更新手段を更に備えたことを特徴とする情報検索シス
テム。
17. The information retrieval system according to claim 16, wherein a question document associated with the selected answer document is searched from a plurality of question documents stored in the document storage unit. When the similarity between the question document and the document related to the user question is lower than a predetermined value, the document related to the user question is associated with the selected answer document and stored in the document storage unit. An information retrieval system, further comprising a document updating unit for newly storing the document.
【請求項18】 請求項16記載の情報検索システムに
おいて、 前記文書記憶手段に記憶された複数の回答文書の各々と
前記入力された回答文書との類似度がいずれも所定の値
より低い場合には、前記利用者質問に係る文書と前記入
力された回答文書とを互いに対応付けて前記文書記憶手
段に新たに記憶させるための文書更新手段を更に備えた
ことを特徴とする情報検索システム。
18. The information retrieval system according to claim 16, wherein a similarity between each of the plurality of answer documents stored in the document storage unit and the input answer document is lower than a predetermined value. The information retrieval system according to claim 1, further comprising a document updating unit for associating the document relating to the user question and the input answer document with each other and newly storing the document in the document storage unit.
JP2001139609A 2000-05-17 2001-05-10 Information retrieval system Expired - Fee Related JP3654850B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001139609A JP3654850B2 (en) 2000-05-17 2001-05-10 Information retrieval system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000145168 2000-05-17
JP2000-145168 2000-05-17
JP2001139609A JP3654850B2 (en) 2000-05-17 2001-05-10 Information retrieval system

Publications (2)

Publication Number Publication Date
JP2002041573A true JP2002041573A (en) 2002-02-08
JP3654850B2 JP3654850B2 (en) 2005-06-02

Family

ID=26592051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001139609A Expired - Fee Related JP3654850B2 (en) 2000-05-17 2001-05-10 Information retrieval system

Country Status (1)

Country Link
JP (1) JP3654850B2 (en)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (en) * 2001-07-17 2003-01-31 Fujitsu Ltd Device for preparing document cluster, system for retrieving document and system for preparing faq
JP2003281285A (en) * 2002-03-19 2003-10-03 Kuriputon:Kk Learning support system, question answer method of learning support system, and computer program
JP2005258763A (en) * 2004-03-11 2005-09-22 Ntt Data Corp Multi-variate data clustering apparatus and clustering program
JP2008077459A (en) * 2006-09-22 2008-04-03 Yokohama National Univ Interactive multiple document summarization device
CN100410936C (en) * 2004-03-23 2008-08-13 株式会社东芝 System and method for data classification usable for data search
US7451139B2 (en) 2002-03-07 2008-11-11 Fujitsu Limited Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus
JP2010067005A (en) * 2008-09-10 2010-03-25 Yahoo Japan Corp Retrieval device, and method of controlling the same
JP2010073191A (en) * 2008-08-20 2010-04-02 Universal Entertainment Corp Customer dealing system and conversation server
JP2011100380A (en) * 2009-11-09 2011-05-19 Nec Soft Ltd Persona creation support device and persona creation support system
US8478781B2 (en) 2005-12-05 2013-07-02 Sony Corporation Information processing apparatus, information processing method and program
JP2018180937A (en) * 2017-04-13 2018-11-15 日本電信電話株式会社 Clustering apparatus, answer candidate generation apparatus, method, and program
JP6442807B1 (en) * 2018-06-15 2018-12-26 カラクリ株式会社 Dialog server, dialog method and dialog program
JP2020074205A (en) * 2020-01-27 2020-05-14 日本電信電話株式会社 Answer candidate generation device, answer candidate generation method, and program
US11144723B2 (en) 2018-06-29 2021-10-12 Fujitsu Limited Method, device, and program for text classification
WO2022224462A1 (en) 2021-04-23 2022-10-27 富士通株式会社 Information processing program, information processing method, and information processing device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134364A (en) * 1997-10-31 1999-05-21 Omron Corp Systematized knowledge analyzing method and device therefor, and classifying method and device therefor
JPH11275137A (en) * 1998-03-23 1999-10-08 Hitachi Information Systems Ltd Electronic mail management support method and program recording medium therefor
JPH11296552A (en) * 1998-04-13 1999-10-29 Ricoh Co Ltd Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded
JP2000020541A (en) * 1998-07-03 2000-01-21 Nec Corp Problem solving support system
JP2000105768A (en) * 1998-09-28 2000-04-11 Nippon Telegr & Teleph Corp <Ntt> Device for calculating feature amount of inquiry document, and method therefor
JP2000123028A (en) * 1998-10-13 2000-04-28 Mitsubishi Electric Corp Procedure base help disk system method and device for retrieving example

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134364A (en) * 1997-10-31 1999-05-21 Omron Corp Systematized knowledge analyzing method and device therefor, and classifying method and device therefor
JPH11275137A (en) * 1998-03-23 1999-10-08 Hitachi Information Systems Ltd Electronic mail management support method and program recording medium therefor
JPH11296552A (en) * 1998-04-13 1999-10-29 Ricoh Co Ltd Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded
JP2000020541A (en) * 1998-07-03 2000-01-21 Nec Corp Problem solving support system
JP2000105768A (en) * 1998-09-28 2000-04-11 Nippon Telegr & Teleph Corp <Ntt> Device for calculating feature amount of inquiry document, and method therefor
JP2000123028A (en) * 1998-10-13 2000-04-28 Mitsubishi Electric Corp Procedure base help disk system method and device for retrieving example

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (en) * 2001-07-17 2003-01-31 Fujitsu Ltd Device for preparing document cluster, system for retrieving document and system for preparing faq
US7451139B2 (en) 2002-03-07 2008-11-11 Fujitsu Limited Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus
JP2003281285A (en) * 2002-03-19 2003-10-03 Kuriputon:Kk Learning support system, question answer method of learning support system, and computer program
JP2005258763A (en) * 2004-03-11 2005-09-22 Ntt Data Corp Multi-variate data clustering apparatus and clustering program
CN100410936C (en) * 2004-03-23 2008-08-13 株式会社东芝 System and method for data classification usable for data search
US8478781B2 (en) 2005-12-05 2013-07-02 Sony Corporation Information processing apparatus, information processing method and program
JP2008077459A (en) * 2006-09-22 2008-04-03 Yokohama National Univ Interactive multiple document summarization device
JP2010073191A (en) * 2008-08-20 2010-04-02 Universal Entertainment Corp Customer dealing system and conversation server
JP2010067005A (en) * 2008-09-10 2010-03-25 Yahoo Japan Corp Retrieval device, and method of controlling the same
JP2011100380A (en) * 2009-11-09 2011-05-19 Nec Soft Ltd Persona creation support device and persona creation support system
JP2018180937A (en) * 2017-04-13 2018-11-15 日本電信電話株式会社 Clustering apparatus, answer candidate generation apparatus, method, and program
JP6442807B1 (en) * 2018-06-15 2018-12-26 カラクリ株式会社 Dialog server, dialog method and dialog program
JP2019219737A (en) * 2018-06-15 2019-12-26 カラクリ株式会社 Interactive server, interactive method and interactive program
US11144723B2 (en) 2018-06-29 2021-10-12 Fujitsu Limited Method, device, and program for text classification
JP2020074205A (en) * 2020-01-27 2020-05-14 日本電信電話株式会社 Answer candidate generation device, answer candidate generation method, and program
WO2022224462A1 (en) 2021-04-23 2022-10-27 富士通株式会社 Information processing program, information processing method, and information processing device

Also Published As

Publication number Publication date
JP3654850B2 (en) 2005-06-02

Similar Documents

Publication Publication Date Title
EP1156430A2 (en) Information retrieval system
CN103678576B (en) The text retrieval system analyzed based on dynamic semantics
CN105824959B (en) Public opinion monitoring method and system
US6564210B1 (en) System and method for searching databases employing user profiles
CN100485677C (en) Personalization of placed content ordering in search results
JP3648051B2 (en) Related information retrieval apparatus and program recording medium
CN105045875B (en) Personalized search and device
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
US20040049499A1 (en) Document retrieval system and question answering system
CN101655857A (en) Method for mining data in construction regulation field based on associative regulation mining technology
JP3654850B2 (en) Information retrieval system
JP2002543535A (en) Method and apparatus for scalable stochastic clustering using decision trees
CN110188197B (en) Active learning method and device for labeling platform
KR20190038243A (en) System and method for retrieving documents using context
CN110209808A (en) A kind of event generation method and relevant apparatus based on text information
CN111382276B (en) Event development context graph generation method
KR20090033989A (en) Method for advertising local information based on location information and system for executing the method
CN112559684A (en) Keyword extraction and information retrieval method
WO2004038609A2 (en) Intelligent classification system
KR20080037413A (en) On line context aware advertising apparatus and method
CN112036178A (en) Distribution network entity related semantic search method
US20040158558A1 (en) Information processor and program for implementing information processor
JP4967133B2 (en) Information acquisition apparatus, program and method thereof
US20090210402A1 (en) System and method for contextual association discovery to conceptualize user query
CN111831884B (en) Matching system and method based on information search

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040803

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041004

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050301

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080311

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090311

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100311

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees