JPH09231238A - テキスト検索結果表示方法及び装置 - Google Patents

テキスト検索結果表示方法及び装置

Info

Publication number
JPH09231238A
JPH09231238A JP8058391A JP5839196A JPH09231238A JP H09231238 A JPH09231238 A JP H09231238A JP 8058391 A JP8058391 A JP 8058391A JP 5839196 A JP5839196 A JP 5839196A JP H09231238 A JPH09231238 A JP H09231238A
Authority
JP
Japan
Prior art keywords
text
group
display
search
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8058391A
Other languages
English (en)
Inventor
Atou Go
亜棟 呉
Taiji Sogo
太治 十河
Akira Sawada
晃 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP8058391A priority Critical patent/JPH09231238A/ja
Publication of JPH09231238A publication Critical patent/JPH09231238A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書検索結果に対する確認を容易として、検
索効率の向上、並びに、検索漏れの防止による検索精度
の向上を図ることができ、しかも、提示された主題情報
がデータを如何に効率的に絞り込めるかの指針にもな
り、この付加された応答情報を利用して高度な適応検索
(Relevance Feedback)を行い得る。 【解決手段】 与えられた検索条件に基いてデータベー
スを検索することにより得られたテキスト集合を各テキ
ストの主題分析結果を用いて自動的に複数個のグループ
に分割し、該分割により得られた各グループのそれぞれ
について、当該グループの属性を表現する主題分類情報
を生成し、該生成された各グループの主題分類情報をグ
ループ別に区分して表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書データベー
スの検索に好適なテキスト検索結果表示方法及び装置に
係り、特に、与えられた検索条件に基いてデータベース
を検索することにより得られたテキスト集合を各テキス
トの主題分析結果を用いて自動的に複数個のグループに
分割し、該分割により得られた各グループの属性を表現
する主題分類情報をグループ別に区分して表示するよう
にしたテキスト検索結果表示方法及び装置に関する。
【0002】
【従来の技術】従来のテキスト検索結果表示装置として
は、例えば、特開平6−76004号公報に記載された
ものが知られている。
【0003】この装置は、データベース検索結果を格納
するデータベース検索解格納部と、前記データベース検
索解が有する複数の属性値に利用者の制御入力を加味し
て各検索解間の距離を算出する検索解間距離算出手段
と、検索解間距離を用いて検索解を利用者に指定した個
数或いは予め定められた個数のグループに分割する検索
解グループ分割手段と、所属グループの重心付近に位置
する検索解を算出するグループ代表検索解算出手段と、
各グループの代表検索解の中から特定の検索解を利用者
に選択させる代表検索解選択手段と、代表検索解が属し
ているグループ内の全検索解を表示するグループ内検索
解表示手段とから構成されている。
【0004】すなわち、この従来装置にあっては、non-
overlapping手法で構造化された(数値)データベース
検索解をユーザーの指定した分類数に分類するもので、
分類されたグループの重心に最も近い検索解を1件ずつ
パイロットデータとして表示して利用者に希望するグル
ープを選択させ(順位付けなし)、選択されたグループ
内の全検索解をランキングせずに表示するものである。
【0005】
【発明が解決しようとする課題】しかしながら、このよ
うな従来のテキスト検索結果表示装置(検索解表示装
置)にあっては、次の理由により、フルテキストのよう
な非構造化データベースへの適用は困難であると言う問
題点があった。
【0006】すなわち、このような従来装置にあって
は、グループ内の重心位置の代表検索解が表示されるた
め、代表検索解がグループ内の代表文書である場合に
は、その代表文書の内容を端的に表すものが表示され
ず、文書全体が表示されるのでグループの内容が把握し
難い。つまり、分類された各グループの主題意味を提示
するために、単なるグループの重心に最も近い検索解を
1件ずつパイロットデータとして表示するだけでは、内
容的に特定すぎる場合があり、むしろ、グループ内の共
通的な属性項目群を抽出し、利用者に提示することが好
ましい。加えて、フルテキスト検索システムの場合にあ
っては、パイロットデータとして全ての属性データをそ
のまま提示することは無意味であり、文書内容を容易に
理解できるようなパイロットデータの新しい定義が望ま
れる。
【0007】また、従来装置にあっては、グループが検
索条件に対する適合度の順に並べられないので、検索目
的に合致したグループを選択し難い。加えて、従来装置
にあっては、グループ内の解がグループへの所属度の順
に並んでいないので、グループの代表解を参照するだけ
では、グループのイメージが把握し難い場合でも、他の
解を参照してイメージを把握することが困難である。つ
まり、選択されたグループ内の全検索解をランキングせ
ずに表示する方式では、分類件数が多くなると、検索結
果への特定のために利用者の負担が大きくなる。このよ
うな負担を軽減して検索効率を向上させるためには、検
索結果への特定を促進できるようなランキング機能が望
まれる。
【0008】更に、文書は複数の主題を持っているのが
通例であるため、一つの文書を一つのクラスタにしか分
類できない従来の手法では、文書分類結果の表示上では
検索結果に漏れを生じる虞れがある。そのため、文書検
索結果集合に対し主題分類を行う際に複数の異なる(主
題を表す)クラスタに属することを許すようなoverlapp
ing手法が望まれる。
【0009】この発明は、上述の問題点に鑑みてなされ
たものであり、その目的とするところは、文書検索結果
に対する確認を容易として、検索効率の向上、並びに、
検索漏れの防止による検索精度の向上を図ることがで
き、しかも、提示された主題情報がデータを如何に効率
的に絞り込めるかの指針にもなり、この付加された応答
情報を利用して高度な適応検索(Relevance Feedback)
を行い得るようにした検索結果表示方法及び装置を提供
することにある。
【0010】
【課題を解決するための手段】この出願の請求項1(又
は請求項13)に記載の発明は、与えられた検索条件に
基いてデータベースを検索することにより得られたテキ
スト集合を各テキストの主題分析結果を用いて自動的に
複数個のグループに分割する分割ステップ(又は手段)
と、前記分割ステップ(又は手段)によって得られた各
グループのそれぞれについて、当該グループの属性を表
現する主題分類情報を生成する生成ステップ(又は手
段)と、前記生成ステップ(又は手段)で求めた各グル
ープの主題分類情報をグループ別に区分して表示する表
示ステップ(又は手段)とを具備する、ことを特徴とす
るテキスト検索結果表示方法(又は装置)にある。
【0011】ここで、『データベース』とは、ハードデ
ィスクや光ディスク等の大容量記憶媒体に記憶されたテ
キスト集合やインターネット上に存在するホームページ
等のテキスト集合がこれに相当する。
【0012】また、『主題分析』とは、テキストの内容
を端的に示す情報を生成することを意味するものであ
り、文書内のタイトル上のキーワードの集合を生成する
ものであっても良い。実施の形態においては、文書を文
書空間での特徴ベクトルで表現しているベクトル(F
i)がこれに相当する。
【0013】また、『主題分類情報』とは、テキストの
グループについて、そのグループの内容を端的に示す情
報を意味する。実施の形態では、キーワード方式とテキ
スト方式との2方式が示されている。
【0014】そして、この請求項1(又は請求項13)
の発明によれば、グループを端的に表現する情報を付加
してグループ別に区分表示するので、検索結果を構成す
るグループの全体像を把握し易くなり、次の処理のため
のグループ選択が非常に容易となる。
【0015】この出願の請求項2(又は請求項14)の
発明は、与えられた検索条件に基いてデータベースを検
索することにより得られたテキスト集合を各テキストの
主題分析結果を用いて自動的に複数個のグループに分割
する分割ステップ(又は手段)と、前記分割ステップ
(又は手段)によって得られた各グループのそれぞれに
ついて、当該グループの属性を表現する主題分類情報を
生成する生成ステップ(又は手段)と、前記各グループ
のそれぞれについて、そのグループと前記検索条件との
間の適合度を求めるグループ適合度算出ステップ(又は
手段)と、前記生成ステップ(又は手段)で求めた各グ
ループの主題分析情報を、前記適合度算出ステップによ
って求めた適合度の大きい順に、グループ別に区分して
表示する表示ステップ(又は手段)とを具備する、こと
を特徴とするテキスト検索結果表示方法(又は装置)に
ある。
【0016】そして、この請求項2(又は請求項14)
の発明によれば、前記請求項1(又は請求項13)に記
載の発明の効果に加えて、検索条件への適合度の順に表
示するので、検索目的に合致したグループをグループの
内容を確認しながら選択することができる。
【0017】この出願の請求項3(又は請求項15)の
発明は、与えられた検索条件に基いてデータベースを検
索することにより得られたテキスト集合を各テキストの
主題分析結果を用いて自動的に複数個のグループに分割
する分割ステップ(又は手段)と、前記グループ内の各
テキストの内容の分析結果に基いて、各テキストの当該
グループに対する所属度を算出する所属度算出ステップ
(又は手段)と、前記複数個のグループの中で、テキス
ト表示対象となるグループを選択するための選択ステッ
プ(又は手段)と、前記選択ステップ(又は手段)で選
択されたグループ内のテキストを前記算出された所属度
の順に内容表示する表示ステップ(又は手段)とを具備
する、ことを特徴とするテキスト検索結果表示方法(又
は装置)にある。
【0018】そして、この請求項3(又は請求項15)
の発明によれば、選択されたグループ内のテキストがグ
ループへの所属度の順に表示されるので、グループの定
義が把握し易くなる。
【0019】この出願の請求項4(又は請求項16)の
発明は、与えられた検索条件に基いてデータベースを検
索することにより得られたテキスト集合を各テキストの
主題分析結果を用いて自動的に複数個のグループに分割
する分割ステップ(又は手段)と、前記グループ内の各
テキストの内容の分析結果に基いて、各テキストの前記
検索条件に対する適合度を算出する適合度算出ステップ
(又は手段)と、前記複数個のグループの中で、テキス
ト表示対象となるグループを選択するための選択ステッ
プ(又は手段)と、前記選択ステップ(又は手段)で選
択されたグループ内のテキストを前記算出された適合度
の順に内容表示する表示ステップ(又は手段)とを具備
する、ことを特徴とするテキスト検索結果表示方法(又
は装置)にある。
【0020】そして、この請求項4(又は請求項16)
の発明によれば、検索条件に適したグループを選択し、
さらにその中のテキストを検索条件の順に表示するの
で、検索結果をグループ分けしないでテキストを適合度
順に表示する場合よりも、検索条件に対して適切なテキ
ストが早く確実に表示される。
【0021】この出願の請求項5(又は請求項17)の
発明は、与えられた検索条件に基いてデータベースを検
索することにより得られたテキスト集合を各テキストの
主題分析結果を用いて自動的に複数個のグループに分割
する分割ステップ(又は手段)と、前記グループ内の各
テキストの内容の分析結果に基いて、各テキストの当該
グループに対する所属度を算出する所属度算出ステップ
(又は手段)と、前記グループ内の各テキストの内容の
分析結果に基いて、各テキストの前記検索条件に対する
適合度を算出する適合度算出ステップ(又は手段)と、
前記複数個のグループの中で、テキスト表示対象となる
グループを選択するための表示対象グループ選択ステッ
プ(又は手段)と、前記各グループ内のテキストを検索
条件への適合度順に表示するか、或いは当該グループへ
の所属度の順に表示するかを選択するための表示順序基
準選択ステップ(又は手段)と、前記表示対象グループ
選択ステップで選択されたグループ内のテキストを前記
表示順序基準選択手段にて選択された表示順序基準の順
に内容表示する表示ステップ(又は手段)とを具備す
る、ことを特徴とするテキスト検索結果表示方法(又は
装置)にある。
【0022】そして、この請求項5(又は請求項17)
の発明によれば、ユーザーの目的に応じてテキストの表
示順序を変えることができる。
【0023】この出願の請求項6(又は請求項18)に
記載の発明は、請求項1(又は請求項13)乃至請求項
5(又は請求項17)のいずれかに記載のテキスト検索
結果表示方法(又は装置)において、前記前記分割ステ
ップ(又は手段)は、与えられた検索条件に基いてデー
タベースを検索することにより得られたテキスト集合
を、ファジイ・クラスタリング法を用いて複数個のグル
ープに分割する、ことを特徴とするものである。
【0024】そして、この請求項6(又は請求項18)
に記載の発明によれば、ある検索式により探し出された
文書集合に対して自動的にorverlapping方式で主題内容
によるファジイ分類(主題分類)が行われるため、検索
漏れの防止による検索精度の向上が期待できる。
【0025】この出願の請求項7(又は請求項19)に
記載の発明は、請求項1(又は請求項13)又は請求項
2(又は請求項14)に記載のテキスト検索結果表示方
法(又は装置)において、前記生成ステップ(又は手
段)にて生成される当該グループの属性を表現する主題
分類情報は、当該グループの属性を幾つかのキーワード
の組により表すものである、ことを特徴とするものであ
る。
【0026】そして、この請求項7(又は請求項19)
に記載の発明によれば、当該グループの属性を幾つかの
キーワードの組を通して直観的に把握することができ
る。
【0027】この出願の請求項8(又は請求項20)に
記載の発明は、請求項1(又は請求項13)又は請求項
2(又は請求項14)に記載のテキスト検索結果表示方
法(又は装置)において、前記生成ステップ(又は手
段)にて生成される当該グループの属性を表現する主題
分類情報は、当該グループの属性を短い文章により表す
ものであることを特徴とするものである。
【0028】そして、この請求項8(又は請求項20)
に記載の発明によれば、当該グループの属性を短い文章
を通して誰にでも判りやすく理解させることができる。
【0029】この出願の請求項9(又は請求項21)に
記載の発明は、与えられた検索条件に基いてデータベー
スを検索することにより得られたテキスト集合の特徴行
列に対してファジイ・クラスタリングを行い、各文書毎
に各分類カテゴリーへの所属度を生成する所属度生成ス
テップ(又は手段)と、前記生成された所属度を用い
て、各文書を1若しくは2以上の分類カテゴリーに割り
付ける文書割り付けステップ(又は手段)と、前記複数
個の分類カテゴリーの中で、テキスト表示対象となる分
類カテゴリーを選択するための分類カテゴリー選択ステ
ップ(又は手段)と、前記分類カテゴリー選択ステップ
(又は手段)で選択された分類カテゴリー内のテキスト
をそのグループに対する適合度の順に内容表示する表示
ステップ(又は手段)とを具備する、ことを特徴とする
テキスト検索結果表示方法(又は装置)にある。
【0030】そして、この請求項9(又は請求項21)
に記載の発明によれば、overlapping手法を用いて各文
書を1若しくは2以上の分類カテゴリーに割り付け、そ
の状態にて選択された分類カテゴリー内のテキストをそ
のグループに対する適合度の順に内容表示するため、検
索効率の向上、並びに、検索漏れの防止による検索精度
の向上を図ることができる。
【0031】この出願の請求項10(又は請求項22)
に記載の発明は、前記請求項9(又は請求項21)に記
載の発明において、前記文書割り付けステップ(又は手
段)は、各文書をその所属度の上位k個の分類カテゴリ
ーに割り付ける、ことを特徴とするものである。
【0032】そして、この請求項10(又は請求項2
2)に記載の発明によれば、請求項9(又は請求項2
1)に記載の発明の効果に加え、各分類カテゴリーにつ
いて常に所属度の高い順に一定個数の文書を表示させる
ことができる。
【0033】この出願の請求項11(又は請求項23)
に記載の発明は、前記請求項9(又は請求項21)に記
載の発明において、前記文書割り付けステップは、各文
書をある閾値α以上の所属度値を有する分類カテゴリー
に割り付ける、ことを特徴とするものである。
【0034】そして、この請求項11(又は請求項2
3)に記載の発明によれば、請求項9(又は請求項2
1)に記載の発明の効果に加え、各分類カテゴリーにつ
いて常にある閾値α以上の所属度値を有する文書を表示
させることができる。
【0035】この出願の請求項12(又は請求項24)
に記載の発明は、前記請求項9(又は請求項21)に記
載の発明において、前記文書割り付けステップは、各文
書をカテゴリーの確率分布を考慮して分類カテゴリーに
割り付ける、ことを特徴とするものである。
【0036】そして、この請求項12(又は請求項2
4)に記載の発明によれば、請求項9(又は請求項2
1)に記載の発明の効果に加え、各分類カテゴリーにつ
いてカテゴリーの確率分布を考慮して関連する文書を表
示させることができる。
【0037】
【発明の実施の形態】以下に、本発明方法及び装置の好
適な実施の形態を添付図面を参照しながら詳細に説明す
る。
【0038】先ず、本発明方法及び装置が適用されたテ
キスト検索装置の構成を図1の機能ブロック図により概
念的に示す。同図において、1は検索開始時に入力され
るべきオリジナル検索質問(Original Query)や検索絞
り込み時に入力されるべきフィードバック検索質問(Fe
edBack Query)を入力するための検索質問入力部(Quer
y Inputと記す)であり、具体的には、周知のように、
マウスやキーボード等の操作部とそれらの信号を処理す
る入力用ソフトウェアにより構成される。
【0039】2は検索対象となるテキスト集合に相当す
るテキスト(文書)データベース(Doc.DBと記す)であ
り、具体的には、ハードディスクや光ディスク等の大容
量記憶媒体に記憶されたテキスト集合やインターネット
上に存在するホームページ等のテキスト集合がこれに相
当する。
【0040】3はテキスト検索システムの中枢に位置す
る検索エンジン(Search Engineと記す)であり、具体
的には、周知のように、前述の検索質問入力部1から入
力されるオリジナル検索質問(Original Query)やフィ
ードバック検索質問(FeedBack Query)を検索条件とし
て所定のアルゴリズムに従って検索式を展開し、前述の
文書データベース2から関連するテキスト集合を抽出す
るソフトウェアがこれに相当する。
【0041】4はこのようにして検索エンジン(Search
Engine)3により抽出された関連するテキスト集合(R
elevant Doc. Retrievedと記す)であり、後述するよう
に、このテキスト集合4が本発明における加工処理の対
象となる。
【0042】5は本発明の要部に相当する加工処理部で
あり、この加工処理部5はテキスト集合4を各テキスト
の主題分析結果を用いて自動的に複数個のグループに分
割する分割手段に相当するファジイ集合化部(Fuzzy Cl
usteringと記す)5aと、こうして得られた各グループ
のそれぞれについて、当該グループの属性を表現する主
題分類情報を生成する主題分類情報生成部(Subject Ge
nerationと記す)5bとを中心として構成されている。
【0043】ファジイ集合化部(Fuzzy Clustering)5
a及び主題分類情報生成部(Subject Generation)5b
の作用を図2に概念的に示す。同図において、符号4で
示される実線にて囲まれた領域は検索エンジン(Search
Engine)3にて抽出されたテキスト集合(Relevant Do
c. Retrieved)の全体を表す。
【0044】同様にして、符号4a,4b,4cで示さ
れる破線にて囲まれた3つの領域はファジイ集合化部
(Fuzzy Clustering)5にて分割された3つのグループ
のそれぞれを表す。
【0045】符号Aで示される黒塗り三角印は、検索開
始時に入力されるオリジナル検索質問(Original Quer
y)を表す。符号Bで示される×入り丸印は、オリジナ
ル検索質問(Original Query)Aの入力により検索抽出
されたテキスト集合4の各構成テキストのそれぞれを表
す。
【0046】符号Ca,Cb,Ccで示される3個の白
抜き三角印は、グループ4a,4b,4cの属性を表現
する主題分類情報(Group Subject)を表す。尚、これ
らの主題分類情報Ca,Cb,Ccは検索絞込みのため
に用いれば、フィードバック検索質問(FeedBack Quer
y)としても好適なものである。
【0047】符号Da,Db,Dcで示される3個の黒
塗り丸印は、グループ4a,4b,4cの重心を表す。
同様にして、符号Dで示される黒塗り四角印は、テキス
ト集合4の重心を表す。
【0048】図2から明らかなように、ファジイ集合化
部(Fuzzy Clustering)5aは、検索の結果得られたテ
キスト集合4に対して、公知のファジイクラスタリング
処理を施すことにより、テキスト集合4を複数個(この
例では3個)のグループ4a,4b,4cに分割する。
一方、主題分類情報生成部(Subject Generation)5b
は、こうして得られた各グループ4a,4b,4cのそ
れぞれについて、当該グループの属性を表現する主題分
類情報Ca,Cb,Ccを生成する。図から明らかなよ
うに、このようにして得られる当該グループの属性を表
現する主題分類情報Ca,Cb,Ccは、各グループ4
a,4b,4cの重心Da,Db,Dcとは異なるもの
であり、まさしくそれぞれのグループの属性を端的に表
したものとなる。尚、これらのファジイ集合化部(Fuzz
y Clustering)5a及び主題分類情報生成部(Subject
Generation)5bの処理内容については、後に、更に詳
しく説明する。
【0049】図1に戻って、6は同様に本発明の要部に
相当する検索結果提示部(Hit Windowと記す)であり、
この検索結果提示部(Hit Window)6では、前述の経過
により得られた情報(テキスト集合B、重心D、主題分
類情報C)を所定の表示態様に加工したのち、ユーザ
(Userと記す)7に対して提示する。それらの表示態様
についても、後に詳細に説明する。
【0050】尚、図1においては、実線により表された
本発明による情報の流れと破線により表された従来装置
による情報の流れとが同時に示されている。すなわち、
従来装置にあっては、検索結果提示部(Hit Window)6
では、破線矢印8に示されるように、検索の結果得られ
たテキスト集合Bをそのままユーザ7に提示するのみで
あり、この場合、テキスト集合Bに含まれるテキスト数
が多量の場合、目的とするテキストを探し出すのにユー
ザは不便を来す。これに対して、本発明にあっては、検
索結果提示部(Hit Window)6では、実線矢印9に示さ
れるように、検索の結果得られたテキスト集合Bのみな
らず、各分類の重心(Clustercentroids)D並びに主題
分類情報(Group Subject)Cまでもがユーザ7に提示
されることとなるため、特に、この主題分類情報(Grou
p Subject)Cを手掛かりとして、目的とするテキスト
を容易に探し出すことが可能となる。すなわち、実線矢
印10に示されるように、このようにして得られた主題
分類情報C(図2のC1,C2,C3に相当する)をそ
のままフィードバック検索質問(FeedBack Query)Cと
して検索質問入力部(Query Input)1に与えれば(図
2の実線矢印11に検索質問が分岐“Query Splitting"
する様子を示す)、テキスト集合4を的確に絞込み、目
的とするテキストを容易に探し出すことができ、すなわ
ち高度な適応検索(relevance feedback)を行わせるこ
とができるのである。
【0051】次に、以上概念的に説明したテキスト検索
装置を、さらにその画面表示態様及びそれを実現するた
めのデータ処理を中心として、図3以下の図面を参照し
て詳細に説明する。
【0052】本発明に係るテキスト検索装置におけるデ
ータ処理の全体を図3のゼネラルフローチャートに示
す。尚、このゼネラルフローチャートに示される処理
は、所定のシステムメニューにおいて、そのメニュー項
目のひとつを選択することにより起動される。
【0053】同図において処理が開始されると、検索装
置を構成する画像表示器の画面上には所定の表示態様に
より検索画面が表示される(ステップ301)。このよ
うにして表示される検索画面の一例を図4に示す。同図
に示されるように、表示画面は縦長長方形状のウィンド
ウW1により構成されており、その上部略3分の1の部
分は検索質問入力領域A1とされており、また下部略3
分の2の部分は検索結果出力領域A2とされている。
【0054】検索質問入力領域A1内には検索質問入力
用のウィンドウW2が設けされており、このウィンドウ
W2の上側には、入力ガイド文(Enter Query in plain
English)12が、またその右側には、前述した検索エ
ンジン(Search Engine)3に対する起動指令を与える
ための起動ボタン(図中OKと記す)13と、検索質問
(Query)を取り消すための取り消しボタン(図中CA
NCELと記す)14と、システムに対して操作支援等
を求めるためのヘルプボタン(図中HELPと記す)1
5とが設けられている。
【0055】検索結果出力領域A2内には検索結果出力
用のウィンドウW3が設けられており、このウィンドウ
W3の右側にはスクロールバー16が設けられている。
更に、この検索結果出力領域A2の下側には、検索結果
としてテキスト全文出力を要求するための全文要求ボタ
ン(図中Full Textと記す)17と、QBEボ
タン18と、検索結果の分類化を要求するための分類化
要求ボタン(図中Groupingと記す)19と、検
索結果としてテキスト抄録出力を要求するための抄録要
求ボタン(図中Summarizeと記す)20と、画
面を検索結果初期出力状態に戻すための復帰ボタン(図
中Backと記す)21とが設けられている。
【0056】尚、以上の各種のボタン13,14,1
5,16,17,18,19,20,21の操作は、カ
ーソルを希望のボタンに移動させた後、マウスのクリッ
ク操作等にて行われることは言うまでもない。
【0057】そして、入力ガイド文(Enter Query in p
lain English)12に従って、キーボードから検索質問
を自然語(特に、この例では英語)にて、例えば、“I
wantto know Clinton's political condition.”の如く
に入力すると、この入力された検索質問22はウィンド
ウW2内に表示されることとなる。
【0058】この状態において、起動ボタン(図中OK
と記す)13が操作されると、図3に戻って、検索/表
示処理が実行され、検索エンジン(Search Engine)3
が起動されて、検索質問に関連するテキスト集合4が文
書データベース2より抽出され、この抽出されたテキス
ト集合の各構成テキストは検索質問22との適合度の高
い順にソートされ、そのタイトル23のみがウィンドウ
W3内に表示される(ステップ302)。また、各テキ
ストのタイトル23の先頭部分には、当該テキストの検
索質問に対する適合度を三段階(『高』、『中』、
『低』)に区分して表す適合度マーク24a,24b,
24cが表示される。ここで、黒色塗り潰しの丸印にて
示される適合度マーク24aは適合度『高』に、灰色塗
り潰しの丸印にて示される適合度マーク24bは適合度
『中』に、白抜きの丸印にて示される適合度マーク24
cは適合度『低』にそれぞれ対応している。
【0059】以後、図3に戻って、システム側において
は文書処理機能の選択を待機する状態となる(ステップ
303)。この状態において、図4の画面に示される分
類化要求ボタン(Grouping)19が操作される
と、本発明の要部である分類化処理が実行される(ステ
ップ306)。
【0060】分類化処理の詳細を図5に示す。同図にお
いて処理が開始されると、所定の案内画面を提示するこ
とにより、分類グループ数gの指定を待機する状態とな
る(ステップ501)。この状態において、分類グルー
プ数gの指定(この例では『5』)が完了すると、本発
明の特徴部分である文書特徴量の抽出処理(ステップ5
02)、ファジイ・クラスタリング処理(Fuzzy Cluste
ringと記す)(ステップ503)、及び主題分類情報の
生成処理(ステップ504)が順に実行される。
【0061】文書特徴量の抽出処理(ステップ502)
では、次のようにして、文書抽象化と文書特徴ベクトル
の生成が行われる。文書は重み付けられた語の集合(語
を構成要素とするベクトル)によって表され、文書の集
合は語を構成要素とする行列として表される。そのた
め、各文書の特徴となる単語(重要語)を自動的に切り
出し、単語の種類を次元mとし、各要素が文書単位の単
語の出現頻度に比例するようなベクトル表現Fiを用い
ることによって、文書は数1の如くに抽象化される。
【0062】
【数1】 文書ベクトル集合の例を表1に示す。この例では、文書
集合の構成文書(F1,F2,F3…)のそれぞれに含
まれる重要語(Clinton,Singapore,China…)の重み
(例えば、頻度)が示されている。
【0063】
【表1】 表1に示される文書ベクトル集合を文書空間に展開した
例を図6に示す。この例では、前述の重要語(Clinton,
Singapore,China…)を座標軸とする文書空間に文書集
合の各構成文書(F1,F2,F3…)が展開されてい
る。
【0064】続くファジイ・クラスタリング処理(ステ
ップ503)では、検索結果としての文書集合の特徴行
列に対し、公知のFCM法を用いてファジイ・クラスタ
リングを行うことにより、次の2種類の分類情報(V
c,Ui)が生成される。
【0065】1) 各分類の代表文書特徴ベクトルVc
【数2】 2) 各文書の各分類カテゴリーへの所属度Ui
【数3】 文書分類所属度の例を表2に示す。この例では、各文書
の所属度(U1,U2,U3…)が各分類グループ(G
1,G2,G3…)毎に示されている。
【0066】
【表2】 続く分類主題情報の生成処理(ステップ504)では、
次の2種類の方式により、分類主題情報の生成が行われ
る。
【0067】1) キーワード方式 このキーワード方式は、各分類グループの主題を幾つか
のキーワードの組み合わせにより表現する方式であり、
その際に、キーワードの抽出には次の2種類の方式が考
えられる。第1の方式は、該当分類の代表文書ベクトル
Vcにおける重みの高い要素の単語を順番にk個抽出し
てそれらの単語をそのグループの主題を表す情報として
用いるものである。第2の方式は、該当分類の文書集合
に対して所属度の高い順にr個の文書ベクトルを選出
し、そのr個の文書ベクトル集合において出現文書数の
高いものから順にk個の単語を抽出して、そのグループ
の主題情報を表す情報として用いるものである。
【0068】2) テキスト方式 このテキスト方式では、上記のキーワード方式で主題情
報を生成するために選出されたr個の文書の先頭段落の
テキスト(タイトルを含む)に対し、キーワード方式で
得られたキーワード主題情報を利用して文単位で文字列
照合によりそれらのキーワードを最も多く所有するテキ
ストを抽出し、そのテキスト文をそのグループの主題情
報として用いるものである。
【0069】このようにして得られた各グループの主題
情報、すなわち分類主題情報(前述のキーワード群又は
タイトル文等)は、後述するように、所定の提示順番に
てユーザに提示されることとなる。ここで、検索された
文書iの検索質問に対する適合度をRi、分類グループ
の検索式への適合度をGRcとすると、両者間には数4
の関係が成立する。
【0070】
【数4】 ここで、数4に示された、グループcに対して所属度の
高い順に選出された文書数rc(c=1,…,g;g:
分類数)の求め方を図7のフローチャートに示す。同図
において、処理が開始されると、rcの初期化(rc=
0)を行ったのち(ステップ701)、文書iの所属度
の行データUiに対して最大の所属度が求められ(ステ
ップ702)、その最大値と対応しているグループcの
メンバ数rcが加算され(ステップ703)、以上の処
理(ステップ702,703)がiを+1づつ加算しつ
つ(ステップ704)、その加算値がi=n(文書数)
となるまで(ステップ705YES)繰り返されて、そ
の結果rcの値が最終的に求められることとなる。
【0071】このようにして、分類主題情報の生成(提
示順番の決定を含む)が完了すると(ステップ50
4)、求められた主題分類情報を用いた検索結果の動的
表示処理が開始される(ステップ505)。
【0072】検索結果の動的表示処理の詳細を図8のフ
ローチャートに示す。同図において処理が開始される
と、検索装置を構成する画像表示器の画面上に設定され
た検索結果出力領域A2は、図9又は図10に示される
ように、上下に2分割され、これにより主題分類情報表
示用ウィンドウ(Subject Window)W4と検索結果出力
用ウィンドウ(Hit Window)W5とが現れる。そして、
主題分類情報表示用ウィンドウ(Subject Window)W4
において、所定の表示態様により、各分類主題情報の提
示が行われる(ステップ801)。前述したように、こ
の各分類主題情報の提示は、キーワード方式とテキスト
方式とで行われる。
【0073】キーワード方式による表示画面の一例を図
9に示す。尚、この例では、検索されたテキスト集合が
5個の分類グループに分割されている。同図に示される
ように、主題分類情報表示用ウィンドウ(Subject Wind
ow)W4内には、その左縁部に沿うようにして、分類グ
ループ番号『1』〜分類グループ番号『5』に対応する
5個のグループボタン25〜29が上下一列に配置され
ており、それらのグループボタン25〜29の右側に
は、当該分類グループの主題を的確に表すキーワード群
30〜34が配列されている。この例では、分類グルー
プ番号『1』に対応するグループボタン25の右側に
は、キーワード群30として、“SINGAPORE;CANE;PUNIS
H;US”が表示されており、分類グループ番号『2』に対
応するグループボタン26の右側には、キーワード群3
1として、“DALAILAMA;MEET;CHINA;TIBET”が表示され
ており、分類グループ番号『3』に対応するグループボ
タン27の右側には、キーワード群32として、“MEE
T;LEADER;GOVERNMENT;OFFICIAL”が表示されており、分
類グループ番号『4』に対応するグループボタン28の
右側には、キーワード群33として、“NIXON;NATION;S
INGAPORE;DIRECTIVE”が表示されており、分類グループ
番号『5』に対応するグループボタン29の右側には、
キーワード群34として、“QUESTION;CHARACTER;PEOPL
E;POLITICS”が表示されている。
【0074】また、これらの主題分類情報は、先に求め
られた提示順番に従い、検索質問(Query)との適合度の
高いものから順に配列されている。すなわち、この例で
は、分類グループ番号『1』にて象徴される主題が最も
検索質問との適合度が高く、分類グループ番号『5』に
て象徴される主題が最も検索質問との適合度が低いこと
となる。従って、ユーザー7は主題分類情報表示用ウィ
ンドウ(Subject Window)W4内の表示順番から、自分
の探している情報に最も近い分類グループを容易に知る
ことができ、しかもそれぞれの内容を端的に表すキーワ
ード群30〜34の内容に基いて、各分類グループの主
題を大まかに確認することができる。そして、後に詳し
く説明するように、分類結果表示処理(ステップ80
2)を起動することにより、当初の検索質問に沿うよう
にして、検索絞り込みを効率よく行うことができる。
【0075】テキスト方式による表示画面の一例を図1
0に示す。尚、この例でも、検索されたテキスト集合が
5個の分類グループに分割されている。同図に示される
ように、主題分類情報表示用ウィンドウ(Subject Wind
ow)W4内には、その左縁部に沿うようにして、分類グ
ループ番号『1』〜分類グループ番号『5』に対応する
5個のグループボタン25〜29が上下一列に配置され
ており、それらのグループボタン25〜29の右側に
は、当該分類グループの主題を的確に表す短いテキスト
文35〜39が配列されている。この例では、分類グル
ープ番号『1』に対応するグループボタン25の右側に
は、テキスト文35として、“Clinton Protest Singap
ore Caning. Mulls Response ”が表示されており、分
類グループ番号『2』に対応するグループボタン26の
右側には、テキスト文36として、“Clinton Meets Wi
th Dalai Lama”が表示されており、分類グループ番号
『3』に対応するグループボタン27の右側には、テキ
スト文37として、“IndianLeader Meet Clinton”が
表示されており、分類グループ番号『4』に対応するグ
ループボタン28の右側には、テキスト文38として、
“Nixon Had LivingWill”が表示されており、分類グ
ループ番号『5』に対応するグループボタン29の右側
には、テキスト文39として、“Clinton News Confere
ns-Text”が表示されている。
【0076】また、これらの主題分類情報についても、
先に求められた提示順番に従い、検索質問(Query)との
適合度の高いものから順に配列されている。すなわち、
この例では、分類グループ番号『1』にて象徴される分
類グループの主題が最も検索質問との適合度が高く、分
類グループ番号『5』にて象徴される分類グループの主
題が最も検索質問との適合度が低いこととなる。従っ
て、ユーザー7は主題分類情報表示用ウィンドウ(Subj
ect Window)W4内の表示順番から、自分の探している
情報に最も近い分類グループを容易に知ることができ、
しかもそれぞれの内容を端的に表すテキスト文35〜3
9の内容に基いて、各分類グループの主題を大まかに確
認することができる。そして、後に詳しく説明するよう
に、分類結果表示処理(ステップ802)を起動するこ
とにより、当初の検索質問に沿うようにして、検索絞り
込みを効率よく行うことができる。
【0077】次に、先に説明したファジイ・クラスタリ
ングにより得られた各文書の各分類グループへの所属度
Uiを用いた、検索結果の最終表示のための処理につい
て詳細に説明する。尚、この例では、分類結果の最終表
示のためには3種類の処理が用意されており、これらの
処理は図9又は図10に示される画面において、グルー
プボタン25〜29のいずれか一つを操作することによ
り起動される(ステップ802)。
【0078】先に説明したように、本発明では検索結果
としての文書集合の特徴行列に対し、FCM法を用いて
ファジイ・クラスタリングを行い、それにより各文書の
各分類カテゴリーへの所属度Uiが求められている。今
仮に、5個の文書(001,002,003,004,
005)が存在し、それらの文書のそれぞれについて3
個の分類カテゴリ(カテゴリ1、カテゴリ2、カテゴリ
3)のそれぞれに対する所属度が表3の通りであると想
定する。
【0079】
【表3】 以上の前提の元に、ファジイ分類結果の3種類の表示処
理(1)〜(3)を説明する。
【0080】(1) 各文書の所属度の上位k個の分類
カテゴリーへ割り付ける場合 この表示処理にあっては、各文書(001〜005)は
所属度の高いものから順に選ばれたk個の分類カテゴリ
に割り当てられる。例えば、k=1とすると(2値化方
式)、文書(001)については最大所属度0.50で
あるカテゴリ1に、文書(002)については最大所属
度0.60であるカテゴリ1に、文書(003)につい
ては最大所属度0.80であるカテゴリ2に、文書(0
04)については最大所属度0.41であるカテゴリ3
に、文書(005)については最大所属度0.55であ
るカテゴリ3にそれぞれ割り付けられる。これを分類カ
テゴリ(G1,G2,G3)別に整理すると、 カテゴリG1=(001,002) ;N1=2 カテゴリG2=(003) ;N2=1 カテゴリG3=(004,005) ;N3=2 となり、分類グループG1に含まれる文書数N1は2
個、分類グループG2に含まれる文書数N2は1個、分
類グループ3に含まれる文書数N3は2個とされる。そ
して、このようにして各カテゴリに属することとされた
文書が、後に詳細に説明するように、グループ番号の指
定と共に検索結果出力用ウィンドウ(HitWindow)W5
内に表示されることとなる。
【0081】以上の表示処理(1)を実現するためのプ
ログラムの一例を図11に示す。同図において処理が開
始されると、k値の設定処理(ステップ1101)及び
i,c,Ncの初期化処理(ステップ1102)を実行
した後、文書iの所属度行データiに対するソート処理
(ステップ1103)、最大所属度データ値から順にk
個のグループ番号を抽出する処理(ステップ110
4)、及び該当するk個のグループに文書iを登録する
と同時にメンバ数を加算する処理(ステップ1105)
が、文書番号iがnになるまで繰り返され(ステップ1
106)、文書番号iがnに達すると各グループ毎の文
書割り付け結果を出力して処理が終了(ステップ110
7)する。
【0082】(2) ある閾値α以上の所属度値を有す
る分類カテゴリに割り付ける場合 この表示処理にあっては、各文書(001〜005)は
ある閾値α以上の所属度値を有する分類カテゴリに割り
付けられる。ここで、αとしては、例えば1/g(g:
分類数)とすることが考えられる。表3に示される例で
は、g=3、α=0.33となるため、文書(001)
については所属度値が0.33以上であるカテゴリ1
に、文書(002)については同様な理由でカテゴリ1
に、文書(003)については同様な理由でカテゴリ2
に、文書(004)については同様な理由でカテゴリ2
とカテゴリ3に、文書(005)については同様な理由
でカテゴリ1とカテゴリ3に割り付けられる。これを分
類カテゴリ(G1,G2,G3)別に整理すると、 カテゴリG1=(001,002,005) ;N1=3 カテゴリG2=(003,004) ;N2=2 カテゴリG3=(004,005) ;N3=2 となり、分類グループG1に含まれる文書数N1は3
個、分類グループG2に含まれる文書数N2は2個、分
類グループ3に含まれる文書数N3は2個とされる。そ
して、このようにして各カテゴリに属することとされた
文書が、後に詳細に説明するように、グループ番号の指
定と共に検索結果出力用ウィンドウ(HitWindow)W5
内に表示されることとなる。
【0083】以上の表示処理(2)を実現するためのプ
ログラムの一例を図12に示す。同図において処理が開
始されると、α値の設定処理(ステップ1201)及び
i,c,Ncの初期化処理(ステップ1202)を実行
した後、文書iの所属度行データiに対するuic>α
のグループ番号を抽出する処理(ステップ1203)、
該当する各グループに文書iを登録すると同時にメンバ
数を加算する処理(ステップ1204)が、文書番号i
がnになるまで繰り返され(ステップ1205)、文書
番号iがnに達すると各グループ毎の文書割り付け結果
を出力して処理が終了(ステップ1206)する。
【0084】(3) カテゴリの確率分布を考慮して分
類カテゴリに割り付ける場合 この表示処理にあっては、各文書(001〜005)は
カテゴリの確率分布を考慮して分類カテゴリに割り付け
られる。ここで、文書の分類カテゴリーの確率分布(P
c)は数5に従って求められ、また分類cの文書数Nc
は数6に従って求められる。
【0085】
【数5】
【数6】 表3に示される例では、P1=0.4、P2=0.2、
P3=0.4となり、またN(0.33)=7となるた
め、N1=2.8(約3)、N2=1.4(約1)、N
3=2.8(約3)となる。これを分類カテゴリ(G
1,G2,G3)別に整理すると、 カテゴリG1=(001,002,005) ;N1=2 カテゴリG2=(003) ;N2=1 カテゴリG3=(002,004,005) ;N3=2 となる。そして、このようにして各カテゴリに属するこ
ととされた文書が、後に詳細に説明するように、グルー
プ番号の指定と共に検索結果出力用ウィンドウ(Hit Wi
ndow)W5内に表示されることとなる。
【0086】以上の表示処理(3)を実現するためのプ
ログラムの一例を図13に示す。同図において処理が開
始されると、α値の設定処理(ステップ1301)、
i,c,Ncの初期化処理(ステップ1302)、文書
の分類カテゴリーの確率分布(Pc=rc/n)を求め
る処理(ステップ1303)、分類cの文書数のNcを
求める処理(ステップ1304)が順次に実行される。
その後、文書cの所属度列データuicに対するソート
処理(ステップ1305)、最大所属度値から順に対応
のNc個のメンバの文書番号を抽出する処理(ステップ
1306)、及び該当のグループcにNc個の文書を登
録する処理(ステップ1307)が、分類cが分類数g
になるまで繰り返され(ステップ1308NO)、分類
cが分類数gに達すると(ステップ1308YES)、
各グループ毎の文書割り付け結果を出力して処理が終了
する(ステップ1309)。
【0087】次に、以上説明した3種類の割り付け処理
(1)〜(3)のいずれかにて各分類グループに割り付
けられた文書が、表示画面上の検索結果出力用ウィンド
ウ(Hit Window)W5内にどのような態様で表示される
かを説明する。
【0088】図9に示される画面上において、いずれか
のグループボタン(この例では、グループボタン26)
が指定操作されると、上述した3種類の割り付け処理
(1)〜(3)のいずれかにて各分類グループに割り付
けられた文書に相当する短いテキスト文(この例ではタ
イトル等を含む当該テキストの先頭部分)40〜44
が、検索結果出力用ウィンドウ(Hit Window)W5内に
表示されることとなる(ステップ802)。
【0089】すなわち、この例では、キーワード群31
("DALAILAMA;MEET;CHINA;TIBET")にて象徴化される分
類グループ番号『2』が指定されたことにより、検索結
果出力用ウィンドウ(Hit Window)W5内には、これに
関連する5個のテキスト文40("Clinton Meets With
Dalai Lama)、テキスト文41("Clinton,Gore MeetDa
lai Lama on Tibetan Right)、テキスト文42("Chin
a Warns Clinton Notto Meet Dalai Lama")、テキスト
文43("Clinton May Meet Dalai Lama before China
Decision")、テキスト文44("Indian Leader Meet C
linton")が表示されている。しかも、これらのテキス
ト文40〜44は、図中『G』と記されたグループ適合
度順指定ボタン51が操作されていることから、当該指
定された分類グループ番号『2』で象徴化される分類グ
ループとの適合度の順に配列して表示されている。尚、
符号45,46はそれぞれその左側に位置するウィンド
ウW4,W5のスクロールバー、49は分類グループ数
の表示である。
【0090】更に、検索結果出力用ウィンドウ(Hit Wi
ndow)W5内において、各テキスト文40〜44のそれ
ぞれの先頭部分には、各テキスト文40〜44が当該分
類グループに対して有する適合度を3段階に表す3種類
の適合度マーク(47a,47b,47c)と、各テキ
スト文40〜44が当該検索質問22に対して有する適
合度を3段階に表す3種類の適合度マーク(48a,4
8b,48c)が表示されている。この例では、当該分
類グループとの適合度を表す適合度マーク(47a,4
7b,47c)は基本形状が雪印であり、適合度『高』
に相当する適合度マーク47aについてはその中心の小
円形部分を黒色塗り潰しに、適合度『中』に相当する適
合度マーク47bについてはその中心の小円形部分を灰
色塗り潰しに、更に適合度『低』に相当する適合度マー
ク47cについてはその中心の小円形部分を白抜きとし
ている。また、当該検索質問との適合度を表す適合度マ
ーク(48a,48b,48c)は基本形状が丸印であ
り、適合度『高』に相当する適合度マーク48aについ
ては黒色塗り潰しに、適合度『中』に相当する適合度マ
ーク48bについては灰色塗り潰しに、更に適合度
『低』に相当する適合度マーク48cについては白抜き
としている。
【0091】従って、この検索結果出力用ウィンドウ
(Hit Window)W5内の表示内容40〜44により、ユ
ーザー7は検索結果であるテキスト集合の中で分類グル
ープ番号『2』のグループに属するテキスト集合を、適
合度マーク(47a,47b,47c)を頼りとして、
該分類グループ『2』との適合度の高いものから順に確
認しつつ、目的とする情報を的確に見つけ出すことがで
きる。加えて、適合度マーク(48a,48b,48
c)を参照することにより、各テキスト文40〜44と
検索質問22との適合度も知ることができるため、双方
のマーク47,48を参考として、一層確実な検索絞り
込みを行うことができる。尚、図示されてはいないが、
図中『R』と記された検索質問適合度順指定ボタン50
が操作された場合には、図8において分類主題表示指定
処理(ステップ804)が実行されて、各テキスト文4
0〜44は当該検索質問22との適合度の順に配列され
て表示されることとなる。従って、検索質問適合度順指
定ボタン50とグループ適合度順指定ボタン51とのい
ずれを選択するかにより、各テキスト文40〜44の配
列を変更しつつ、検索結果を所望の検索方向に沿って確
認することができる。
【0092】一方、例えば図9に示される検索結果が表
示されている状態において、操作支援要求ボタン(HE
LP)15が操作されると、図8に戻って、主題表示オ
プション処理(ステップ805)が実行され、主題分類
情報表示用ウィンドウ(Subject Window)W4内の表示
は、図10に示されるように、前述のキーワード方式か
らテキスト方式へと切り替わる。そのため、キーワード
方式では当該分類グループの内容が把握しにくい場合で
も、このテキスト方式による主題分類情報の表示によれ
ば、当該分類グループにて象徴化される主題をより的確
に知ることができる。尚、各ウィンドウW4,W5内に
表示データが収まらない場合には、スクロールバー4
5,46の操作にて表示内容をスクロールしつつ確認で
きることは言うまでもない。
【0093】
【発明の効果】以上の説明で明らかなように、この発明
によれば、文書検索結果に対する確認を容易として、検
索効率の向上、並びに、検索漏れの防止による検索精度
の向上を図ることができ、しかも、提示された主題情報
がデータを如何に効率的に絞り込めるかの指針にもな
り、この付加された応答情報を利用して高度な適応検索
(Relevance Feedback)を行わせることができる。
【図面の簡単な説明】
【図1】本発明方法及び装置が適用されたテキスト検索
装置の構成を概念的に示すブロック図である。
【図2】ファジイ集合化部(Fuzzy Clustering)及び主
題分類情報生成部(Subject Generation)の作用を概念
的に示す説明図である。
【図3】本発明に係るテキスト検索装置の動作の全体を
概略的に示すゼネラルフローチャートである。
【図4】本発明に係るテキスト検索装置においてグルー
プ化処理を伴わない検索動作を実行させた状態を示す画
面説明図である。
【図5】本発明に係るテキスト検索装置における主題分
類情報の生成処理を中心として示すフローチャートであ
る。
【図6】本発明に係るテキスト検索装置における文書抽
象化と文書ベクトルの生成を概念的に示す説明図であ
る。
【図7】本発明に係るテキスト検索装置におけるグルー
プcのメンバ数rcを求めるための処理を示すフローチ
ャートである。
【図8】本発明に係るテキスト検索装置における主題分
類情報による検索結果の動的処理を示すフローチャート
である。
【図9】本発明に係るテキスト検索装置においてグルー
プ化処理を伴なう検索動作をキーワード方式にて実行さ
せた状態を示す画面説明図である。
【図10】本発明に係るテキスト検索装置においてグル
ープ化処理を伴なう検索動作をテキスト方式にて実行さ
せた状態を示す画面説明図である。
【図11】本発明に係るテキスト検索装置にて検索結果
をグループ別に表示するにおいて、各文書の所属度の上
位k個の分類カテゴリーへの割り付け処理を示すフロー
チャートである。
【図12】本発明に係るテキスト検索装置にて検索結果
をグループ別に表示するにおいて、α値以上の所属度値
をもつ分類カテゴリーへの割り付け処理を示すフローチ
ャートである。
【図13】本発明に係るテキスト検索装置にて検索結果
をグループ別に表示するにおいて、カテゴリーの確率分
布を考慮した分類カテゴリーへの割り値付け処理を示す
フローチャートである。
【符号の説明】
1 検索質問入力部 2 文書データベース 3 検索エンジン 4 抽出された関連テキスト集合 4a,4b,4c 分類グループ 5 加工処理部 5a ファジイ集合化部 5b 主題分類情報生成部 6 検索結果提示部 7 ユーザー 12 入力ガイド文 13 起動ボタン 14 取り消しボタン 15 ヘルプボタン 16 スクロールバー 17 全文要求ボタン 18 QBEボタン 19 分類化要求ボタン 20 抄録要求ボタン 21 復帰ボタン 22 検索質問 23 テキスト集合を構成する各テキストのタイ
トル 24a,24b,24c 適合度マーク 25〜29 グループボタン 30〜34 キーワード群 35〜39 テキスト文 40〜44 テキスト文 45,46 スクロールバー 49 分類グループ数の表示 47a,47b,47c グループ毎の適合度マー
ク 48a,48b,48c 検索質問に対する適合度
マーク 49 分類グループ数の表示 50 検索質問適合度順指定ボタン 51 グループ適合度順指定ボタン A オリジナル検索質問 B 抽出された各構成テキスト Ca,Cb,Cc 主題分類情報 Da,Db,Dc グループの重心 A1 検索質問入力領域 A2 検索結果出力領域 W2 検索質問入力用のウィンドウ W3 検索結果出力用のウィンドウ W4 主題分類情報表示用ウィンドウ W5 検索結果出力用ウィンドウ

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 与えられた検索条件に基いてデータベー
    スを検索することにより得られたテキスト集合を各テキ
    ストの主題分析結果を用いて自動的に複数個のグループ
    に分割する分割ステップと、 前記分割ステップによって得られた各グループのそれぞ
    れについて、当該グループの属性を表現する主題分類情
    報を生成する生成ステップと、 前記生成ステップで求めた各グループの主題分類情報を
    グループ別に区分して表示する表示ステップとを具備す
    る、 ことを特徴とするテキスト検索結果表示方法。
  2. 【請求項2】 与えられた検索条件に基いてデータベー
    スを検索することにより得られたテキスト集合を各テキ
    ストの主題分析結果を用いて自動的に複数個のグループ
    に分割する分割ステップと、 前記分割ステップによって得られた各グループのそれぞ
    れについて、当該グループの属性を表現する主題分類情
    報を生成する生成ステップと、 前記各グループのそれぞれについて、そのグループと前
    記検索条件との間の適合度を求めるグループ適合度算出
    ステップと、 前記生成ステップで求めた各グループの主題分析情報
    を、前記適合度算出ステップによって求めた適合度の大
    きい順に、グループ別に区分して表示する表示ステップ
    とを具備する、 ことを特徴とするテキスト検索結果表示方法。
  3. 【請求項3】 与えられた検索条件に基いてデータベー
    スを検索することにより得られたテキスト集合を各テキ
    ストの主題分析結果を用いて自動的に複数個のグループ
    に分割する分割ステップと、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの当該グループに対する所属度を算出す
    る所属度算出ステップと、 前記複数個のグループの中で、テキスト表示対象となる
    グループを選択するための選択ステップと、 前記選択ステップで選択されたグループ内のテキストを
    前記算出された所属度の順に内容表示する表示ステップ
    とを具備する、 ことを特徴とするテキスト検索結果表示方法。
  4. 【請求項4】 与えられた検索条件に基いてデータベー
    スを検索することにより得られたテキスト集合を各テキ
    ストの主題分析結果を用いて自動的に複数個のグループ
    に分割する分割ステップと、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの前記検索条件に対する適合度を算出す
    る適合度算出ステップと、 前記複数個のグループの中で、テキスト表示対象となる
    グループを選択するための選択ステップと、 前記選択ステップで選択されたグループ内のテキストを
    前記算出された適合度の順に内容表示する表示ステップ
    とを具備する、 ことを特徴とするテキスト検索結果表示方法。
  5. 【請求項5】 与えられた検索条件に基いてデータベー
    スを検索することにより得られたテキスト集合を各テキ
    ストの主題分析結果を用いて自動的に複数個のグループ
    に分割する分割ステップと、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの当該グループに対する所属度を算出す
    る所属度算出ステップと、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの前記検索条件に対する適合度を算出す
    る適合度算出ステップと、 前記複数個のグループの中で、テキスト表示対象となる
    グループを選択するための表示対象グループ選択ステッ
    プと、 前記各グループ内のテキストを検索条件への適合度順に
    表示するか、或いは当該グループへの所属度の順に表示
    するかを選択するための表示順序基準選択手段と、 前記表示対象グループ選択ステップで選択されたグルー
    プ内のテキストを前記表示順序基準選択手段にて選択さ
    れた表示順序基準の順に内容表示する表示ステップとを
    具備する、 ことを特徴とするテキスト検索結果表示方法。
  6. 【請求項6】 前記分割ステップは、与えられた検索条
    件に基いてデータベースを検索することにより得られた
    テキスト集合を、ファジイ・クラスタリング法を用いて
    複数個のグループに分割する、 ことを特徴とする請求項1乃至請求項5のいずれかに記
    載のテキスト検索結果表示方法。
  7. 【請求項7】 前記生成ステップにて生成される当該グ
    ループの属性を表現する主題分類情報は、当該グループ
    の属性を幾つかのキーワードの組により表すものであ
    る、 ことを特徴とする請求項1若しくは請求項2のいずれか
    に記載のテキスト検索結果表示方法。
  8. 【請求項8】 前記生成ステップにて生成される当該グ
    ループの属性を表現する主題分類情報は、当該部ループ
    の属性を短い文章により表すものである、 ことを特徴とする請求項1若しくは請求項2のいずれか
    に記載のテキスト検索結果表示方法。
  9. 【請求項9】 与えられた検索条件に基いてデータベー
    スを検索することにより得られたテキスト集合の特徴行
    列に対してファジイ・クラスタリングを行い、各文書毎
    に各分類カテゴリーへの所属度を生成する所属度生成ス
    テップと、 前記生成された所属度を用いて、各文書を1若しくは2
    以上の分類カテゴリーに割り付ける文書割り付けステッ
    プと、 前記複数個の分類カテゴリーの中で、テキスト表示対象
    となる分類カテゴリーを選択するための分類カテゴリー
    選択ステップと、 前記分類カテゴリー選択ステップで選択された分類カテ
    ゴリー内のテキストをそのグループに対する適合度の順
    に内容表示する表示ステップとを具備する、 ことを特徴とするテキスト検索結果表示方法。
  10. 【請求項10】 前記文書割り付けステップは、各文書
    をその所属度の上位k個の分類カテゴリーに割り付け
    る、 ことを特徴とする請求項9に記載のテキスト検索結果表
    示方法。
  11. 【請求項11】 前記文書割り付けステップは、各文書
    をある閾値α以上の所属度値を有する分類カテゴリーに
    割り付ける、 ことを特徴とする請求項9に記載のテキスト検索結果表
    示方法。
  12. 【請求項12】 前記文書割り付けステップは、各文書
    をカテゴリーの確率分布を考慮して分類カテゴリーに割
    り付ける、 ことを特徴とする請求項9に記載のテキスト検索結果表
    示方法。
  13. 【請求項13】 与えられた検索条件に基いてデータベ
    ースを検索することにより得られたテキスト集合を各テ
    キストの主題分析結果を用いて自動的に複数個のグルー
    プに分割する分割手段と、 前記分割手段によって得られた各グループのそれぞれに
    ついて、当該グループの属性を表現する主題分類情報を
    生成する生成手段と、 前記生成手段で求めた各グループの主題分類情報をグル
    ープ別に区分して表示する表示手段とを具備する、 ことを特徴とするテキスト検索結果表示装置。
  14. 【請求項14】 与えられた検索条件に基いてデータベ
    ースを検索することにより得られたテキスト集合を各テ
    キストの主題分析結果を用いて自動的に複数個のグルー
    プに分割する分割手段と、 前記分割手段によって得られた各グループのそれぞれに
    ついて、当該グループの属性を表現する主題分類情報を
    生成する生成手段と、 前記各グループのそれぞれについて、そのグループと前
    記検索条件との間の適合度を求めるグループ適合度算出
    手段と、 前記生成手段で求めた各グループの主題分析情報を、前
    記適合度算出手段によって求めた適合度の大きい順に、
    グループ別に区分して表示する表示手段とを具備する、 ことを特徴とするテキスト検索結果表示装置。
  15. 【請求項15】 与えられた検索条件に基いてデータベ
    ースを検索することにより得られたテキスト集合を各テ
    キストの主題分析結果を用いて自動的に複数個のグルー
    プに分割する分割手段と、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの当該グループに対する所属度を算出す
    る所属度算出手段と、 前記複数個のグループの中で、テキスト表示対象となる
    グループを選択するための選択手段と、 前記選択手段で選択されたグループ内のテキストを前記
    算出された所属度の順に内容表示する表示手段とを具備
    する、 ことを特徴とするテキスト検索結果表示装置。
  16. 【請求項16】 与えられた検索条件に基いてデータベ
    ースを検索することにより得られたテキスト集合を各テ
    キストの主題分析結果を用いて自動的に複数個のグルー
    プに分割する分割手段と、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの前記検索条件に対する適合度を算出す
    る適合度算出手段と、 前記複数個のグループの中で、テキスト表示対象となる
    グループを選択するための選択手段と、 前記選択手段で選択されたグループ内のテキストを前記
    算出された適合度の順に内容表示する表示手段とを具備
    する、 ことを特徴とするテキスト検索結果表示装置。
  17. 【請求項17】 与えられた検索条件に基いてデータベ
    ースを検索することにより得られたテキスト集合を各テ
    キストの主題分析結果を用いて自動的に複数個のグルー
    プに分割する分割手段と、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの当該グループに対する所属度を算出す
    る所属度算出手段と、 前記グループ内の各テキストの内容の分析結果に基い
    て、各テキストの前記検索条件に対する適合度を算出す
    る適合度算出手段と、 前記複数個のグループの中で、テキスト表示対象となる
    グループを選択するための表示対象グループ選択手段
    と、 前記各グループ内のテキストを検索条件への適合度順に
    表示するか、或いは当該グループへの所属度の順に表示
    するかを選択するための表示順序基準選択手段と、 前記表示対象グループ選択手段で選択されたグループ内
    のテキストを前記表示順序基準選択手段にて選択された
    表示順序基準の順に内容表示する表示手段とを具備す
    る、 ことを特徴とするテキスト検索結果表示装置。
  18. 【請求項18】 前記分割手段は、与えられた検索条件
    に基いてデータベースを検索することにより得られたテ
    キスト集合を、ファジイ・クラスタリング法を用いて複
    数個のグループに分割する、 ことを特徴とする請求項13乃至請求項17のいずれか
    に記載のテキスト検索結果表示装置。
  19. 【請求項19】 前記生成手段にて生成される当該グル
    ープの属性を表現する主題分類情報は、当該グループの
    属性を幾つかのキーワードの組により表すものである、 ことを特徴とする請求項13若しくは請求項14のいず
    れかに記載のテキスト検索結果表示装置。
  20. 【請求項20】 前記生成手段にて生成される当該グル
    ープの属性を表現する主題分類情報は、当該グループの
    属性を短い文章により表すものである、 ことを特徴とする請求項13若しくは請求項14のいず
    れかに記載のテキスト検索結果表示装置。
  21. 【請求項21】 与えられた検索条件に基いてデータベ
    ースを検索することにより得られたテキスト集合の特徴
    行列に対してファジイ・クラスタリングを行い、各文書
    毎に各分類カテゴリーへの所属度を生成する所属度生成
    手段と、 前記生成された所属度を用いて、各文書を1若しくは2
    以上の分類カテゴリーに割り付ける文書割り付け手段
    と、 前記複数個の分類カテゴリーの中で、テキスト表示対象
    となる分類カテゴリーを選択するための分類カテゴリー
    選択手段と、 前記分類カテゴリー選択手段で選択された分類カテゴリ
    ー内のテキストをそのグループに対する適合度の順に内
    容表示する表示手段とを具備する、 ことを特徴とするテキスト検索結果表示装置。
  22. 【請求項22】 前記文書割り付け手段は、各文書をそ
    の所属度の上位k個の分類カテゴリーに割り付ける、 ことを特徴とする請求項21に記載のテキスト検索結果
    表示装置。
  23. 【請求項23】 前記文書割り付け手段は、各文書をあ
    る閾値α以上の所属度値を有する分類カテゴリーに割り
    付ける、 ことを特徴とする請求項21に記載のテキスト検索結果
    表示装置。
  24. 【請求項24】 前記文書割り付け手段は、各文書をカ
    テゴリーの確率分布を考慮して分類カテゴリーに割り付
    ける、 ことを特徴とする請求項21に記載のテキスト検索結果
    表示装置。
JP8058391A 1996-02-20 1996-02-20 テキスト検索結果表示方法及び装置 Pending JPH09231238A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8058391A JPH09231238A (ja) 1996-02-20 1996-02-20 テキスト検索結果表示方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8058391A JPH09231238A (ja) 1996-02-20 1996-02-20 テキスト検索結果表示方法及び装置

Publications (1)

Publication Number Publication Date
JPH09231238A true JPH09231238A (ja) 1997-09-05

Family

ID=13083057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8058391A Pending JPH09231238A (ja) 1996-02-20 1996-02-20 テキスト検索結果表示方法及び装置

Country Status (1)

Country Link
JP (1) JPH09231238A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11126212A (ja) * 1997-10-24 1999-05-11 Fujitsu Ltd 特徴量選択装置
JPH11289450A (ja) * 1997-10-13 1999-10-19 Matsushita Electric Ind Co Ltd ファジィ推論方法及びその装置、画像作成方法及びその装置
JP2001273302A (ja) * 2000-03-23 2001-10-05 Toshiba Corp 画像検索システムおよび画像検索方法
US6505195B1 (en) 1999-06-03 2003-01-07 Nec Corporation Classification of retrievable documents according to types of attribute elements
JP2004192434A (ja) * 2002-12-12 2004-07-08 Seiko Epson Corp 文書抽出装置及び文書抽出プログラム並びに文書抽出方法
JP2009003814A (ja) * 2007-06-22 2009-01-08 National Institute Of Information & Communication Technology 質問応答方法及びシステム
WO2009025193A1 (ja) * 2007-08-21 2009-02-26 Nec Corporation 情報共有システム、情報共有方法、および情報共有プログラム
JP2009104630A (ja) * 2004-01-09 2009-05-14 Microsoft Corp 大規模な電子的なドキュメントのコレクション(集まり)を探索するためのドキュメント関連性の決定に対する機械学習アプローチ
JP2010140200A (ja) * 2008-12-10 2010-06-24 Yahoo Japan Corp クリックログを用いた検索結果分類装置及び方法
USRE42262E1 (en) 1999-08-30 2011-03-29 Frederick Monocacy Llc Method and apparatus for representing and navigating search results
CN102612691A (zh) * 2009-09-18 2012-07-25 莱克西私人有限公司 给文本评分的方法和系统
JP2013047960A (ja) * 2005-09-08 2013-03-07 Eastman Kodak Co デジタルマルチメディアオブジェクトのセットを提示する方法
JP2013080465A (ja) * 2011-09-23 2013-05-02 Boeing Co:The 情報解析及び活動計画立案における連想記憶技術
JP2013516015A (ja) * 2009-12-29 2013-05-09 エヌエイチエヌ コーポレーション 検索結果提供システム及び方法
JP2014522540A (ja) * 2012-02-09 2014-09-04 テンセント テクノロジー (シェンツェン) カンパニー リミテッド マイクロブログのシーケンシング、検索、表示方法及びシステム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11289450A (ja) * 1997-10-13 1999-10-19 Matsushita Electric Ind Co Ltd ファジィ推論方法及びその装置、画像作成方法及びその装置
JPH11126212A (ja) * 1997-10-24 1999-05-11 Fujitsu Ltd 特徴量選択装置
US6505195B1 (en) 1999-06-03 2003-01-07 Nec Corporation Classification of retrievable documents according to types of attribute elements
USRE44794E1 (en) 1999-08-30 2014-03-04 Frederick Monocacy Llc Method and apparatus for representing and navigating search results
USRE42262E1 (en) 1999-08-30 2011-03-29 Frederick Monocacy Llc Method and apparatus for representing and navigating search results
JP2001273302A (ja) * 2000-03-23 2001-10-05 Toshiba Corp 画像検索システムおよび画像検索方法
JP2004192434A (ja) * 2002-12-12 2004-07-08 Seiko Epson Corp 文書抽出装置及び文書抽出プログラム並びに文書抽出方法
US7266554B2 (en) 2002-12-12 2007-09-04 Seiko Epson Corporation Document extracting device, document extracting program, and document extracting method
JP2009104630A (ja) * 2004-01-09 2009-05-14 Microsoft Corp 大規模な電子的なドキュメントのコレクション(集まり)を探索するためのドキュメント関連性の決定に対する機械学習アプローチ
JP2013047960A (ja) * 2005-09-08 2013-03-07 Eastman Kodak Co デジタルマルチメディアオブジェクトのセットを提示する方法
JP2009003814A (ja) * 2007-06-22 2009-01-08 National Institute Of Information & Communication Technology 質問応答方法及びシステム
WO2009025193A1 (ja) * 2007-08-21 2009-02-26 Nec Corporation 情報共有システム、情報共有方法、および情報共有プログラム
JP2010140200A (ja) * 2008-12-10 2010-06-24 Yahoo Japan Corp クリックログを用いた検索結果分類装置及び方法
CN102612691A (zh) * 2009-09-18 2012-07-25 莱克西私人有限公司 给文本评分的方法和系统
JP2013516015A (ja) * 2009-12-29 2013-05-09 エヌエイチエヌ コーポレーション 検索結果提供システム及び方法
US9201951B2 (en) 2009-12-29 2015-12-01 Nhn Corporation System and method for providing search results
JP2013080465A (ja) * 2011-09-23 2013-05-02 Boeing Co:The 情報解析及び活動計画立案における連想記憶技術
JP2014522540A (ja) * 2012-02-09 2014-09-04 テンセント テクノロジー (シェンツェン) カンパニー リミテッド マイクロブログのシーケンシング、検索、表示方法及びシステム
US9785677B2 (en) 2012-02-09 2017-10-10 Tencent Technology (Shenzhen) Company Limited Method and system for sorting, searching and presenting micro-blogs

Similar Documents

Publication Publication Date Title
US6598043B1 (en) Classification of information sources using graph structures
USRE43753E1 (en) Graphic user interface for database system
JP3577819B2 (ja) 情報探索装置及び情報探索方法
JP4238220B2 (ja) テキスト及び画像の意味解釈のためのグラフィカル・フィードバック
US20090083230A1 (en) Apparatus and method for supporting information searches
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20030014398A1 (en) Query modification system for information retrieval
JPH09231238A (ja) テキスト検索結果表示方法及び装置
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
WO2000054185A1 (en) Method and apparatus for building a user-defined technical thesaurus using on-line databases
US20210311998A1 (en) Computer-implemented system and method for analyzing clusters of coded documents
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
WO2003032199A2 (en) Classification of information sources using graph structures
JP4084647B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
JP2001282819A (ja) データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム
JP4305836B2 (ja) コンテンツ検索表示装置およびコンテンツ検索表示方法
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2000020538A (ja) 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
JP2002324077A (ja) 文書検索装置および文書検索方法
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP4496797B2 (ja) 文書管理装置および方法
KR100905029B1 (ko) 이동통신수단으로의 지식정보 제공방법과 그 시스템
US20080228725A1 (en) Problem/function-oriented searching method for a patent database system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees