JP4463925B2 - インデックス生成装置及びその方法、記憶媒体 - Google Patents

インデックス生成装置及びその方法、記憶媒体 Download PDF

Info

Publication number
JP4463925B2
JP4463925B2 JP2000048525A JP2000048525A JP4463925B2 JP 4463925 B2 JP4463925 B2 JP 4463925B2 JP 2000048525 A JP2000048525 A JP 2000048525A JP 2000048525 A JP2000048525 A JP 2000048525A JP 4463925 B2 JP4463925 B2 JP 4463925B2
Authority
JP
Japan
Prior art keywords
search
unit
segment
index
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000048525A
Other languages
English (en)
Other versions
JP2000339347A (ja
JP2000339347A5 (ja
Inventor
史朗 伊藤
紀子 大谷
憲一 藤井
隆也 上田
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000048525A priority Critical patent/JP4463925B2/ja
Publication of JP2000339347A publication Critical patent/JP2000339347A/ja
Publication of JP2000339347A5 publication Critical patent/JP2000339347A5/ja
Application granted granted Critical
Publication of JP4463925B2 publication Critical patent/JP4463925B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書からインデックスを作成するインデックス作成装置及びその方法、また、入力された検索文字列を含む文書を検索する文書検索装置及びその方法、文書検索システム、記憶媒体に関するものである。
【0002】
【従来の技術】
一般に、文書検索装置では、与えられた検索キーを含む文書を検索結果として提示する。検索結果には検索条件に対する適合度によってスコアが付けられ、スコアの高い文書が検索結果文書として提示される。
【0003】
【発明が解決しようとする課題】
しかしながら、上記従来の装置では、WWW上の文書を対象とする検索において検索結果文書の内容を閲覧する際、文書全体が表示されるため、文書が長い場合や文書に複数の話題が含まれている場合には、検索条件に適合する箇所を見つけるのが困難であるという欠点があった。
【0004】
WWW上の文書では、一文書に複数の情報が盛り込まれている場合が多く、一覧できない長さの文書も存在する。検索結果として得られた文書からほしい情報を得るためには、検索条件に適合した部分を文書中から探さなくてはならない。
【0005】
そこで、検索結果文書に検索条件に適合しない情報が含まれていると、目的の情報が見つかりにくい。
【0006】
また、携帯端末など、表示画面の小さい機器で結果を閲覧する場合には、特に一覧性が低いので、欲しい情報のみを提示する必要がある。
【0007】
本発明は、上記の問題に鑑みて成されたものであり、構造と内容からHTML文書をセグメントに分割し、与えられた検索キーを含むセグメントを検索結果として提示することで、検索条件に適合した文書の部分を検索結果とする文書検索装置及び方法等を提供することを目的とする。
【0008】
また、本発明は、セグメントのように細かい単位の検索から始めて、検索結果の数に応じて検索の単位を大きくしていくことで、複数の検索単位を自動的に使い分ける文書検索を実現した文書検索装置及び方法等を提供することを目的とする。
【0009】
また、本発明は、意図する検索結果を容易に得ることができる文書検索装置及びその方法等を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明は、上記課題に鑑みてなされたものであり、以下の装置によって解決できる。
【0011】
タグ文字を含む被検索文書の検索用インデックスを生成するインデックス生成装置であって、
保持手段に保持されている前記被検索文書から、該被検索文書が前記タグ文字、句点、改行、及び、改段落のうち複数の種類の文字を含む区切り文字で区切られている複数のセグメントのうち、該被検索文書に含まれる画像データを含むイメージセグメントを抽出する第1抽出手段と、
前記被検索文書における前記イメージセグメント当該検索文書に含まれるテキストを含むテキストセグメントとを区切る前記区切り文字の種類、及び、該被検索文書の中で前記イメージセグメントの前方もしくは後方の何れに当該テキストセグメントがあるかに基いて、当該テキストセグメントが当該イメージセグメントと関連性があるかを判断する判断手段と、
前記判断手段で関連性があると判断された複数のテキストセグメントを抽出する第2抽出手段と、
前記第2抽出手段が抽出したテキストセグメントのすべてのテキスト結合して、1つのセグメントとすることにより統合した被検索セグメントを生成する統合手段と、
前記被検索セグメントに出現するテキストを検索キーとし、前記第1抽出手段で抽出したイメージセグメントに含まれる前記画像データを当該検索キーに対応づけた検索結果とする前記検索用インデックスを生成するインデックス生成手段と
を備えることを特徴とするインデックス生成装置。
【0015】
【発明の実施の形態】
(第1の実施形態)
以下、添付の図面を参照して本発明の好適な実施形態を詳細に説明する。
【0016】
図1は、本実施形態のテキスト検索装置の機能構成を示すブロック図である。
【0017】
同図において、101は被検索文書を保持する被検索文書保持部である。102は被検索文書保持部101に保持されている被検索文書をHTMLのタグに従って分割するHTML文書分割部である。ここでは、被検索文書であるHTML文書から本文(<BODY>)と(</BODY>の間)を抜き出し、コメント(<!--...-->)やメタダグ(<META...>)など、検索の対象とならない部分を除去した後に、予め定義された箇所で分割してセグメントを生成する。
【0018】
分割する箇所の例を図2に示す。セグメントは、セグメント番号(ID)、セグメントの内容をHTMLで表現したテキスト(HTML)、HTMLからタグを取ったテキスト(TEXT)、補助情報(INFO)、イメージ情報(IMG)からなる。図3のHTML文書から生成したセグメントの例を図4に示す。但し、図3の行頭の数字は、セグメント番号を表す。
【0019】
103はHTML文書分割部102により生成されたセグメントを保持する第1次セグメント保持部である。104は第1次セグメント保持部103により保持されているセグメントで、イメージ(<IMG...>)と隣接するセグメントとの関連度を算出し、第2次セグメントを生成するイメージ処理部である。関連度はイメージの位置(テキストの回り込みの有無)と前後の改行・改段落の有無により決める。厳密に言えば、前後のセグメント全体について種別を判定するのではなく、前後のセグメントを構成する行のうち、画像セグメントに隣接した1行ずつの種別を検出して関連度を判別する。
【0020】
関連度の規則の例を図5に示す。関連度がMの場合には、イメージのセグメントを隣接するセグメントと統合する。関連度がA,B,Cの場合には、隣接するセグメントのIMGにイメージのセグメントのIDと関連度に相当するスコアを付加する。なお、図5において、「改行(又は改段落)+テキスト」とは、
<IMG SRC=・・・・・>
(又は<p>)(任意のテキスト)
という構成を指す。
【0021】
図3のHTML文書の例では、セグメント7である<IMG SRC="line.gif">の前セグメント6の隣接行がテキスト+改段落、後のセグメント8の隣接行がテキストなので関連度はXMとなる。そのため、セグメント7は関連度がMのセグメント8に統合される。一方、セグメント5である<IMG SRC="theme.gif" ALIGN=right>は、セグメント4がその他、セグメント6の隣接行がテキストであるから、図5の表(b)から関連度はXAとなり、関連度Aであるセグメント6のイメージ情報IMGにID(セグメント5)とスコア(3)を付加する。イメージ処理後のセグメント6とセグメント8を図6に示す。
【0022】
105は、イメージ処理部104により生成されたセグメントを保持する第2次セグメント保持部である。106は第2次セグメント保持部105により保持されているセグメントに対して、見出し(<Hn...>...</Hn>)に関連する処理を行ない、第3次セグメントを生成する見出し処理部である。見出しに関する処理は以下の手順で行なう。
1.見出しのセグメントをピックアップ。
2.初めに大きい見出し(<H1...>...</H1>)があれば、全てのセグメントのINFOに見出しを追加する。
3.見出しの範囲を決定し、その範囲にあるセグメントのINFOに見出しを追加する。見出しが複数ある場合には、大きい見出しからセパレータ(例えば”/”とする)で区切って順に並べる。
4.見出しの範囲にあるセグメントのHTMLに一番小さい見出しを追加する。
5.同じ見出しの範囲にあるイメージ(統合されていないもの)のセグメント番号とスコアをIMGに追加する。
6.見出しのセグメントを削除する。
【0023】
すなわち、図3のHTML文書の例では、見出し処理部106においてそれぞれ次のような処理が行なわれる。
1.見出しタグ<Hn></Hn>を含むセグメント1,2,4,9,10,12がピックアップされる。
2.全てのセグメントのINFOにタグ<H1>、</H1>で挟まれた見出し“○×研究室のホームページ”を追加する。
3.セグメント2の範囲はセグメント3、セグメント4の範囲はセグメント5,6,7,8、セグメント9の範囲はセグメント10,11,12,13、セグメント10の範囲はセグメント11、セグメント12の範囲はセグメント13となる。見出しの範囲に入っているセグメントのINFOに見出しを追加する。例えば、セグメント8のINFOにはセグメント4の“研究テーマ”が追加され、セグメント11のINFOにはセグメント9及びセグメント10の“学会発表/1998年”が追加される。
4.例えば、セグメント8のHTMLには“<H2>研究テーマ</H2>”が追加され、また、セグメント11のHTMLには“<H3>1998年</H3>”が追加される。
5.セグメント8のIMGに“セグメント5,スコア1”を追加する。
6.セグメント1,2,4,9,10,12を削除する。
【0024】
見出し処理後のセグメント8とセグメント11を図7に示す。
【0025】
107は見出し処理部106により生成されたセグメントを保持する第3次セグメント保持部である。108は第3次セグメント保持部107により保持されているセグメントのうち、サイズがある一定の閾値以上のセグメントを語の出現状況から分割する結束性処理部である。
【0026】
ここではまず、句点や改行を目安に、処理対象セグメントのTEXTを文に分割し、形態素解析により文中の語を抽出して、2文間の結束度を求める。文uの中の語で文vにも出現する語の数をxとすると、文uと文vの語彙的結束度は定数λを用いて以下の式で定義される。
【0027】
w(u,v)=exp{λx}
【0028】
また、評価関数Eを定数α,βを用いて以下のように定義する。
【0029】
【外1】
Figure 0004463925
【0030】
ここで、語彙的結束度を求める際の定数λ、評価関数Eの定数α、βは正の値から適宜選択することができ、例えばλ=5、α=β=1とすることができる。評価関数はある文の組み合わせを行った場合の全体の評価関数であり、この評価関数を用いて段落を関連性の高い文(又は隣接する文の集合)に分割するkとができる。具体的には、初めは1文を1段落とし、隣接する1組の段落を併合した時の評価関数Eをそれぞれ求めて、その時の評価関数が併合前よりも最も増加する段落を併合する。評価関数が改善されなくなるまで、この操作を繰り返し行なう。
【0031】
ここで、あるセグメントのTEXTが、A〜Eの5つの文から構成される場合を例にして、結束性処理部の動作について詳しく説明する。
(1)文章を結合しない状態(A,B,C,D,E)での評価関数値E(E0とする)を求める。すなわち、評価関数において、Pj={Sj}とした状態でのEを求める。
(2)隣接した文を結合した場合のEを求める。すなわち、文Aと文Bを結合した文書をA+Bと記載すると、
A+B,C,D,Eとした場合の評価関数値(E1とする)、
A,B+C,D,Eとした場合の評価関数値(E2とする)、
A,B,C+D,Eとした場合の評価関数値(E3とする)、
A,B,C,D+Eとした場合の評価関数値(E4とする)をそれぞれ求める。
(3)E1〜E4のうち、最も大きなもの(ここではE2とする)がE0より大きければ(E2>E0ならば)、そのEが得られた状態に文書を結合する。つまり、文Bと文Cを結合し、A,B+C,D,Eという構成にする。
(4)再び、隣接した文(又は結合された文)を結合した場合の評価関数値を求める。すなわち、
A+B+C,D,Eとした場合の評価関数値(E5とする)、
A,B+C+D,Eとした場合の評価関数値(E6とする)、
A,B+C,D+Eとした場合の評価関数値(E7とする)をそれぞれ求める。
(5)E2に対し、増加が最も大きい評価関数値が得られた構成(E7とする)にする。すなわち、文Dと文Eを結合し、A,B+C,D+Eという構成にする。
(6)さらに隣接した文(又は結合された文)を結合した場合の評価関数値を求める。すなわち、
A+B+C,D+Eとした場合の評価関数値(E8とする)、
A,B+C+D+Eとした場合の評価関数値(E9とする)をそれぞれ求める。
(7)併合前(この場合はE7)と比較し、最も増加が大きい構成にする。変化がなければ、確定。この例の場合、E8,E9ともE7と変化がないとすると、結果としてE7が得られたA,B+C,D+Eという3つの文(又は段落)に分割される。
【0032】
このようにして分割された文(又は段落)は、それぞれ、内容的に関連の強い文の集まりになる。
【0033】
109は結束性処理部108により生成されたセグメントを保持する被検索セグメント保持部である。
【0034】
110は被検索セグメント保持部109に保持されている被検索セグメントに対して、検索を高速に行なうためのインデックスを作成するインデックス作成部である。インデックスは、各セグメントのTEXTとINFOについて別々に作成される。111は被検索セグメント保持部109に保持されている被検索セグメントのTEXTに対して、インデックス作成部110により作成されたインデックスを保持するインデックス保持部である。112は被検索セグメント保持部109に保持されている被検索セグメントのINFOに対して、インデックス作成部110により作成された補助インデックスを保持する補助インデックス保持部である。113は検索を行なう文字列を保持する検索キー保持部である。
【0035】
114はインデックス保持部111に保持されているインデックスを用いて、検索キー保持部113に保持されている検索文字列に一致する文字列を検索する検索部である。検索結果は検索条件への適合度によりランキングされる。適合度には、検索キーの出現回数や被検索テキストに対して検索キーの占める割合などが用いられる。115は検索部114により生成されたランキング結果を保持するランキング結果保持部である。
【0036】
116は補助インデックス保持部112に保持されている補助インデックスを用いて、検索キー保持部113に保持されている検索文字列に一致する文字列を検索する補助検索部で得ある。検索部同様、検索結果は検索条件への適合度によりランキングされる。117は、補助検索部116により生成された補助ランキング結果を保持する補助ランキング結果保持部である。
【0037】
118はランキング結果保持部115に保持されているランキング結果と補助ランキング結果保持部117に保持されている補助ランキング結果を統合し、検索結果を作成するランキング結果統合部である。ここでは、同一セグメントについて、ランキング結果のスコアに補助ランキング結果のスコアのε倍(ε<1)を足し合わせた値を算出し、この値を検索スコアとする。検索スコアが所定の値より高いセグメントが検索結果となる。119はランキング結果統合部118により作成された検索結果を保持する検索結果保持部である。検索スコアは、検索後の結果の表示の際に、所定値以上のスコアを有する場合にはそのイメージも同時に出力するなど、検索結果の重み付けや処理分岐の条件として用いることができる。
【0038】
図8は、本発明の実施形態に係るテキスト検索装置のハードウェア構成を示す図である。同図において、201は後述する制御手順を実現するプログラムを保持するROMである。202はRAMで、第1次セグメント保持部103、第2次セグメント保持部105、第3次セグメント部107、インデックス保持部111、補助インデックス保持部112、検索キー保持部113、ランキング結果保持部115、補助ランキング結果保持部117、検索結果保持部119と上記プログラムの動作に必要な記憶領域とを提供する。203はROM201に保持れているプログラムに従って処理を行なう中央処理装置である。204はディスク装置であり、被検索文書保持部101、被検索セグメント保持部109を実現する。205はバスであり、上記の各構成を接続し、各構成間におけるデータの授受を可能とする。
【0039】
次に、本装置の動作を説明する。本実施形態の処理は、インデックス作成フェーズと検索フェーズに大きく分かれる。以下、図9のフローチャートを参照して本実施形態のテキスト検索装置におけるインデックス作成フェーズの手順を示す。
【0040】
ステップS301では、HTML文書分割部102により、被検索文書保持部101に保持されている被検索文書から本文(<BODY>と</BODY>の間)を抜き出し、コメント(<!--...-->)やメタタグ(<META...>)など、検索の対象とならない部分を除去した後に、図2に示す箇所で分割して第1次セグメントを生成する。そしてステップS302に移る。
【0041】
ステップS302では、イメージ処理部104により、ステップS301において生成された第1次セグメントで、イメージ(<IMG...>)と隣接するセグメントとの関連度を算出し、第2次セグメントを生成する。そしてステップS303に移る。
【0042】
ステップS303では、見出し処理部106により、ステップS302において生成された第2次セグメントで、見出し(<Hn>...</Hn>)に関する処理を行ない、第3次セグメントを生成する。そしてステップS304に移る。
【0043】
ステップS304では、結束性処理部108により、ステップS303において生成された第3次セグメントのうち、サイズがある一定の閾値以上のセグメントを語の出現状況から分割し、被検索セグメントを生成する。そしてステップS305に移る。
【0044】
ステップS305では、インデックス作成部110により、ステップS304において生成された被検索セグメントに対して、検索を高速に行なうためのインデックスを作成する。そしてインデックス作成フェーズを終了する。
【0045】
次に、図10のフローチャートを参照して、本実施形態における検索フェーズの概要を説明する。
【0046】
ステップS401では、検索部114により、インデックス保持部111に保持されているインデックスを用いて、検索キー保持部113に保持されている検索文字列に一致する文字列を検索し、その検索結果を検索条件への適合度によりランキングする。そしてステップS402に移る。
【0047】
ステップS402では、補助検索部116により、補助インデックス保持部112に保持されているインデックスを用いて、検索キー保持部113に保持されている検索文字列に一致する文字列を検索し、その検索結果を検索条件への適合度によりランキングする。そしてステップS403に移る。
【0048】
ステップS403では、ランキング結果統合部118により、ステップS401により生成されたランキング結果とステップS402により生成された補助ランキング結果を統合し、検索結果を作成する。そして検索フェーズを終了する。
【0049】
以上に述べたように、構造と内容からHTML文書をセグメントに分割し、与えられた検索キーを含むセグメントを検索結果として提示することで、検索条件に適合した文書の部分を検索結果とするテキスト検索装置を実現することができる。
【0050】
(第2の実施形態)
第1の実施形態においては、インデックス作成フェーズの被検索セグメント生成処理とインデックス作成処理、および検索フェーズを同一装置で行なう場合について説明したが、これらの処理を異なる装置で構成してもよい。例えば、本発明による被検索セグメント生成処理だけを行なう装置、同じくインデックス作成処理のみを行う装置及び検索処理のみを行う装置のいずれか1つであってもよいし、その組み合わせから構成されるシステムであってもよい。
【0051】
(被検索セグメント生成装置)
図11は本発明による被検索セグメント生成装置の基本的な機能構成を示すブロック図である。
【0052】
図11において、1101は被検索文書を保持する被検索文書保持部である。1102は被検索文書保持部1101に保持されている被検索文書をHTMLのタグに従って分割するHTML文書分割部である。1103はHTML文書分割部1102により生成されたセグメントを保持する第1次セグメント保持部である。1104は第1次セグメント保持部1103により保持されているセグメントで、イメージと隣接するセグメントとの関連度を算出し、第2次セグメントを生成するイメージ処理部である。
【0053】
1105はイメージ処理部1104により生成されたセグメントを保持する第2次セグメント保持部である。1106は第2次セグメント保持部1105により保持されているセグメントで、見出しに関する処理を行ない、第3次セグメントを生成する見出し処理部である。1107は見出し処理部1106により生成されたセグメントを保持する第3次セグメント保持部である、1108は第3次セグメント保持部1107により保持されているセグメントのうち、サイズがある一定の閾値以上のセグメントを語の出現状況から分割する結束性処理部である。1109は結束性処理部1108により生成されたセグメントを保持する被検索セグメント保持部である。
【0054】
被検索セグメント保持部1109に保持された被検索セグメントは、通信回線を通したり、可搬記録媒体によって他の装置に移されて利用される。
【0055】
(インデックス作成装置)
また、図12は本発明によるインデックス作成装置の構成を示すブロック図である。図12において、1201は図11に示す装置で作成された被検索セグメントを保持する被検索セグメント保持部である。1202は被検索セグメント保持部1201に保持されている被検索セグメントに対して、検索を高速に行なうためのインデックスを作成するインデックス作成部である。1203は被検索セグメント保持部1201に保持されている被検索セグメントのTEXTに対して、インデックス作成部1202により作成されたインデックスを保持するインデックス保持部である。1204は、被検索セグメント保持部1201に保持されている被検索セグメントのINFOに対して、インデックス作成部1202により作成された補助インデックスを保持する補助インデックス保持部である。
【0056】
被検索セグメントのTEXT、INFOからインデックスを作成する方法としては、
(1)形態素解析または字種毎の変わり目で分割することによって得られる単語をキーとして、各文書での出現回数を保持する方法、
(2)(1)と同様のキーを用い、出現位置を列挙する方法、
(3)文字又はN文字の(Nは自然数)文字列全てについて出現位置を列挙する方法等を用いることができる。
【0057】
インデックス保持部1203に保持されたインデックスと補助インディスク保持部1204に保持された補助インディスクは、通信回線を通したり、可搬記録媒体によって他の装置に移されて検索が行なわれる。
【0058】
(第3の実施形態)
第2の実施形態においては、被検索セグメント生成処理とインデックス作成処理とを個別の装置で実施する場合を説明したが、被検索セグメント生成処理とインデックス作成処理を行なう装置を構成してもよい。
【0059】
(被検索セグメント生成及びインデックス作成装置)
図13は被検索セグメント生成処理及びインデックス作成処理を行う装置の基本的な機能構成を示すブロック図である。
【0060】
図13において、1301は被検索文書を保持する被検索文書保持部である。1302は、被検索文書保持部1301に保持されている被検索文書をHTMLのタグに従って分割するHTML文書分割部である。1303はHTML文書分割部1302により生成されたセグメントを保持する第1次セグメント保持部である。1304は、第1次セグメント保持部1303により保持されているセグメントで、イメージと隣接するセグメントとの関連度を算出し、第2次セグメントを生成するイメージ処理部である。
【0061】
1305はイメージ処理部1304により生成されたセグメントを保持する第2次セグメント保持部である。1306は第2次セグメント保持部1305により保持されているセグメントで、見出しに関する処理を行ない、第3次セグメントを生成する見出し処理部である。1307は見出し処理部1306により生成されたセグメントを保持する第3次セグメント保持部である。1308は第3次セグメント保持部1307により保持されているセグメントのうち、サイズがある一定の閾値以上のセグメントを語の出現状況から分割する結束性処理部である。1309は結束性処理部1308により生成されたセグメントを保持する被検索セグメント保持部である。
【0062】
1310は被検索セグメント保持部1309に保持されている被検索セグメントに対して、検索を高速に行なうためのインデックスを作成するインデックス作成部である。1311は、被検索セグメント保持部1309に保持されている被検索セグメントのTEXTに対して、インデックス作成部1310により作成されたインデックスを保持するインデックス保持部である。1312は被検索セグメント保持部1309に保持されている被検索セグメントのINFOに対して、インデックス作成部1310により作成された補助インデックスを保持する補助インデックス保持部である。
【0063】
インデックス保持部1311に保持されたインデックスと補助インデックス保持部1312に保持された補助インデックスは、通信回線を通したり、可搬記録媒体によって他の装置に移されて検索が行なわれる。
【0064】
(第4の実施形態)
(検索装置)
図14は、上述の第2、第3実施形態に記載された装置に提供されるインデックスと補助インデックスを用いて検索を行なう検索装置の基本的な機能構成を示すブロック図である。
【0065】
図14において、1401は図12あるいは図13に示す装置で作成されたインデックスを保持するインデックス保持部である。1402は図12あるは図13に示す装置で作成されたインデックスを保持するインデックス保持部である。1402は図12あるいは図13に示す装置で作成された補助インデックスを保持する補助インデックス保持部である。1403は検索を行なう文字列を保持する検索キー保持部である。
【0066】
1404はインデックス保持部1401に保持されているインデックスを用いて、検索キー保持部1403に保持されている検索文字列に一致する文字列を検索する検索部である。1405は検索部1404により生成されたランキング結果を保持するランキング結果保持部である。1406は補助インデックス保持部1402に保持されている補助インデックスを用いて、検索キー保持部1403に保持されている検索文字列に一致する文字列を検索する補助検索部である。1407は補助検索部1406により生成された補助ランキング結果を保持する補助ランキング結果保持部である。1408はランキング結果保持部1405に保持されているランキング結果と補助ランキング結果保持部1407に保持されている補助ランキング結果を統合し、検索結果を作成するランキング結果統合部である。1409はランキング結果統合部1408により作成された検索結果を保持する検索結果保持部である。
【0067】
インデックス保持部1401と補助インデックス保持部1402には、上記実施形態の手順で作成されたインデックスと補助インデックスが、通信回線或は可搬記録媒体等を介して提供され、保持される。
【0068】
上記実施形態では、HTML文書分割手段、イメージ処理手段、見出し処理手段、結束性処理手段により、順にセグメントを生成するよう説明しているが、これに限定されるものではない。例えば、HTML文書分割手段のみでセグメントを生成する装置であってもよい。
【0069】
また、HTML文書分割手段とイメージ処理手段でセグメントを生成する装置であってもよい。
【0070】
また、HTML文書分割手段と見出し処理手段でセグメントを生成する装置であってもよい。
【0071】
また、HTML文書分割手段と結束性処理手段でセグメントを生成する装置であってもよい。
【0072】
また、HTML文書分割手段とイメージ処理手段と見出し処理手段でセグメントを生成する装置であってもよい。
【0073】
また、HTML文書分割手段とイメージ処理手段と結束性処理手段でセグメントを生成する装置であってもよい。
【0074】
また、HTML文書分割手段と見出し処理手段と結束性処理手段でセグメントを生成する装置であってもよい。
【0075】
上記実施形態では、図2に示した箇所でHTML文書を分割するよう説明しているが、これに限定されるものではなく、他の箇所で分割するよう定義してもよい。また、分割する箇所を自由に適宜できるようにしてもよい。
【0076】
上記実施形態では、図5に示した規則に基づいてイメージと隣接するセグメントとの関連度を決定するよう説明しているが、これに限定されるものではなく、他の規則で関連度を定義してもよい。
【0077】
また、関連度の規則を自由に定義できるようにしてもよい。
【0078】
上記実施形態では、イメージの位置と前後の改行・改段落の有無により、イメージと隣接するセグメントとの関連度を決定するように説明しているが、これに限定されるものではなく、他の要因により関連度を決定してもよい。
【0079】
上記実施形態では、形態素解析により語を抽出するよう説明しているが、これに限定されるものではなく、文字種の違いによって切り出した文字列を語としてもよい。
【0080】
上記実施形態では、2文に出現する同一語をもとに語彙的結束度を算出するよう説明しているが、これに限定されるものではなく、既存の知識ベースを利止して、同義語や類義語、上位語、下位語をも用いて語彙的結束度を算出しても良い。例えば、2文に現れる同一語、同義語、類義語、上位語、下位語の数をそれぞれx1,x2,x3,x4,x5とし、それらの重みをw1,w2,w3,w4,w5とすると、語彙的結束度は以下のように定義できる。
【0081】
w(u,v)=exp{λ・(w1x1+w2x2+w3x3+w4x4+w5x5)}
【0082】
上記実施利では、語彙的結束度を指数関数で求めるよう説明しているが、これに限定されるものではなく、他の非単調増加関数を用いてもよい。
【0083】
上記実施形態では、文間の語彙的結束度と段落長の要因を定式化し、評価関数を定義しているが、これに限定されるものではなく、他の式を評価関数としても良い。
【0084】
上記実施形態では、出現する語により文間結束度を求め、段落を決定する方法によりサイズの大きいセグメントを分割するよう説明しているが、これに限定されるものではなく、セグメントのTEXT全体の出現単語の分布から段落を決定するなど、他の方法により分割しても良い。
【0085】
上記実施形態では、セグメントのTEXTとINFOに対して別々にインデックスを作成し、TEXTによるインデックスの検索結果にINFOによるインデックスの検索結果を加えるよう説明しているが、これに限定されるものではなく、両者を混合して1つのインデックスを作成し、それに対する結果を検索結果としてもよい。
【0086】
また、INFOのインデックスを作成せずに、TEXTのみを検索対象としてもよい。
【0087】
上記実施形態では、HTML文書分割部により、コメントやメタタグ等、検索の対象とならない部分を除去して第1次セグメントを生成するよう説明しているが、これに限定されるものではなく、コメントやメタタグの情報を利用して、第1次セグメントを生成してもよい。
【0088】
上記実施形態では、処理対象をHTML文書とし、HTMLの構造を利用してセグメントを生成するよう説明しているが、これに限定されるものではなく、SGMLやXML等、他の構造化文書を対象として、その構造情報を利用してセグメントを生成する装置であってもよい。
【0089】
上記実施形態においては、第1次セグメント保持部103、第2次セグメント保持部105、第3次セグメント保持部107、インデックス保持部111、補助インデックス保持部112、検索キー保持部113、ランキング結果保持部115、補助ランキング保持部117、検索結果保持部119をRAMで、非検索文書保持部101、被検索セグメント保持部109をディスク装置で実現する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。
【0090】
上記実施形態においては、各部を同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、ネットワーク上に分散した計算機や処理装置などに別れて各部を構成してもよい。
【0091】
上記実施形態においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0092】
なお、本発明は、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0093】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピーディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0094】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0095】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0096】
以上説明したように、本発明によれば、検索条件に適合した文書の部分を検索結果とするテキスト検索を実現できるという効果が得られる。
【0097】
(第5の実施の形態)
図5は本発明の第5の実施の形態に係るテキスト検索装置の構成を示す機能ブロック図である。本発明の第5の実施の形態に係るテキスト検索装置は、被検索文書保持部1501、セグメント生成部1502、セグメント保持部1503、オブジェクト同定部1504、オブジェクト付被検索文書保持部1505、インデックス作成部1506、セグメント単位インデックス保持部1507、文書単位インデックス保持部1508、検索単位切替部1509、検索キー保持部1510、検索部1511、検索結果保持部1512、提示結果生成部1513、結果提示部1514を備える構成となっている。
【0098】
上記各部の機能を詳述すると、被検索文書保持部1501は、被検索文書を保持する。セグメント生成部1502は、被検索文書保持部1501に保持されている被検索文書を内容に従ってセグメントに分割する。検索対象がHTML(Hyper Text Markup Language:ハイパーテキスト記述言語)文書の場合には、HTMLのタグからレイアウト上での区切れ目を判断したり、出現言語の推移から話題が転換している箇所を同定したりすることで、セグメントを生成する。セグメント保持部1503は、セグメント生成部1502により生成されたセグメントを保持する。
【0099】
オブジェクト同定部1504は、被検索文書保持部1501に保持されている被検索文書のオブジェクトを同定する。オブジェクトとは、被検索文書に記されている情報の対象のことである。オブジェクト名を含む頻度、ファイル名、Webページの場合には、URL(Uniform Resource Locator:WWWサーバのアドレス)などからその文書がどのオブジェクトに関する情報かを判断する。オブジェクト付被検索文書保持部1505は、オブジェクト同定部1504で同定されたオブジェクトを被検索文書と共に保持する。
【0100】
インデックス作成部1506は、セグメント保持部1503に保持されたセグメント、及びオブジェクト付被検索文書保持部1505に保持されたオブジェクト付被検索文書から検索用インデックスを作成する。オブジェクト付被検索文書から作成したインデックスには、各文書がどのオブジェクトの情報であるかが付加情報として含まれている。セグメント単位インデックス保持部1507は、セグメント保持部1503に保持されたセグメントからインデックス作成部1506によって作成された検索用インデックスを保持する。文書単位インデックス保持部1508は、オブジェクト付被検索文書保持部1505に保持されたオブジェクト付被検索文書からインデックス作成部1506によって作成された検索用インデックスを保持する。
【0101】
検索単位切替部1509は、提示結果生成部1513からの情報を元に、セグメント単位インデックス保持部1507に保持されたセグメント単位インデックスと、文書単位インデックス保持部1508に保持された文書単位インデックスのうち、適切な方を検索対象のインデックスとして検索部1511に渡す。初回はセグメント単位インデックスを選択し、それによる検索結果数が閾値を越えたという情報が提示結果生成部1513から伝達された場合には、検索単位切替部1509は文書単位インデックスを検索対象として渡す。検索キー保持部1510は、検索を行う文字列を保持する。検索部1511は、検索単位切替部1509が検索対象として選択したインデックスを用いて、検索キー保持部1510に保持されている検索文字列に一致する文字列を検索する。検索結果保持部1512は、検索部1511により生成された検索結果を保持する。
【0102】
提示結果生成部1513は、検索結果保持部1512に保持された検索結果の数をチェックし、検索単位切替部1509に検索単位の切替を依頼したり、表示する検索結果を生成したりする。セグメント単位のインデックスの検索結果数がある閾値を越えた場合には、検索単位切替部1509に文書単位のインデックスに切り替えるよう指令を出し、閾値を越えない場合には、セグメント単位の検索結果を提示結果とする。文書単位のインデックスの検索結果数がある閾値を越えた場合には、検索結果をオブジェクト毎にまとめて提示結果を作成し、閾値を越えない場合には、文書単位の検索結果を提示結果とする。結果提示部1514は、提示結果生成部1513により生成された提示結果を表示する。
【0103】
図16は本発明の第5の実施の形態に係るテキスト検索装置のハードウエア構成を示すブロック図である。本発明の第5の実施の形態に係るテキスト検索装置は、ROM1601、RAM1602、中央処理装置1603、ディスク装置1604、バス1605を備える構成となっている。
【0104】
上記各部の機能を詳述すると、ROM1601は、後述する制御手順を実現するプログラムを保持する。RAM1602は、上記図15の検索キー保持部1510、検索結果保持部1512と上記プログラムの動作に必要な記憶領域とを提供する。中央処理装置1603は、ROM1601に保持されているプログラムに従って処理を行う。ディスク装置1604は、上記図15の被検索文書保持部1501、セグメント保持部1503、オブジェクト付被検索文書保持部1505、セグメント単位インデックス保持部1507、文書単位インデックス保持部1508を実現する。バス1605は、上記ROM1601、RAM1602、中央処理装置1603、ディスク装置1604を接続し、各構成間におけるデータの授受を可能とする。
【0105】
図22は本発明のプログラム及び関連データが記憶媒体から装置に供給される概念例を示す説明図である。本発明のプログラム及び関連データは、フロッピディスクやCD−ROM等の記憶媒体801を装置802に装備された記憶媒体ドライブ挿入口803に挿入することで供給される。その後、本発明のプログラム及び関連データを記憶媒体801から一旦ハードディスクにインストールしハードディスクからRAMにロードするか、或いは、ハードディスクにインストールせずに直接RAMにロードすることで、本発明のプログラム及び関連データを実行することが可能となる。
【0106】
図21は本発明のプログラム及び関連データを記憶した記憶媒体の記憶内容の構成例を示す説明図である。本発明の記憶媒体は、例えばボリューム情報701、ディレクトリ情報702、プログラム実行ファイル703、プログラム関連データファイル704等の記憶内容で構成される。本発明のプログラムは、後述する図17〜図18のフローチャート等に基づきプログラムコード化されたものである。
【0107】
次に、上記の如く構成された本発明の第5の実施の形態に係るテキスト検索装置の動作を図15、図17、図18を参照しながら説明する。本発明の第5の実施の形態の処理は、インデックス作成フェーズと検索フェーズに大きく分かれる。以下、本発明の第1の実施の形態に係るテキスト検索装置におけるインデックス作成フェーズ、検索フェーズの手順を説明する。
【0108】
「インデックス作成フェーズ」(図17)
ステップS1701では、セグメント生成部1502は、被検索文書保持部1501に保持されている被検索文書を内容に従って分割してセグメントを生成する。この後、ステップS1702に移る。ステップS1702では、オブジェクト同定部1504は、被検索文書保持部1501に保持されている被検索文書のオブジェクトを同定する。ステップS1703では、インデックス作成部1506は、セグメント保持部1503に保持されたセグメント、及びオブジェクト付被検索文書保持部1505に保持されたオブジェクト付被検索文書から検索用インデックスを作成する。
【0109】
以上によりインデックス作成フェーズを終了する。
【0110】
「検索フェーズ」(図18)
ステップS1801では、検索部1511は、セグメント単位インデックス保持部1507に保持されたセグメント単位インデックスを用いてセグメント単位の検索を行う。この後、ステップS1802に移る。ステップS1802では、提示結果生成部1513は、セグメント単位の検索結果数が閾値Nより多いか否かを判断し、セグメント単位の検索結果数が閾値Nより多い場合はステップS1803に移り、セグメント単位の検索結果数が閾値Nを越えなかった場合はステップS1806に移る。
【0111】
ステップS1803では、検索部1511は、文書単位インデックス保持部1508に保持された文書単位インデックスを用いて文書単位の検索を行う。この後、ステップS1804に移る。ステップS1804では、提示結果生成部1513は、文書単位の検索結果数が閾値Nより多いか否かを判断し、文書単位の検索結果数が閾値Nより多い場合はステップS1805に移り、文書単位の検索結果数が閾値Nを越えなかった場合はステップS1806に移る。
【0112】
ステップS1805では、提示結果生成部1513は、検索結果をオブジェクト毎にまとめて提示結果を作成する。この後、ステップS1807に移る。ステップS1806では、提示結果生成部1513は、検索結果からそのまま提示結果を生成する。この後、ステップS1807に移る。ステップS1807では、結果提示部1514は、提示結果生成部1513で生成された提示結果を表示する。以上により検索フェーズを終了する。
【0113】
以上説明したように、本発明の第5の実施の形態によれば、細かい単位の検索から始めて、検索結果の数に応じて検索の単位を大きくしていくことで、複数の検索単位を自動的に使い分けるテキスト検索装置を実現することができるという効果がある。
【0114】
(第6の実施の形態)
上述した本発明の第5の実施の形態においては、インデックス作成フェーズと検索フェーズを同一装置で行う場合について説明したが、これに限定されるものではない。例えば、インデックス作成フェーズだけを行う装置であってもよい。本発明の第6の実施の形態においては、上記のインデックス作成フェーズだけを行う装置について説明する。
【0115】
図19は本発明の第6の実施の形態に係るインデックス作成装置の構成を示す機能ブロック図である。本発明の第6の実施の形態に係るインデックス作成装置は、被検索文書保持部1901、セグメント生成部1902、セグメント保持部1903、オブジェクト同定部1904、オブジェクト付被検索文書保持部1905、インデックス作成部1906、セグメント単位インデックス保持部1907、文書単位インデックス保持部1908を備える構成となっている。
【0116】
上記各部の機能を詳述すると、被検索文書保持部1901は、被検索文書を保持する。セグメント生成部1902は、被検索文書保持部1901に保持されている被検索文書を内容に従ってセグメントに分割する。セグメント保持部1903は、セグメント生成部1902により生成されたセグメントを保持する。オブジェクト同定部1904は、被検索文書保持部1901に保持されている被検索文書のオブジェクトを同定する。オブジェクト付被検索文書保持部1905は、オブジェクト同定部1904で同定されたオブジェクトを被検索文書と共に保持する。
【0117】
インデックス作成部1906は、セグメント保持部1903に保持されたセグメント、及びオブジェクト付被検索文書保持部1905に保持されたオブジェクト付被検索文書から検索用インデックスを作成する。セグメント単位インデックス保持部1907は、セグメント保持部1903に保持されたセグメントからインデックス作成部1906によって作成された検索用インデックスを保持する。文書単位インデックス保持部1908は、オブジェクト付被検索文書保持部1905に保持されたオブジェクト付被検索文書からインデックス作成部1906によって作成された検索用インデックスを保持する。
【0118】
本インデックス作成装置においては、上記のセグメント単位インデックス保持部1907に保持されたセグメント単位インデックスと、文書単位インデックス保持部1908に保持された文書単位インデックスは、通信回線或いは可搬記録媒体を介して他の装置(テキスト検索装置)に提供されて利用される。
【0119】
以上説明したように、本発明の第6の実施の形態によれば、テキスト検索に必要なセグメント単位インデックス及び文書単位インデックスを作成し、作成したセグメント単位インデックス及び文書単位インデックスを外部装置(他のテキスト検索装置)に供給することで、外部装置(他のテキスト検索装置)で複数の検索単位を自動的に使い分けることができるという効果がある。
【0120】
(第7の実施の形態)
本発明の第7の実施の形態においては、上述した本発明の第6の実施の形態に係るインデックス作成装置で作成されたインデックスを用いて検索を行う装置について説明する。
【0121】
図20は本発明の第7の実施の形態に係るテキスト検索装置の構成を示す機能ブロック図である。本発明の第7の実施の形態に係るテキスト検索装置は、セグメント単位インデックス保持部2001、文書単位インデックス保持部2002、検索単位切替部2003、検索キー保持部2004、検索部2005、検索結果保持部2006、提示結果生成部2007、結果提示部2008を備える構成となっている。
【0122】
上記各部の機能を詳述すると、セグメント単位インデックス保持部2001は、上記第6の実施の形態の図19に示したインデックス作成装置で作成されたセグメント単位インデックスを保持する。文書単位インデックス保持部1508は、上記第6の実施の形態の図19に示したインデックス作成装置で作成された文書単位インデックスを保持する。検索単位切替部2003は、提示結果生成部2007からの情報を元に、セグメント単位インデックス保持部2001に保持されたセグメント単位インデックスと、文書単位インデックス保持部2002に保持された文書単位インデックスのうち、適切な方を検索対象のインデックスとして検索部2005に渡す。検索キー保持部2004は、検索を行う文字列を保持する。
【0123】
検索部2005は、検索単位切替部2003が検索対象として選択したインデックスを用いて、検索キー保持部2004に保持されている検索文字列に一致する文字列を検索する。検索結果保持部2006は、検索部2005により生成された検索結果を保持する。提示結果生成部2007は、検索結果保持部2006に保持された検索結果の数をチェックし、検索単位切替部2003に検索単位の切替を依頼したり、表示する検索結果を生成したりする。結果提示部2008は、提示結果生成部2007により生成された提示結果を表示する。
【0124】
本テキスト検索装置においては、上記のセグメント単位インデックス保持部2001と文書単位インデックス保持部2002には、上記第6の実施の形態に係るインデックス作成装置における手順で作成されたセグメント単位インデックスと文書単位インデックスが、通信回線或いは可搬記録媒体等を介して提供され保持される。
【0125】
以上説明したように、本発明の第7の実施の形態によれば、細かい単位の検索から始めて、検索結果の数に応じて検索の単位を大きくしていくことで、複数の検索単位を自動的に使い分けるテキスト検索装置を実現することができるという効果がある。
【0126】
上述した本発明の第5の実施の形態乃至第7の実施の形態の他に、下記のような他の実施形態(変形例)が考えられる。
【0127】
(1)上記実施形態においては、セグメント単位検索と文書単位検索の結果数の閾値を同じ数Nで説明しているが、これに限定されるものではなく、異なる閾値を設定してもよい。
【0128】
(2)上記実施形態においては、セグメント単位と文書単位のインデックスを切り替えて使用すると説明しているが、これに限定されるものではなく、様々な単位のインデックスを用意して、それらを切り替えて使用するようにしてもよい。
【0129】
(3)上記実施形態においては、文書のオブジェクトのみを同定し、提示情報生成に利用するよう説明しているが、これに限定されるものではなく、セグメントのオブジェクトも同定して、セグメント単位の検索結果数に応じて、オブジェクトを用いた提示情報生成を行ってもよい。
【0130】
(4)上記実施形態においては、予め文書のオブジェクトを同定し、文書単位の検索結果が閾値を越える場合に提示情報生成に利用するよう説明しているが、これに限定されるものではなく、オブジェクト同定を行わずに、複数の単位のインデックスを切り替えて検索するだけでもよい。
【0131】
(5)上記実施形態においては、検索単位は必ず自動的に決まるよう説明しているが、これに限定されるものではなく、ユーザが指定した検索単位で検索できる機能を付加することもできる。
【0132】
(6)上記実施形態においては、検索キー保持部1510(2004)、検索結果保持部1512(2006)をRAMで、被検索文書保持部1501(1901)、セグメント保持部1503(1903)、オブジェクト付被検索文書保持部1505(1905)、セグメント単位インデックス保持部1507(1907、2001)、文書単位インデックス保持部1508(1908、2002)をディスク装置で実現する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。
【0133】
(7)上記実施形態においては、各部を同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、ネットワーク上に分散した計算機や処理処理などに分かれて各部を構成してもよい。
【0134】
(8)上記実施形態においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0135】
(9)上記実施形態においては、結果提示部1514(2008)で提示結果を表示する場合について説明したが、これに限定されるものではなく、結果提示部1514(2008)で提示結果を印刷出力するようにしてもよい。この場合は、上記図16の構成にプリンタを追加装備すればよい。
【0136】
尚、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを記憶した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0137】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0138】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0139】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0140】
以上説明したように、セグメント単位インデックスと文書単位インデックスのうち適切な方を選択し、選択したインデックスに基づき検索文字列に一致する文字列を検索し、検索結果を提示するため、細かい単位の検索から始めて、検索結果の数に応じて検索の単位を大きくしていくことで、複数の検索単位を自動的に使い分ける文書検索を実現することができるという効果がある。
【0141】
また、文書検索に必要なセグメント単位インデックス及び文書単位インデックスを作成し、作成したセグメント単位インデックス及び文書単位インデックスを外部装置(文書検索装置)に供給することで、外部装置(文書検索装置)で複数の検索単位を自動的に使い分けることができるという効果がある。
【0142】
また、文書検索方法を文書検索装置で実行することにより、セグメント単位インデックスと文書単位インデックスのうち適切な方を選択し、選択したインデックスに基づき検索文字列に一致する文字列を検索し、検索結果を提示するため、細かい単位の検索から始めて、検索結果の数に応じて検索の単位を大きくしていくことで、複数の検索単位を自動的に使い分ける文書検索を実現することができるという効果がある。
【0143】
また、インデックス作成方法をインデックス作成装置で実行することにより、文書検索に必要なセグメント単位インデックス及び文書単位インデックスを作成し、作成したセグメント単位インデックス及び文書単位インデックスを外部装置(文書検索装置)に供給することで、外部装置(文書検索装置)で複数の検索単位を自動的に使い分けることができるという効果がある。
【0144】
また、記憶媒体から文書検索方法を読み出して文書検索装置で実行することにより、セグメント単位インデックスと文書単位インデックスのうち適切な方を選択し、選択したインデックスに基づき検索文字列に一致する文字列を検索し、検索結果を提示するため、細かい単位の検索から始めて、検索結果の数に応じて検索の単位を大きくしていくことで、複数の検索単位を自動的に使い分ける文書検索を実現することができるという効果がある。
【0145】
また、記憶媒体からインデックス作成方法を読み出してインデックス作成装置で実行することにより、文書検索に必要なセグメント単位インデックス及び文書単位インデックスを作成し、作成したセグメント単位インデックス及び文書単位インデックスを外部装置(文書検索装置)に提供することで、外部装置(文書検索装置)で複数の検索単位を自動的に使い分けることができるという効果がある。
【0146】
(第8の実施形態)
図23は本発明のテキスト検索装置の構成を示すブロック図である。
【0147】
テキスト検索装置は、図23に示すように、被検索文書を保持する被検索文書保持部2301と、被検索文書保持部2301に保持されている被検索文書をその内容に従ってページ単位で分割して検索対象となるページを生成するページ生成部2302と、ページ生成部2302で生成されたページを保持するページ保持部2304と、被検索文書をその内容に従ってセグメント単位で分割して検索対象となるセグメントを生成するセグメント生成部2303と、セグメント生成部2303で生成されたセグメントを保持するセグメント保持部2305とを備える。ここで、例えば被検索文書がHTML文書であるときには、特定の話題を構成する複数のHTML文書群の内の一つのHTML文書ファイルをページとして生成する。また、セグメントの生成においては、HTMLのタグからレイアウト上での区切れ目を判断したり、出現単語の推移から話題が転換している箇所を同定したりすることにより、セグメントを生成する。
【0148】
被検索文書保持部2301に保持されている被検索文書、ページ保持部2304に保持されているページ、セグメント保持部2305に保持されているセグメントの各検索対象はインデックス作成部2306に入力され、インデックス作成部2306は、入力された各検索対象をそれぞれ表す文書単位インデックス、ページ単位インデックス、セグメント単位インデックスの各検索用インデックスとして作成する。この作成された文書単位インデックスは被検索文書とともに文書単位インデックス保持部2307に、ページ単位インデックスは検索対象のページとともにページ単位インデックス保持部2308に、セグメント単位インデックスは検索対象のセグメントとともにセグメント単位インデックス保持部2309にそれぞれ保持される。
【0149】
文書単位インデックス保持部2307、ページ単位インデックス保持部2308、セグメント単位インデックス保持部2309にそれぞれ保持された検索対象は検索部2311に入力され、検索部2311は各検索用インデックスがそれぞれ表す検索対象毎に、検索キー保持部110に保持された検索文字列の検索を行う。この検索により各検索用インデックスが表す検索対象毎に得られた検索結果は検索結果保持部2312に保持される。
【0150】
検索結果保持部2312に保持された各検索結果は表示結果生成部2313に入力され、表示結果生成部2313は、表示単位指定部2315により指定された表示単位に対応する検索対象の検索結果とともにその表示単位を示す情報を表す表示情報を生成するとともに、表示単位を切り替えるための表示単位メニュー画面情報を生成する。ここで、表示単位指定部115は、検索結果の表示単位として文書単位、ページ単位、セグメント単位のいずれかを指定するための操作手段例えばキーまたはマウスを有し、この操作手段の操作により表示単位メニュー画面上で表示単位を指定することができる。表示結果生成部2313により生成された表示情報は結果表示部2314に入力され、結果表示部2314は入力された表示情報に基づき指定された表示単位に対応する検索対象の検索結果およびその表示単位を示す情報を表示するとともに、上記表示単位メニュー画面情報に基づき表示単位メニュー画面を表示する。また、指定された表示単位による検索結果の表示中に該指定された表示単位と異なる他の表示単位が表示単位メニュー画面上で指定されると、該指定された他の表示単位に対応する検索対象の検索結果の表示へ切り替えるように、他の表示単位に対応する検索対象の検索結果およびその表示単位を示す情報を表す表示情報が表示結果生成部2313により生成され、この生成された表示情報が結果表示部2314に表示される。
【0151】
次に、本テキスト検索装置のハードウェア構成について図24を参照しながら説明する。図24は図23のテキスト検索装置のハードウェア構成を示すブロック図である。
【0152】
テキスト検索装置のハードウェア構成においては、図24に示すように、ROM2401に格納されているプログラムに従って対応する処理を実行する中央処理装置2403と、中央処理装置2403の演算処理の結果を一時的に保持するなどの作業領域を提供するRAM2402と、ディスク装置2404とを備え、各ブロックはバス2405を介して接続されている。ここで、ROM2401に格納されているプログラムには、上述したページ生成部2402、セグメント生成部2403、インデックス生成部2406、検索部2411、表示結果生成部2413をそれぞれ構成するためのプログラムモジュールが含まれている。また、結果表示部2414は、CRTなどのディスプレイ(図示)により構成され、表示単位指定部2415は、キーボード、マウス(図示せず)などから構成される。
【0153】
次に、本テキスト検索装置の処理動作について図25および図26を参照しながら説明する。図25は図23のテキスト検索装置におけるインデックス作成処理の手順を示すフローチャート、図26は図23のテキスト検索装置における検索処理の手順を示すフローチャートである。
【0154】
テキスト検索装置におけるインデックス作成処理では、ページのインデックス作成、セグメントのインデックス作成、被検索文書のインデックス作成を並行して行う。ページのインデックス作成では、図25(a)に示すように、まずステップS2501において被検索文書保持部2301に保持されている被検索文書を読み出し、続くステップS2502で、ページ生成部2302によりこの被検索文書をその内容に従ってページ単位で分割して検索対象となるページを生成し、生成したページをページ保持部2304に保持する。
【0155】
次いで、ステップS2503に進み、インデックス作成部2306により、ページ保持部2304に保持されているページを読み出してページ単位インデックスを作成する。そしてステップS2504で、このページ単位インデックスを検索対象のページとともにページ単位インデックス保持部2308に保存する。
【0156】
セグメントのインデックス作成では、図25(b)に示すように、まずステップS2511において被検索文書保持部2301に保持されている被検索文書を読み出し、続くステップS2512で、セグメント生成部2303によりこの被検索文書をその内容に従ってセグメント単位で分割して検索対象となるセグメントを生成し、生成したセグメントをセグメント保持部2305に保持する。
【0157】
次いで、ステップS2513に進み、インデックス作成部2306により、セグメント保持部2305に保持されているセグメントを読み出してセグメント単位インデックスを作成する。そしてステップS2514で、このセグメント単位インデックスを検索対象のページとともにセグメント単位インデックス保持部2309に保存する。
【0158】
被検索文書のインデックス作成では、図25(c)に示すように、まずステップS2521において被検索文書保持部2301に保持されている被検索文書を読み出し、続くステップS2522で、インデックス作成部2306により、文書単位インデックスを作成する。そしてステップS2523で、この文書単位インデックスを被検索文書とともに文書単位インデックス保持部2307に保存する。
【0159】
このようにして各検索対象をそれぞれ表す文書単位インデックス、ページ単位インデックス、セグメント単位インデックスの各検索用インデックスが作成される。
【0160】
なお、本説明では、ページのインデックス作成、セグメントのインデックス作成、被検索文書のインデックス作成を並行して行う例を示したが、それぞれを順に行うようにしてもよい。
【0161】
次いで、検索処理が行われる。この検索処理では、図26に示すように、まずステップS2601において文書単位インデックスを参照して文書単位での検索を行う。すなわち、ここでは、検索キー保持部2310に保持されている検索キーとなる文字列の検索を文書単位インデックスが表す被検索文書に対して行い、その検索結果を検索結果保持部2312に保存する。
【0162】
次いで、ステップS2602に進み、ページ単位インデックスを参照してページ単位での検索を行う。すなわち、検索キー保持部2310に保持されている検索キーとなる文字列の検索をページ単位インデックスが表すページに対して行い、その検索結果を検索結果保持部2312に保存する。
【0163】
続いてステップS2603に進み、セグメント単位インデックスを参照してセグメント単位での検索を行う。すなわち、検索キー保持部2310に保持されている検索キーとなる文字列の検索をセグメント単位インデックスが表すセグメントに対して行い、その検索結果を検索結果保持部2312に保存する。
【0164】
そして、ステップS2604においてユーザが本処理の終了を指定しているか否かの判定を行う。ここで、ユーザが本処理の終了を指定しているときには、本処理を終了する。ユーザが本処理の終了を指定していないときには、表示単位指定部2315を用いてユーザが表示単位の指定を行っていると判断してステップS2605に進む。
【0165】
ステップS2605では、表示単位として文書単位を指定しているか否かの判定を行う。表示単位として文書単位を指定していないときには、ステップS2606に進み、表示単位としてページ単位を指定しているか否かの判定を行う。表示単位としてページ単位を指定していないときには、ステップS2607に進み、表示単位としてセグメント単位を指定しているか否かの判定を行う。表示単位としてセグメント単位を指定していないときには、ユーザが表示単位を指定していないと判断してステップS2611に進み、表示結果生成部2313により、検索結果保持部2312からデフォルトの表示単位の検索結果を読み出し、この検索結果とその表示単位を示す情報とを含む表示結果を作成する。ここで、このデフォルトの表示単位としては、文書単位、ページ単位、セグメント単位のいずれの単位を設定してもよい。
【0166】
次いで、ステップS2612に進み、作成された表示結果に含まれる検索結果(ここではデフォルトの表示単位の検索結果)を結果表示部2314に表示し、続くステップS413で、表示結果に含まれる表示単位(ここではデフォルト)を結果表示部2314に表示する。そして、ステップS2614に進み、他の表示単位への切替のためのメニュー画面を検索結果の表示画面上に表示する。このメニュー画面上でユーザが所望する表示単位を指定することができる。ここで、表示単位が指定されると、上記ステップS2605,S2606,S2607において指定された表示単位の判定が行われる。
【0167】
上記ステップS2605において表示単位として文書単位を指定していると判定されたときには、ステップS2608に進み、表示結果生成部2313により、検索結果保持部2312から文書単位の検索結果を読み出し、この検索結果とその表示単位を示す情報とを含む表示結果を作成する。次いで、ステップS2612に進み、作成された表示結果に含まれる検索結果(ここでは文書単位の検索結果)を結果表示部2314に表示し、続くステップS2613で、表示結果に含まれる表示単位(ここでは文書単位)を結果表示部2314に表示する。そして、ステップS2614に進み、他の表示単位への切替のためのメニュー画面を検索結果の表示画面上に表示する。
【0168】
上記ステップS2606において表示単位としてページ単位を指定していると判定されたときには、ステップS2609に進み、表示結果生成部2313により、検索結果保持部2312からページ単位の検索結果を読み出し、この検索結果とその表示単位を示す情報とを含む表示結果を作成する。次いで、ステップS2612に進み、作成された表示結果に含まれる検索結果(ここではページ単位の検索結果)を結果表示部2314に表示し、続くステップS2613で、表示結果に含まれる表示単位(ここではページ単位)を結果表示部2314に表示する。そして、ステップS2614に進み、他の表示単位への切替のためのメニュー画面を検索結果の表示画面上に表示する。
【0169】
上記ステップS2607において表示単位としてセグメント単位を指定していると判定されたときには、ステップS2610に進み、表示結果生成部2313により、検索結果保持部2312からセグメント単位の検索結果を読み出し、この検索結果とその表示単位を示す情報とを含む表示結果を作成する。次いで、ステップS2612に進み、作成された表示結果に含まれる検索結果(ここではセグメント単位の検索結果)を結果表示部2314に表示し、続くステップS2613で、表示結果に含まれる表示単位(ここではセグメント単位)を結果表示部2314に表示する。そして、ステップS2614に進み、他の表示単位への切替のためのメニュー画面を検索結果の表示画面上に表示する。
【0170】
このように、本実施の形態では、複数の検索単位で検索を行い、各検索単位での検索結果の表示をユーザの指定により切り替えるから、意図する検索結果を容易に得ることができる。
【0171】
(第9の実施形態)
次に、本発明の第9の実施形態について図27を参照しながら説明する。
【0172】
図27は本発明のテキスト検索装置の実施の第2形態の構成を示すブロック図である。
【0173】
テキスト検索装置は、図27に示すように、被検索文書を保持する被検索文書保持部2701と、被検索文書保持部2701に保持されている被検索文書をその内容に従ってページ単位で分割して検索対象となるページを生成するページ生成部2702と、ページ生成部502で生成されたページを保持するページ保持部2704と、被検索文書をその内容に従ってセグメント単位で分割して検索対象となるセグメントを生成するセグメント生成部2703と、セグメント生成部2703で生成されたセグメントを保持するセグメント保持部2705とを備える。
【0174】
被検索文書保持部2701に保持されている被検索文書、ページ保持部2704に保持されているページ、セグメント保持部2705に保持されているセグメントの各検索対象はインデックス作成部2706に入力され、インデックス作成部2706は、入力された各検索対象をそれぞれ表す文書単位インデックス、ページ単位インデックス、セグメント単位インデックスの各検索用インデックスとして作成する。この作成された文書単位インデックスは被検索文書とともに文書単位インデックス保持部2707に、ページ単位インデックスは検索対象のページとともにページ単位インデックス保持部508に、セグメント単位インデックスは検索対象のセグメントとともにセグメント単位インデックス保持部2709にそれぞれ保持される。
【0175】
文書単位インデックス保持部2707、ページ単位インデックス保持部2708、セグメント単位インデックス保持部2709にそれぞれ保持された検索対象は、検索単位切替部2711により切り替えられて読み出される。具体的には、検索単位指定部27516から指定された検索単位の検索対象が対応する保持部から読み出され、読み出された検索対象は検索部512に入力される。検索部2712は入力された検索対象に対して、検索キー保持部2710に保持された検索文字列の検索を行い、この検索結果は検索結果保持部2713に保持される。ここで、検索単位指定部2716は、検索対象の検索単位として文書単位、ページ単位、セグメント単位のいずれかを指定するための操作手段例えばキーまたはマウスを有し、この操作手段の操作により検索単位メニュー画面上で検索単位を指定することができる。
【0176】
検索結果保持部2713に保持された検索結果は表示結果生成部2714に入力され、表示結果生成部2714は、検索対象の検索結果とともにその検索単位を示す情報を表す表示情報を生成するとともに、検索単位を切り替えるための検索単位メニュー画面情報を生成する。表示結果生成部2714により生成された表示情報は結果表示部2715に入力され、結果表示部2715は入力された表示情報に基づき指定された検索単位に対応する検索対象の検索結果およびその検索単位を示す情報を表示するとともに、上記検索単位メニュー画面情報に基づき検索単位メニュー画面を表示する。また、指定された検索単位による検索結果の表示中に該指定された検索単位と異なる他の検索単位が検索単位メニュー画面上で指定されると、該指定された他の検索単位に対応する検索対象の検索を行い、その検索結果の表示へ切り替えるように、他の表示単位の検索対象の検索結果およびその検索単位を示す情報を表す表示情報が表示結果生成部2714により生成され、この生成された表示情報が結果表示部2715に表示される。
【0177】
このように、本実施の形態では、検索単位が指定される毎に、その検索単位の検索対象に対する検索を行い、その検索結果を表示するから、ユーザが所望する検索単位の検索を簡単に切り替えて行うことができ、意図する検索結果を容易に得ることができる。
【0178】
(第10の実施形態)
次に、本発明の第10の実施形態について図28および図29を参照しながら説明する。図28は本発明のテキスト検索装置の第10の実施形態に検索対象を供給するデータベース作成装置の構成を示すブロック図、図29は図28のデータベース作成装置から供給される被検索対象を用いて検索を行うテキスト検索装置の構成を示すブロック図である。
【0179】
本実施の形態は、上述の実施の第8および第9形態がインデックス作成処理と検索処理とを1つの装置で行うように構成しているの対し、インデックス作成処理を行うデータベース作成装置から供給された検索対象に対して検索処理を行う点で異なる。
【0180】
データベース作成装置は、図28に示すように、被検索文書を保持する被検索文書保持部2801と、被検索文書保持部2801に保持されている被検索文書をその内容に従ってページ単位で分割して検索対象となるページを生成するページ生成部2802と、ページ生成部2802で生成されたページを保持するページ保持部2804と、被検索文書をその内容に従ってセグメント単位で分割して検索対象となるセグメントを生成するセグメント生成部2803と、セグメント生成部2803で生成されたセグメントを保持するセグメント保持部2805とを備える。
【0181】
被検索文書保持部2801に保持されている被検索文書、ページ保持部2804に保持されているページ、セグメント保持部2805に保持されているセグメントの各検索対象はインデックス作成部2806に入力され、インデックス作成部2806は、入力された各検索対象をそれぞれ表す文書単位インデックス、ページ単位インデックス、セグメント単位インデックスの各検索用インデックスとして作成する。この作成された文書単位インデックスは被検索文書とともに文書単位インデックス保持部2807に、ページ単位インデックスは検索対象のページとともにページ単位インデックス保持部2808に、セグメント単位インデックスは検索対象のセグメントとともにセグメント単位インデックス保持部2809にそれぞれ保持される。
【0182】
文書単位インデックス保持部2807、ページ単位インデックス保持部2808、セグメント単位インデックス保持部2809にそれぞれ保持された検索対象は、通信ケーブル、可搬記憶媒体などを介してテキスト検索装置に供給される。
【0183】
テキスト検索装置は、図29に示すように、データベース作成装置から供給された文書単位インデックスおよび被検索文書を保持する文書単位インデックス保持部2901と、ページ単位インデックスおよび検索対象のページを保持するページ単位インデックス保持部2902と、セグメント単位インデックスおよび検索対象のセグメントを保持するセグメント単位インデックス保持部2903とを備える。
【0184】
文書単位インデックス保持部2901、ページ単位インデックス保持部2902、セグメント単位インデックス保持部2903にそれぞれ保持された検索対象は検索部2905に入力され、検索部2905は各検索用インデックスがそれぞれ表す検索対象毎に、検索キー保持部2904に保持された検索文字列の検索を行う。この検索により各検索用インデックスが表す検索対象毎に得られた検索結果は、検索結果保持部2906に保持される。
【0185】
検索結果保持部2906に保持された各検索結果は表示結果生成部2907に入力され、表示結果生成部2907は、表示単位指定部2909により指定された表示単位に対応する検索対象の検索結果とともにその表示単位を示す情報を表す表示情報を生成するとともに、表示単位を切り替えるための表示単位メニュー画面情報を生成する。ここで、表示単位指定部709は、検索結果の表示単位として文書単位、ページ単位、セグメント単位のいずれかを指定するための操作手段例えばキーまたはマウスを有し、この操作手段の操作により表示単位メニュー画面上で表示単位を指定することができる。
【0186】
表示結果生成部2907により生成された表示情報は結果表示部2908に入力され、結果表示部2908は入力された表示情報に基づき指定された表示単位に対応する検索対象の検索結果およびその表示単位を示す情報を表示するとともに、上記表示単位メニュー画面情報に基づき表示単位メニュー画面を表示する。また、指定された表示単位による検索結果の表示中に該指定された表示単位と異なる他の表示単位が表示単位メニュー画面上で指定されると、該指定された他の表示単位に対応する検索対象の検索結果の表示へ切り替えるように、他の表示単位に対応する検索対象の検索結果およびその表示単位を示す情報を表す表示情報が表示結果生成部2907により生成され、この生成された表示情報が結果表示部2908に表示される。
【0187】
なお、上記各実施の形態では、検索単位として文書単位、ページ単位、セグメント単位の例を説明したが、これに限定されることはなく、他の検索単位を設定してもよい。
【0188】
また、上記各実施の形態では、各検索単位毎にその検索用インデックスを作成しているが、検索単位情報を付加した1つのインデックスを作成し、この検索単位情報を利用してインデックスから対応する検索対象を抽出るように構成することも可能である。
【0189】
さらに、上記各実施の形態では、検索単位の切替にメニュー画面を用いているが、そのユーザインタフェースを用いることも可能である。例えば、アイコンなどを表示して切替を行うように構成することができる。
【0190】
さらに、上記各実施の形態では、被検索文書がHTML文書である場合にそのページ分割方法、セグメント分割方法について示したが、この分割方法に限定されることはなく、任意の分割方式、例えば自然言語処理に基づく分割方式を用いてもよい。また、被検索文書が他の文書例えばワードプロセッサなどで作成された文書に適用することもできる。
【0191】
さらに、上記各実施の形態では、現在表示されている検索結果の検索単位を示す情報を表示するように構成しているが、これに代えて、検索結果の表示形態を変えることにより検索単位を表すように構成することも可能である。例えば、検索結果の表示色を変えるなどにより検索単位を表すように構成することが可能である。
【0192】
さらに、上記実施の第1および第2形態では、各ブロックを同一の装置上で構成した例を示したが、ネットワーク上に分散したコンピュータや処理装置を用いて各部を構成することも可能である。
【0193】
さらに、上記各実施の形態では、各ブロックを構成するためのプログラムをROMに格納しているが、これに代えて他の記憶媒体に格納してもよい。例えば、ハードディスク装置などに上記プログラムを格納し、このプログラムを読み出して実行するように構成することもできる。また、CDROM、MO、FD、メモリカードなどの記憶媒体から上記プログラムを供給するように構成してよい。また、各ブロックに対応する処理を実行するハードウェア回路で構成するようにしてもよい。
【図面の簡単な説明】
【図1】本発明の実施形態に係るテキスト検索装置の機能構成を示すブロック図である。
【図2】本発明の実施形態におけるHTML文書の分割箇所の例を示す図である。
【図3】本発明の実施形態における被検索文書の例を示す図である。
【図4】本発明の実施形態における図3のHTML文書から生成した第1次セグメントの例を示す図である。
【図5】本発明の実施形態におけるイメージと隣接するセグメントとの関連度の規則の例を示す図である。
【図6】本発明の実施形態における図3のHTML文書から生成した第2次セグメントの例を示す図である。
【図7】本発明の実施形態における図3のHTML文書から生成した第3次セグメントの例を示す図である。
【図8】本発明の実施形態に係るテキスト検索装置のハードウエア構成を示すブロック図である。
【図9】本発明の実施形態におけるインデックス作成フェーズの概要を示すフローチャートである。
【図10】本発明の実施形態における検索フェーズの概要を示すフローチャートである。
【図11】本発明の第2の実施形態の基本構成を示すブロック図である。
【図12】本発明の第2の実施形態の基本構成を示すブロック図である。
【図13】本発明の第3の実施形態の基本構成を示すブロック図である。
【図14】本発明の第4の実施形態の基本構成を示すブロック図である。
【図15】本発明の第5の実施の形態に係るテキスト検索装置の構成を示す機能ブロック図である。
【図16】本発明の第5の実施の形態に係るテキスト検索装置のハードウエア構成を示すブロック図である。
【図17】本発明の第5の実施の形態に係るインデックス作成フェーズの概要を示すフローチャートである。
【図18】本発明の第5の実施の形態に係る検索フェーズの概要を示すフローチャートである。
【図19】本発明の第6の実施の形態に係るインデックス作成装置の構成を示す機能ブロック図である。
【図20】本発明の第7の実施の形態に係るテキスト検索装置の構成を示す機能ブロック図である。
【図21】本発明のプログラム及び関連データを記憶した記憶媒体の記憶内容の構成例を示す説明図である。
【図22】本発明のプログラム及び関連データが記憶媒体から装置に供給される概念例を示す説明図である。
【図23】本発明のテキスト検索装置の構成を示すブロック図である。
【図24】図23のテキスト検索装置のハードウェア構成を示すブロック図である。
【図25】図23のテキスト検索装置におけるインデックス作成処理の手順を示すフローチャートである。
【図26】図23のテキスト検索装置における検索処理の手順を示すフローチャートである。
【図27】本発明のテキスト検索装置の第9の実施の形態の構成を示すブロック図である。
【図28】本発明のテキスト検索装置の第10の実施の形態に検索対象を供給するデータベース作成装置の構成を示すブロック図である。
【図29】図28のデータベース作成装置から供給される被検索対象を用いて検索を行うテキスト検索装置の構成を示すブロック図である。
【符号の説明】
101 被検索文書保持部
102 HTML文書分割部
103 第1次セグメント保持部
104 イメージ処理部
105 第2次セグメント保持部
106 見出し処理部
107 第3次セグメント保持部
108 結束性処理部
109 被検索セグメント保持部
110 インデックス作成部
111 インデックス保持部
112 補助インデックス保持部
113 検索キー保持部
114 検索部
115 ランキング結果保持部
116 補助検索部
117 補助ランキング結果保持部
118 ランキング結果統合部
119 検索結果保持部

Claims (5)

  1. タグ文字を含む被検索文書の検索用インデックスを生成するインデックス生成装置であって、
    保持手段に保持されている前記被検索文書から、該被検索文書が前記タグ文字、句点、改行、及び、改段落のうち複数の種類の文字を含む区切り文字で区切られている複数のセグメントのうち、該被検索文書に含まれる画像データを含むイメージセグメントを抽出する第1抽出手段と、
    前記被検索文書における前記イメージセグメント当該検索文書に含まれるテキストを含むテキストセグメントとを区切る前記区切り文字の種類、及び、該被検索文書の中で前記イメージセグメントの前方もしくは後方の何れに当該テキストセグメントがあるかに基いて、当該テキストセグメントが当該イメージセグメントと関連性があるかを判断する判断手段と、
    前記判断手段で関連性があると判断された複数のテキストセグメントを抽出する第2抽出手段と、
    前記第2抽出手段が抽出したテキストセグメントのすべてのテキスト結合して、1つのセグメントとすることにより統合した被検索セグメントを生成する統合手段と、
    前記被検索セグメントに出現するテキストを検索キーとし、前記第1抽出手段で抽出したイメージセグメントに含まれる前記画像データを当該検索キーに対応づけた検索結果とする前記検索用インデックスを生成するインデックス生成手段と
    を備えることを特徴とするインデックス生成装置。
  2. 前記被検索文書に含まれる前記タグ文字に基いて、該被検索文書の見出しを含む前記テキストセグメントを検出し、当該テキストセグメントが含む当該見出しで用いられたテキストを、前記被検索セグメントが有する補助情報として付加する見出し処理手段
    を更に備えることを特徴とする請求項1に記載のインデックス生成装置。
  3. 前記インデックス生成手段が、前記被検索セグメントが有する補助情報から検索するための前記検索用インデックスを生成することを特徴とする請求項2に記載のインデックス生成装置。
  4. タグ文字を含む被検索文書の検索用インデックスを生成するインデックス生成装置であって、
    第1抽出手段が、保持手段に保持されている前記被検索文書から、該被検索文書が前記タグ文字、句点、改行、及び、改段落のうち複数の種類の文字を含む区切り文字で区切られている複数のセグメントのうち、該被検索文書に含まれる画像データを含むイメージセグメントを抽出する第1抽出工程と、
    判断手段が、前記被検索文書における前記イメージセグメント当該検索文書に含まれるテキストを含むテキストセグメントとを区切る前記区切り文字の種類、及び、該被検索文書の中で前記イメージセグメントの前方もしくは後方の何れに当該テキストセグメントがあるかに基いて、当該テキストセグメントが当該イメージセグメントと関連性があるかを判断する判断工程と、
    第2抽出手段が、前記判断手段で関連性があると判断された複数のテキストセグメントを抽出する第2抽出工程と、
    統合手段が、前記第2抽出手段が抽出したテキストセグメントのすべてのテキスト結合して、1つのセグメントとすることにより統合した被検索セグメントを生成する統合工程と、
    インデックス生成手段が、前記被検索セグメントに出現するテキストを検索キーとし、前記第1抽出手段で抽出したイメージセグメントに含まれる前記画像データを当該検索キーに対応づけた検索結果とする検索用インデックスを生成するインデックス生成工程と
    を有することを特徴とするインデックス生成方法。
  5. 請求項に記載のインデックス生成方法をコンピュータに実行させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2000048525A 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体 Expired - Fee Related JP4463925B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000048525A JP4463925B2 (ja) 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP5397899 1999-03-02
JP6717499 1999-03-12
JP11-67174 1999-03-23
JP11-53978 1999-03-23
JP11-77368 1999-03-23
JP7736899 1999-03-23
JP2000048525A JP4463925B2 (ja) 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体

Publications (3)

Publication Number Publication Date
JP2000339347A JP2000339347A (ja) 2000-12-08
JP2000339347A5 JP2000339347A5 (ja) 2007-03-01
JP4463925B2 true JP4463925B2 (ja) 2010-05-19

Family

ID=27462996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000048525A Expired - Fee Related JP4463925B2 (ja) 1999-03-02 2000-02-25 インデックス生成装置及びその方法、記憶媒体

Country Status (1)

Country Link
JP (1) JP4463925B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334103A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 検索処理システム及び検索処理方法
JP2005227813A (ja) * 2004-02-10 2005-08-25 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム
KR100645711B1 (ko) * 2005-03-04 2006-11-15 (주)첫눈 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
JP2006350867A (ja) 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP4826622B2 (ja) * 2008-11-10 2011-11-30 日本電気株式会社 文書検索装置、検索方法及びプログラム
JP5610215B2 (ja) * 2010-10-15 2014-10-22 日本電信電話株式会社 検索装置、検索システム、検索方法及び検索プログラム

Also Published As

Publication number Publication date
JP2000339347A (ja) 2000-12-08

Similar Documents

Publication Publication Date Title
US6381593B1 (en) Document information management system
US6631373B1 (en) Segmented document indexing and search
US6496820B1 (en) Method and search method for structured documents
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
JP2000029906A5 (ja)
JP2007072646A (ja) 検索装置、検索方法およびプログラム
JP4463925B2 (ja) インデックス生成装置及びその方法、記憶媒体
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP2007004240A (ja) 情報処理装置、情報処理システム、およびプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2009129176A (ja) 構造化文書検索装置、方法およびプログラム
JP2002189744A (ja) Webページ検索システム
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
JP4286752B2 (ja) 検索支援サーバ及びコンピュータで読み取り可能な記録媒体
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JP2004348774A5 (ja)
JP2002132789A (ja) 文書検索方法
JP3325677B2 (ja) 文書検索装置
JP2000105769A (ja) 文書表示方法
JPH11213008A (ja) テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法
JP4434629B2 (ja) 属性取得装置および属性取得方法
CN111831922B (zh) 一种基于互联网信息的推荐系统与方法
JP2012059227A (ja) 文書分割装置、文書処理システム、プログラム
JP2005071382A (ja) 文書情報管理装置および文書情報管理方法
JPH06309368A (ja) 文書検索装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees