JP3161660B2

JP3161660B2 - キーワード検索方法

Info

Publication number: JP3161660B2
Application number: JP31996893A
Authority: JP
Inventors: 敦竹下; 透中川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-12-20
Filing date: 1993-12-20
Publication date: 2001-04-25
Anticipated expiration: 2016-04-25
Also published as: JPH07175819A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、フルテキスト・データ
ベースに対するキーワード検索の方法に関する。

【０００２】

【従来の技術】従来のフルテキスト・データベース検索
技術は、『小川他：「フルテキスト・データベースの技
術動向」情報処理Ｖｏ1．33Ｎｏ．4ｐｐ．404-412(199
2)』に説明されているように、大別すると検索の高速化
と検索精度の向上、ユーザインタフェースの向上という
方向で検討されている。このうち、検索精度の向上に関
しては、語句間の上位−下位関係等を記したシソーラス
を用いる手法や、テキストを単語ごとに分解して各単語
の品詞等を同定する形態素解析処理を用いる手法が提案
されている。

【０００３】また、話題構造を認識するための方法は提
案されていた。ここで、話題構造の認識方法について簡
単に説明する。話題の展開を章、節や手掛かり句のよう
に明示的に示される基盤展開と、その基盤展開の中で展
開する意味的展開に分けてそれぞれにおける話題を認識
し、その後に基盤展開と意味的展開での話題を結合する
ことにより、テキスト全体の話題を認識する。基盤展開
と意味的展開のそれぞれにおいては、あらかじめ与えら
れた話題構造認識規則を用いて、話題が提示・確立され
る話題確立区間の認識と、その話題確立区間で認識され
る話題語の認識と、その話題語の入れ子関係と継続区間
を求める話題レベル区間の認識を行なう。基盤展開と
意味的展開のそれぞれで、話題確立区間と話題語と話題
レベル区間を認識するための規則は、言語データが対
話、モノローグ、テキストのどの伝達形態であるかによ
って異なる。伝達形態による話題展開様式の違いと、話
題構造認識実験の結果については『竹下他：「話題構造
認識の観点からのヒューマンコミュニケーションの研
究」電子情報通信学会１９９３年秋季大会Ｄ−62(ｐ．6
-64)』を参照のこと。

【０００４】

【発明が解決しようとする課題】フルテキスト・データ
ベース検索の精度を向上させるための従来の技術では、
検索結果に対して「明確な観点」に基づく順位付けを行
なうことができなかった。このため、検索を行なうユー
ザは、多くの検索結果がシステムから返された場合に、
それぞれに対して均等に、それが自分の欲しい情報であ
るかを自分で調べる必要があった。

【０００５】本発明の目的は、ユーザ自分の欲しい情報
をより効率良く取得することができるキーワード検索方
法を提供することにある。

【０００６】

【課題を解決するための手段】本発明のキーワード検索
方法は、あらかじめ話題構造情報と要約区間情報が各テ
キストに与えられたフルテキスト・データベースから与
えられたキーワードに関係のあるテキストを検索する際
に、各テキストの話題構造情報に含まれる話題語とキー
ワードとの部分文字列マッチングを取り、もしマッチン
グに成功すれば、マッチングした話題語を含む話題構造
情報から、テキストにおいてそのキーワードについて述
べられている占有領域を求め、もしマッチングに失敗す
れば、テキストで要約区間以外の部分とキーワードとの
部分文字列マッチングを行ない、もしマッチングに成功
すればマッチングした文字列のテキストにおける位置と
その位置に対応する話題構造情報から占有領域を求め、
もし、マッチングに失敗すれば占有領域は存在しないも
のとし、占有領域内の単文数とテキスト内の単文数の比
である中心度を計算する。

【０００７】

【作用】本発明は、各テキストに対して与えられた話題
構造情報と要約区間情報を用いて、各テキストにおいて
キーワードに関連する事柄がどれだけ大々的に扱われて
いるかを示す中心度を計算する。中心度という明確な観
点が与えられたことにより、ユーザは欲しい情報を効率
良く取得することが可能となる。

【０００８】また、中心度の値に基づいてテキストに順
位付けを行なうことにより、検索結果をユーザに分かり
やすい形で表示することが可能となる。

【０００９】

【実施例】次に、本発明の実施例について図面を参照し
て説明する。

【００１０】図１は本発明の一実施例の話題指向型キー
ワード検索方法を示すフローチャート、図２は本発明の
一実施例の話題指向型キーワード検索位置のブロック図
である。

【００１１】装置への入力は、検索したいものを表現す
るキーワード５と検索対象６である。検索対象６は、テ
キストと、その話題構造に関する情報と、そのテキスト
の要約区間に関する情報を含む。テキスト木生成手段１
１は、検索対象６を入力してテキスト木生成処理１を行
う。テキスト木生成処理１では、まず、テキストを各話
題語に直接対応する直轄ブロックに分割し、次に、話題
語の入れ子関係を反映した木構造を生成し、さらにその
木構造の各ノードの話題語に対応する直轄ブロックをノ
ードに加える。この処理でできた木構造をテキスト木と
呼ぶ。テキスト木生成処理１は、検索対象６のテキスト
に対して、最初に１度だけ行なってやればよい。

【００１２】サブ・キーワード抽出手段１２は、ユーザ
が指定したキーワード５を対象として、サブ・キーワー
ド抽出処理２を行う。サブ・キーワード抽出処理２はキ
ーワード５に含まれる単語の中から具体的な意味を持つ
単語を抽出する（この抽出されたそれぞれの単語をサブ
・キーワードと呼ぶ）。サブ・キーワード抽出処理２は
キーワード５が与えられるたびに行なう。

【００１３】中心度計算手段１３は、中心度の計算３を
行う。中心度の計算３では、テキスト木とサブ・キーワ
ードの間でマッチングを取り、その結果を用いて、キー
ワード５がテキスト中でどれだけ中心的に大きく扱われ
ているかを表す中心度を計算する。

【００１４】テキスト並び変え手段１４は、テキスト並
び変え処理４を行う。テキスト並び変え処理４では、各
テキストに対して求められた中心度を比較して、中心度
の高い順にテキストを並べ変え、この順序に従って、ユ
ーザに検索結果７を表示する。（テキスト木生成処理１）テキスト木と呼ばれる木構造
を作成する。テキスト木の各ノードには２つの要素が含
まれている。１つ目の要素は話題情報である。２つ目の
要素はその話題が、子話題を介してではなく、直接に対
応している直轄ブロックである。また、テキスト木のノ
ード間の親子関係は、各ノードに含まれる話題の親子関
係と同じである。

【００１５】図３はテキストに対するテキスト木生成処
理１を示すフローチャートである。まず、そのテキスト
の話題構造情報８から、そこに含まれるすべての話題の
話題開始点を抽出する（ステップ２１）。話題構造は、
その話題を代表する名詞句である話題語と、その話題が
継続する話題区間の最初の単文の番号を示す開始点と、
話題区間の最後の単文の番号を示す終了点と、その話題
の入れ子の深さを示す話題レベルという情報を含む。こ
こで、単文とは動詞、形容詞、形容動詞などで構成され
る述語を１つ含む単位であり、また、話題レベルは一番
外側の話題の話題レベルを１とし、１段内側の話題にな
るにつれて話題レベルは１ずつ増加するものとする。

【００１６】次に、先ほど集めた話題開始点について、
隣接する話題開始点の間に挟まれるテキストのうち、要
約区間９に含まれない部分を「直轄ブロック」として認
定する（ステップ２２）。ここで、要約区間情報９は、
要約区間の最初の単文の番号を示す開始点と、最後の単
文の番号を示す終了点を含む。

【００１７】次に、話題レベルが１である話題と、その
話題に対応する直轄ブロックの組を木構造のルート・ノ
ードとする（ステップ２３）。次に、それ以外の話題に
ついて、話題レベルがｎ＋１である話題と、その話題に
対応する直轄ブロックの組を木の１つのノードＡとし
（ステップ２４）、さらにそのノードＡの話題区間を包
含し、かつ話題レベルがｎである話題を含むノードＢを
ノードＡの親とする（ステップ２５）。これらの処理が
全ての話題に関して終了すれば（ステップ２６）、テキ
スト木生成処理１を終了する。（サブ・キーワード抽出処理２）与えられたキーワード
に含まれる語のうち、具体的な意味を持つ語であるサブ
・キーワードを抽出する。

【００１８】図４はサブ・キーワード抽出処理２を示す
フローチャートである。まず、ユーザが指定したキーワ
ード５に対して形態素解析処理を行なう（ステップ３
１）。ここで、形態素解析とは与えられた文や語句を単
語に分割し、各単語の品詞を求め、さらに動詞や形容詞
のような活用語に対しては未然形や連体形などの活用形
も求める処理である。

【００１９】次に、形態素解析済みキーワード１０を用
いてサブ・キーワードを抽出したが、その際に用いる２
つの変数を定義しておく。変数「ＳＫ開始点」は現在求
めているサブ・キーワードの最初の単語の位置を保存
し、変数「現在点」は現在処理を行っている単語の位置
を保存する。

【００２０】「現在点」の初期値は第１単語とする（ス
テップ３２）。もし、「現在点」の単語が名詞や形容詞
のような自立語であり、かつ「ＳＫ開始点」が未定義状
態であれば、「現在点」の値を「ＳＫ開始点」に代入す
る（ステップ３３、３４、３５）。もし、「現在点」の
単語が自立語でなく、かつ「ＳＫ開始点」が未定義状態
でなければ、ＳＫ開始点から現在点の直前までの単語列
をサブ・キーワードとして切り出し、さらに「ＳＫ開始
点」を未定義状態にする（ステップ３３、３６〜３
８）。上記以外の場合、すなわち現在点の単語が自立語
であり、ＳＫ開始点が未定義状態ではない場合と、現在
点の単語が自立語でなく、ＳＫ開始点が未定義状態であ
る場合は何もしない。

【００２１】次に、もし現在点が指しているのが形態素
解析済みキーワード１０の最後の単語でなければ「現在
点」の値を次の単語とし（ステップ３９、４０）、上記
の現在点の初期値を与えた処理より後の処理を繰り返
す。もし、現在点が指しているのが最後の単語で、かつ
ＳＫ開始点が未定義状態でなければ、ＳＫ開始点から現
在点までをサブ・キーワードとして切り出し（ステップ
３９、４１、４２）、サブ・キーワード抽出処理を終了
する。もし、現在点が最後の単語であるが、ＳＫ開始点
が未定義状態であれば、何もせずサブ・キーワード抽出
処理２を終了する。（中心度の計算３）与えられたキーワードが、あるテキ
ストにおいてどれだけ大々的に扱われているかを示す中
心度の計算を行う。

【００２２】図５は中心度計算処理３を示すフローチャ
ートである。第１に、テキスト木の各ノードにサブ・キ
ーワードが含まれているかどうかを調べる処理であるテ
キスト木へのマーク付けを行なう。テキスト木へのマー
ク付けでは、各サブ・キーワードに対して以下の処理を
行う。まず、未処理のサブ・キーワードＳＫＷを１つ選
び（ステップ５１）、また現在処理対象としている話題
レベルＴの値をＴ＝１とする（ステップ５２）。次に、
現在選んだサブ・キーワードＳＫＷが、話題レベルＴの
話題を含むテキスト木のノードに含まれている、すなわ
ちサブ・キーワードＳＫＷがそのノード中の話題語か直
轄ブロックに含まれているかどうかをマッチングを取っ
て調べる（ステップ５３）。もし、サブ・キーワードＳ
ＫＷが話題レベルＴのノードの話題語とマッチングが取
れれば、その話題語にマークを付け、直轄ブロックとの
マッチングは行わず、話題語とマッチングが取れなく
て、かつ直轄ブロックとのマッチングが取れれば、直轄
ブロックにマークを付ける（ステップ５３、５６）。も
し、サブ・キーワードＳＫＷが話題レベルＴのノードに
含まれておらず、かつ話題レベルＴがテキスト木での最
大値でなければ、処理対象の話題レベルＴの値を１増や
して（ステップ５３〜５５）、上記でＴの初期値を与え
た処理より後の処理を行なう、もし、サブ・キーワード
ＳＫＷが話題レベルＴのノードに含まれておらず、かつ
話題レベルＴがテキスト木での最大値であれば、何も行
なわない。上記の処理を全てのサブ・キーワードに対し
て行なえば（ステップ５７）、テキスト木へのマーク付
けは終了する。

【００２３】第２に、マークが付いたテキスト木を用い
て占有領域の認識を行う。ここで、占有領域とは、テキ
ストに含まれる単文のうち、与えられたキーワードに関
する事柄を大々的に述べている単文の集合である。キー
ワードが大々的に述べられているとみなすためには、キ
ーワードから得られたサブ・キーワードのうちの幾つか
がテキスト木のノードに含まれており、しかもそれらの
ノードが、修飾関係に相当するテキスト木での親子関係
になっている必要がある。これは、テキスト木における
ノードの親子関係について、ある数以上のマーク付きノ
ードが存在することに相当する。この必要数を「必要一
致ノード数」と呼ぶと、これは例えば以下のように求め
ることができる（ステップ５８）。

【００２４】必要一致ノード数Ｎ＝（サブ・キーワード
の数×０．７５）の四捨五入ここで、０．７５という値は、テキストの内容が属する
分野や、論文、新聞記事などテキストの種類などに応じ
て、他の適切な値を用いることもできる。もし、親子関
係にあり、かつＮ個以上マークされたノード集合がなけ
れば、このテキストには占有領域は存在しないものとす
る（ステップ６０）。もし、親子関係にあり、かつＮ個
以上マークされたノード集合が存在すれば、それぞれの
ノード集合で一番話題レベルＴが大きいノードを選ぶ
（ステップ６１）。さらに、もし、そのノードの話題語
の方にマークがついていればその話題の話題区間全体を
占有領域として認定し（ステップ６２〜６４）、もし、
直轄ブロックの方にマークが付いていれば、直轄ブロッ
ク中に最初に現れるサブ・キーワードの位置から、その
直轄ブロックに相当する話題区間の終了点までを占有領
域として認定する（ステップ６５）。

【００２５】最後に、中心度を計算する全てのノードを
処理すれば（ステップ６６）、中心度の値は中心度＝（占有領域内の単文数）／（テキスト内の単文
数）という式に基づいて計算する。（テキスト並べ変え処理４）各テキストに対して求めら
れた中心度を比較して、中心度の高い順にテキストを並
べ変える。同じ中心度のテキストが複数ある場合は、例
えばその占有領域に含まれる単文数の多い順に並べ、も
し占有領域に含まれる単文数も同じであるテキストが複
数あれば、任意の順に並べる。

【００２６】キーワード検索の結果７としては、例えば
中心度がある値以上のテキストを返したり、あるいは中
心度が上位であるテキストの一定数を返すなどする。検
索結果７を表示する際は、例えば上記で並び変えた順で
表示する。

【００２７】次に、本実施例の動作を図６に示す具体的
なテキスト例により説明する。（テキスト木生成処理１）図６に示すテキストの話題構
造として、図７に示す情報が与えられたと仮定する。図
３に示すテキスト木生成処理１に従い、話題構造情報８
から各話題の開始点を集めると、話題開始点の集合＝｛第１単文，第４単文，第１２単
文，第２５単文｝となる。単文１と単文２が要約区間９であるという要約
情報が与えられたと仮定すると、上記の話題開始点の集
合から、直轄ブロックは図８の破線のブロックｐ，ｑ，
ｒ，ｓとなる。ｐは第１単文から第３単文までのうち、
要約部分でない部分であり、他の直轄ブロックｑ，ｒ，
ｓに関しても同様にして求めることができる。

【００２８】次に、テキスト木のルート・ノードを求め
る。「Ａ社の通信サービス」を話題語として持つ話題の
話題レベルＴが１であるので、この話題と、それに対応
する直轄ブロックｐの組をルート・ノードとする。ま
た、「サービスＣ」を話題語として持つ話題を考える
と、対応する直轄ブロックｑとの組でノードを形成し、
さらに話題レベルＴが２であるので、先程のルート・ノ
ードがこのノードの親となる。他のノードも同様にして
求めることができる。その結果得られたテキスト木を図
９に示す。（サブ・キーワード抽出処理２）図１０にサブ・キーワ
ード抽出例を示す。「Ａ社のサービスＣ」という名詞句
がキーワード５として与えられたと仮定する。それに対
して形態素解析処理を行なうと（ステップ３１）、図１
０に示すように、名詞の「Ａ社」と、助詞の「の」と、
名詞の「サービスＣ」に分解される。

【００２９】図４に従い、「現在点＝第１単語」とする
（ステップ３２）。現在点の単語「Ａ社」が名詞、即ち
自立語であり、かつＳＫ開始点が未定義状態であるの
で、「ＳＫ開始点＝第１単語」とする（ステップ３３〜
３５）。現在点が最後の単語を指してはいないので、
「現在点＝第２単語」として（ステップ３９、４０）、
同様の処理を行なう。現在点の単語「の」が助詞、すな
わち付属語であり、かつＳＫ開始点が定義されているの
で、サブ・キーワードとして「Ａ社」を切り出し（ステ
ップ３３、３６、３７）、ＳＫ開始点を未定義状態にす
る（ステップ３８）。さらに、現在点は最後の単語では
ないので、「現在点＝第３単語」とする（ステップ３
９、４０）。現在点の単語「サービスＣ」が名詞、即ち
自立語であり、かつＳＫ開始点が未定義状態であるの
で、「ＳＫ開始点＝第３単語」とする（ステップ３３〜
３５）。現在点が最後の単語であり、かつＳＫ開始点が
定義されているので、サブ・キーワードとして「サービ
スＣ」を切り出す（ステップ３９、４１、４２）。（中心度の計算３）図５の中心度計算のフローチャート
に従い、まずテキスト木へのマーク付けを行なう。サブ
・キーワード「Ａ社」を考えると（ステップ５１）、サ
ブ・キーワード「Ａ社」は、テキスト木のルート・ノー
ドに含まれる話題レベルＴ＝１の話題語「Ａ社の通信サ
ービス」に含まれるので、その話題語にマークを付ける
（ステップ５２、５３、５６）。サブ・キーワード「サ
ービスＣ」に関しても同様にマークを付ける（ステップ
５１〜５３、５６）。図９のテキスト木において話題語
にマーク（実線のブロック）を付けた結果を図１１に示
す。

【００３０】次に、図５に従い、占有領域の認識を行な
う。サブ・キーワードＳＫＷの数が２つであるので、必
要一致ノード数Ｎは必要一致ノード数Ｎ＝（２×０．７５）の四捨五入＝２となる（ステップ５８）。図１１のマーク付きテキスト
木を見ると、話題語「Ａ社の通信サービス」と「サービ
スＣ」を含むノードが親子関係であり、かつ必要一致ノ
ード数２以上のノードを含んでいる。これらのうち、話
題語「サービスＣ」を含むノードが最も話題レベルＴが
大きく、かつ話題語の方にマークが付いているので、図
１２に示すように、この「サービスＣ」を含む話題の話
題区間を占有領域として認定する（ステップ５９，６
１〜６４）。必要一致ノード数２を満たす親子ノード集
合は、これ以外にはないので、占有領域はこれだけであ
る。

【００３１】最後に、テキスト全体の単文数が４０で、
占有領域に含まれる単文数が８であるので、中心度＝８／４０＝０．２０となる（ステップ６７）。

【００３２】

【発明の効果】以上説明したように本発明は、下記のよ
うな効果がある。（１）請求項１の発明は、与えられたキーワードが、検
索対象の各テキストにおいてどれだけ大々的に述べられ
ているかを表す中心度を計算することにより、ユーザは
欲しい情報を効率良く取得することが可能となる。（２）請求項２の発明は、中心度に値に基づいてテキス
トに順位付けを行なうことにより、検索結果をユーザに
分かり易いように表示することが可能となる。

【図面の簡単な説明】

【図１】本発明の一実施例のキーワード検索方法の処理
を示すフローチャートである。

【図２】本発明の一実施例のキーワード検索装置のブロ
ック図である。

【図３】テキスト木生成処理１を示すフローチャートで
ある。

【図４】サブ・キーワード抽出処理２を示すフローチャ
ートである。

【図５】中心度の計算３を示すフローチャートである。

【図６】テキストの一例を示す図である。

【図７】話題構造情報８を示す図である。

【図８】図６のテキスト例の直轄ブロックを示す図であ
る。

【図９】図６のテキスト例のテキスト木を示す図であ
る。

【図１０】キーワードからのサブ・キーワード抽出例を
示す図である。

【図１１】図６のテキスト例のテキスト木に対するマー
クを示す図である。

【図１２】図６のテキスト例の占有領域を示す図であ
る。

【符号の説明】

１テキスト木生成処理２サブ・キーワード抽出処理３中心度の計算４テキスト並べ換え処理５ユーザが指定したキーワード６検索対象７検索結果８話題構造情報９要約区間１０形態素解析済みキーワード１１テキスト木生成手段１２サブ・キーワード抽出手段１３中心度計算手段１４テキスト並び換え手段２１〜２６、３１〜４２、５１〜６７ステップ

フロントページの続き (56)参考文献特開昭61−117658（ＪＰ，Ａ) 特開平２−181261（ＪＰ，Ａ) 特開平２−254566（ＪＰ，Ａ) 特開平３−105566（ＪＰ，Ａ) 特開平３−191475（ＪＰ，Ａ) 特開平４−24869（ＪＰ，Ａ) 特開平４−281565（ＪＰ，Ａ) 特開平４−135278（ＪＰ，Ａ) 三池，小野，住田「ＡＭＥＴＨＯＤＯＦＩＮＦＯＲＭＡＴＩＯＮＲＥＴＲＩＥＶＡＬＢＹＤＯＣＵＭＥＮＴＳＴＲＵＣＴＵＲＥＡＮＡＬＹＳＩＳ」情報処理学会研究報告（93−ＦＩ −31）ｐｐ．39−46（平５−９−14) 原田，外３名「抄録からの主題文の自動抽出」情報処理学会研究報告（93−ＦＩ−29−３）ｐｐ．17−26（平５−５− 18) 西村，島津「特定表現の重点的解析による科学技術論文構造化手法」情報処理学会研究報告（93−ＦＩ−29−５）ｐｐ．35−42（平５−５−18) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】キーワード検索方法において、あらかじめ話題構造情報と要約区間情報が各テキストに
与えられたフルテキスト・データベースから与えられた
キーワードに関係のあるテキストを検索する際に、各テ
キストの話題構造情報に含まれる話題語とキーワードと
の部分文字列マッチングを取り、もしマッチングに成功すれば、マッチングした話題語を
含む話題構造情報から、テキストにおいてそのキーワー
ドについて述べらている占有領域を求め、もしマッチングに失敗すれば、テキストで要約区間以外
の部分とキーワードとの部分文字列マッチングを行な
い、もしマッチングに成功すればマッチングした文字列
のテキストにおける位置とその位置に対応する話題構造
情報から占有領域を求め、もし、マッチングに失敗すれ
ば占有領域は存在しないものとし、占有領域内の単文数とテキスト内の単文数の比である中
心度を計算することを特徴とするキーワード検索方法。
【請求項２】各テキストに対して、求められた中心度
の値に基づいて順位付けを行う請求項１記載のキーワー
ド検索方法。