JPH0756948A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH0756948A
JPH0756948A JP5218138A JP21813893A JPH0756948A JP H0756948 A JPH0756948 A JP H0756948A JP 5218138 A JP5218138 A JP 5218138A JP 21813893 A JP21813893 A JP 21813893A JP H0756948 A JPH0756948 A JP H0756948A
Authority
JP
Japan
Prior art keywords
word
occurrence
keyword
information
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5218138A
Other languages
English (en)
Inventor
Takehiro Koyama
剛弘 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP5218138A priority Critical patent/JPH0756948A/ja
Publication of JPH0756948A publication Critical patent/JPH0756948A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 キーワードによる情報の検索において、キー
ワードそのものだけではなく、キーワードと関係の強い
語に関する情報によって検索を行なうことのできる情報
検索装置を提供する。 【構成】 キーワード指定部1は、ユーザから検索のた
めのキーワードを得る。共起語検索部2は、キーワード
指定部1から伝達されたキーワードを用いて共起データ
ベース3を検索し、共起語の情報を得る。検索語指定部
4は、共起語検索部2から共起語の情報受け取ると、ユ
ーザにその共起語を表示し、ユーザから検索したい語の
指定を得る。ユーザから指定された共起語の情報は、テ
キスト検索部5に伝達される。テキスト検索部5は、検
索語指定部4で指定された共起語を検索語としてテキス
トデータベース6を検索し、検索結果をテキスト表示部
7でユーザに対して表示される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードによる情報
の検索装置において、キーワードの共起情報、すなわ
ち、キーワードと関係の強い語の情報を用いて検索を行
なう情報検索装置に関するものである。
【0002】
【従来の技術】従来、キーワードによる情報の検索を行
なう装置においては、キーワードそのものを用いて検索
するもののほか、キーワードに関連する情報によって検
索を行なうものがある。例えば、「自動車」というキー
ワードに関連する情報として、「車」,「カー」などの
類義語をキーワードに加えて検索する装置がある。この
類義語を用いた検索方式は、例えば、特開平3−130
873号公報等に記載されている。また、例えば、「自
動車」というキーワードに関連する情報として、下位概
念「トラック」,「消防車」等をキーワードとして抽出
するような、シソーラス展開して得られた上位、下位概
念を用いて検索する装置などもある。
【0003】このような従来のキーワードの類義語や上
位、下位概念による検索は、語彙上の関係、すなわち、
類似、上位,下位概念の関係があるものしか検索できな
い。それ以外で関係が強いもの、例えば、「自動車」と
関係が強い語「レース」,「交通事故」,「渋滞」等に
よって検索するには、キーワードに対する十分な知識が
ない場合、実際にテキストを読み、関係が強い語を判断
するか、テキスト中の参照表示などを参考にしてキーワ
ードを設定しなければならず、不便であった。
【0004】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、キーワードによる情報の検
索において、キーワードそのものだけではなく、キーワ
ードと関係の強い語に関する情報によって検索を行なう
ことのできる情報検索装置を提供することを目的とする
ものである。
【0005】
【課題を解決するための手段】本発明は、請求項1に記
載の発明においては、キーワードによる情報の検索を行
なう情報検索装置において、キーワードの入力を受け付
けるキーワード指定部と、検索される情報を格納した情
報データベースと、ある語と強い関係にある共起語の情
報を格納した共起データベースと、該共起データベース
を参照し前記キーワードの共起語を検索する共起語検索
部と、共起語を表示し検索したい語の指定を受け付ける
検索語指定部と、該検索語指定部で指定された語により
前記情報データベースの検索を行なう情報検索部を有す
ることを特徴とするものである。
【0006】また、請求項2に記載の発明においては、
キーワードによる情報の検索を行なう情報検索装置にお
いて、キーワードの入力を受け付けるキーワード指定部
と、検索される情報を格納した情報データベースと、あ
る語と強い関係にある共起語の情報を格納した共起デー
タベースと、該共起データベースを参照し共起語を検索
する共起語検索部と、キーワードと共起語により前記情
報データベースの検索を行なう情報検索部を有すること
を特徴とするものである。
【0007】さらに、前記共起語の情報は、第1段にキ
ーワード、第2段にキーワードと強い関係にある共起語
の形態素、第3段に前記形態素及び前記形態素を含む複
合語から構成される階層関係を有していることを特徴と
するものである。
【0008】
【作用】本発明によれば、ユーザの指定したキーワード
により共起データベースを参照し、共起語を得て、指定
された共起語、あるいは、キーワードと共起語により、
情報データベースの検索を行なう。そのため、キーワー
ドそのもの以外に、キーワードと強い関係を有する共起
語による情報データベースの検索を行なうことができ
る。これにより、キーワードに関する十分な知識がなく
ても、情報を直接参照することなく、また、テキスト中
に参照の指示や関連する記述がない場合でも、キーワー
ドに関する間接情報を効率的に得て検索を行なうことが
できる。
【0009】また、共起語情報を階層関係を有するよう
に構成しているので、他の要素が付加された複合語や、
意味的に近い語を集めることができ、重み付けを行なう
ことによって語の重要度を把握することができ、有用な
共起語の選択を支援し、所望の情報をより早く検索する
ことができるようになる。
【0010】
【実施例】図1は、本発明の情報検索装置の第1の実施
例を示すブロック図である。図中、1はキーワード指定
部、2は共起語検索部、3は共起データベース、4は検
索語指定部、5はテキスト検索部、6はテキストデータ
ベース、7はテキスト表示部である。この実施例では、
検索される情報として、テキストの場合を示している
が、他の情報であってもよい。
【0011】キーワード指定部1は、ユーザから検索の
ためのキーワードを得る。得られたキーワードは、共起
語検索部2に伝達される。共起語検索部2は、キーワー
ド指定部1から伝達されたキーワードを用いて共起デー
タベース3を検索し、キーワードと関係の強い語、すな
わち、共起語の情報を得る。得られた共起語は、検索語
指定部4に伝達される。共起データベース3には、単語
を見出し語として関係が強い共起語の情報が格納されて
いる。検索語指定部4は、共起語検索部2から共起語の
情報受け取ると、ユーザにその共起語を表示し、ユーザ
から検索したい語の指定を得る。ユーザから指定された
共起語の情報は、テキスト検索部5に伝達される。テキ
スト検索部5は、検索語指定部4で指定された共起語を
検索語としてテキストデータベース6を検索し、検索結
果をテキスト表示部7に伝達する。テキストデータベー
ス6には、テキストが格納されており、任意の単語で検
索することにより、その単語に関する記述を得ることが
できる。テキスト表示部7は、テキスト検索部5による
検索の結果を得ると、その情報をユーザに表示する。
【0012】図2は、共起語についての説明図である。
図中、()で示した語は、意味カテゴリを示している。
共起語とは、ある語と関係の強い語のことであり、自然
言語処理に幅広く利用されている。共起語としては、体
言−用言の関係、すなわち、用言とその格要素の関係
と、体言−体言の関係がある。図2(A)は、体言−用
言の関係の例を示している。用言のキーワードとして、
「食べる」を例にすると、が格の共起語としては、食べ
る主体、すなわち、人間や犬、猫などの動物がこれにあ
たる。同様に、を格の共起語としては、食べる対象、す
なわち、ご飯やパン等の食べ物がこれにあたる。さら
に、で格の共起語としては、はしやレストランなど、道
具や場所などの語がこれにあたる。
【0013】一方、体言−体言の関係の例としては、図
2(B)に示したように、キーワードを「AI」とした
とき、これに関係する語、例えば、「人工知能」,「コ
ンピュータ」,「エキスパートシステム」等が共起語と
なる。また、キーワードを「OA」としたとき、例え
ば、「ワープロ」,「パソコン」,「電子ファイル」等
が共起語となる。以下の説明では、この体言−体言の関
係を用いて説明するが、体言−用言の関係を用いること
も可能である。
【0014】次に、本発明の第1の実施例の動作を説明
する。図3は、本発明の第1の実施例の動作の一例を示
す説明図である。図中の符号は図1と同様である。この
例では、ユーザがキーワードとして「ワープロ」を指定
したときの各構成部の入力および出力の例を示してい
る。
【0015】キーワード指定部1は、ユーザからキーワ
ードとして「ワープロ」を得ると、その情報を共起語検
索部2に伝達する。共起語検索部2では、キーワード
「ワープロ」を得ると、共起データベース3を検索す
る。いま、共起データベース3には、「ワープロ」の共
起語として、「パソコン」,「OA」,「仮名漢字変
換」という語が登録されているとする。すると、キーワ
ード「ワープロ」による共起データベース3の検索によ
り、「ワープロ」の共起語の情報「パソコン」,「O
A」,「仮名漢字変換」が検索される。共起語検索部2
は、これらの共起語を検索語指定部4に伝達する。検索
語指定部4では、キーワード「ワープロ」の共起語の情
報「パソコン」,「OA」,「仮名漢字変換」を得る
と、ユーザにその情報を表示する。ユーザが検索したい
語として、例えば、「仮名漢字変換」を指定したとする
と、その情報をテキスト検索部5に伝達する。テキスト
検索部5では、検索語指定部4で指定された語「仮名漢
字変換」を得ると、この語をキーワードとしてテキスト
データベース6を検索する。このとき、テキストデータ
ベース6には、「パソコン」,「OA」,「仮名漢字変
換」等を属性として有するテキストが格納されているも
のとする。すると、検索結果として、指定された語「仮
名漢字変換」を属性として有するテキスト「仮名を漢字
に変換する・・・」を得ることができる。テキスト検索
部5は、この検索結果をテキスト表示部7に伝達する。
テキスト表示部7では、検索結果を得ると、その情報を
ユーザに表示する。
【0016】これにより、キーワード「ワープロ」か
ら、その共起語である「仮名漢字変換」により検索を行
なうことができる。例えば、キーワード「ワープロ」で
は検索できなかった場合に、共起語による検索を行なう
ことにより、所望する情報に近い情報を得ることができ
る。また、検索語指定部4において、キーワードを含め
て表示し、キーワード及び共起語のうちから検索を行な
うための語を選択するように構成することもできる。共
起データベースおよびテキストデータベースの内容およ
び形式は、図3に示したものに限定されることはなく、
種々の形式のデータベースとすることができる。
【0017】図4は、本発明の情報検索装置の第2の実
施例を示すブロック図である。図中の符号は図1と同様
である。この第2の実施例では、検索語指定部を用いず
に、キーワードの共起語をすべて検索キーとして、テキ
ストデータベースを検索するように構成した例を示して
いる。
【0018】キーワード指定部1は、ユーザから検索の
ためのキーワードを得る。得られたキーワードは、共起
語検索部2に伝達される。共起語検索部2は、キーワー
ド指定部1から伝達されたキーワードを用いて共起デー
タベース3を検索し、共起語の情報を得る。得られた共
起語とキーワードの情報は、テキスト検索部5に伝達さ
れる。共起データベース3には、単語を見出し語とし
て、共起語の情報が格納されている。テキスト検索部5
は、共起語検索部2からキーワードとその共起語の情報
受け取ると、受け取ったキーワード及び共起語を検索語
としてテキストデータベース6を検索し、検索結果をテ
キスト表示部7に伝達する。テキストデータベース6に
は、テキストが格納されており、任意の単語で検索する
ことにより、その単語に関する記述を得ることができ
る。テキスト表示部7は、テキスト検索部5による検索
の結果を得ると、その情報をユーザに表示する。
【0019】次に、本発明の第2の実施例の動作を説明
する。図5は、本発明の第2の実施例の動作の一例を示
す説明図である。図中の符号は図4と同様である。この
例では、ユーザがキーワードとして「ワープロ」を指定
したときの各構成部の入力および出力の例を示してい
る。
【0020】キーワード指定部1は、ユーザからキーワ
ードとして「ワープロ」を得ると、その情報を共起語検
索部2に伝達する。共起語検索部2では、キーワード
「ワープロ」を得ると、共起データベース3を検索す
る。いま、共起データベース3には、「ワープロ」の共
起語として、「パソコン」,「OA」,「仮名漢字変
換」という語が登録されているとする。すると、キーワ
ード「ワープロ」による共起データベース3の検索によ
り、「ワープロ」の共起語の情報「パソコン」,「O
A」,「仮名漢字変換」が検索される。共起語検索部2
は、キーワードとこれらの共起語をテキスト検索部5に
伝達する。テキスト検索部5では、キーワード「ワープ
ロ」と、その共起語の情報「パソコン」,「OA」,
「仮名漢字変換」を得ると、これらの語をキーワードと
してテキストデータベース6を検索する。このとき、テ
キストデータベース6には、「ワープロ」,「パソコ
ン」,「OA」,「仮名漢字変換」等を属性として有す
るテキストが格納されているものとする。すると、検索
結果として、それぞれの語に対応したテキスト「ワード
プロセッサの略で・・・」,「パーソナルコンピュータ
の・・・」,「オフィスの事務の機械化は・・・」,
「仮名を漢字に変換する・・・」を得ることができる。
テキスト検索部5は、この検索結果をテキスト表示部7
に伝達する。テキスト表示部7では、検索結果を得る
と、その情報をユーザに表示する。
【0021】これにより、入力されたキーワード「ワー
プロ」から、キーワード「ワープロ」に対応する情報の
みならず、その関連した情報を、共起語である「パソコ
ン」,「OA」,「仮名漢字変換」により検索を行な
い、表示することができる。ユーザは、キーワード「ワ
ープロ」で検索された情報と、それに関連した情報をも
一度の検索で得ることができる。もちろん、キーワード
の検索のみでよい場合には、共起語による検索を行なわ
ないように、切り替えて制御することも可能である。共
起データベースおよびテキストデータベースの内容およ
び形式は、図5に示したものに限定されることはなく、
種々の形式のデータベースとすることができる。
【0022】以下、上述の第1及び第2の実施例におけ
る共起語検索部2及び共起データベース3について述べ
る。上述の説明では、共起語検索部2は、共起データベ
ース3から共起語を検索すると述べた。しかしこれに限
らず、例えば、キーワードが入力されるごとに、入力さ
れたキーワードをもとに、共起語抽出用データベースを
用いてテキストデータベース6から共起語を抽出し、抽
出された共起語の抽出頻度により選択するように構成す
ることもできる。このような共起語の検索を行なうこと
により、共起データベース3のような大きなデータベー
スを有しなくても、共起語によるテキストデータベース
6の検索が可能である。しかし、テキストデータベース
6が大きくなると、共起語の抽出に時間がかかるように
なるという欠点を有している。上述のように、共起デー
タベース3を有する構成では、共起語の検索のみでよい
ため、共起語検索部2で要する時間は少なくて済むが、
データ量の多い共起データベース3が必要となる。
【0023】共起データベース3は、上述のように、あ
る語と、その語に強い関係のある語、すなわち、共起語
との情報が格納される。この情報は、予め入力し、格納
しておくことになる。一つの方法としては、共起語のリ
ストを作成し、そのリストを手作業で入力することが考
えられる。しかし、入力する情報量が多く、手作業によ
る入力は困難である。また、テキストデータベース6に
格納されているテキストによって、必要とされる共起語
も変化するので、テキストに合った共起語を抽出し、共
起データベース3に格納したほうが効率がよい。そのた
め、別の方法として、テキストデータベース6に格納さ
れているテキストから共起語となりうる語を抽出し、共
起データベース3を作成することが考えられる。
【0024】図6は、上述した共起データベース3を作
成する手順の一例の説明図である。図中、11は形態素
解析部、12は形態素ファイル、13は共起頻度カウン
ト部、14は頻度テーブルである。まず、形態素解析部
11では、テキストデータベース6に格納されているテ
キストを入力とし、テキストの形態素を解析し、形態素
ファイル12を作成する。形態素の解析は、従来より自
然言語処理などで用いられている手法をそのまま用いる
ことができる。次に、共起データベースの作成者が、共
起データベース3のキーワードを入力する。共起頻度カ
ウント部13は、入力されたキーワードと共起する語を
形態素ファイル12から抽出し、キーワードとともに頻
度テーブル14に登録し、頻度をカウントする。このと
き、頻度のほか、意味的なつながりや、構文的な特徴、
例えば、「の」による連体修飾、複合語、キーワードと
の距離などの情報も登録することができる。このように
して登録された頻度テーブル14を共起データベース3
として用いればよい。カウントした頻度等の情報は、例
えば、検索語指定部4においてユーザに対して共起語の
表示を行なう場合に、これらの情報に基づいて表示を行
なうことができる。
【0025】キーワードと共起した語を頻度テーブルに
登録する単位としては、例えば、形態素解析部11で解
析された形態素の単位のほか、複合語の単位や、形態素
の組み合わせの単位などが考えられる。形態素の単位で
登録を行なう場合、各形態素のみでは意味がわかりにく
い場合がある。例えば、「特許電子出願」は「特許」,
「電子」,「出願」の3つで登録される。この方法で
は、頻度のカウントは効率的に行なわれるが、形態素の
語は、広範な意味を有しており、それぞれの語のみで
は、検索に用いるためのキーワードとするには不適当で
ある。複合語の単位で登録を行なう場合には、「特許電
子出願」という複合語がひとつの単位として登録される
ので、意味的にわかりやすい。しかし、同じ特許関係の
語である「特許」,「特許情報」,「特許出願」などと
は別の語として取り扱われてしまうという欠点がある。
形態素の組み合わせの単位で登録を行なう場合には、
「特許電子出願」は、「特許」,「電子」,「出願」,
「特許電子」,「電子出願」,「特許電子出願」の6つ
の語として登録され、それぞれの語の頻度がカウントさ
れる。そのため、関係のある語にも頻度がカウントされ
るので、頻度情報は適切なものとなる。しかし、登録さ
れる語が多数になるため、共起データベースの容量が非
常に大きくなるという欠点を有している。
【0026】このように、頻度テーブルに登録を行なう
単位としては、上述の3つの単位では一長一短がある。
例えば、形態素の単位と複合語の単位の両方を登録し、
意味のわかりやすさと、効率的な頻度のカウントを行な
うことが考えられる。この場合、「特許電子出願」は、
「特許」,「電子」,「出願」,「特許電子出願」で登
録する。しかし、この方法では、形態素の単位の語が高
頻度となってしまい、低頻度の複合語が他の低頻度の語
に埋もれてしまうという問題がある。複合語に重み付け
をすることも考えられるが、調整は困難である。
【0027】そこで、登録は形態素単位で行ない、形態
素と複合語の対で登録し、複合語の情報も残す方法が考
えられる。この方法では、効率的に頻度をカウントでき
るとともに、形態素では意味がわかりにくいという欠点
を改善することができる。
【0028】図7は、頻度テーブルの構成の一例の説明
図である。上述のように、形態素と複合語の対で頻度テ
ーブルに登録するために、図7に示すような3段の階層
構造を有するハッシュテーブルを用いることができる。
第1段は、入力されたキーワードとし、第2段にキーワ
ードに共起した形態素を登録し、第3段に形態素を有す
る複合語とその頻度を登録する。例えば、図7の例で
は、キーワード「ワープロ」を第1段とし、キーワード
「ワープロ」の共起語である形態素「OA」,「パソコ
ン」等を第2段とし、さらに、形態素「OA」を抽出す
るもととなった複合語として、形態素そのものの「O
A」、および、複合語の「OA機器」,「OAシステ
ム」が第3段として登録されている。それぞれの語の頻
度は、5,3,1とカウントされている。また、第2段
の形態素「パソコン」のもとの複合語としては、「パソ
コン」,「パソコン通信」が登録されている。それぞれ
の語の頻度は、4,1とカウントされている。なお、図
中の矢印は、ポインタを示している。
【0029】図8は、頻度テーブルへの登録の一例の説
明図である。まず、第1段のハッシュテーブルにキーワ
ードを登録する。次に、キーワードによりテキストデー
タベースを検索し、検索結果のテキスト、例えば、キー
ワードを有する同一文中から、語を抽出し、形態素に分
割する。このとき得られた形態素を、第1段のキーワー
ドから指される第2段のハッシュテーブルに登録する。
また、第2段に登録したそれぞれの形態素から指される
第3段のハッシュテーブルの領域に、もとの複合語をそ
れぞれ登録する。例えば、キーワードを「ワープロ」と
すると、キーワード「ワープロ」を第1段のハッシュテ
ーブルに登録する。そして、キーワード「ワープロ」に
よりテキストの検索を行ない、キーワード「ワープロ」
を有する文中から、例えば、「OA機器」という語が抽
出される。抽出された複合語「OA機器」は、「OA」
と「機器」という形態素に分割される。このとき、キー
ワード「ワープロ」は、第1段のハッシュテーブルに登
録され、「ワープロ」から指される第2段のハッシュテ
ーブルに形態素「OA」,「機器」が登録され、さら
に、複合語「OA機器」は、形態素「OA」と形態素
「機器」の指す第3段のハッシュテーブルに別々に登録
される。登録された複合語には、頻度として1を付与す
る。以降の語の抽出により、同じ語が見つかった場合に
は、新たに登録せず、この頻度情報をカウントして行く
ことになる。
【0030】このようにして、頻度テーブルへの登録を
行ない、頻度のカウントを行なうことにより、複合語の
頻度のカウントは、第3段の複合語が有する頻度の情報
を参照すればよいし、また、形態素の頻度のカウント値
は、第2段の形態素の下位に登録されている複合語の頻
度の和を求めることにより知ることができる。
【0031】上述の例では、ハッシュテーブルを用いて
いるので、同じ複合語であっても形態素ごとに語を登録
したが、全ての語に対してポインタを有する構成の場合
には、登録する語は1つでよく、複数の形態素からポイ
ンタにより指されるようにポインタを操作するのみでよ
い。
【0032】上述のようにして登録した頻度テーブルを
共起データベースとして用い、キーワードによる検索を
行なう場合には、第1段に登録されている語を検索すれ
ばよい。検索された第1段の語から指される第2段の形
態素、および、第3段の複合語を、共起語として用いる
ことができる。
【0033】第1の実施例では、共起データベースを検
索した結果を、検索語指定部4において、ユーザに対し
て表示している。この検索語指定部4における表示は、
頻度テーブルに登録されている階層構造を用い、また、
カウントした頻度情報を用いて行なうことができる。図
9は、共起語の表示の一例の説明図である。表示の一例
としては、ユーザが指定したキーワードと、そのキーワ
ードにより検索された共起語として、第2段の形態素、
および、その形態素に対応する第3段の複合語を、頻度
を付加してくり返し表示することができる。例えば、キ
ーワード「人工知能」によって検索される共起語とし
て、まず、第2層の形態素として、「AI」,「知
識」,「工学」,「エキスパートシステム」,「知
能」,「ロボット」,「推論」,「認識」等が登録され
ており、さらに、第3層の複合語として、例えば、形態
素「AI」の下層に、「AI」,「AIセンター」,
「AI開発」,「AI市場規模」が登録されているとす
る。このとき、図9に示すように、キーワード「人工知
能」を表示し、次に、各形態素ごとに、その形態素と頻
度、さらに、その下層に登録されている複合語とその頻
度を表示することができる。例えば、形態素「AI」
と、その頻度「53times」を表示し、続いて、そ
の下位に登録されている複合語「AI」,「AIセンタ
ー」,「AI開発」,「AI市場規模」を、各頻度
を[]で括って示している。なお、形態素の頻度は、そ
の下位に登録されている複合語の有する頻度情報の和で
ある。
【0034】このような表示を行なうとき、各形態素ご
との表示は、形態素の頻度順に表示することができる。
また、複合語の表示も、それぞれの頻度順に行なうこと
ができる。表示する形態素、複合語は、登録されている
全ての語を対象にしてもよいし、あるいは、ある条件に
適合するものだけを表示するようにしてもよい。条件と
しては、例えば、頻度が3以上の形態素のみを表示させ
るという条件や、上位20個まで表示するといった条件
でもよい。このほかの条件でも、もちろん良いし、ま
た、条件を組み合わせて用いることも可能である。ま
た、意味のつながりなど、頻度情報以外の情報を付加し
て、共起データベースに登録している場合には、それら
の情報を用いることもできる。
【0035】図10乃至図13は、頻度テーブルに登録
され、表示される語の一例の説明図である。図7、図8
において説明したようなデータ構造を用い、形態素、複
合語を頻度テーブルに登録し、図9に示したような共起
語の表示を行なうことにより、種々の利点を得ることが
できる。第1に、形態素だけでは意味がよくわからない
場合でも、複合語と組み合わせることにより、意味が明
確に把握できることがあげられる。例えば、図10に示
すように、キーワード「特許」と共起する形態素が「知
的],「協力」、「電子」であったとすると、これらの
語は広範な意味を有するため、漠然としている。しか
し、各形態素の下位に複合語が登録されていることによ
り、「知的所有権本部」,「特許協力条約」,「特許電
子出願」が関係が強いことを類推でき、意味を明確に理
解することができる。
【0036】第2に、語が形態素ごとにまとまるので、
複合語として意味的に近いものが集まる。そのため、他
の要素が複合したり、また、表記が完全に一致していな
くても、同じグループとして表示され、用いられている
語の傾向を把握することができる。例えば、図11
(A)の「特許電子出願」,「特許電子出願システ
ム」,「電子特許出願システム」や、図11(B)、図
11(C)のように、表記の違いだけで別々に登録され
ている複合語も、並んで表示されるので、これらの語を
一つの語として認識しやすくなる。
【0037】第3に、頻度情報を有しており、これを表
示しているので、形態素間、あるいは、複合語間の重要
度の違いを認識することができる。例えば、図12
(A)では、形態素「外交」の中では「新思考外交」
が、また、図12(B)では、形態素「条約」の中では
「特許協力条約」が、それぞれ最も重要な複合語である
ことが理解できる。
【0038】第4に、対比的な語が集まりやすく、各語
を比較しやすい。例えば図13(A)では、複合語とし
て衛星の種類の語が集まっており、また、図13(B)
では、複合語として会談の名称が集まっており、それぞ
れの語の対比が行ないやすくなっている。
【0039】このように、共起データベースから得られ
た共起語の情報は種々の利点を有しているので、その選
択も容易に行なうことができる。
【0040】第2の実施例では、共起語の選択を行なわ
ず、検索された共起語によってテキストデータベースの
検索を行なっているが、それぞれの共起語で検索を行な
った後、上述の図9に示すように、各形態素、各複合語
ごとの検索結果の表示を行なうことができる。その場
合、上述の各利点を有することになる。また、検索語指
定部における共起語の表示の際に、頻度などの条件を設
定できるように、検索で用いる共起語に条件を設け、条
件に適合する共起語のみでテキストデータベースを検索
するように構成することもできる。
【0041】
【発明の効果】以上の説明から明らかなように、本発明
によれば、ユーザが指定したキーワードで共起データベ
ースを検索し、キーワードと関係の強い語を得て、デー
タベースを検索するので、キーワードに関する十分な知
識がなくても、ユーザがテキストの中身を読んで関連す
る新たなキーワードを抽出することなく、検索を行なう
ことができるという効果がある。
【図面の簡単な説明】
【図1】 本発明の情報検索装置の第1の実施例を示す
ブロック図である。
【図2】 共起語についての説明図である。
【図3】 本発明の第1の実施例の動作の一例を示す説
明図である。
【図4】 本発明の情報検索装置の第2の実施例を示す
ブロック図である。
【図5】 本発明の第2の実施例の動作の一例を示す説
明図である。
【図6】 共起データベース3を作成する手順の一例の
説明図である。
【図7】 頻度テーブルの構成の一例の説明図である。
【図8】 頻度テーブルへの登録の一例の説明図であ
る。
【図9】 共起語の表示の一例の説明図である。
【図10】 頻度テーブルに登録され、表示される語の
一例の説明図である。
【図11】 頻度テーブルに登録され、表示される語の
一例の説明図である。
【図12】 頻度テーブルに登録され、表示される語の
一例の説明図である。
【図13】 頻度テーブルに登録され、表示される語の
一例の説明図である。
【符号の説明】
1 キーワード指定部、2 共起語検索部、3 共起デ
ータベース、4 検索語指定部、5 テキスト検索部、
6 テキストデータベース、7 テキスト表示部、11
形態素解析部、12 形態素ファイル、13 共起頻
度カウント部、14 頻度テーブル。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 キーワードによる情報の検索を行なう情
    報検索装置において、キーワードの入力を受け付けるキ
    ーワード指定部と、検索される情報を格納した情報デー
    タベースと、ある語と強い関係にある共起語の情報を格
    納した共起データベースと、該共起データベースを参照
    し前記キーワードの共起語を検索する共起語検索部と、
    共起語を表示し検索したい語の指定を受け付ける検索語
    指定部と、該検索語指定部で指定された語により前記情
    報データベースの検索を行なう情報検索部を有すること
    を特徴とする情報検索装置。
  2. 【請求項2】 キーワードによる情報の検索を行なう情
    報検索装置において、キーワードの入力を受け付けるキ
    ーワード指定部と、検索される情報を格納した情報デー
    タベースと、ある語と強い関係にある共起語の情報を格
    納した共起データベースと、該共起データベースを参照
    し共起語を検索する共起語検索部と、キーワードと共起
    語により前記情報データベースの検索を行なう情報検索
    部を有することを特徴とする情報検索装置。
  3. 【請求項3】 前記共起語の情報は、第1段にキーワー
    ド、第2段にキーワードと強い関係にある共起語の形態
    素、第3段に前記形態素及び前記形態素を含む複合語か
    ら構成される階層関係を有していることを特徴とする請
    求項1または2に記載の情報検索装置。
JP5218138A 1993-08-09 1993-08-09 情報検索装置 Pending JPH0756948A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5218138A JPH0756948A (ja) 1993-08-09 1993-08-09 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5218138A JPH0756948A (ja) 1993-08-09 1993-08-09 情報検索装置

Publications (1)

Publication Number Publication Date
JPH0756948A true JPH0756948A (ja) 1995-03-03

Family

ID=16715239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5218138A Pending JPH0756948A (ja) 1993-08-09 1993-08-09 情報検索装置

Country Status (1)

Country Link
JP (1) JPH0756948A (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287078A (ja) * 1995-04-14 1996-11-01 Nec Corp キーワード選択支援装置
JPH0944523A (ja) * 1995-07-27 1997-02-14 Fuji Xerox Co Ltd 関連語提示装置
JPH09101964A (ja) * 1995-10-06 1997-04-15 Ricoh Co Ltd データ検索装置及び方法
JPH09153068A (ja) * 1995-11-29 1997-06-10 Oki Electric Ind Co Ltd 類似検索方法および装置
JPH09231237A (ja) * 1996-02-28 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH10232885A (ja) * 1996-12-20 1998-09-02 Fujitsu Ltd データベース類似検索方法及び装置及び類似検索プログラムを格納した記憶媒体
JPH10334106A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2000123034A (ja) * 1998-10-14 2000-04-28 Toshiba Corp 電子カタログ利用装置および電子カタログシステム
JP2000348055A (ja) * 1999-06-08 2000-12-15 Nec Corp 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2003022275A (ja) * 2001-07-06 2003-01-24 Telecommunication Advancement Organization Of Japan 文書検索システムおよび方法
JP2004164662A (ja) * 2003-12-24 2004-06-10 Just Syst Corp 検索装置、検索方法、ならびに、情報記録媒体
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
JP2008276769A (ja) * 2007-04-26 2008-11-13 Nhn Corp キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム
JP4464463B2 (ja) * 2007-08-03 2010-05-19 パナソニック株式会社 関連語提示装置
JP2010528351A (ja) * 2007-05-18 2010-08-19 エヌエイチエヌ コーポレーション 共通接辞を用いたキーワード順位を提供する方法およびシステム
JP2011085993A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 情報分析装置、情報分析方法および情報分析プログラム
JP2012528406A (ja) * 2009-05-27 2012-11-12 マイクロソフト コーポレーション 検索結果のマージ
WO2013046838A1 (ja) * 2011-09-29 2013-04-04 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP2013152744A (ja) * 2007-04-10 2013-08-08 Alibaba Group Holding Ltd 更新パラメータを生成および相関するキーワードを表示するための方法および装置
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287078A (ja) * 1995-04-14 1996-11-01 Nec Corp キーワード選択支援装置
JPH0944523A (ja) * 1995-07-27 1997-02-14 Fuji Xerox Co Ltd 関連語提示装置
JPH09101964A (ja) * 1995-10-06 1997-04-15 Ricoh Co Ltd データ検索装置及び方法
JPH09153068A (ja) * 1995-11-29 1997-06-10 Oki Electric Ind Co Ltd 類似検索方法および装置
JPH09231237A (ja) * 1996-02-28 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH10232885A (ja) * 1996-12-20 1998-09-02 Fujitsu Ltd データベース類似検索方法及び装置及び類似検索プログラムを格納した記憶媒体
JPH10334106A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2000123034A (ja) * 1998-10-14 2000-04-28 Toshiba Corp 電子カタログ利用装置および電子カタログシステム
JP2000348055A (ja) * 1999-06-08 2000-12-15 Nec Corp 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2003022275A (ja) * 2001-07-06 2003-01-24 Telecommunication Advancement Organization Of Japan 文書検索システムおよび方法
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
JP2004164662A (ja) * 2003-12-24 2004-06-10 Just Syst Corp 検索装置、検索方法、ならびに、情報記録媒体
US9135370B2 (en) 2007-04-10 2015-09-15 Alibaba Group Holding Limited Method and apparatus of generating update parameters and displaying correlated keywords
JP2013152744A (ja) * 2007-04-10 2013-08-08 Alibaba Group Holding Ltd 更新パラメータを生成および相関するキーワードを表示するための方法および装置
US8874588B2 (en) 2007-04-10 2014-10-28 Alibaba Group Holding Limited Method and apparatus of generating update parameters and displaying correlated keywords
JP2008276769A (ja) * 2007-04-26 2008-11-13 Nhn Corp キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム
JP2010528351A (ja) * 2007-05-18 2010-08-19 エヌエイチエヌ コーポレーション 共通接辞を用いたキーワード順位を提供する方法およびシステム
US8838580B2 (en) 2007-05-18 2014-09-16 Nhn Corporation Method and system for providing keyword ranking using common affix
US8504357B2 (en) 2007-08-03 2013-08-06 Panasonic Corporation Related word presentation device
JP4464463B2 (ja) * 2007-08-03 2010-05-19 パナソニック株式会社 関連語提示装置
JPWO2009019830A1 (ja) * 2007-08-03 2010-10-28 パナソニック株式会社 関連語提示装置
US9495460B2 (en) 2009-05-27 2016-11-15 Microsoft Technology Licensing, Llc Merging search results
JP2012528406A (ja) * 2009-05-27 2012-11-12 マイクロソフト コーポレーション 検索結果のマージ
JP2011085993A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 情報分析装置、情報分析方法および情報分析プログラム
CN103814375A (zh) * 2011-09-29 2014-05-21 乐天株式会社 信息处理装置、信息处理方法、信息处理装置用程序、以及记录介质
CN103814375B (zh) * 2011-09-29 2015-04-22 乐天株式会社 信息处理装置、信息处理方法
WO2013046838A1 (ja) * 2011-09-29 2013-04-04 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP2013196358A (ja) * 2012-03-19 2013-09-30 Toshiba Corp 検索支援装置および検索支援方法
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法
CN103324646B (zh) * 2012-03-19 2017-03-01 株式会社东芝 检索支援装置及检索支援方法

Similar Documents

Publication Publication Date Title
JPH0756948A (ja) 情報検索装置
Alwaneen et al. Arabic question answering system: a survey
Bhogal et al. A review of ontology based query expansion
Beirade et al. Semantic query for Quranic ontology
AU2005217413B2 (en) Intelligent search and retrieval system and method
US6823325B1 (en) Methods and apparatus for storing and retrieving knowledge
Rinaldi An ontology-driven approach for semantic information retrieval on the web
US10387469B1 (en) System and methods for discovering, presenting, and accessing information in a collection of text contents
Lytvyn et al. Identifying textual content based on thematic analysis of similar texts in big data
US20040128292A1 (en) Search data management
Zouaoui et al. A novel quranic search engine using an ontology-based semantic indexing
Alhamzeh et al. Distilbert-based argumentation retrieval for answering comparative questions
AU2005202353A1 (en) Methods and apparatus for storing and retrieving knowledge
Torres-Parejo et al. MTCIR: A multi-term tag cloud information retrieval system
JP2000105769A (ja) 文書表示方法
Anick The automatic construction of faceted terminological feedback for interactive document retrieval
JP2519121B2 (ja) 情報検索装置
Zulkefli et al. A survey: framework of an information retrieval for Malay translated hadith document
Lopez et al. State of the art on semantic question answering
JPH08305726A (ja) 情報検索装置
Anick Automatic construction of faceted terminological feedback for context-based information retrieval
Beirade et al. Computer and Information Sciences
JP2003263458A (ja) テキスト分析方法及び装置
Dusterhoft et al. A heuristic approach for recognizing a document's language used for the Internet search engine GETESS
Smeaton Retrieving information from hypertext: issues and problems