JP2695783B2

JP2695783B2 - 概念検索方法

Info

Publication number: JP2695783B2
Application number: JP62116807A
Authority: JP
Inventors: 伊都子木内; 浩道藤澤; 敦畠山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-05-15
Filing date: 1987-05-15
Publication date: 1998-01-14
Anticipated expiration: 2013-01-14
Also published as: JPS63282837A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は概念検索方法に係り、特に電子フアイルにネ
ツトワーク構造で格納された知識と入力（部分）文字列
を照合して、概念を検索する目的に好適な概念検索方法
に関する。なお、本発明において概念検索とは、単に部分文字列
マツチングを行なうだけでなく、ネツトワーク構造にな
つている知識ベースを利用した意味的な概念検索を行な
うことを意味する。〔従来の技術〕従来の概念ネツトワークは、特願昭60−60678号記載
のようにネツトワーク内を歩き回るブラウジング機能と
して、概念を表わす（部分）文字列を指定して探し出す
機能を有している。例えば、文字列“COMPUTER"と入力
すると、概念「電子計算機」が出ると同時に、意味的に
異なる雑誌であるところの、概念「COMPUTER」が区別さ
れて出てくるので、利用者は、その中から選択すること
によつて、その概念に移ることができた。しかし、大量
の情報が知識ベースに登録されていくにつれて、同じ文
字列が異なる概念を表わすものも増える。また、利用者
も概念を表わす正確な文字列を入力できず、部分文字列
でマツチングを行うことも多くなつてくる。そのため
に、不要な概念を抽出してくることも多くなり、その都
度利用者が選択を行わなくてはならなくなつてきた。例
えば、“COMPUTER"という文字列に対して部分文字列マ
ツチングを行う場合を考えてみると、電子計算機である
「スーパコンピユータ」や「オフイスコンピユータ」、
雑誌である「COMPUTER GRAPHICS」、「COMPUTER」、新
聞である「COMPUTERWORLD」、その他、計算機メーカ，
研究会，学部・学科等の中で“COMPUTER"という文字列
を含むものすべてが、表示される。その中から利用者
は、自分の探しているものが装置であるのか新聞である
のか雑誌であるのか等を念頭において探さなければなら
なかつた。また、従来の概念検索においては、概念を効率良く抽
出する方法として、入力文字列の論理和と論理積が使わ
れていた。例えば“雑誌”と“COMPUTER"との論理積で
検索すると、文字列“COMPUTER"と“雑誌”を同時に含
む文字列で表わされる概念「雑誌COMPUTER」や「COMPUT
ER GRAPHICS雑誌」などが抽出された。また、論理和で
検索すると、どちらかを含む文字列で表わされる概念
「COMPUTER」や「週刊雑誌」などが抽出された。しか
し、抽出すべき概念の部分文字列だけで検索するもので
あるから、抽出したい概念を表わす文字列の一部しか知
らない時には、やはり、多くの概念を抽出されてしまつ
ていた。このような従来方式では、知識ベース中に大量の情報
が蓄積されていくにつれて多くの不要な概念と一致して
しまい、本当に得たい概念をその中から再び利用者が、
探しださなければならない点において配慮されていなか
つた。〔本発明が解決しようとする問題点〕本発明の目的は、意味的探索（Semantic−String−Se
arch）によつて、概念検索を効率化することである。意
味的探索とは、抽出したい概念を表わす（部分）文字列
以外に、その上位概念を表わす（部分）文字列を検索条
件に加えた意味的な概念の検索を実現するものである。
“COMPUTER"という文字列を入力するときには、それが
どういうものであるか、すなわち、「雑誌である」と
か、「装置である」という、利用者が知つていることを
利用する。すなわち、“COMPUTER"という探索対象の部
分文字列だけでなく、“雑誌”という文字列をも入力す
ることによつて、「雑誌で、文字列“COMPUTER"を含む
文字列で表わされる概念」だけを探すことを可能とした
ものである。〔問題を解決するための手段〕上記目的は、探したい概念を表わす（部分）文字列
と、その上位概念を表わす（部分）文字列を入力するこ
とで達成される。いま、説明のために、「S1でありS2で
あるS3」なる概念を探したいとする。本発明方式は、ユ
ーザが３つの文字列、S1,S2,S3を単に入力することで、
この概念を抽出することを可能にするものである。この
とき、S1,S2,S3は、部分文字列であつてもよい。さら
に、抽出結果は入力文字列の順序に依存せず、S1,S2,S3
と入力しても、S2,S3,S1と入力しても変わらない。ま
た、概念を表わす文字列の複数の部分を入力することも
可能とする方式を実現する。本発明方式の基本的な原理を説明する。第１図は、知
識ベースにおける概念の分類階層木を示す。同図で、C0
〜C15は、概念を表わす各ノード100〜115に対応づけら
れている概念の固有番号である。C0は、最上位概念のノ
ード100の固有番号である。ノード間の線、例えば、116
は、２つの概念を包摂関係で結び付ける「IS−Ａ」リン
クを示している。第４図（ａ）のように各固有番号は、
同意語・異表記を含む１つ以上の概念を表わす文字列を
対応させることができる。この階層木は、知識ベースに
蓄えられている第４図（ｂ）のテーブルにより作ること
ができる。意味的な概念検索は、次のように実現される。いま、
知識ベース内のすべての文字列と入力文字列S1,S2,S3と
の（部分）文字列マツチングを行つた結果、それぞれ、
l,m,n個の文字列と一致したとする。それらの一致した
文字列に対応する固有番号を A1（ｉ）:i＝１〜ｌ A2（ｊ）:j＝１〜ｍ A3（ｋ）:k＝１〜ｎと書くことにする。これら３つの集合のそれぞれから１
つずつ取り出した固有番号に対応している概念が、同一
包摂関係にある組合せを探し、同組合せから最も下位の
レベルの概念を表わす文字列を抽出すればよい。第１図を用いて、具体的に説明する。いま、A1（Ｉ）
＝C9,A1（２）＝C11,A1（３）＝C15,A2（１）＝C5,A3
（１）＝C8,A3（２）＝C15であつたとする。この中で、
S1と一致したC9（ノード109）、S2と一致したC5（ノー
ド105）、S3と一致したC15（ノード115）が同図の階層
木上で、最上位概念のC0（ノード100）から一本の線で
結ばれる同一包摂関係にある。本方式は、C9,C5,C15の
組合せを選び、これら３つの概念のうち最も下位レベル
の概念であるC15（ノード115）が表わす文字列を抽出結
果とする。すなわち、概念C9（ノード109）であつて、
概念C5（ノード105）である概念C15（ノード115）を抽
出することになる。以上の原理を具体例で説明する。第２図は、概念を階
層木で表わした図式である。楕円で表わすノードは概念
を表わし、中に書かれている単語は同概念を表わす代表
単語である。楕円を結ぶリンクは、包摂関係を表わす
「IS−Ａ」リンクを表現する。例えば、「コンピユー
タ」209が「ハードウエア」205の「一種である」という
ことが、「IS−Ａ」リンクによつて表わされている。部
分文字列の探索は、アスタリスク＊を付加する手段によ
つて可能である。同図で、利用者が“HARDWARE"と“＊C
OMPUTER"と“＊MACHINE"という文字列を入力すると、概
念「リスプマシン」が抽出される。これは、各入力文字
列と一致した文字列が表わす概念「ハードウエア」205,
「コンピユータ」209,「リスプマシン」215が同一包摂
関係にあり、このなかで、最下位概念「リスプマシン」
215がより具体的に概念であるためである。次に、抽出された概念が複数個あつた場合について説
明する。例えば、文字列“HARDWARE"と“＊COMPUTER"を
入力すると、概念「コンピユータ」209,「スーパコンピ
ユータ」213,「オフイスコンピユータ」214等が検索さ
れる。このように、複数個の概念と一致したときには、
これらを表わす文字列がCRTに表示されるので、その中
から概念を選ぶことになる。このとき、システムは、上
位概念が「ハードウエア」であるもののみを列挙し、一
層分上位の概念も一緒に表示するもので選択は容易であ
る。〔作用〕ネツトワークの中で最も上位の概念から、マツチング
した文字列までのすべての概念は、概念と一層分上位の
概念とを対応づけるテーブルにより簡単に探せるので、
同じ包摂関係にある文字列の組み合わせも容易に探せ
る。そのなかで最下位の概念だけを抽出するので、入力
文字列の順序，個数に制限がない。また、抽出される文
字列も最小限ですむ。〔実施例〕以下、本発明を実施例に基づいて説明する。第３図は本発明方式の一実施例である概念探索方式を
利用したフアイリング装置の構成図である。装置全体の
構成と動作の概要を説明する。まず、装置は制御装置（CPU）100,主メモリ300,磁気
デイスク装置400,操作端末200,CRT210,キーボード220か
らなるデータ処理部からなる。概念の探索，端末200上で行なう。検索対象は、登録
されている概念及び概念間の関係として記述されている
事実の集合であり、フアイル400に格納されている。さ
らにフアイル400には、概念や関係を表現する自然言語
に関する知識も含まれている。主な動作を、以下に説明する。ユーザが検索を起動さ
せ、検索条件である文字列を入力すると、システムはフ
アイル400に格納されている知識を主メモリ300に読み込
み、主メモリ300にある所定のプログラムに従い、入力
文字列とのマツチングを行なう。さらに、その検索結果
をCRT210に表示する。フアイルに格納されている具体的な表形式を第４図に
示す。表の内容は、第１図及び、第２図を表わす。第４図（ａ）は、概念を表わす文字列を定義する表
（TABLE）であり、基本的には、概念の固有番号Ｃ＃と
それを表わす文字列（単語；または表記）からなる。た
とえば、概念C4は、「文書」であり、それを表わす文字
列として、“文書”と“PAPER−MATERIAL"が与えられて
いる。第４図（ｂ）は、包摂関係を表わし、概念の固有番号
Ｃ＃と該概念の一層分上位の概念（SURERCLASS）の固有
番号Ｓ＃のカラムから成つている。例えば、固有番号C1
の一層分上位概念の固有番号は固有番号C0である。特殊
な場合として最上位概念のC0の上位概念は、C0として定
義されている。第４図（ａ）で一致した文字列に対応し
ている概念の上位概念の固有番号をこのテーブルでサー
チする。本発明の概念検索方式の一実施例における処理の流れ
を第５図に表わす。処理501は文字列の意味的探索の起動開始である。処理502は文字列の意味的探索を実行したい（部分）
文字列の入力である。この入力文字列の数に制限はな
く、また順序も抽出結果と関係がない。さらに、一つの
概念に対して複数の文字列を入力することもできる。こ
こでは、入力文字列をS1,S2,S3,……と書くことにす
る。処理503は入力すべき（部分）文字列をすべて入力し
たことを示す記号が入力されるまで読み込みを続けるこ
とを示す。本実施例では、“//"が入力の終了を示す記
号である。処理504では、階層木のある概念以下のすべての概念
の文字列と、入力した（部分）文字列とのマツチングを
取る。検索対象の分野をあらかじめ限定して、その中だ
けで文字列を抽出したいときは、その分野を指定してそ
れ以下のすべての概念からマツチングをとることができ
る。ここでは、最上位概念より「IS−Ａ」リンクにおい
て下位にある概念について、マツチングを取つた場合を
考える。そのために、第４図（ａ）のCNAME欄の文字列
と入力文字列の（部分）文字列マツチングを行う。入力
文字列S1,S2,S3,……が、それぞれl,m,n,……個の文字
列と一致したとする。それらの一致した文字列に対応す
る固有番号をと書くことにする。これらの固有番号を入力文字列ごと
にリスト構造で纏めると、これらのリストは、以下のよ
うになる。処理505〜処理507では、A1,A2,A3,……のそれぞれの
リストから一つずつ取り出した固有番号のノードが、最
上位概念のノードから、同じ「IS−Ａ」リンクで結ばれ
る組合せを探し、それぞれの組合せの中で、最も下位の
レベルにあるノードに対応する概念を探すためのもので
ある。ここでは、最上位概念の固有番号をC0とする。以
下、順を追つて説明する。処理505は、第４図（ｂ）のテーブルを使用して、入
力文字列と一致した文字列の固有番号から最上位概念の
固有番号C0まで「IS−Ａ」リンクで結んでいるすべての
固有番号のリスト作成する。A1（ｉ）,A2（ｊ）,A3
（ｋ），……の上位概念を順に最上位概念までたどつた
固有番号のリストをと書くことにする。これらを入力文字列ごとに、さらに
リストで纏めて、とする。処理506は、入力文字列のそれぞれと一致したノード
が、同じ「IS−Ａ」リンクで結ばれる組合せを探すため
の処理である。そのために、T1（ｉ）,T2（ｊ）,T3
（ｋ），……の中で、入力文字列S1,S2,S3,……と一致
した固有番号を含むリストを探す。たとえば、T1に含ま
れる各リストについて考えてみる。T1（ｉ）の各先頭の
固有番号は、入力文字列S1と一致した固有番号であり、
各語尾は、最上位概念の固有番号C0であるので、リスト
中のこれら以外の固有番号の中で、入力文字列S1を除く
入力文字列S2,S3,……と一致した固有番号があるか否か
を判定すればよい。T2,T3,……に含まれる各リストT2
（ｊ）,T3（ｋ），……についても同様に、判定を行
い、入力文字列S1,S2,S3,……と一致した固有番号を含
むリストだけを取り出す。ここで取り出されたリストがであるとする。処理507は、処理506で残されたリスト……,Tx
（ｙ），……の各先頭の固有番号……,Ax（ｙ），……
…に対応する概念を第４図（ａ）のテーブルで探して、
その概念を探索結果とするものである。ここで、Ax
（ｙ）とは、入力文字列のｘ番目と一致した概念のうち
ｙ番目の概念であり、Tx（ｙ）はAx（ｙ）から最上位概
念の固有番号のリストである。処理508は１つの文字列に対して、入力した２つ以上
の（部分）文字列が一致したときに、同一の概念が２度
抽出されてしまうのでそれをチエツクするものである。処理509は、概念検索されたものが、１つであればそ
こで処理を終わる。そうでなければ、処理510に移る。処理510は、複数個の文字列が抽出されたときに表示
する。このとき利用者が分かり易いように、抽出した文
字列の一層分上位にある概念の文字列も一緒に表示す
る。これは、第４図（ａ）のテーブルと第４図（ｂ）の
テーブルを用いて容易に得られる。表示する際には、見
易いように一層分上位の概念の文字コードの小さい順
に、かつ、その中で抽出した文字列の文字コードの小さ
い順に表示する。処理の511は、表の中から利用者が探していた文字列
を選択するものである。第６図は、概念探索を行つた結果複数の概念を抽出し
たときに画面に表示される表の一例を示す図である。こ
の例では、“＊COMPUTER"と“HARDWARE"という文字列を
入力して抽出された複数の文字列を表示している。同図
のように、＊COMPUTERHARDWAREの欄に抽出された文字列
を表示し、その一層分上位の概念の文字列をSUPERCLASS
の欄に表示している。利用者は、一層分上位の概念を参
考にして抽出したい文字列をの欄にある通し番号で選択
する。〔発明の効果〕以上説明したごとく、本発明によれば、利用者が抽出
したい概念の（部分）文字列とその上位概念の（部分）
文字列を入力して概念検索することができる。抽出した
文字列の（部分）文字列だけを入力していた従来の文字
列抽出と比較すると、不要な文字列を抽出することが少
なくなり、効率を向上させることができる。

【図面の簡単な説明】第１図は本発明の文字列抽出方式を表す図、第２図は概
念の名称（文字列）の包摂関係を階層木で表す図、第３
図は本発明の実施例を示す図、第４図は階層木で扱う文
字列を記憶するテーブルを示す図であり、第４図（ａ）
は文字列とそれに対応する番号を記憶するテーブルを示
し、第４図（ｂ）は２つの番号の包摂関係を記憶するテ
ーブルを示す図である。第５図は本発明の文字列抽出方式における処理の流れを
示す図、第６図は複数個の文字列と一致したときの画面
の表示を示す図である。 100……制御装置、200……操作端末、300……主メモ
リ、400……磁気デイスク装置。

Claims

(57)【特許請求の範囲】１．概念間の包摂関係に基づいて階層的に結びつけられ
た上記概念の集合をあらかじめ格納した知識ベースから
概念を検索する概念検索方法であって、各概念は、少なくとも概念を代表する固有番号と、同概
念を表す複数の文字列で記憶され、同概念検索方法は、入力装置より検索する概念に関係す
るＭ個の文字列（Ｍは自然数）を入力し、上記Ｍ個の文字列のそれぞれの文字列を、上記知識ベー
スに格納された概念を表す文字列と照合して、その結果
一致するＮ個の概念（Ｎは自然数）を抽出し、上記抽出されたＮ個の概念から、同一の包摂関係にある
Ｌ個の概念（Ｌは自然数）を抽出し、これらＬ個の概念
のうち同包摂関係において最下位にある概念を選択して
出力装置に出力することを特徴とする概念検索方法。２．特許請求の範囲第１項記載の概念検索方法におい
て、上記出力装置に出力された概念について、上記出力され
た概念の一層分上位の上位概念をも一緒に出力すること
を特徴とする概念検索方法。