JPH07110818A - データベースシステム - Google Patents

データベースシステム

Info

Publication number
JPH07110818A
JPH07110818A JP5254536A JP25453693A JPH07110818A JP H07110818 A JPH07110818 A JP H07110818A JP 5254536 A JP5254536 A JP 5254536A JP 25453693 A JP25453693 A JP 25453693A JP H07110818 A JPH07110818 A JP H07110818A
Authority
JP
Japan
Prior art keywords
search
keyword
information
document
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5254536A
Other languages
English (en)
Inventor
Jun Toyoura
潤 豊浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP5254536A priority Critical patent/JPH07110818A/ja
Publication of JPH07110818A publication Critical patent/JPH07110818A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 検索者の希望する情報を、格納,検索するデ
ータベースシステムに関し、制約された検索キーワード
でなくても、情報を検索できることを目的とする。 【構成】 情報から得られる情報キーワードを入力する
と、これと高い関連度を割り当てられた分類部を求め、
これに情報キーワードの抽出元の情報を分類するととも
に、検索キーワードを入力すると、これと高い関連度を
割り当てられた分類部を求め、これに分類されている情
報を検索結果として出力するようにしたものである。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、検索者によって入力
された語彙等の検索キーワードを基に、検索者の希望す
る情報をデータベースから検索するデータベースシステ
ムに関するものである。
【0002】
【従来の技術】従来の検索キーワードを基にして情報を
検索するデータベースシステムは、例えば、文献検索の
場合を例に上げると、基本的に、 1.書誌データベースシステム 2.フルテキストデータベースシステム の2種類のものに大別される。
【0003】まず、書誌データベースシステムについて
説明する。書誌データベースシステムは、各文献を格納
する際に、文献に書誌情報およびシソーラスに基づく統
制牽引語を付与して、データベースに蓄積するものであ
る。即ち、書誌データベースシステムは、牽引語を統制
牽引語に制限することで、被検索側の語彙と検索側の語
彙とを近付けて、検索側の意図に応じた文献を検索する
ものである。
【0004】そして、書誌データベースシステムの検索
時の基本検索条件としては、書誌情報と統制牽引語に関
するものがある。まず、書誌情報に関する基本検索条件
とは、文献が、「著者名」,「出版年」等の決められた
項目を満たしているか否かである。統制牽引語に関する
基本検索条件とは、シソーラスの見出し語から検索語と
して選んだ語が、牽引語として付与されているか否かで
ある。書誌データベースシステムは、これらの基本検索
条件をブーラーン(Boolean)式で組み合わせる
ことによって、複雑な検索を実行するようになってい
る。
【0005】ところで、書誌データベースシステムにお
ける「統制牽引語の付与」は、文献の内容の意味的解釈
という高度な知的処理が必要とされる。このため、「統
制牽引語の付与」は、機械処理によっては行なわれず、
通常、経験的ノウハウを持つ専門家によって行なわれて
いる。
【0006】なお、時間の経過に伴って言語が意味変化
するために、書誌データベースシステムでは、言語の意
味変化に応じて、「シソーラスの改定」や「各文献に対
する牽引語の付け変え」を行なう必要がある。
【0007】また、書誌データベースシステムには、曖
昧文字のデータファイルを備え、文字列照合処理の際に
曖昧文字列照合を行なうようになっているものがある。
さらに、書誌データベースシステムには、同意語辞書を
構成するデータファイルを備えて、文字列照合処理の際
に同意語の照合を行なうようになっているものもある。
【0008】次に動作について説明する。文献側の語お
よび検索語には、例えば、 ・「桃」,「もも」,「モモ」等の字種の違い ・「コンピューター」,「コンピュータ」等の外来語の
表音記述 ・「コンピューター」,「計算機」等の言語の違い 等による表記の揺れがある。このため、書誌データベー
スシステムは、曖昧文字のデータファイルと同意語辞書
とを備えているのであれば、検索者によって検索語が入
力されると、文字列照合処理の際に、曖昧文字のデータ
と同意語辞書とを参照して、被検索側の語彙と検索側の
語彙との一致を図る。
【0009】その後、書誌データベースシステムは、検
索語に応じた文献の検索を行なう。例えば、検索者が、
書誌データベースシステムに「視覚認識」に関する文献
を検索する場合は、次のような処理が行なわれる。ま
ず、検索者によって、「視覚」,「認識」,「視覚認
識」等の上記の熟語に対する検索語の候補が上げられ
る。このような検索語の候補を入力されると、書誌デー
タベースシステムは、上記の各語を牽引語として付与さ
れている文献を検索し、その文献を提示するのである。
【0010】なお、書誌データベースシステムは、検索
洩れを無くすことに重点を置く場合、上記の検索語の全
てのORを検索条件とする。また、書誌データベースシ
ステムは、検索条件を厳しくして検索の質を上げる場
合、上記の各検索語の全てのANDを採る。
【0011】また、特開平3−122768号公報の
「牽引付け支援装置」や、特開平3−122769号公
報の「キーワード連想検索装置」に示される書誌データ
ベースシステムは、牽引語間の相関度の強さを記録した
相関表を備えたものである。このような書誌データベー
スシステムは、上記の相関表により、文献に付与する牽
引語の洩れを防ごうとするものである。
【0012】即ち、これらの書誌データベースシステム
では、ある文献Aに対して検索を行なう場合、以下のよ
うな処理が、先の書誌データベースシステムに追加され
る。まず、これらの書誌データベースシステムは、検索
者から検索語としてのKW1,KW2を入力すると、上
記相関表を基にして、KW1,KW2と相関度の強い牽
引語KW3を求める。その後、これらの書誌データベー
スシステムは、このKW3を利用者に示すことにより、
文献に付与される牽引語の洩れを防ぐのである。
【0013】また、特開平2−224068号公報に示
される書誌データベースシステムは、検索者の入力する
検索語と、文献に付与されている統制牽引語との相関度
の強さを記憶した相関表を備えたものである。このた
め、この書誌データベースシステムでは、検索語が入力
されると、この検索語に応じた牽引語によって文献が検
索される。これにより、この書誌データベースシステム
では、各人の牽引語における語彙と統制牽引語との語彙
とのギャップが解消された上で、文献が検索される。な
お、このシステムでは、検索語に新しい語を追加する度
に、上記相関表を修正する必要がある。
【0014】なお、これまでに述べてきた各書誌データ
ベースシステムは、フルテキストデータベースシステム
に比べて一件の文献に関する情報量が少ない。このた
め、大容量テキストベースには、書誌データベースシス
テムによるものが採用されることが多かった。しかし、
近年では、記憶装置や演算装置の発達により、フルテキ
ストデータベースシステムによる文献データベースの占
める割合が増加する傾向にある。
【0015】次にフルテキストデータベースシステムに
ついて説明する。フルテキストデータベースシステムで
は、各文献は、その全文をデータベースに蓄積されるよ
うになっている。検索の基本条件としては、検索者の指
定する語(検索キーワード)が、本文中に出現するか否
かである(本文中の指定する語:情報キーワード)。ま
た、検索時に指定する語は、統制語である必要はなく、
自由に指定できるので、フリータームと呼ばれる。そし
て、複雑な検索は、書誌データベースシステムの場合と
同様に、複数のフリータームの検索条件をブーラーン式
で組み合わせることによって実行されるようになってい
る。
【0016】そして、特開平1−233620号公報の
「文章検索方式」に示されるフルテキストデータベース
システムは、同意語辞書を備えたものである。このデー
タベースシステムは、文献中において、検索語に一致す
る語が出現するか否かを調べるだけでなく、同意語辞書
を利用して、検索語と同じ意味を持つ語についても、文
献中に出現するかを調べるものである。つまり、このデ
ータベースシステムは、検索語の同意語も検索対象とす
ることによって、検索語(検索キーワード)と文献中の
牽引語(情報キーワード)との一致率を高めるものであ
る。
【0017】さらに、特開平2−1059号公報の「連
想検索システム」や、特開平3−252767号公報の
「キーワード連想生成装置」に示されるフルテキストデ
ータベースシステムも、検索語と牽引語との一致率を高
めるものである。即ち、このデータベースシステムは、
検索語と同一文書中に出現する頻度の高い語、つまり、
検索語と共起関係の強い語についても、文献中に出現す
るかを検索し、検索した文献を提示するものである。
【0018】次に、フルテキストデータベースシステム
の検索システムの再現率,適合率について説明する。一
般に、文献データベースシステムの再現率,適合率は、
下記式(1),式(2) 再現率=A/X ・・・(1) 適合率=A/Y ・・・(2) A:検索された情報中で適切な情報の数 X:検索されるべき情報の数 Y:検索された情報の数 で定義される。また、A,X,Yに関しては、その定義
より、式(3)が成立する。 0≦再現率≦X,Y ・・・(3)
【0019】このため、式(4),式(5)が成立する
ことになる。 0≦再現率≦1 ・・・(4) 0≦適合率≦1 ・・・(5) 一般に、検索システムでは、これら2つの評価係数が、
1に近いほど検索能力が高いと評価される。
【0020】この観点からは、上述した「合成漢字熟語
から切り出される検索語全てのORを検索条件とする方
式」や、「同意語辞書を利用して検索語と牽引語との一
致率を高める方式」は、上記の式(1),式(2)中の
A,Yを増加させる方式と言える。以下、これらの方式
を方式Bと呼ぶ。ここで、Xは検索方式に依存せず、不
変である。以下、方式Bについて説明する。
【0021】いま、方式Bの適用による検索洩れが無い
ことから、 1.方式Bの適用以前に検索された情報は、方式Bを適
用して検索される情報に含まれる。 2.方式Bの適用以前に検索された情報中の適切な情報
は、方式Bを適用して検索される情報中の適切な情報に
含まれる。 このように仮定すれば、方式Bの適用によるA,Yの増
分であるδA,δYについて、下式(6)が成立する。 0≦δA≦δY ・・・(6) よって、方式Bの適用による再現率の変化は、下式
(7)が成立する。このため、方式Bの適用により再現
率は高くなる。 {(A+δA)/X}−(A/X)=(δA/X) ≧0 ・・・(7)
【0022】一方、方式Bの適用による適合率の変化
は、下式(8)となる。 {(A+δA)/(Y+δY)}−(A/Y) ={(δY)/(Y+δY)}×{(δA/δY)−(A/Y)} ・・・(8) 前記の右辺中の(δA/δY)は、方式Bの適用によ
り、新たに検索された情報に関する適合率である。そし
て、この率が、方式Bの適用前の適合率:A/Yより高
い場合には、適合率は向上するのである。
【0023】また、検索システムの検索方式として、
「合成漢字熟語から切り出される検索語全てのANDを
検索条件とする方式」(以下、方式Cという)もある。
この方式は、検索条件を厳しくする方式と言える。検索
条件を厳しくする方式を検索システムに適用する場合で
は、上記の式(3)の代わりに、下式(9)が成立する
と考えられる。 0≧δA≧δX,δY ・・・(9) このため、上記の式(6)の不等号の向きは逆になり、
方式Cの適用により、再現率は低下する。
【0024】さらに、適合率に関しても、上記の式
(8)から、方式Bの場合に検討したのと全く同様の理
由で、方式Cの適用により適合率の低下する場合が多
い。
【0025】このような検索システムにより、フルテキ
ストデータベースシステムは、入力された検索語(検索
キーワード)に応じた文献を、データベースの中から抽
出するのである。
【0026】
【発明が解決しようとする課題】従来のデータベースシ
ステムは以上のように構成されているので、以下の問題
点があった。まず、書誌データベースシステムでは、上
述した専門家による「統制牽引語の付与」に際して、次
の2つの問題が発生する。1つは、文献の執筆された時
期と、牽引語の付与される時期とが、時間的に隔たって
いることから生じる「情報提供とのタイムラグ」であ
る。もう1つは、同一文献に対する牽引語が、牽引語を
付与する人間の主観の相違により、微妙に違ってくると
いう「牽引語の質の揺れ」である。つまり、書誌データ
ベースシステムは、上記のような「情報提供とのタイム
ラグ」と「牽引語の質の揺れ」との発生を避けれないな
どの問題点があった。
【0027】また、書誌データベースシステムでは、検
索語は、統制牽引語に限るという制約があるが、シソー
ラスの意味体系で検索者の検索意図を正確に表現するこ
とは、一般には困難である。特に日本語では、漢字熟語
の間に助詞,助動詞を挟まず、直接連係して新しい漢字
熟語を生成することが多く、こうした漢字熟語は、シソ
ーラス中には存在しないので、「検索式の構成」が困難
である。
【0028】例えば、検索者が、「視覚認識系列決定問
題」に関する文献を検索する場合、この熟語に対して、
「視覚」,「認識」,「視覚認識」,「系列」,「視覚
系列」,「認識系列」,「決定」,「問題」,「決定問
題」等々、様々な検索語の候補が考えられる。しかし、
「視覚認識系列決定問題」に関する文献に対して、どの
ような牽引語が付与されているのかを推測することは困
難である。このため、これらの検索語からの検索式は、
非常に困難になってしまうなどの問題点があった。
【0029】もし、これらの検索語の全てのORを検索
条件とし、検索洩れを無くすことに重点を置いたなら
ば、誤りでないが不適切に検索される文献の数が増加す
るといった問題点があった。逆に、これらの検索語の全
てのANDをとる等して検索条件を厳しくすれば、検索
されるべきだが検索されない文献の数が増加するという
問題点があった。
【0030】更に、書誌データベースでは、上述した
「シソーラスの改定」や「各文献に対する牽引語の付け
変え」といった作業に、莫大な人的労力が必要であると
いう問題点があった。
【0031】また、書誌データベースシステムでは、文
字列照合処理の際、曖昧文字列照合や同意語辞書が必要
となり、装置の構成を複雑化してしまうなどの問題点が
あった。
【0032】さらに、文献に牽引語を付与する過程も、
牽引意図を表現する検索語を選び出す過程も、結局は、
各人の語彙と統制牽引語の語彙との対応付けであり、各
人の価値観の相違により一様性が得られない。このた
め、牽引語に質の揺れが発生してしまうなどの問題点が
あった。
【0033】このような問題に対し、上述の特開平3−
122768号公報の「牽引付け支援装置」や、特開平
3−122769号公報の「キーワード連想検索装置」
により、文献に付与する牽引語の洩れを防ぐことができ
る。しかし、このような書誌データベースシステムで
は、相関表の対象が、統制牽引語に限定されているた
め、各人の語彙と統制牽引語との語彙とのギャップを解
消できないなどの問題点があった。
【0034】また、特開平2−224068号公報の書
誌データベースシステムは、上記のシステムで問題とな
る各人の語彙と統制牽引語との語彙とのギャップを解消
できるが、一番最初に、自己の相関表を作成するために
莫大な人的労力が掛かってしまう。さらに、この書誌デ
ータベースシステムは、検索語に新しい語を追加する度
に、相関表を修正する必要がある。これらの問題点によ
り、特開平2−224068号公報の書誌データベース
システムは、相関表の管理に非常な手間が掛かってしま
い、実用化が困難である。
【0035】また、フルテキストデータベースにおいて
は、以下の問題点がある。即ち、特開平1−23362
0号公報の「文章検索方式」,特開平2−1059号公
報「連想検索システム」,特開平3−252767号公
報の「キーワード連想生成装置」のフルテキストデータ
ベースシステムでは、検索語の語彙と牽引語との語彙の
一致率を高める方向にしか作用しないので、検索の洩れ
が減少する反面、誤った一致が増加するなどの問題点が
あった。
【0036】さらに、フルテキストデータベースシステ
ムでは、従来例で述べた方式Bの適用により、新たに検
索された情報は、多くの不適切な情報を含むため、大抵
の場合、適合率が低下してしまうなどの問題点があっ
た。
【0037】また、上記の方式Bの代わりに、フルテキ
ストデータベースシステムの検索システムに検索条件を
厳しくする方式を適用する場合では、適合率,再現率の
両方が低下してしまうなどの問題点があった。即ち、検
索システムは、この方式の使用により、従来例で説明し
た式(3)の代わりに、上記式(9)が成立すると考え
られる。このため、従来例で説明した式(6)の不等号
の向きは逆になり、この方式の適用により、再現率は低
下してしまう。さらに、この方式では、適合率に関して
も低下する場合が多く、これは、従来例で説明した式
(8)から理解できるように、方式Bの場合と同様の理
由のためである。
【0038】請求項1の発明は、上記のような問題点を
解消するためになされたもので、利用者によって検索キ
ーワードが異なっり、検索側の語彙と被検索側の語彙
に、質の揺れやタイムラグがあっても、それらを補償し
て再現率,適合率を低下することなく、適切な情報を検
索できるデータベースシステムを得ることを目的とす
る。
【0039】また、請求項2の発明は、これまでに例の
無いような文献・検索条件に対しても、格納・文献検索
できるとともに、文献・検索条件を学習できるデータベ
ースシステムを得ることを目的とする。
【0040】また、請求項3の発明は、格納された文献
と、この文献の文献キーワードとの関係を強化でき、文
献と文献キーワードの関連度を学習していき、文献のク
ラスタ分類して格納する際に、的確に文献をクラスタ分
類できるデータベースシステムを得ることを目的とす
る。
【0041】また、請求項4の発明は、上記請求項1の
目的とともに、検索者による検索キーワード洩れを補償
できるデータベースシステムを得ることを目的とする。
【0042】また、請求項5の発明は、これまでに例の
無いような検索キーワードに対しても、キーワード洩れ
を補償できるとともに、検索条件を学習できるデータベ
ースシステムを得ることを目的とする。
【0043】また、請求項6の発明は、検索キーワード
をクラスタ分類する際に、分類先のクラスタと分類され
た検索キーワードとの関係を強化でき、クラスタと検索
キーワードの関連度を学習していき、的確に検索キーワ
ードをクラスタ分類できるデータベースシステムを得る
ことを目的とする。
【0044】また、請求項7の発明は、検索側の検索キ
ーワードの概念と、被検索側の文献キーワードの概念と
を、一致する方向に補正できるデータベースシステムを
得ることを目的とする。
【0045】また、請求項8の発明は、検索キーワード
を分類するクラスタの概念と、文献を分類するクラスタ
の概念とを一致させることで、検索側の語彙の概念と、
被検索側の語彙の概念とを、一致する方向に補正できる
データベースシステムを得ることを目的とする。
【0046】
【課題を解決するための手段】請求項1の発明に係るデ
ータベースシステムは、情報から得られる情報キーワー
ドを入力すると、これと高い関連度を割り当てられた分
類部を求め、これに情報キーワードの抽出元の情報を分
類するとともに、検索キーワードを入力すると、これと
高い関連度を割り当てられた分類部を求め、これに分類
されている情報を検索結果として出力するようにしたも
のである。
【0047】また、請求項2の発明に係るデータベース
システムは、入力した情報キーワードに対して高い関連
度の分類部を見出せなければ、所定の分類部とこの情報
キーワードとに高い関連度を割り当て、この分類部に情
報キーワードの抽出元の情報を分類するようにしたもの
である。
【0048】また、請求項3の発明に係るデータベース
システムは、入力した情報キーワード群に対して高い関
連度の分類部を見出すと、この分類部と情報キーワード
群の各キーワードとの間の関連度を強化するようにした
ものである。
【0049】また、請求項4の発明に係るデータベース
システムは、入力した検索キーワードに対する各分類部
の関連度を求め、これらを各分類部の追加度とするとと
もに、キーワードを、キーワードの分類部に対する関連
度と、その分類部に割り当てられた追加度とに応じた比
率で、検索キーワードに追加するようにしたものであ
る。
【0050】また、請求項5の発明に係るデータベース
システムは、入力した検索キーワードに対する各分類部
の関連度を求めた結果、高い関連度のものを見出せなけ
れば、所定の分類部を選び、選んだ分類部と検索キーワ
ードとに高い関連度を割り当てるようにしたものであ
る。
【0051】また、請求項6の発明に係るデータベース
システムは、入力した検索キーワード群に対して高い関
連度の分類部を見出すと、この分類部と入力した検索キ
ーワード群の各キーワードとの間の関連度を強化するよ
うにしたものである。
【0052】また、請求項7の発明に係るデータベース
システムは、検索キーワードが入力されると、これと関
連度の高い情報キーワードを求めるとともに、検索した
情報に対する検索の評価を受けると、検索した情報から
得られる情報キーワードと、この情報の検索に用いた検
索キーワードとの間の関連度を、先の評価に応じて変化
させるようにしたものである。
【0053】また、請求項8の発明に係るデータベース
システムは、検索キーワードの分類された検索キーワー
ド分類部と関連度の高い情報分類部を求め、これに分類
されている情報を検索結果とするとともに、検索した情
報に対する検索の評価を受けると、検索した情報の分類
された情報分類部と、この情報検索に用いた検索キーワ
ードの分類された検索キーワード分類部との間の関連度
を、先の評価に応じて変化させるようにしたものであ
る。
【0054】
【作用】請求項1の発明におけるデータベースシステム
は、情報から得られる情報キーワードを入力すると、こ
れと高い関連度を割り当てられた分類部を求め、これに
情報キーワードの抽出元の情報を分類するとともに、検
索キーワードを入力すると、これと高い関連度を割り当
てられた分類部を求め、これに分類されている情報を検
索結果として出力する検索評価出手段を備えたことによ
り、利用者によって検索キーワードが異なっり、検索側
の語彙と被検索側の語彙に、質の揺れやタイムラグがあ
っても、それらが補償される。
【0055】また、請求項2の発明におけるデータベー
スシステムは、入力した情報キーワードに対して高い関
連度の分類部を見出せなければ、所定の分類部とこの情
報キーワードの各キーワードとに高い関連度を割り当
て、この分類部に情報キーワードの抽出元の情報を分類
する検索評価出手段を備えたことにより、これまでに例
の無いような情報・検索条件に対しても、格納・情報検
索が行なわれる。
【0056】また、請求項3の発明における検索評価出
手段は、入力した情報キーワード群に対して高い関連度
の分類部を見出すと、この分類部と情報キーワード群の
各キーワードとの間の関連度を強化することにより、分
類部とそこに分類された情報の各情報キーワードとの関
係が強化される。
【0057】また、請求項4の発明におけるデータベー
スシステムは、入力した検索キーワードに対する各分類
部の関連度を、各分類部の追加度とする追加度抽出手段
と、キーワードの分類部に対する関連度と、その分類部
に割り当てられた追加度とに応じた比率で、キーワード
を前記検索キーワードに追加する追加手段とを備えたこ
とにより、入力された検索キーワードとともに、これに
関連する他のキーワードも、つまり、検索キーワードで
ありながら検索条件として入力されなかったキーワード
も追加されて、適切な情報がデータベースから検索され
る。
【0058】また、請求項5の発明における追加度抽出
手段は、入力した検索キーワードに対する各分類部の関
連度を求めた結果、高い関連度のものを見出せなけれ
ば、所定の分類部を選び、選んだ分類部と検索キーワー
ドとに高い関連度を割り当てることにより、これまでに
例の無いような検索キーワードに対しても、キーワード
洩れを補償できる。
【0059】また、請求項6の発明における追加度抽出
手段は、入力した検索キーワード群に対して高い関連度
の分類部を見出すと、この分類部と入力した検索キーワ
ード群の各キーワードとの間の関連度を強化することに
より、分類部と、そこに分類される検索キーワード群の
各キーワードとの関係が強化される。これにより、的確
に検索キーワードが分類部に分類される。
【0060】また、請求項7の発明における学習手段
は、検索キーワードが入力されると、これと関連度の高
い情報キーワードを求めるとともに、検索した情報に対
する検索の評価を受けると、検索した情報から得られる
情報キーワードと、この情報の検索に用いた検索キーワ
ードとの間の関連度を、先の評価に応じて変化させるこ
とにより、検索側の検索キーワードの概念と、被検索側
の情報キーワードの概念とが、使用される度に一致する
方向に補正される。
【0061】また、請求項8の発明における学習手段
は、検索キーワードの分類された検索キーワード分類部
と関連度の高い情報分類部を求め、これに分類されてい
る情報を検索結果とするとともに、検索した情報に対す
る検索の評価を受けると、検索した情報の分類された情
報分類部と、この情報検索に用いられた検索キーワード
の分類された検索キーワード分類部との間の関連度を、
先の評価に応じて変化させることにより、検索キーワー
ドを分類するクラスタの概念と、情報を分類するクラス
タの概念とが、使用される度に一致する方向に補正され
る。
【0062】
【実施例】
実施例1.以下、この発明の実施例1を図について説明
する。図1は本発明のデータベースシステムの構成を示
すブロック図である。図について、10は、文献入力
(入力された文献)1からキーワードを抽出するキーワ
ード抽出部、20は、キーワード抽出部10からの文献
キーワード(情報キーワード)出力を蓄積する文献キー
ワードテーブルである。また、文献キーワードテーブル
20は、これまでに入力した文献キーワードの種類を記
憶しておくものである。40は、文献キーワードテーブ
ル20の内容を参照し、キーワード抽出部10の出力を
ベクトル表現に変換する第一のエンコーダである。即
ち、第一のエンコーダ40は、文献キーワードテーブル
20にあるこれまでに抽出された各文献キーワードの種
類を、ベクトルの次元として、キーワード抽出部10か
らの文献キーワード群をベクトル変換するものである。
詳述すると、第一のエンコーダ40は、キーワード抽出
部10からの各文献キーワードの成分を示す値を、それ
ぞれに応じた次元に置き換えてベクトル化するものであ
る。なお、第一のエンコーダ40は、ベクトル化する時
に、変換するベクトルのある次元に相当するキーワード
抽出部10からの文献キーワードが無ければ、その次元
の値は0とするようになっている。つまり、文献から抽
出される文献キーワードは、単数及び不特定な数であっ
ても構わない。
【0063】90は、第一の特徴抽出部70の出力する
各々の特徴量を基準に、第一のエンコーダ40の出力す
るベクトルをクラスタ分類し、その結果を保持する文献
クラスタ記憶部(分類部)である。即ち、文献クラスタ
記憶部90は、複数の文献クラスタ(分類部)を備えて
おり、これらに、データベースで格納する文献のデータ
ベースでのポインタアドレスを格納するものである。
【0064】70は、第一のエンコーダ40の出力する
ベクトルから特徴を抽出し、抽出した特徴の特徴量を出
力する第一の特徴抽出部(検索評価出手段)である。こ
の第一の特徴抽出部70は、第一のエンコーダ40から
ベクトル化された文献キーワード群を入力すると、入力
したベクトルの示す文献キーワード群と高い類似度(関
連度)を割り当てられた文献クラスタを求めるものであ
る。さらに、第一の特徴抽出部70は、高い類似度の文
献クラスタを求めると、これに、文献キーワード群と共
に送られて来たポインタアドレスを分類するものであ
る。なお、このポインタアドレスは、第一の特徴抽出部
70に入力される文献キーワード群の抽出元の文献のデ
ータベースでのアドレスを示すものである。そして、第
一の特徴抽出部70は、入力したベクトルの示す文献キ
ーワード群と高い類似度の文献クラスタを見出せなけれ
ば、文献クラスタの中からどのキーワードにも類似度を
割り当てられていないものを選び、これと先の文献キー
ワード群との間に高い類似度を割り当てるようになって
いる。また、第一の特徴抽出部70は、入力したベクト
ルの示す文献キーワード群と高い類似度の文献クラスタ
を見出すと、この文献クラスタと入力した各文献キーワ
ードとの間の類似度を強化するようになっている。さら
に、第一の特徴抽出部70は、後述する第二のエンコー
ダ50からベクトル化された検索キーワード群を入力す
ると、この検索キーワード群と高い類似度を割り当てら
れた文献クラスタを求めて、その旨を出力するものであ
る。
【0065】30は、検索キーワード入力2を蓄積する
検索キーワードテーブルである。また、検索キーワード
テーブル30は、これまでに入力した検索キーワードの
種類を記憶しておくものである。50は、検索キーワー
ドテーブル30の内容を参照して、検索キーワード入力
2をベクトルに変換する第二のエンコーダである。即
ち、第二のエンコーダ50は、テーブル30にあるこれ
までに抽出された各検索キーワードの種類をベクトルの
次元として、検索キーワード入力2をベクトル変換する
ものである。詳述すると、第二のエンコーダ50は、検
索キーワード入力2による検索キーワードの成分を示す
値を、それぞれに応じた次元に置き換えてベクトル化す
るものである。なお、第二のエンコーダ50は、ベクト
ル化する時に、変換するベクトルのある次元に相当する
入力した検索キーワードが無ければ、その次元の値は0
とするようになっている。これにより、検索キーワード
入力2のキーワードは、単数及び不特定な数であっても
構わない。
【0066】100は、複数の検索キーワードクラスタ
(分類部)を備えた検索キーワードクラスタ記憶部(分
類部,追加度抽出手段)である。この検索キーワードク
ラスタ記憶部100は、後述する第二の特徴抽出部80
の出力する各々の特徴量を基準に、第二のエンコーダ5
0の出力するベクトルのクラスタ分類した結果を保持す
るものである。また、検索キーワードクラスタ記憶部1
00は、検索キーワード入力2に対する各検索キーワー
ドクラスタの類似度を、第二の特徴抽出部80から得る
と、これらを各検索キーワードクラスタにおける追加度
とするようになっている。
【0067】80は、第二のエンコーダ50の出力する
ベクトルから特徴を抽出し、抽出した特徴の特徴量を出
力する第二の特徴抽出部(追加度抽出手段,追加手段)
である。即ち、第二の特徴抽出部80は、検索キーワー
ド記憶部100の検索キーワードクラスタの内の幾つか
のものと各キーワードとの間に所定の類似度を割り当て
ておき、ベクトル化された検索キーワードを入力する
と、これに対する各検索キーワードクラスタの類似度を
求めるものである。なお、ここで言う各キーワードと
は、検索キーワードテーブル30にあるこれまでに抽出
された各検索キーワードのことである。また、第二の特
徴抽出部80は、上記キーワードを、上記キーワードの
検索キーワードクラスタに対する類似度と、その検索キ
ーワードクラスタに割り当てられた前記追加度とに応じ
た比率で、検索キーワードに追加するものである。
【0068】さらに、第二の特徴抽出部80は、入力し
た検索キーワードに対する各検索キーワードクラスタの
類似度を求めた結果、高い類似度のものを見出せなけれ
ば、検索キーワードクラスタの中からどのキーワードに
も類似度を割り当てられていないものを選び、これと入
力した検索キーワードとに、高い類似度を割り当てるよ
うになっている。また、第二の特徴抽出部80は、入力
した検索キーワード群に対する各検索キーワードクラス
タの類似度を求めた結果、高い類似度のものを見出す
と、このクラスタと入力した各検索キーワードとの間の
類似度を強化するようになっている。
【0069】120は、第一の特徴抽出部70と文献ク
ラスタ記憶部90との出力から、文献検索の検索結果出
力を生成する検索評価部(検索評価手段)である。即
ち、検索評価部120は、文献クラスタ記憶部90から
の文献クラスタ情報と、第一の特徴抽出部70からの出
力の示す文献クラスタ情報とを比較し、高い類似度のも
のを求めるものである。さらに、検索評価部120は、
上記比較により高い類似度の文献クラスタを求めると、
そこに分類されている情報を検索結果として出力するも
のである。
【0070】なお、図示していないが、このデータベー
スシステムには、当然ながら、文献入力1を上述の各構
成部の処理に応じて格納する文献データベースと、上記
の各構成部と文献データベースを制御する制御部が備え
られている。この制御部は、所定のプログラムに応じて
上述の各構成部を制御するものである。なお、上記プロ
グラムに関しては、後に説明する。そして、文献入力1
によりデータベースシステムに入力された文献は、文献
データベースに登録されるように構成されている。以上
が、データベースシステムの各構成部の説明であるが、
これらの構成部のより具体的な構成の説明は、後に各構
成部の動作を説明する際に、共に説明することにする。
【0071】上記の構成部を用いて、このデータベース
システムは、 1.文献蓄積モード21 2.文献検索モード22 の2つの動作モードを持つように構成されている。
【0072】文献蓄積モード21は、検索を対象とする
文献を、文献データベースに入力する時の動作モードで
ある。即ち、文献蓄積モード21では、入力された文献
から特徴が自動的に抽出されて、文献データベース内に
蓄積されるようになっている。
【0073】文献検索モード22は、文献データベース
に対する文献検索を、実施される時の動作モードであ
る。即ち、文献検索モード22では、文献データベース
に文献検索条件(検索キーワード)を入力し、入力され
た検索条件の特徴が、自動的に抽出/蓄積されるように
なっている。さらに、入力された文献検索条件に適合す
る特徴を持つ文献を、これまでに入力された文献から検
索して、その検索を出力するようになっている。
【0074】即ち、このデータベースシステムは、上記
の各構成部を所定のプログラムによって運用することに
より、上記の各モードを構成して、その機能を果たすも
のである。以下において、各モードの動作を説明するこ
とにより、前記のプログラムの内容を説明する。これと
ともに、前記の各構成部のより具体的な構成と運用方法
とを詳述することにする。
【0075】次に動作について説明する。まず、図2を
用いて、文献蓄積モード21の動作手順から説明する。
文献蓄積モード21では、最初に文献データベースに蓄
積させる文献のポインタアドレス:*pと、蓄積される
文献の本文:B(*p)とから成る文献入力1が、キー
ワード抽出部10に入力される。*pは、検索結果出力
等として、B(*p)を参照する時に用いられるもので
ある。
【0076】キーワード抽出部10は、入力されたB
(*p)から、キーワード:ベクトルKWを抽出する。
この場合、抽出されるキーワードは、シソーラスなどを
参照するような統制語ではなく、文法的観点から文章に
含まれる名詞が全て抽出される。以下、1件の文献から
抽出されたキーワードを式(10)とおく。 ベクトルKW={kw1 ,kw2 ,・・・,kwQ } ・・・(10) ここで、kwの添字は、キーワードが文献中に出現する
順番を表す。同じキーワードが、文献中に複数回出現す
ることも許される。Qは、入力された文献の本文に含ま
れていたキーワードの総数である。例えば、図3の文章
による例では、kw1 =「未成年者」,kw2 =「喫
煙」,kw3 =「健康」,kw4 =「注意」,Q=4と
なる。
【0077】キーワード抽出部10からのベクトルKW
は、文献キーワードテーブル20に出力される。文献キ
ーワードテーブル20には、現在までに入力された文献
に含まれていたキーワード:ベクトルKT={kt1
kt2 ,・・・,ktn(k)}が、蓄積されている。ここ
で、ベクトルKTの各成分は、現在までに入力された文
献に含まれていたキーワードである。nk は、文献キー
ワードテーブル20の含むキーワードの種類の数であ
る。なお、n(k)とnk とは等しく、nk をn(k)
として示すのは、kが添字の添字であることを明確にす
るためである。以下においても、このようにして、添字
の添字を記す。
【0078】そして、文献キーワードテーブル20は、
ベクトルKWを入力すると、次のようにして、自己の文
献キーワードデータであるベクトルKTを、入力された
ベクトルKWによって更新するよう構成されている。即
ち、文献キーワードテーブル20は、ベクトルKWと、
このベクトルKWの入力される直前の自己のデータ:ベ
クトルKTold とを照合する。その結果、文献キーワー
ドテーブル20は、ベクトルKW上のキーワードで、ベ
クトルKTold 上にないものを見出すと、これを新たに
ベクトルKTold に追加する。これにより、更新された
文献キーワードテーブル20のデータ:ベクトルKT
new は、現在入力されたベクトルKWを含むことにな
る。故に、これまでに入力された文献に含まれていたキ
ーワードの全てが、文献キーワードテーブル20に登録
される。
【0079】このような処理の具体例を図4に示す。文
献キーワードテーブル20は、照合前には、キーワード
「未成年者」,「喫煙」をベクトルKTold に含んでい
ない。しかし、文献キーワードテーブル20は、ベクト
ルKWの照合後には、kt6=「未成年者」,kt7
「喫煙」をベクトルKTold に追加するのである。つま
り、文献キーワードテーブル20は、照合完了後には、
ベクトルKW上のどのキーワードも、必ず、自己の文献
キーワードデータであるベクトルKTに含まれるよう
に、ベクトルKTを更新するのである。
【0080】文献キーワードテーブル20によるベクト
ルKTの更新処理が終了すると、第一のエンコーダ40
は、更新されたベクトルKTを参照して、現在処理を行
なっているベクトルKWを、ベクトル表現に変換する。
この際、第一のエンコーダ40は、ベクトルKWの各成
分に、文献キーワードの出現頻度を割り当てて変換する
ように構成されている。このような構成により、第一の
エンコーダ40から下式(11)に示すベクトルKVが
出力される。 ベクトルKV={kv1 ,kv2 ,・・・,kvn(k)} ・・・(11) (kvi =「ベクトルKWの中のkti の個数」)
【0081】例えば、図5に示すように、kt1 =「成
人」は、ベクトルKWの中に0回出現するからkv1
0,kv2 =「健康」は、ベクトルKWの中に1回出現
するからkv2 =1となる。以下でも、特に断らないか
ぎり、式(11)の定義で、ベクトルKVが生成された
として、説明を続ける。
【0082】そして、第一のエンコーダ40の出力ベク
トルKVは、*pと共に、第一の特徴抽出部70へ出力
される。ここで、第一の特徴抽出部70の詳細な構成を
説明する。第一の特徴抽出部70は、v個のノードから
構成される入力層:ベクトルKI={ki1 ,ki2
・・・,kiv }と、u個のノードから構成される出力
層:ベクトルKO={ko1 ,ko2 ,・・・,k
u }との2層ネットワーク構成となっている。また、
各々の入力ノード,出力ノード間は、重み付きリンク:
wkijで結合されている。
【0083】上記のベクトルKIの各成分に相当する入
力ノードには、ベクトルKVの各成分がエンコードされ
るようになっている。つまり、これらの入力ノードは、
ベクトルKVの各成分(文献,検索キーワード)に対応
したものである。また、ベクトルKOの各成分に相当す
る各出力ノードは、それぞれ、各入力ノードをエンコー
ドした時の入力パタン(ベクトルKV)に対する典型的
なパタンを示すものである。そして、これらの典型的パ
タン(出力層の各ノード)は、それぞれ、文献クラスタ
記憶部90の所定の文献クラスタに対応付けられてい
る。先に、第一の特徴抽出部70の構成の説明で、各文
献キーワードと文献クラスタ記憶部90の文献クラスタ
との類似度を説明したが、類似度は、入出力間の重み付
きリンクの重みの値に比例したものである。
【0084】さらに、第一の特徴抽出部70は、入力層
から出力層への信号伝搬を行なうように構成されてお
り、出力層の各ノードを下式(12)に従って活性化す
るようになっている。即ち、入力ノードがエンコードさ
れると、第一の特徴抽出部70は、式(12)に従って
各出力ノードの値を求めるのである。そして、この出力
ノードの値が、この値を持つ出力ノード(文献クラス
タ)とベクトルKVの文献との類似度である。
【0085】
【数1】
【0086】また、第一の特徴抽出部70は、逆に信号
を出力層から入力層へと逆伝搬する場合、入力層の各ノ
ードを下式(13)に従って、活性化するようになって
いる。
【0087】
【数2】
【0088】なお、式(13)による出力層の各ノード
の値は、ベクトルKVに対する出力ノードと、この出力
ノードに相当する文献クラスタとの類似度を表してい
る。
【0089】また、第一の特徴抽出部70は、入出力ノ
ードへ伝搬する信号の大きさが発散しないように、全て
のリンクの重みを下式(14)の値域をとるように設定
されてある。 0≦wkij≦wkmax ・・・(14)
【0090】上記の構成により、第一の特徴抽出部70
は、図6に示すような動作を制御部の制御により行なう
ようになっている。まず、第一の特徴抽出部70は、ス
テップST601で、一番最初のパタンが入力した時の
み、ステップST602に処理を移す。そして、第一の
特徴抽出部70は、ステップST602で、全てのリン
クの重みを下式(15)に示すように、一様に設定す
る。 wkij=εk ・・・(15) (εk <<wkmax
【0091】また、第一の特徴抽出部70は、典型的パ
タンの数:mk =0と設定する等の初期設定を行ない、
ステップST603へ進む。なお、ステップST601
で、入力パタンが2番目以降であると判断された場合
も、ステップST603へ進む。
【0092】ステップST603で、第一の特徴抽出部
70は、ベクトルKIを入力パタンでコーディングする
とともに、ベクトルKOを0ベクトルとした後、上記の
式(12)に従って、入力層から出力層への信号伝搬を
実行する。これにより、入力パタンに対する各出力ノー
ドの類似度が得られる。なお、入力パタンとは、入力さ
れた時のベクトルKVの成分のパタンのことである。
【0093】次に、ステップST604で、第一の特徴
抽出部70は、ko1 ,ko2 ,・・・,kom(k)の中
に、入力パタンに適合するノードがあるかを探する。即
ち、第一の特徴抽出部70は、文献クラスタの内に、ベ
クトルKVと類似度の高いものがあるかどうかを求める
のである。仮に、第一の特徴抽出部70は、j番目のノ
ードを適合すると判断した場合は、ステップST605
へ進み、Lk =jとする。なお、Lk は、適合ノード、
つまり、適合した文献クラスタを示す番号である。
【0094】また、第一の特徴抽出部70は、適合する
ノードがないと判断すると、ステップST606へ進
む。ステップST606で第一の特徴抽出部70は、m
k に1を加える。即ち、ここで第一の特徴抽出部70
は、出力層のノードに新たなkom(k)を追加して、これ
を入力パタンに適合するノードとする。この結果、Lk
=mk となる。即ち、第一の特徴抽出部70は、ベクト
ルKVとに対して高い類似度の出力ノード(文献クラス
タ)を見出せなければ、出力ノードの中からどのキーワ
ードにも類似度を割り当てられていないものを、該当す
るものとする。そして、第一の特徴抽出部70は、この
出力ノードとベクトルKVの成分の入力ノードとの間の
リンクの重み(類似度に比例する)を後述するヘッブの
学習規則で強化する。
【0095】なお、第一の特徴抽出部70は、ステップ
ST604で適合しているか否かの判断を、各出力ノー
ドの値と、自己の持つ閾値:θk とを比較することによ
り行なうようになっている。
【0096】最後に、ステップST607で、第一の特
徴抽出部70は、koL(k)に結合するリンクの重みを、
下式(16)で示すヘッブ(Hebb)の学習規則に従
って、一定の微小時間だけ変化させて処理を終了する。 {(dwkiL(k) )/(dt)}=−αwkiL(k) +kii ・・・(16) ここで、α>0は、学習の強度を表すパラメータで、α
が大きい程、1回の学習量は多くなる。
【0097】図7は、入力パタンが2番目の出力ノード
に適合すると判断された場合のヘッブの学習の例を示す
ものである。即ち、第一の特徴抽出部70は、入力した
ベクトルKVに対して高い類似度の出力ノード(文献ク
ラスタ)を見出すと、ベクトルKVの入力ノードの各成
分と、見出した出力ノードとの間の類似度を強化するの
である。即ち、第一の特徴抽出部70において、現在の
入力パタンのkoL(k)への適合性は高められ、koL(k)
に伝搬する値は増加する(koL(k)に与えられる適合度
が高くなる)。このため、第一の特徴抽出部70は、現
在の入力パタンを再び入力した場合、以前よりも強く、
先にこのパタンに適合したkoL(k)を適合するものとし
て示すのである。
【0098】一方、観点を変えれば、Hebbの学習
は、koL(k)に結合するリンクの重みのパタン:wk
1L(k) ,wk2L(k) ,・・・を、現在の入力パタンに類
似させる方向に変化させるとも言える。つまり、第一の
特徴抽出部70は、図6の過程を続けることによって、
出力層の1〜mk 番目のノードに対するリンクの重みの
パタンを、現在の入力パタンに対するmk 個の典型的パ
タンを表すように変化させる。
【0099】ところで、第一の特徴抽出部70によるス
テップST604での適合ノードの判断であるが、これ
を、図8を用いて説明する。図8に示すように、入力パ
タンの第1の典型的パタンに対する類似度:ko1
0.1、第2の典型的パタンに対する類似度:ko2
0.6、第3の典型的パタンに対する類似度:ko3
0.4と出力されている場合では、この入力パタンに対
しては、第2の典型的パタンに最も類似していることに
なる。その次には、第3の典型的パタンが、この入力パ
タンに類似している。
【0100】この結果に対して、ステップST603
で、もし、θk ≦0.6が成立するなら、第2の典型的
パタンに対する類似度は、ko2 =0.6>θk とな
る。これにより、第一の特徴抽出部70は、この入力パ
タンを第2の典型的パタンに適合すると判断して、ステ
ップST605に進む。
【0101】一方、第一の特徴抽出部70は、θk
0.6ならば適合するノードがないと判断して、ステッ
プST606へ進み、新たに、ko4 が、このパタンに
対する典型的パタンを表すノードとして、コーディング
される。
【0102】第一の特徴抽出部70の入力ノード数は、
文献キーワードテーブル20の含むキーワードの種類の
数に比べ、多く用意するされており、下式(17)が成
立する。 nk <v ・・・(17)
【0103】これにより、ベクトルKWによる第一の特
徴抽出部70への入力(入力層へのエンコード)は、下
式(18)に基づいて行なえばよい。
【0104】
【数3】
【0105】最後に、第一の特徴抽出部70は、ベクト
ルKOをmk 次元の:ベクトルKF={kf1 ,k
2 ,・・・,kfu }にデコードして、文献クラスタ
記憶部90に出力する。第一の特徴抽出部70は、この
ようなデコードを、下式(19)に基づいて行なわれる
ようになっている。また、第一の特徴抽出部70は、入
力されたベクトルKVに対する*pも文献クラスタ記憶
部90へ出力する。 kfi =koj (1≦j≦mk ) ・・・(19)
【0106】文献クラスタ記憶部90は、入力されたベ
クトルKFの要素の中で最大であるものを探す。いま、
探された最大要素:kfL(k)とすると、文献クラスタ記
憶部90は、このベクトルKFによって示される文献
は、第一の特徴抽出部70で抽出された典型的パタンの
中で、L番目の典型的パタンに最も類似していると判断
する。即ち、文献クラスタ記憶部90は、ベクトルKF
によって示される文献を、自己のL番目の文献クラスタ
に最も関連していると判断する。この時、文献クラスタ
記憶部90は、*pをL番目のクラスタに分類し、これ
を記憶する。具体的には、i番目に入力された文献のポ
インタ=*p、入力された文献の総数=mc とすると、
文献クラスタ記憶部90は、下式(20),(21) *P={*p1 ,*p2 ,・・・,*pm(c)} ・・・(20) PC={pc1 ,pc2 ,・・・,pcm(c)} ・・・(21) (pci =*pi が属するクラスタの番号) で定義されるmc 次元の配列の形式で、*pのクラスタ
への帰属関係を記憶するようになっている。
【0107】以上の説明のように、文献蓄積モード21
では、文献の特徴が、第一の特徴抽出部70上の重み付
きリンクの上に、自動的に蓄積される。文献を特徴付け
るキーワードは、予め決められた言葉の中から選ばれる
のではなく、文献から抽出された名詞が全て用いられる
ので、新しい言葉が出現した場合も、自動的に差別化さ
れた特徴を抽出することができる。また、しかも、ある
文献に対して関連の低い文献キーワードが、この文献と
関連の高い他の文献キーワードと共に入力されると、こ
の文献と関連の低い文献キーワードとの関係を強化でき
る。即ち、あるキーワードに対して共起性の高いキーワ
ードを同じ分類部に関連付けることができる。この結
果、「被検索側の語彙と検索側の語彙」を関係付けるネ
ットワークを成長させることができる。
【0108】次に、文献検索モード22での動作手順を
説明する。図9は、文献検索モード22でのデータの流
れをの前半分を示している。文献検索モード22では、
まず、データベースシステムに検索キーワード入力2が
入力される。検索キーワード入力2は、下式(22)で
表される検索用キーワードの羅列と、下式(23)で表
される検索用キーワードの検索に対する重要度を示す重
みの数値とからなる。 ベクトルRW={rw1 ,rw2 ,・・・,rwr } ・・・(22) ベクトルRWW={rww1 ,rww2 ,・・・,rwwr }, (rwwi >0) ・・・(23) rwi :検索キーワード rwwi :rwi の重要度
【0109】このような、ベクトルRW,ベクトルRW
Wは、検索キーワードテーブル30と第二のエンコーダ
50とへ出力される。ベクトルRW,ベクトルRWWを
入力した検索キーワードテーブル30は、現在の自己の
データとベクトルRWとの照合を行なう。この検索キー
ワードテーブル30は、扱うキーワードが検索キーワー
ドであるだけで、先の文献キーワードテーブル20と基
本的に同じ構成である。即ち、照合前の検索キーワード
テーブル30上の各キーワードは、下式(24) ベクトルRT={rt1 ,rt2 ,・・・,rtn(r)} ・・・(24) で表される(nr は、検索キーワードテーブル30の含
むキーワードの種類の総数)。そして、ベクトルRW上
のキーワードでベクトルRT上にないものは、新たに、
ベクトルRTに追加される。検索キーワードテーブル3
0は、ベクトルRTの更新を終えると、更新後のベクト
ルRTを第二のエンコーダ50へ出力する。
【0110】ベクトルRTを入力した第二のエンコーダ
50は、これを参照しながら、先に入力したベクトルR
W,ベクトルRWWを下式(25)に従って、ベクトル
表現(ベクトルRV)に変換する。
【0111】
【数4】
【0112】即ち、ベクトルRTを入力した第二のエン
コーダ50は、ベクトルRWの各成分に対応するベクト
ルRWWの各成分を、ベクトルRTの該当する次元に置
き換える。これにより、ベクトルRV={rv1 ,rv
2 ,・・・,rvr }が得られる。つまり、この第二の
エンコーダ50は、扱うキーワードが検索キーワードで
あるだけで、先の第一のエンコーダ40と基本的に同じ
構成である。そして、第二のエンコーダ50は、上記の
ようにして求めたベクトルRVを、第二の特徴抽出部8
0へ出力する。
【0113】ここで、第二の特徴抽出部80の構成を詳
述する。第二の特徴抽出部80は、y個のノードから構
成される入力層:ベクトルRI={ri1 ,ri2 ,・
・・,riy }と、e個のノードから構成される出力
層:ベクトルRO={ri1 ,ri2 ,・・・,r
e }との2層ネットワーク構成をとり、各々の入力ノ
ード,出力ノード間は、重み付きリンク:wrijで結合
されている。
【0114】上記のベクトルRIの各成分に相当する入
力ノードには、ベクトルRVの各成分がエンコードされ
るようになっており、つまり、これらの入力ノードは、
ベクトルRVの各成分(検索キーワード)に対応したも
のである。また、ベクトルROの各成分に相当する各出
力ノードは、それぞれ、各入力ノードをエンコードした
時の入力パタン(ベクトルRV)に対する典型的なパタ
ンを示すものである。そして、これらの典型的パタン
(出力層の各ノード)は、それぞれ、検索キーワードク
ラスタ記憶部100の所定の検索キーワードクラスタに
対応付けられている。先に、第二の特徴抽出部80の構
成の説明で、各検索キーワードと検索キーワードクラス
タ記憶部100の検索キーワードクラスタとの類似度を
説明したが、類似度は、入出力間の重み付きリンクの重
みの値に比例したものである。
【0115】さらに、第二の特徴抽出部80は、入力層
から出力層への信号伝搬を行なう場合、出力層の各ノー
ドを下式(26)に従い、活性化するようになってい
る。
【0116】
【数5】
【0117】即ち、入力ノードがエンコードされると、
第二の特徴抽出部80は、式(26)に従って、各出力
ノードの値を求めるのである。そして、この出力ノード
の値が、この値を持つ出力ノード(検索キーワードクラ
スタ)とベクトルRVとの類似度である。さらに、第二
の特徴抽出部80は、上記の信号伝搬により、出力層:
ベクトルROの値を得ると、これらを、特徴ベクトル:
ベクトルRF={rf1 ,rf2 ,・・・,rfm(r)
にデコードして検索キーワードクラスタ記憶部100へ
出力するようになっている。
【0118】また、第二の特徴抽出部80は、出力ノー
ドの値から入力ベクトルRVに適合する出力ノードを判
断すると、この出力ノードと入力ノードとの間のリン
ク:wrijの重みを、先のヘッブの学習規則に従って変
化させるようになっている。
【0119】逆に信号を出力層から入力層へと逆伝搬す
る場合、第二の特徴抽出部80は、入力層の各ノードを
下式(27)に従い、活性化するようになっている。
【0120】
【数6】
【0121】即ち、出力ノードがエンコードされると、
第二の特徴抽出部80は、式(27)に従って、各入力
ノードの値を求めるのである。そして、この入力ノード
の値が、この値を持つ入力ノード(ベクトルRVの各成
分:各検索キーワード)と各検索キーワードクラスタと
の類似度である。さらに、第二の特徴抽出部80は、上
記の逆伝搬により、入力層:ベクトルRIの値を得る
と、これを、後述するベクトルRXとして第二のエンコ
ーダ50へ出力するようになっている。
【0122】また、全てのリンクの重みは、入出力ノー
ドへ伝搬する信号の大きさが発散しないように、下式
(28)の値域をとるようになっている。 0≦wrij≦wrmax ・・・(28)
【0123】上記の構成により、第二の特徴抽出部80
は、入力パタン:ベクトルRVを、入力層:ベクトルR
Iにエンコードして典型的パタンを抽出する。そして、
第二の特徴抽出部80は、出力層:ベクトルROの各値
を、特徴ベクトル:ベクトルRF={rf1 ,rf2
・・・,rfm(r)}にデコードする。また、第二の特徴
抽出部80は、リンク:wrijの重みを、ヘッブの学習
規則に従って変化される。以上の第二の特徴抽出部80
の動作原理は、第一の特徴抽出部70と同様であるの
で、その説明は省略する。そして、第二の特徴抽出部8
0は、上記のようなベクトルRFを、検索キーワードク
ラスタ記憶部100に出力する。
【0124】また、検索キーワードクラスタ記憶部10
0は、ベクトルRF={rf1 ,rf2 ,・・・,rf
e }とともに、現在入力されたベクトルRW,ベクトル
RWWに対するLr と、現時点での典型的パタン数:m
r 入力し、これらを記憶する。なお、Lr は、適合する
と判定された出力ノード(文献クラスタ)番号である。
【0125】この検索キーワードクラスタ記憶部100
は、ベクトル:ベクトルAF={ar1 ,ar2 ,・・
・,are }を、第二の特徴抽出部80へフィードバッ
ク出力するようになっている。このベクトルAFは、ベ
クトルRFから連想されるキーワードのクラスタを表現
するベクトルである。ベクトルAFの定義は幾つか考え
られるが、検索キーワードクラスタ記憶部100は、下
式(29)を用いるようになっている。 arj =(1−β)δjL(r) +βrfj ・・・(29) (1≧β≧0)
【0126】式(29)のδijは、クロネッカーのデ
ルタで、βは、クラスタ分類の依存度を表すパラメータ
である。例えば、β=0のときは、現在入力した検索キ
ーワードに適合した典型的検索タームのパタンだけが、
フィードバックされる。また、β=1のときは、これま
でに抽出された典型的検索タームのパタン全てに対する
現在入力した検索キーワードの適合度が、フィードバッ
クされる。
【0127】上述の構成により、検索キーワードクラス
タ記憶部100は、入力ベクトルRFを式(29)で変
換してベクトルAFを生成し、これを第二の特徴抽出部
80へフィードバックする。
【0128】検索キーワードクラスタ記憶部100で生
成されたベクトルAFは、第二の特徴抽出部80のベク
トルROに入力され、リンクを経由して、ベクトルRI
に逆伝搬する。この時、上記の式(13)で決定される
逆伝搬後のベクトルRIの値は、現在入力した検索キー
ワードから連想された重み付き検索キーワードである。
以下、これをベクトルRXと呼ぶ。ベクトルRVa は、
第二のエンコーダ50へ出力される。
【0129】このように、第二の特徴抽出部80で、ベ
クトルRFに対する出力ノードの類似度を求め、さら
に、記憶部100で、出力ノードの類似度(追加度)を
成分とするベクトルAFを第二の特徴抽出部80へフィ
ードバックする。なお、上記したように、記憶部100
は、ベクトルAFの成分を適合した出力ノード以外の成
分に関しては、所定の比率で追加する。その後、このベ
クトルAFの各成分が、第二の特徴抽出部80の出力ノ
ードの対応するものにエンコードされる。即ち、第二の
特徴抽出部80の出力ノードは、先に得た類似度を、記
憶部100によって所定の比率に変換されたことにな
る。
【0130】そして、第二の特徴抽出部80は、このよ
うな各出力ノードのエンコードによる値を逆伝搬する。
この結果、第二の特徴抽出部80の各入力ノードには、
自己の出力ノードに対するリンクの重み(関連度)と、
その出力ノードにエンコードされた類似度(追加度)と
に比例した値が出力される。つまり、第二の特徴抽出部
80の各入力ノードには、入力ベクトルRVに対する類
似度(関連度)が得られることになる。そして、第二の
特徴抽出部80は、これらの入力ノードの値を成分とす
る上記ベクトルRXを出力する。言い換えると、ベクト
ルRXは、第二の特徴抽出部80に入力されたベクトル
RVに対する各キーワードの関連度を示すベクトルであ
る。
【0131】もし、式(29)においてβ≧0ならば、
これまでに抽出された典型的検索タームのパタン全てに
対する現在入力した検索キーワードの適合度(追加度)
が、連想される検索キーワードを決定することになる。
また、式(29)においてβ=0ならば、現在入力した
検索キーワードに適合した典型的検索タームのパタンの
適合度だけが、連想される検索キーワードを決定するこ
とになる。
【0132】このようなベクトルRXを入力した第二の
エンコーダ50は、ベクトルRVとベクトルRXとか
ら、検索に用いる検索ベクトル:ベクトルAV={av
1 ,av2 ,・・・,ave }を生成する。ベクトルA
Vは、下式(30)で定義される。 avi =γrxi +(1−γ)rvi ・・・(30) (0≦γ≦1) 式(30)のγは、連想の強度を決めるパラメータで、
現在入力した検索キーワードが、過去に入力されたとき
に、共に検索キーワードとして入力された頻度が高かっ
たキーワードを、現在入力した検索キーワードに補足す
る割合である。例えば、γ=0のときは、現在入力した
検索キーワードのみが、検索タームとして使用され、γ
=1のときは、過去に行なった検索で、現在入力した検
索キーワードが用いられた際に、一緒に検索キーワード
として入力された頻度が大きかった検索キーワードのみ
が、検索タームとして使用される。なお、rxi は、ベ
クトルRXの成分である。
【0133】最後に、第二のエンコーダ50は、ベクト
ルAVとともに、検索キーワードテーブル30を参照し
て得られるベクトルRTとを出力する。以上の手順によ
り、過去に行なった検索の学習結果を反映して、入力さ
れたベクトルRW,ベクトルRWWに対し、関連するキ
ーワードを付加したベクトルAVが生成される。
【0134】文献検索モード22でのデータの流れの後
半部分を図10に示す。先の図9の前半部分で出力され
たベクトルAV,ベクトルRTは、第一のエンコーダ4
0に入力される。すると、第一のエンコーダ40は、下
式(31)に従って、ベクトルAW,ベクトルAWWを
ベクトル変換してベクトルKVを求め、これを第一の特
徴抽出部70に出力する。
【0135】
【数7】
【0136】ベクトルKVを入力した第一の特徴抽出部
70は、文献検索モード22においては、先の図6のス
テップST603と同様に、ベクトルFIからベクトル
FOへの信号伝搬を行なう。そして、第一の特徴抽出部
70は、この信号伝搬によって得られたベクトルKF,
ベクトルmk を、検索評価部120に出力する。また、
これとともに、文献クラスタ記憶部90は、蓄積してい
る*p,PCを検索評価部120へ出力する。
【0137】検索評価部120に入力されたベクトルK
Fの要素:kfi は、現在の検索要求に対するi番目の
文献クラスタの一致度を表しており、対応する数値が大
きいクラスタ程、一致度が高くなっている。そして、検
索評価部120は、ベクトルKFと文献のクラスタへの
分類を表す、*p,PCから、検索要求に適合する文献
のポインタ群:*PR={*pr1 ,*pr2 ,・・
・,*pra(r)}を生成する。ただし、ar は、検索要
求に適合する文献の数である。*PRは、下式(32)
で定義される検索評価関数、および以下の式(33),
式(34),式(35)により、決められる。
【0138】
【数8】
【0139】
【数9】
【0140】 *prs(j)=*pj ・・・(34) (s(j)≠0) ・・・(35)
【0141】生成された*PRは、検索結果出力4とし
て出力される。検索の適合性の判断基準は、 1.kfj =max{kfi }であるような、最も一致
度が高いj番目の文献クラスタに分類された文献を出力
する 2.kfj >θa (θa は、適合度の最低基準の閾値)
を満たすようなj番目の文献クラスタに分類された文献
を出力する 3.*PRの要素の個数に、最大値:nrmax /最小
値:nrmin の制約を課す などの条件を組み合わせて設定される。
【0142】例えば、データベースシステムは、上記の
2の条件を満たす文献クラスタをkfj の大きい順に出
力する。そして、データベースシステムは、出力した文
献の数が、nrmin を越えた時点で出力を停止する。こ
れにより、データベースシステムは、一定の水準以上の
一致度を持つ文献を、一定の数以上出力することができ
る。
【0143】以上において説明したように、文献検索モ
ード22では、文献検索条件の特徴が、特徴抽出部上の
重み付きリンクの上に自動的に蓄積される。文献検索条
件を特徴付けるキーワードは、決められた言葉の中から
選ばれるのではないので、文献検索条件の設定の自由度
が高くなる。また、過去に行なった文献検索条件の特徴
をフィードバックして用いることにより、文献検索条件
のキーワードの洩れを補償される。つまり、自動生成手
法により自動的に抽出される、検索キーワードと文献キ
ーワードとの典型的パタンの利用により、キーワードの
設定洩れなどを補償する高機能な連想が可能となる。ま
た、検索キーワードをクラスタに分類する際に、分類先
のクラスタと分類された検索キーワードとの関係を強化
できる。この結果、クラスタと検索キーワードの類似度
が学習されて、的確に検索キーワードを分類できるなど
の効果がある。しかも、ある文献に対して関連の低い検
索キーワードが、この文献と関連の高い他の検索キーワ
ードと共に入力されると、この文献と関連の低い検索キ
ーワードとの関係を強化できる。即ち、ある検索キーワ
ードに対して共起性の高い検索キーワードを同じクラス
タに類似付けることができる。これにより、システムが
使用される度に、検索条件の自由度に対する適応性が向
上していく。また、文献検索条件のキーワードの洩れの
補償が、より高度なものとなるとともに、利用者に応じ
たネットワークを構成できるなどの効果がある。これと
同時に、パタンマッチングの性質により、統計的なノイ
ズが除去されるため、文献検索の観点からは、適合率を
下げることなく、再現率が向上する。また、統制キーワ
ードを使用しないので、自由な検索が可能である一方、
新しい言葉の出現に対しても即座に対応できる。そし
て、キーワードは、全て機械的に自動抽出されるので、
大量文献の自動処理が可能である。
【0144】実施例2.以下、この発明の実施例2を図
について説明する。図11は本発明のデータベースシス
テムの構成を示すブロック図である。図について、10
はキーワード抽出部、20は文献キーワードテーブル、
40は第一のエンコーダ、70は第一の特徴抽出部、9
0は文献クラスタ記憶部、30は検索キーワードテーブ
ル、50は第二のエンコーダ、80は第二の特徴抽出
部、100は検索キーワードクラスタ記憶部、120は
検索評価部(検索評価手段)である。これらの各構成部
は、実施例1で説明した通りである。
【0145】また、60は、検索者により前記検索結果
出力の適合性を判定された検索結果評価信号3を用い、
第一のエンコーダ40の出力するベクトルと、第二のエ
ンコーダ50の出力するベクトルとの相関性(関連度)
を学習する第一の学習部(学習手段)である。即ち、第
一の学習部60は、検索した文献に対する検索の適合性
の評価を受けると、検索した文献から得られる文献キー
ワードと、検索した文献を得るために入力された検索キ
ーワードとの間の相関度を、前記評価に応じて学習する
ものである。また、第一の学習部60は、学習結果を記
憶しておくとともに、学習した相関性を基に、入力した
検索キーワード群(ベクトル)と相関性の高い文献キー
ワード群(ベクトル)を求めるものである。
【0146】なお、図示していないが、このデータベー
スシステムには、当然ながら、文献入力1を上述の各構
成部の処理に応じて格納する文献データベースと、上記
の各構成部と文献データベースを制御する制御部が備え
られている。この制御部は、所定のプログラムに応じて
上述の各構成部を制御するものである。なお、このプロ
グラムに関しては、後に説明する。そして、文献入力1
によりデータベースシステムに入力された文献は、文献
データベースに登録されるように構成されている。以上
が、データベースシステムの各構成部の説明であるが、
これらの構成部のより具体的な構成の説明は、後に各構
成部の動作を説明する際に、共に説明することにする。
【0147】上記の構成部を用いて、このデータベース
システムは、 1.文献蓄積モード23 2.文献検索モード24 3.検索結果評価モード25 の3つの動作モードを持つように構成されている。
【0148】文献蓄積モード23は、検索の対象とする
文献を、文献データベースに入力する時の動作モードで
ある。即ち、文献蓄積モード23は、入力された文献の
特徴を自動的に抽出して、文献データベース内に蓄積す
るようになっている。
【0149】文献検索モード24は、文献データベース
に対する文献検索を実施させる時の動作モードである。
即ち、文献検索モード24は、データベースシステムに
文献検索条件を入力すると、入力された検索条件の特徴
を自動的に抽出/蓄積するようになっている。さらに、
入力された文献検索条件に適合する特徴を持つ文献を、
これまでに入力された文献から検索し、その結果を出力
するようになっている。
【0150】検索結果評価モード25は、文献検索モー
ド24で検索を実行した検索者によって、検索された文
献の評価を受けるようになっている。さらに、検索結果
評価モード25は、その評価結果を以後の検索に反映さ
れるように、文献キーワードテーブル20上の単語と、
検索キーワードテーブル30上の単語との相関関係を学
習するようになっている。
【0151】即ち、このデータベースシステムは、上記
の各構成部を所定のプログラムによって運用することに
より、上記の各モードを構成して、その機能を果たすも
のである。以下において、各モードの動作を説明するこ
とにより、前記のプログラムの内容を説明する。これに
より、上記の各構成部のより具体的な構成と運用方法を
詳述することにする。
【0152】次に動作について説明する。これら3つの
モードの内、文献蓄積モード23の動作手順は、先の実
施例1で説明した文献蓄積モード21の動作手順と同じ
なので、その説明を省略する。以下において、文献検索
モード24と検索結果評価モード25との動作手順を説
明する。
【0153】まず、文献検索モード24の動作手順から
説明する。最初に検索キーワード入力2が入力されてか
ら、第二のエンコーダ50によって、ベクトルAV,ベ
クトルRTが出力されるまでの文献検索モード24の動
作手順は、実施例1で図9を用いて説明した文献検索モ
ード22の動作手順と同様である。
【0154】図9以降の文献検索モード24のデータの
流れを図12に示す。第二のエンコーダ50から出力さ
れたベクトルAVと、ベクトルRT,nr と、第一のエ
ンコーダ40から出力されるベクトルKT,nk とが、
第一の学習部60に入力される。
【0155】この第一の学習部60は、p個のノードか
ら構成される入力層:ベクトルLR={lr1 ,l
2 ,・・・,lrp }と、q個のノードから構成され
る出力層:ベクトルLK={lk1 ,lk2 ,・・・,
lkq }との2層ネットワーク構成となっている。ま
た、各々の入力ノード,出力ノード間は、重み付きリン
ク:wlijで結合されている。
【0156】上記のベクトルLRの各成分に相当する入
力ノードには、ベクトルAV,ベクトルRTの各成分が
エンコードされるようになっている。つまり、これらの
入力ノードは、ベクトルの各成分(検索キーワード)に
対応したものである。また、ベクトルLKの各成分に相
当する各出力ノードは、第一のエンコーダ40からのベ
クトルKVをエンコードされるようになっており、これ
らの出力ノードは、ベクトルKVの各成分(文献キーワ
ード)に対応したものである。先に、第一の学習部60
の構成の説明で、各文献キーワードと各検索キーワード
との相関度を説明したが、この相関度は、入出力間の重
み付きリンクの重みの値に比例したものである。
【0157】文献検索モード24では、第一の学習部6
0は、入力層から出力層への信号伝搬を行ない、この
際、出力層の各ノードを下式(36)に従って活性化
し、各出力ノードの値をデコードしたベクトルKVを第
一のエンコーダ40へ出力するようになっている。
【0158】
【数10】
【0159】なお、nk ,nr は、各々文献蓄積モード
23,文献検索モード24の動作過程で、単調増加して
いく。このため、第一の学習部60の入力ノードと出力
ノードとは、下式(37),(38) nr <p ・・・(37) nk <q ・・・(38) が成立するように、十分多く用意されている。
【0160】また、第一の学習部60は、これらの式
(37),(38)の下で、ベクトルAV→ベクトルL
Rへのエンコードを、下式(39)に基づいて行なうよ
うになっている。なお、lri は、ベクトルLRの各成
分である。
【0161】
【数11】
【0162】さらに、入力層から出力層への信号伝搬の
際に得られる各出力ノードの値は、つまり、ベクトルL
Kは、下式(40),(41)に基づいて、ベクトルK
Vへとデコードされるようになっている。 kvi =lki ・・・(40) (1≦i≦n(k) ) ・・・(41)
【0163】このような構成により、第一の学習部60
は、入力層から出力層への信号伝搬を式(36)に従っ
て活性化した上で行ない、その後、各出力ノード値をベ
クトルLKにデコードし、このベクトルLKを第一のエ
ンコーダ40へ出力する。当然ながら、このベクトルL
Kは、検索キーワード入力2に対して関連の深い文献キ
ーワード群を表すベクトルである。
【0164】そして、第一の学習部60は、以下に示す
ようにして、リンクを設定するようになっている。以
下、第一の学習部60のリンクの設定方法を、図を用い
て具体的に説明する。実施例1で図4を用いて説明した
ように、文献蓄積モード23を実行することにより、ベ
クトルKTの要素数:nk は、単調増大する。つまり、
第一の学習部60は、文献蓄積モード23の実行により
増えたベクトルKTの成分に対応する出力ノードを増加
させる。また、文献検索モード24の実行により、ベク
トルRTの要素数:pは、単調増大する。つまり、第一
の学習部60は、文献検索モード24の実行により増え
たベクトルRTの成分に対応する入力ノードを増加させ
る。このように、各モード23,24の実行を繰り返す
毎に、第一の学習部60でエンコードされる入力ノード
数,デコードされる出力ノード数は、単調増大するので
ある。例えば、図13では、ベクトルKTに、kt6
「未成年者」,kt7 =「禁煙」が追加され、nk =5
→7に増大、ベクトルRTに、rt4 =「注意」,rt
5 =「火遊び」が追加され、nk =3→5に増大してい
る。
【0165】図13に示す黒丸は、追加された語であ
り、リンク、wli j(i=4,5、j=1,・・・,
7) , wli j(i=1,・・・,5j=6,7)
は、この語に対応するノードに結合するリンクである。
そして、第一の学習部60は、wli j(i=4,5、
j=1,・・・,7) , wli j(i=1,・・
・,5j=6,7)を、下式(42)によって初期設定
する。例えば、図13では、新たに追加された語では、
rt4 =kt4 =「注意」のみが一致し、wl4,4
1と初期設定される。
【0166】
【数12】
【0167】式(42)の設定方法は、初期設定では、
表記の同じ語を意味的にも同等と見なすという仮定に基
づくものである。もし、初期設定のリンクの重みが変化
しなければ、第一の特徴抽出部70へ入力されるベクト
ルKVは、文献検索モード22のものと同一となる。
【0168】ところで、第一の学習部60から出力され
たベクトルKVは、第一のエンコーダ40を経由して、
第一の特徴抽出部70に入力される。第一のエンコーダ
40は、実施例1の文献検索モード22の動作とは異な
り、ベクトルKVには何の変換も施さない。第一の特徴
抽出部70へのベクトルKVの入力以降は、実施例1の
文献検索モードで説明した図10での動作と同様であ
る。この結果、検索評価部120は、検索キーワード入
力2に対して関連の深い文献キーワード群を表すベクト
ルを基に、適切な文献を選び出す。
【0169】以上、説明したように、文献検索モード2
4では、文献検索条件の特徴が、第二の特徴抽出部80
上の重み付きリンクの上に自動的に蓄積される。文献検
索条件を特徴付けるキーワードは、予め決められた言葉
の中から選ばれるのではないので、文献検索条件の設定
の自由度が高い。また、過去に行なった文献検索条件の
特徴をフィードバックして用いることにより、文献検索
条件のキーワードの洩れが補償される。
【0170】次に、検索結果評価モード25での動作手
順を説明する。検索結果の評価は、文献検索モード24
での検索者の要求に呼応して出力されたa件の文献
*PRに対して行なわれる。検索者は、検索要求に対す
る適合性をB(*pai )などを参照して行なう。ここ
で、検索者が検索要求に適合するか否かを判断した文
献:*PA={*pa1 ,*pa2 ,・・・,*pa
a(s)}、*PAが検索要求に適合するか否かの判断を数
量化した値:AA={aa1 ,aa2 ,・・・,aa
a(s)}とする。ただし、as は検索要求に適合するか否
かを判断した文献の数である。aai の決定方法は、検
索者の主観に大きく依存するが、検索者毎の主観によ
る、aai の値のふらつきを抑えるため、aai には、
一定の値域が与えられている。以下、aai の値域が
[0,1]の場合について説明する。
【0171】検索結果評価モード25は、評価の対象と
なった*PA毎に実行される。まず、最初に評価の対象
とする*PAに対して、文献検索モード24で検索を行
なった時の検索条件、ベクトルRW,ベクトルRWW
が、検索キーワード入力2として入力される。
【0172】続けて評価した文献の本文:B(*p
i )が文献入力1として、また、検索者による評価結
果:aai が検索結果評価信号3として、i=1,2,
・・・,asの順に逐次システムに入力される。
【0173】図14に検索結果評価モード25でのデー
タの流れを示す。検索キーワード入力2は、検索キーワ
ードテーブル30と第二のエンコーダ50とに入力され
る。第二のエンコーダ50は、検索キーワードテーブル
30から出力されるベクトルRTを参照しベクトルRV
を得て、これを第一の学習部60へ出力する。
【0174】ベクトルRVは、検索結果評価モード25
で1つの*PAを処理する間は、一定に保たれる。ベク
トルRW,ベクトルRWWが、検索キーワード入力2と
して入力され、第二のエンコーダ50からベクトルRV
が出力されるまでの具体的な動作手順、および第一の学
習部60へのコーディング方法は、文献検索モード24
の同様であるので、その説明を省略する。
【0175】また、文献入力1は、キーワード抽出部1
0に入力される。そして、キーワード抽出部10は、B
(*pai )から抽出したキーワード:ベクトルKW
を、文献キーワードテーブル20と第一のエンコーダ4
0とへ出力する。
【0176】その後、第一のエンコーダ40は、文献キ
ーワードテーブル20から出力されるベクトルKTを参
照してベクトルKWを変換し、変換したベクトルKVを
第一の学習部60へ出力する。
【0177】なお、B(*pr)が入力されて、第一の
エンコーダ40からベクトルKVが出力されるまでの具
体的な動作手順は、文献蓄積モード23の同様である。
また、ベクトルKVを第一の学習部60へコーディング
する方法は、文献検索モード24で示したベクトルKV
を第一の学習部60へコーディングする方法と同様であ
る。
【0178】第一の学習部60にB(*pai )に由来
するベクトルKVが出力されるのに同期して、aai
検索結果評価信号3として、第一の学習部60へ出力さ
れる。第一の学習部60のリンクは、下式(43)で示
される学習規則に従って、一定の微小時間だけ変化させ
られる。 (dwljk/dt) =sgn(lrj )(−αa wljk+aai sgn(lkk ) ・・・(43)
【0179】ここで、αa >0は、学習の強度を表すパ
ラメータで、αa が大きい程、1回の学習量は多くな
る。また、sgn(x)は、下式(44)で定義され
る。即ち、第一の学習部60は、式(43)に従って、
検索評価をリンクの重みに反映するように構成されてい
るのである。
【0180】
【数13】
【0181】以下、式(43)で第一の学習部60上の
wljkが、検索キーワードテーブル30上の語と、文献
キーワードテーブル20上の語との相関を表すように変
化することを説明する。即ち、式(43)で、wl
jkは、lrj >0を満たすlrjに結合するリンクだけ
が、 wllk→aai sgn(lkk ) となるように変化する。
【0182】つまり、ベクトルRWに含まれるrtj
結合するリンクに関して、aai =1、即ち、検索文献
が適合すると判断された場合は、 lkk >0ならwljk→1の方向に lkk =0ならwljk→0の方向に wljkは変化する。言い換えれば、検索文献が適合する
と判断された場合は、検索条件に含まれる語と、検索文
献に出現する語との間のリンクの重みが増加し、検索条
件に含まれる語と、検索文献に出現しなかった語との間
のリンクの重みが減少する。
【0183】一方、aai =0,即ち、検索文献が適合
しないと判断された場合は、RWに含まれるrtj に結
合するリンクに関して、 lkk >0ならwljk→0の方向に wljkは変化する。言い換えれば、検索文献が適合しな
いと判断された場合は、検索条件に含まれる語と、検索
文献に出現する語との間のリンクの重みが減少する。
【0184】図15に、検索文献が適合すると判断され
た場合のリンクの重みの変化の例を示す。図15のリン
クの初期設定は、wl25=wl44=1以外は0である。
そして、文献検索モード24の動作過程で検索キーワー
ド:rt1 =「禁煙」,rt4 =「注意」に対し、文献
キーワード上の語で活性化されたのはkt4 である。ま
た、ベクトルRTで検索に寄与したのは、rt4 であ
る。検索結果評価モード25時の第一の学習部60は、
検索結果が適合すると判断された場合、検索された文献
に出現した語、即ち、ベクトルKTで正の値を持つノー
ドを、全てrt4と正の相関性があるとして、rt4
の間のリンクの重みを増加する。
【0185】図15の場合では、初期設定で重み1であ
ったwl44以外のwl42,wl46,wl47(初期設定で
重み0)にも、正の重みが与えられることになる。逆
に、ベクトルKTで、値が0のノードに関しては、rt
4 と負の相関性があるとして、rt4 との間のリンクの
重みが減少させられる。
【0186】一方、検索者が、ベクトルRT中に設定し
たものの検索には、寄与しなかったrt1 に関しても、
第一の学習部60は、ベクトルKTで正の値を持つノー
ドを、全てrt1 と正の相関性があるとして、rt4
の間のリンクの重みを増加する。
【0187】即ち、図15の場合では、初期設定で重み
0であった、wl12,wl14,wl16,wl17にも、正
の重みが与えられることになる。逆に、ベクトルKT
で、値が0のノードに関しては、rt1 と負の相関性が
あるとして、rt1 との間のリンクの重みが減少させら
れる。
【0188】つまり、rt1 =「禁煙」のように、ベク
トルKT中には登場しない検索者特有の語彙に対して
も、上に述べた検索結果評価モード25のリンクの重み
の更新アルゴリズムにより、ベクトルKT上の語に正の
相関性が設定されうるので、以降の検索に寄与させるこ
とができる。
【0189】図16に、検索文献が適合しないと判断さ
れた場合のリンクの重みの変化の例を示す。この場合
は、ベクトルRTで検索キーワードとして用いられた語
と、検索された文献に出現した語には、全て負の相関性
があるとして、それらの語の間のリンクの重みだけが減
少させられる。ベクトルRTで検索キーワードとして用
いられた語と、検索された文献に出現しなかった語に
は、相関性に関する情報は無いとして、それらの語の間
のリンクの重みは変化しない。図15では、wl22,w
24,wl26,wl27,wl52,wl54,wl56,wl
57の重みが減少している。これは、以降の検索で適合し
ないと判断された文献を検索されにくくする効果があ
る。
【0190】以上述べた、検索結果評価モード25の操
作で仮定したベクトルRT,ベクトルKTのキーワード
間の、正の相関・負の相関は、単語間の意味的関係を考
慮したものではない。しかし、*PAのas件の文献に
関し、リンクの値の更新を繰り返すことにより、リンク
の重みは、統計的なキーワード間の正の相関・負の相関
を反映することになる。即ち、wlij重みが大きいとい
うことは、rti を検索キーワードに指定した時に、検
索された文献の中で、適切と判断された文献に、ktj
が含まれる度数が相対的に高いということである。ま
た、同様に重みが小さいということは、適切と判断され
た文献に、ktj の含まれる度数が相対的に低いか、ま
たは不適切であると判断された文献に、ktj の含まれ
る度数が相対的に高いということであるといえる。よっ
て、文献検索の観点からは、上に述べたベクトルRT,
ベクトルKTのキーワード間の相関性の設定方法は、全
く妥当であるといえる。
【0191】以上説明したように、検索結果評価モード
25では、検索結果の妥当性の評価に基づいて、文献の
キーワードと結果キーワードとの相関性が、ネットワー
クの重みの形式で学習されるため、両者の語彙の違いが
補償される効果がある。つまり、このデータベースシス
テムは、検索文献の適合性の判断に基づき、文献の語彙
と検索者との語彙の相関性を学習するので、両者の語彙
の相違を補償することができ、文献検索における再現率
を上昇できるなどの効果がある。
【0192】実施例3.以下、この発明の実施例3を図
について説明する。図17は本発明のデータベースシス
テムの構成を示すブロック図である。図について、10
はキーワード抽出部、20は文献キーワードテーブル、
40は第一のエンコーダ、70は第一の特徴抽出部、9
0は文献クラスタ記憶部(情報分類部)、30は検索キ
ーワードテーブル、50は第二のエンコーダ、80は第
二の特徴抽出部、100は検索キーワードクラスタ記憶
部(検索キーワード分類部)、120は検索評価部、6
0は第一の学習部である。これらの各構成部は、実施例
1,2で説明した通りである。
【0193】また、110は、前記検索結果評価信号3
を用い、前記文献クラスタ記憶部90の文献クラスタと
検索キーワードクラスタ記憶部100の検索クラスタと
の相関関係を学習する第二の学習部(学習手段)であ
る。また、第二の学習部110は、検索キーワードクラ
スタ情報を入力すると、前記の学習による相関性を基
に、この検索キーワードクラスタと相関性の高い文献ク
ラスタを求めて、その旨を出力するようになっている。
【0194】なお、図示していないが、このデータベー
スシステムには、当然ながら、文献入力1を上述の各構
成部の処理に応じて格納する文献データベースと、上記
の各構成部と文献データベースを制御する制御部が備え
られている。この制御部は、所定のプログラムに応じて
上述の各構成部を制御するものである。なお、このプロ
グラムに関しては、後に説明する。そして、文献入力1
によりデータベースシステムに入力された文献は、文献
データベースに登録されるように構成されている。以上
が、データベースシステムの各構成部の説明であるが、
これらの構成部のより具体的な構成の説明は、後に各構
成部の動作を説明する際に、共に説明することにする。
【0195】上記の構成部を用いて、このデータベース
システムは、 1.文献蓄積モード26 2.文献検索モード27 3.検索結果評価モード28 の3つの動作モードを持つように構成されている。
【0196】文献蓄積モード26は、検索の対象とする
文献を、文献データベースに入力する時の動作モードで
ある。即ち、文献蓄積モード26は、入力された文献か
らその特徴を自動的に抽出し、文献データベース内に蓄
積するようになっている。
【0197】文献検索モード27は、文献データベース
に対する文献検索を実施させる時の動作モードである。
即ち、文献検索モード27は、文献検索条件を入力する
と、その検索条件の特徴を自動的に抽出/蓄積するよう
になっている。さらに、文献検索モード27は、入力さ
れた文献検索条件に適合する特徴を持つ文献を、これま
でに入力された文献から検索し、その結果を出力するよ
うになっている。
【0198】検索結果評価モード28は、文献検索モー
ド27で検索された文献の評価を入力されるようになっ
ている。さらに、検索結果評価モード28は、文献の評
価結果が、以後の検索に反映されるように、文献クラス
タ記憶部90上のクラスタと、検索キーワードクラスタ
記憶部100上のクラスタとの相関関係を学習するよう
になっている。
【0199】即ち、このデータベースシステムは、上記
の各構成部を所定のプログラムによって運用することに
より、上記の各モードを構成して、その機能を果たすも
のである。以下において、各モードの動作を説明するこ
とにより、前記のプログラムの内容を説明する。これに
より、上記の各構成部のより具体的な構成と運用方法を
詳述することにする。
【0200】これら3つのモードの内、文献蓄積モード
26の動作手順は、先の実施例1で説明した文献蓄積モ
ード21の動作手順と同じなので、その説明を省略す
る。以下では、文献検索モード27と検索結果評価モー
ド28との動作手順を説明する。
【0201】まず、文献検索モード27の動作手順から
説明する。最初に検索キーワード入力2が入力されてか
ら、検索キーワードクラスタ記憶部100が、ベクトル
AFを出力するまでの文献検索モード27の動作手順
は、実施例1で図9を用いて説明した文献検索モード2
2の動作手順と同様である。
【0202】図18に、検索キーワードクラスタ記憶部
100によるベクトルAFの出力以降のモード27のデ
ータの流れを示す。まず、ベクトルAFは、第二の学習
部110に入力される。
【0203】この第二の学習部110は、形式的には、
第一の学習部60との相似の構成のものである。即ち、
第二の学習部110は、g個のノードから構成される入
力層:ベクトルCR={cr1 ,cr2 ,・・・,cr
g }と、h個のノードから構成される出力層:ベクトル
CK={ck1 ,ck2 ,・・・,ckh }との2層ネ
ットワーク構成となっている。各々の入力ノード,出力
ノード間は、重み付きリンク:wcijで結合されてい
る。
【0204】上記のベクトルCRの各成分に相当する入
力ノードには、ベクトルAFの各成分がエンコードされ
るようになっている。つまり、これらの入力ノードは、
ベクトルAFの各成分に対応したものである。即ち、入
力層の各ノードは、検索キーワードクラスタ記憶部10
0の各検索キーワードクラスタに相当している。また、
ベクトルCKの各成分に相当する各出力ノードは、第一
の特徴抽出部70からのベクトルKFをエンコードされ
るようになっている。これらの出力ノードは、ベクトル
KFの各成分に対応したものである。即ち、出力層の各
ノードは、文献クラスタ記憶部90の各文献クラスタに
相当している。先に、第二の学習部110の構成の説明
で、検索キーワードクラスタ記憶部100の各検索キー
ワードクラスタと、文献クラスタ記憶部90の各文献ク
ラスタとの相関度を説明したが、この相関度は、入出力
間の重み付きリンクwcijの重みの値に比例したもので
ある。つまり、入力層の検索キーワードクラスタに相当
する各ノードと、出力層の文献クラスタに相当する各ノ
ードとは、重み付きリンクwcijにより、関連付けられ
ている。
【0205】文献検索モード27では、第二の学習部1
10は、入力層から出力層への信号伝搬を行ない、この
際、出力層の各ノードを下式(45)に従って活性化
し、各出力ノードをデコードしたベクトルKFを第一の
エンコーダ40へ出力するようになっている。
【0206】
【数14】
【0207】なお、mk ,mr は、各々文献蓄積モード
26,文献検索モード27の動作過程で、単調増加して
いくが、第二の学習部110の入力ノードと出力ノード
とは、下式(46),(47) mr <g ・・・(46) mk <h ・・・(47) が成立するように、十分多く用意されている。
【0208】また、第一の学習部60は、これらの式
(46),(47)の下で、ベクトルAF→ベクトルC
Rへのエンコードを、下式(48)に基づいて行なうよ
うになっている。なお、cri は、ベクトルLRの各成
分である。このベクトルAFは、先の実施例で説明した
ように、記憶部100の検索キーワードクラスタに対す
る検索キーワード入力2の適合度を示している。
【0209】
【数15】
【0210】第二の学習部110は、自己の出力ノード
の値を下式(49),(50)に基づいて、ベクトルC
KをベクトルKFへとデコードして、これを検索評価部
120への出力するようになっている。 kfi =cki ・・・(49) (1≦i≦mk ) ・・・(50)
【0211】このような構成により、第二の学習部11
0は、入力層から出力層への信号伝搬を式(45)に従
って活性化した上で行なう。その後、第二の学習部11
0は、各出力ノード値をベクトルKFにデコードし、こ
のベクトルKFを検索評価部120へ出力する。当然な
がら、このベクトルKFは、ベクトルAFに対して関連
の深い文献クラスタを表すベクトルである。
【0212】そして、第二の学習部110は、以下に示
すようにして、リンクを設定するようになっている。以
下、第二の学習部110のリンクの設定方法を説明す
る。実施例1で図4を用いて説明したように、文献蓄積
モード26を実行することにより、mk は単調増大す
る。また、文献検索モード27の実行により、mr も単
調増大する。よって、実施例2のモード24,25の第
一の学習部60の場合と同様、各モード27,28の実
行を繰り返す毎に、第二の学習部110でエンコードさ
れる入力ノード数,デコードされる出力ノード数は増え
ていく。こうした追加設定された語に対応するノードに
結合するリンクは、第二の学習部110では、全て0に
初期設定される。
【0213】一方、文献クラスタ記憶部90は、現時点
までに蓄積された文献の情報*P,PC,mk を、検索
評価部120へ出力する。検索評価部120は、これら
の入力から、検索要求に適合する文献のポインタ群:*
PR={*pr1 ,*pr2,・・・,*pra(r)}を
生成する。検索評価部120が、*PRを生成する方法
は、実施例1の文献検索モード22の図10の説明で示
した通りである。
【0214】次に、検索結果評価モード28の動作手順
を説明する。検索結果の評価は、文献検索モード27で
の検索者の要求に呼応して出力されたar 件の文献*P
Rに対して行なわれる。即ち、*PRに対して、実施例
2で定義した*PA,AAが、検索の適合性の評価とし
て、最初にシステムに入力される。
【0215】検索結果評価モード28は、評価の対象と
なった*PA毎に実行される。まず、最初に評価の対象
とする*PAに対して、文献検索モード27で検索を行
なった時の検索条件、ベクトルRW,ベクトルRWW
が、検索キーワード入力2として入力される。
【0216】続けて評価した文献の本文:B(*p
i )が文献入力1として、また、検索者による評価結
果:aai が検索結果評価信号3として、i=1,2,
・・・,as の順に逐次システムに入力される。
【0217】図19に検索結果評価モード28でのデー
タの流れを示す。検索キーワード入力2は、検索キーワ
ードテーブル30と第二のエンコーダ50とに入力され
る。そして、第二のエンコーダ50は、検索キーワード
テーブル30から出力されるベクトルRTを参照してベ
クトルRVを得て、これを第二の特徴抽出部80へ出力
する。
【0218】第二の特徴抽出部80は、ベクトルRVの
特徴ベクトル:ベクトルRFなどを検索キーワードクラ
スタ記憶部100へ出力する。ベクトルRFを入力した
検索キーワードクラスタ記憶部100は、このベクトル
を基にベクトルAFを生成して、これを第二の学習部1
10に出力する。
【0219】ベクトルAFは、検索結果評価モード28
で1つの*PAを処理する間は、一定に保たれる。ベク
トルRW,ベクトルRWWが、検索キーワード入力2と
して入力されてから、検索キーワードクラスタ記憶部1
00からベクトルRVが出力されるまでの具体的な動作
手順、および第二の学習部110へのコーディング方法
は、文献検索モード27の同様であるので、その説明を
省略する。
【0220】文献入力1を入力したキーワード抽出部1
0は、B(*pai )からキーワードを抽出し、これら
を示すベクトルKWを、文献キーワードテーブル20と
第一のエンコーダ40とへ出力する。
【0221】第一のエンコーダ40は、文献キーワード
テーブル20から出力されるベクトルKTを参照して、
ベクトルKWをベクトルKVに変換し、これを第一の特
徴抽出部70へ出力する。そして、第一の特徴抽出部7
0は、ベクトルKVの特徴ベクトル:ベクトルKFを第
二の学習部110に出力する。B(*pr)が入力され
て、第一の特徴抽出部70からベクトルKFが出力され
るまでの具体的動作手順は、文献蓄積モード26と同様
であるので、その説明を省略する。また、ベクトルKF
を第一の学習部60へコーディングする方法は、文献検
索モード27で示したベクトルKFを第二の学習部11
0へコーディングする方法と同様であるので、その説明
を省略する。
【0222】第二の学習部110に、B(*pai )に
由来するベクトルKFが出力されるのに同期して、aa
i が検索結果評価信号3として、第二の学習部110へ
出力される。
【0223】第二の学習部110のリンクは、下式(5
1)で示される学習規則に従って、微小時間だけ変化さ
せられる。 (dwcjk/dt) =sgn(crj )(−αb wcjk+aai sgn(ckk ) ・・・(51) ここで、αb >0は、学習の強度を表すパラメータで、
αb が大きい程、1回の学習量は多くなる。また、sg
n(x)は、式(44)で定義されている。即ち、第二
の学習部110は、式(43)に従って、検索評価をリ
ンクの重みに反映するように構成されているのである。
【0224】式(51)による第二の学習部110の学
習は、実施例2の検索結果評価モード25で、式(4
3)による第一の学習部60の学習と同様の要領で行な
われる。このため、ここでは、詳しい説明を省くが、第
二の学習部110の入力層の各ノードには検索キーワー
ドクラスタを示すベクトルAFが、また、出力層の各ノ
ードには、文献クラスタを示すベクトルKFが入力され
るため、式(51)によって、第二の学習部110上の
wcjkは、検索キーワードクラスタと、文献クラスタと
の相関を表すように変化する。
【0225】検索キーワードクラスタや文献クラスタの
個々のクラスタは、検索入力の特徴や文献の特徴に対応
している。このため、検索結果評価モード28によって
学習される検索キーワードクラスタと、文献クラスタと
の個々のクラスタ間の正の相関・負の相関は、特徴間の
統計的相関性を反映することになる。即ち、wcijの重
みが大きいということは、rfi を検索キーワードの特
徴とする検索を行なった時に検索された文献の中で、適
切と判断された文献が、kfj なる特徴を有する度数が
相対的に高いということである。また、同様に重みが小
さいということは、適切と判断された文献に、kfj
る特徴を有する度数が相対的に低いか、または不適切で
あると判断された文献が、kfj なる特徴を有する度数
が相対的に高いということであるといえる。よって、文
献検索の観点からは、上に述べた検索キーワードクラス
タと文献クラスタとの間の相関性の設定方法は、全く妥
当であるといえる。
【0226】以上説明したように、検索結果評価モード
28時の第二の学習部110は、検索結果の妥当性の評
価に基づいて、検索キーワードクラスタと文献クラスタ
との間の相関性を、ネットワークの重みの形式で学習す
る。即ち、第一の特徴抽出部70によって生成されたク
ラスタの特徴(ベクトルKF)と、検索キーワードクラ
スタ記憶部100によって生成されたクラスタの特徴
(ベクトルAF)とは、検索キーワードと文献キーワー
ドの典型的特徴を表す概念と見倣せる。この概念のパタ
ンを利用して、第二の学習部110は、検索の適切性の
評価に基づき、文献の概念と検索者の概念の相関性を学
習するのである。これにより、両者の語彙の違いが、キ
ーワードの分類される検索キーワードクラスタと文献ク
ラスタの特徴レベルで補償でき、高度な概念検索が可能
となる。
【0227】
【発明の効果】以上のように、請求項1の発明によれ
ば、情報から得られる情報キーワードを入力すると、こ
れと高い関連度を割り当てられた分類部を求め、ここに
情報キーワードの抽出元の情報を分類するとともに、検
索キーワードを入力すると、これと高い関連度を割り当
てられた分類部を求め、そこに分類されている情報を検
索結果として出力するように構成したので、統制キーワ
ードに束縛されずに、自由な検索が可能である。また、
キーワードは、全て機械的に自動抽出されるので、大量
情報の自動処理が可能である。さらに、情報検索におけ
る統計的なノイズを除去でき、情報検索の適合率を下げ
ることなく、再現率を向上できる効果がある。また、利
用者によって検索キーワードが異なっていても、その違
いを補償できる効果がある。さらに、このような効果を
簡単な構成と管理で実現できる効果がある。
【0228】また、請求項2の発明によれば、入力した
情報キーワードに対して高い関連度の分類部を見出せな
ければ、所定の分類部とこの情報キーワードとに高い関
連度を割り当て、この分類部に情報キーワードの抽出元
の情報を分類するように構成したので、これまでに例の
無いような情報・検索条件に対しても、格納・情報検索
できるとともに、情報・検索条件を学習できる効果があ
る。即ち、動的にデータ蓄積を行なう際に、これまでに
例の無いような情報・検索条件に対しても、これを「被
検索側の語彙と検索側の語彙」を関係付けるネットワー
クに反映させることのできる効果がある。
【0229】また、請求項3の発明によれば、入力した
情報キーワード群に対して高い関連度の分類部を見出す
と、この分類部と情報キーワード群の各キーワードとの
間の関連度を強化するように構成したので、この分類部
とそこに分類された情報の各キーワードとの間の関連度
を強化できる。この結果、情報と情報キーワードの関連
度を学習でき、的確に情報を認識した上で情報分類でき
る効果がある。しかも、ある情報に対して関連度の低い
キーワードが、この情報と関連度の高い他のキーワード
と共に入力されると、この情報と関連度の低いキーワー
ドとの関係を強化できる。即ち、あるキーワードに対し
て共起性の高いキーワードを同じ分類部に関連付けるこ
とができ、これにより、検索キーワード洩れを補償でき
る。これらの結果、「被検索側の語彙と検索側の語彙」
を関係付けるネットワークを成長させることができる効
果がある。これにより、システムが使用される度に、検
索条件の自由度に対する適応性が向上していく。また、
利用者に応じたネットワークを構成できる効果がある。
【0230】また、請求項4の発明によれば、入力した
検索キーワードに対する各分類部の関連度を求め、これ
らを各分類部の追加度とするとともに、キーワードの分
類部に対する関連度と、その分類部に割り当てられた追
加度とに応じた比率で、キーワードを前記検索キーワー
ドに追加するように構成したので、統制キーワードに束
縛されずに、自由な検索が可能である。また、キーワー
ドは、全て機械的に自動抽出されるので、大量情報の自
動処理が可能である。さらに、キーワードの設定洩れな
どを補償する高機能な連想が可能となり、情報検索条件
の設定の自由度が高くなる効果がある。また、利用者に
よって検索キーワードが異なっていても、その違いを補
償できる効果がある。さらに、このような効果を簡単な
構成と管理で実現できる効果がある。
【0231】また、請求項5の発明によれば、入力した
検索キーワードに対する各分類部の関連度を求めた結
果、高い関連度のものを見出せなければ、所定の分類部
を選び、選んだ分類部と前記キーワードとに高い関連度
を割り当てるように構成したので、これまでに例の無い
ような検索キーワードに対しても、キーワード洩れを補
償できるとともに、検索条件を学習できる効果がある。
即ち、動的にデータ蓄積を行なう際に、これまでに例の
無いような検索条件に対しても、これを「被検索側の語
彙と検索側の語彙」を関係付けるネットワークに反映さ
せることのできる効果がある。また、情報検索条件のキ
ーワードの洩れの補償が、より高度なものとなるととも
に、利用者に応じたネットワークを構成できる効果があ
る。
【0232】また、請求項6の発明によれば、入力した
検索キーワード群に対して高い関連度の分類部を見出す
と、関連度の高い分類部と入力した検索キーワード群の
各キーワードとの間の関連度を強化するように構成した
ので、分類部と、そこに分類される検索キーワード群の
各キーワードとの関係を強化できる。この結果、分類部
と検索キーワードの関連度を学習でき、的確に検索キー
ワードを認識した上で検索キーワードを分類できる効果
がある。しかも、ある情報に対して関連度の低いキーワ
ードが、この情報と関連度の高い他のキーワードと共に
入力されると、この情報と関連度の低いキーワードとの
関係を強化できる。即ち、ある検索キーワードに対して
共起性の高い検索キーワードを、同じ分類部に関連付け
ることができる。これにより、情報検索条件のキーワー
ドの洩れの補償が、より高度なものとなるとともに、
「被検索側の語彙と検索側の語彙」を関係付けるネット
ワークを成長させることができる効果がある。この結
果、システムが使用される度に、検索条件の自由度に対
する適応性が向上していく。即ち、利用者に応じた動的
データ蓄積機能を持つことができ、利用者に応じたネッ
トワークを構成できる効果がある。
【0233】また、請求項7の発明によれば、検索キー
ワードが入力されると、これと関連度の高い情報キーワ
ードを求めるとともに、検索した情報に対する検索の評
価を受けると、検索した情報から得られる情報キーワー
ドと、この情報の検索に用いられた検索キーワードとの
間の関連度を、先の評価に応じて変化させるように構成
したので、検索側の検索キーワードの概念と、被検索側
の情報キーワードの概念とを、使用する度に一致する方
向に補正できる効果がある。これにより、情報検索の再
現率を上昇できる。即ち、検索能力を検索に応じて成長
させることが可能となる効果がある。さらに、このよう
な効果を簡単な構成と管理で実現できる効果がある。
【0234】また、請求項8の発明によれば、検索キー
ワードの分類された検索キーワード分類部と関連度の高
い情報分類部を求め、これに分類されている情報を検索
結果とするとともに、検索した情報に対する検索の評価
を受けると、検索した情報の分類された情報分類部と、
この情報検索に用いられた検索キーワードの分類された
検索キーワード分類部との間の関連度を、先の評価に応
じて変化させるように構成したので、検索キーワードを
分類する分類部の概念と、情報を分類する分類部の概念
とを一致させることが可能となる。これにより、常時に
おいて、情報の分類と検索条件の分類とを、的確に対応
付けできる効果がある。即ち、検索側の語彙の概念と、
被検索側の語彙の概念とを、使用する度に一致する方向
に補正できる。さらに、利用者によって検索キーワード
が異なっていても、その違いを補償できる効果がある。
そして、このような効果を簡単な構成と管理で実現でき
る効果がある。
【図面の簡単な説明】
【図1】本発明の実施例1におけるデータベースシステ
ムを示すブロック図である。
【図2】本発明の実施例1におけるデータベースシステ
ムの入力文献に対する分類の動作を説明する図である。
【図3】本発明の実施例1におけるデータベースシステ
ムのキーワード抽出の動作を説明する図である。
【図4】本発明の実施例1におけるデータベースシステ
ムの文献から抽出したキーワードをキーワードテーブル
に登録する動作を説明する図である。
【図5】本発明の実施例1におけるデータベースシステ
ムの文献から抽出したキーワードを数量化を説明する図
である。
【図6】本発明の実施例1におけるデータベースシステ
ムの特徴抽出部の動作を示すフローチャートである。
【図7】本発明の実施例1におけるデータベースシステ
ムの特徴抽出部での学習処理を説明する図である。
【図8】本発明の実施例1におけるデータベースシステ
ムの特徴抽出部での信号伝搬を説明する図である。
【図9】本発明の実施例1におけるデータベースシステ
ムの検索キーワードの入力に対する処理を説明する図で
ある。
【図10】本発明の実施例1におけるデータベースシス
テムの検索結果出力を得る際の動作を説明する図であ
る。
【図11】本発明の実施例2におけるデータベースシス
テムを示すブロック図である。
【図12】本発明の実施例2におけるデータベースシス
テムの検索結果出力を得る際の動作を説明する図であ
る。
【図13】本発明の実施例2におけるデータベースシス
テムの文献キーワードと検索キーワードとの相関性によ
るネットワークを説明する図である。
【図14】本発明の実施例2におけるデータベースシス
テムの相関性学習の動作を説明する図である。
【図15】本発明の実施例2におけるデータベースシス
テムの文献検索の評価が適切と判断された場合の相関性
学習を説明する図である。
【図16】本発明の実施例2におけるデータベースシス
テムの文献検索の評価が不適切と判断された場合の相関
性学習を説明する図である。
【図17】本発明の実施例3におけるデータベースシス
テムを示すブロック図である。
【図18】本発明の実施例3におけるデータベースシス
テムの検索結果出力を得る際の動作を説明する図であ
る。
【図19】本発明の実施例3におけるデータベースシス
テムの相関性学習の動作を説明する図である。
【符号の説明】
60 第一の学習部(学習手段) 70 第一の特徴抽出部(検索評価手段) 80 第二の特徴抽出部(追加度抽出手段,追加手段) 90 文献クラスタ記憶部(分類部,情報分類部) 100 検索キーワードクラスタ記憶部(分類部,検索
キーワード分類部,追加度抽出手段) 110 第二の学習部(学習手段) 120 検索評価部(検索評価手段)

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された検索キーワードを基に情報を
    検索するデータベースシステムにおいて、前記情報を分
    類される複数の分類部と、前記分類部とキーワードとの
    間に関連度を割り当ておき、前記情報から得られる情報
    キーワードを入力すると、入力した情報キーワードと高
    い関連度を割り当てられた分類部を求め、この分類部に
    前記情報キーワードの抽出元の情報を分類するととも
    に、検索キーワードを入力すると、入力した検索キーワ
    ードと高い関連度を割り当てられた分類部を求め、この
    分類部に分類されている情報を検索結果として出力する
    検索評価手段とを備えたことを特徴とするデータベース
    システム。
  2. 【請求項2】 前記検索評価手段は、入力した情報キー
    ワードに対して高い関連度の分類部を見出せなければ、
    前記分類部の中からどのキーワードにも関連度を割り当
    てられていないものを選び、選んだ分類部と前記情報キ
    ーワードとに高い関連度を割り当てると共に、他のキー
    ワードと選んだ分類部とに所定の関連度を割り当て、選
    んだ分類部に前記情報キーワードの抽出元の情報を分類
    することを特徴とする請求項1記載のデータベースシス
    テム。
  3. 【請求項3】 前記検索評価手段は、入力した情報キー
    ワードに対して高い関連度の分類部を見出し、前記情報
    キーワードが複数のキーワードからなるキーワード群で
    あるならば、このキーワード群の各キーワードと前記の
    見出した分類部との間の関連度を強化することを特徴と
    する請求項1記載のデータベースシステム。
  4. 【請求項4】 入力された検索キーワードを基に情報を
    検索するデータベースシステムにおいて、複数の分類部
    と各キーワードとの間に関連度を割り当てておき、検索
    キーワードを入力すると、入力した検索キーワードに対
    する分類部の関連度を求め、求めた関連度を分類部の追
    加度とする追加度抽出手段と、前記分類部に関連度を割
    り当てられたキーワードを、キーワードの分類部に対す
    る関連度と、この分類部に割り当てられた前記追加度と
    に応じた比率で、前記検索キーワードに追加する追加手
    段と、前記追加手段からのキーワードの追加されたキー
    ワード情報を基にして前記情報を検索する検索評価手段
    とを備えたことを特徴とするデータベースシステム。
  5. 【請求項5】 前記追加度抽出手段は、入力した検索キ
    ーワードに対する前記分類部の関連度を求めた結果、高
    い関連度の分類部を見出せなければ、前記分類部の中か
    らどのキーワードにも関連度を割り当てられていないも
    のを選び、選んだ分類部と前記検索キーワードとに高い
    関連度を割り当てると共に、他のキーワードと選んだ分
    類部とに所定の関連度を割り当てることを特徴とする請
    求項4記載のデータベースシステム。
  6. 【請求項6】 前記追加度抽出手段は、入力した検索キ
    ーワードに対する前記分類部の関連度を求めた結果、高
    い関連度の分類部を見出し、前記検索キーワードが複数
    のキーワードからなるキーワード群であるならば、この
    キーワード群の各キーワードと前記の見出した分類部と
    の間の関連度を強化することを特徴とする請求項4記載
    のデータベースシステム。
  7. 【請求項7】 入力された検索キーワードを基に情報を
    検索するデータベースシステムにおいて、検索キーワー
    ドと情報キーワードとの間に関連度を割り当てておき、
    検索キーワードが入力されると、前記関連度を基にし
    て、入力された検索キーワードと関連度の高い情報キー
    ワードを求めるとともに、検索した情報に対する検索の
    適合性の評価を受けると、検索した情報から得られる情
    報キーワードと、検索した情報の検索に用いた検索キー
    ワードとの間の関連度を前記評価に応じて変化させる学
    習手段と、前記学習手段で求めた情報キーワードと関係
    の深い幾つかの情報キーワードを持つ情報を検索結果と
    して出力する検索評価手段とを備えたことを特徴とする
    データベースシステム。
  8. 【請求項8】 入力された検索キーワードを基に情報を
    検索するデータベースシステムにおいて、前記情報を所
    定の規則で分類される複数の情報分類部と、検索キーワ
    ードを所定の規則で分類される複数の検索キーワード分
    類部と、前記情報分類部と前記検索キーワード分類部と
    の間に関連度を割り当てておき、検索キーワードが前記
    検索キーワード分類部に分類されると、前記関連度を基
    に、分類された検索キーワード分類部と関連度の高い情
    報分類部を求め、求めた情報分類部に分類されている情
    報を検索結果として出力するとともに、検索した情報に
    対する検索の適合性の評価を受けると、検索した情報が
    分類された情報分類部と、検索した情報の検索に用いた
    検索キーワードが分類された検索キーワード分類部との
    間の関連度を、前記評価に応じて変化させる学習手段と
    を備えたことを特徴とするデータベースシステム。
JP5254536A 1993-10-12 1993-10-12 データベースシステム Pending JPH07110818A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5254536A JPH07110818A (ja) 1993-10-12 1993-10-12 データベースシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5254536A JPH07110818A (ja) 1993-10-12 1993-10-12 データベースシステム

Publications (1)

Publication Number Publication Date
JPH07110818A true JPH07110818A (ja) 1995-04-25

Family

ID=17266413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5254536A Pending JPH07110818A (ja) 1993-10-12 1993-10-12 データベースシステム

Country Status (1)

Country Link
JP (1) JPH07110818A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09190451A (ja) * 1996-01-09 1997-07-22 Oki Electric Ind Co Ltd 情報検索装置
JPH09231237A (ja) * 1996-02-28 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH09288683A (ja) * 1995-09-04 1997-11-04 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JPH1031676A (ja) * 1996-07-16 1998-02-03 Sharp Corp 対訳例文検索装置
JPH10240762A (ja) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法
JP2001337986A (ja) * 2001-05-28 2001-12-07 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122769A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想検索装置
JPH05204978A (ja) * 1992-01-23 1993-08-13 Nec Home Electron Ltd 情報検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122769A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想検索装置
JPH05204978A (ja) * 1992-01-23 1993-08-13 Nec Home Electron Ltd 情報検索装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288683A (ja) * 1995-09-04 1997-11-04 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JPH09190451A (ja) * 1996-01-09 1997-07-22 Oki Electric Ind Co Ltd 情報検索装置
JPH09231237A (ja) * 1996-02-28 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH1031676A (ja) * 1996-07-16 1998-02-03 Sharp Corp 対訳例文検索装置
JPH10240762A (ja) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法
JP2001337986A (ja) * 2001-05-28 2001-12-07 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法

Similar Documents

Publication Publication Date Title
CN111611361B (zh) 抽取式机器智能阅读理解问答系统
US5960422A (en) System and method for optimized source selection in an information retrieval system
US7734556B2 (en) Method and system for discovering knowledge from text documents using associating between concepts and sub-concepts
US6598047B1 (en) Method and system for searching text
US7174507B2 (en) System method and computer program product for obtaining structured data from text
US7295965B2 (en) Method and apparatus for determining a measure of similarity between natural language sentences
KR101938212B1 (ko) 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
CN105869634A (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
US11854532B2 (en) System to detect and reduce understanding bias in intelligent virtual assistants
CA2574554A1 (en) A method for determining near duplicate data objects
IL107482A (en) A method for solving questions in natural language from databases of full texts
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
US20090157611A1 (en) Methods and apparatus using sets of semantically similar words for text classification
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN114065760B (zh) 基于预训练语言模型的法律文本类案检索方法及系统
JPH10254883A (ja) 文書自動分類方法
US20040205035A1 (en) Method and system for adaptive learning and pattern recognition
JPH1049543A (ja) 文書検索装置
JPH07110818A (ja) データベースシステム
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN114328820A (zh) 信息搜索方法以及相关设备
CN107679112B (zh) 一种面向设计知识推送的加权特征知识适用概率匹配方法