JP2839839B2 - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JP2839839B2
JP2839839B2 JP6161280A JP16128094A JP2839839B2 JP 2839839 B2 JP2839839 B2 JP 2839839B2 JP 6161280 A JP6161280 A JP 6161280A JP 16128094 A JP16128094 A JP 16128094A JP 2839839 B2 JP2839839 B2 JP 2839839B2
Authority
JP
Japan
Prior art keywords
keyword
associative
specialized
search
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6161280A
Other languages
English (en)
Other versions
JPH0830630A (ja
Inventor
一志 西本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Tsushin Shisutemu Kenkyusho Kk
Original Assignee
Ei Tei Aaru Tsushin Shisutemu Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Tsushin Shisutemu Kenkyusho Kk filed Critical Ei Tei Aaru Tsushin Shisutemu Kenkyusho Kk
Priority to JP6161280A priority Critical patent/JP2839839B2/ja
Publication of JPH0830630A publication Critical patent/JPH0830630A/ja
Application granted granted Critical
Publication of JP2839839B2 publication Critical patent/JP2839839B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、情報検索装置に関
し、特に、検索意図と異なる検索結果を得ることができ
るような情報検索装置に関する。
【0002】
【従来の技術】近年、バーチャルリアリティ技術を応用
した臨場感通信会議システムの研究が行なわれている。
【0003】図13は、臨場感通信会議の様子を示した
図である。この臨場感通信会議システムは、3次元コン
ピュータグラフィックスによって生成される仮想空間1
を会議の「場」として提供することにより、従来のTV
会議システムのような単なる音声・映像の伝送にとどま
らず、実空間3に存在する人物7に仮想空間1の人物5
a,5bの雰囲気を伝えることや、また仮想物体9を互
いに遠隔地にいる会議参加者が操作することによる高度
な協調作業を可能としている。
【0004】また、臨場感通信会議に登場する人物像
は、従来のTV会議などとは異なり、人物の身振りや表
情などの特徴点の動きに関する情報だけが通信され、こ
れを基に3次元グラフィックスによって構成されて表示
される。したがって、仮想空間1に登場する人物5a,
5bと実際の会議参加者が全く別人物であるような、会
議参加者の匿名化が容易に実現される。これは、さまざ
まな肩書の者が集まって新商品の企画会議などに行なう
際などに有効となる。
【0005】このように臨場感通信会議システムが提供
する会議空間は非常に創造性に富んだものであり、本質
的に発想の場として優れた素質を備えている。
【0006】そこで、この臨場感通信会議システムが
「発想の場」としてより高度に応用されるための研究も
進められており、そのような応用の1つとして、門外漢
モデルによるデータベースを用いた情報検索装置が本願
発明者によって特願平6−134217号で提案されて
いる。
【0007】そこで、従来の情報検索装置を説明する前
に、門外漢モデルについて説明する。
【0008】図14は、門外漢モデルを示した図であ
る。たとえば、ある研究室においてブレインストーミン
グが行なわれる場合に、日頃似たような研究を行なって
いる者同士ではどうしても発想の場が狭まりがちであ
る。そこで、図14に示すような門外漢11が一人参加
させられる。
【0009】門外漢11は、他の会議参加者である専門
家13の発言内容(専門的意見)について深く理解する
ことは一般的に不可能である。しかしその発言内容のう
ちから理解可能な断片を用いて自分なりにそれらの発言
を部分的/表面的理解15する。この場合、門外漢11
は専門家13の発言内容を誤解する場合もあり得る。そ
して、この部分的/表面的理解15を基に、門外漢11
は、自分の持つ知識17から現在の話題19に関連のあ
りそうな情報を取出してときには意外性のある意見21
を発言する。
【0010】もちろん浅い理解に基づく発言なので、こ
の内容はまるで的外れである可能性も十分にある。しか
し、ある場合にこの門外漢11が提供する一見異質で無
関係に見える意外性のある情報21が他の会議参加者1
3の誰かに現在の話題と結び付けられれば、そこから何
らかの新たな発見が得られる可能性がある。なぜなら
ば、「発想とは、全然性質の違う異質なデータの組合せ
から発見されるものである」からである。
【0011】したがって、このような門外漢モデルによ
るデータベースを用いた情報検索装置は、門外漢がブレ
インストーミングにおいて、専門家達が持つ固定観念を
打開して発想の場を広げることと同様に、検索意図と異
なる情報を検索者に与えることを目的としている。ここ
で、検索意図とは、たとえば検索者が要求する検索結果
である。
【0012】図15は、従来の情報検索装置を示したブ
ロック図であり、図16は、図15の連想記憶部の内部
構成を示した図である。
【0013】図15および図16を参照して、情報検索
装置23は、構文解析部25と、想起情報抽出部27
と、データベース29とを含む。想起情報抽出部27
は、図16に示す一般連想辞書35を備えた連想記憶部
31と、データベース管理部33とを含む。
【0014】動作について簡単に説明する。まずデータ
ベース29が記事データベースとして構築されることに
ついて説明する。データベース29に登録されるべき記
事(登録文)37が構文解析部25で単語に分解されて
構文解析される。構文解析部25で構文解析された記事
37はキーワードベクトルKi となり、想起情報抽出部
27を介してデータベース29に入力される。データベ
ース29は、キーワードベクトルKi と記事37とを対
応させて登録する。これにより、データベース29は記
事データベースとして構築される。同時に、想起情報抽
出部27の連想記憶部31は、記事37に対応するキー
ワードベクトルを用いて一般連想辞書35を形成する。
【0015】次に、ある利用者が情報検索装置23と対
話するために、意見(検索文)39を構文解析部25に
入力する。ここで、意見39は、たとえば記事37が英
文テキストデータであれば、英文テキストデータとな
る。この意見39は通常データベース検索に使用される
ようなキーワードの羅列、またはSQLのようなもので
ある必要はなく、記事37と同様に通常のテキストデー
タであればよい。ただし、キーワードの羅列でも問題は
ない。
【0016】意見39は、記事37と同様に構文解析部
25で単語に分解され、キーワードベクトルQとなる。
キーワードベクトルQは、想起情報抽出部27に入力さ
れる。そして、連想記憶部31が一般連想辞書35に基
づくキーワードベクトルQを用いた連想的な想起を行な
う。この結果連想記憶部31は何らかのキーワードベク
トルR0 を想起する。そして、データベース管理部33
がキーワードベクトルR0 とデータベース29に登録さ
れている各記事のキーワードベクトルKi とを比較し、
データベース29にたとえば最も両者の一致している記
事を連想の際に得られる検索結果として出力させる。こ
れによって、利用者は記事の提供41を受ける。
【0017】なお、データベース管理部33は、利用者
について過去に提供した記事の履歴情報である記事提供
履歴43を持っており、すでに提供したことのある記事
については始めから候補外として後で詳しく説明する相
互相関を計算しない。
【0018】このような情報検索装置23が臨場感通信
会議システムで用いられた場合には、情報検索装置23
は会議参加者の発話に対して「浅い理解」行なう。ここ
で「浅い理解」とは、第1の過程である発話内容の粗い
把握の過程と、第2の過程である発話内容からの連想の
過程とを含む。第1の過程である発話内容の粗い把握の
過程とは、会議参加者の発話からその発話の内容を表わ
す語群(検索語群)を抽出することである。第2の過程
である発話内容からの連想の過程とは、一般連想辞書を
用いて検索語群を拡張することである。以下、このよう
にして拡張された語群は拡張検索語群と呼ぶとする。
【0019】このように、ここで言う浅い理解は、一般
に言う意味理解とは異なり、ごく表層的な意味把握にす
ぎない。また、第2の過程である発話内容からの連想の
過程は、検索語群に含まれた語と関連する語を想起する
ことにより意味を明確にするという観点から理解の1つ
と見なしている。ただし一方で間接的関連性しかない語
も同時に拡張されるため、発言内容からずれた理解にな
る場合もあり得る。このようなずれた理解によって意外
性が取り込まれる。
【0020】そして、このようにして得た拡張検索語群
と、データベース中の各情報の内容を表わす語群とのパ
ターンマッチングによって情報の検索が行なわれる。
【0021】
【発明が解決しようとする課題】ところで、図15およ
び図16に示した情報検索装置では、連想辞書は、一般
連想辞書だけである。一般連想辞書を構築するための元
になる情報としては、たとえば新聞記事が挙げられる。
この結果生成される一般連想辞書は特定専門分野のない
雑学的なものとなっている。したがって、ある検索文が
入力された場合、その検索文から雑学的知識に基づく連
想と情報検索が行なわれる。そしてその結果得られる情
報は、基本的に検索文の内容に沿いつつ、やや異質性を
含んだものである。
【0022】このような特定の専門または思考、趣味な
どを持たない人物が門外漢としてブレインストーミング
に参加させられることが他の専門家の発想に有効な局面
も多い。
【0023】その一方で、たとえば異分野の専門家が門
外漢として参加させられることが有効な局面も数多く想
定される。しかしながら、従来の情報検索装置では、一
般連想辞書という1種類だけの連想辞書を用いていたた
め、検索で得られる情報の分野は制御されていない。
【0024】ゆえに、本発明の目的は、データベースを
用いて検索意図とは異なる情報を得ることであるが、そ
の検索結果を制御することができるような情報検索装置
を提供することである。
【0025】
【課題を解決するための手段】この発明に従った情報検
索装置は、一般分野に属する一般登録文、専門分野に属
する専門登録文、および検索文を構文解析し、一般登録
文を表わす一般登録キーワード、専門登録文を表わす専
門登録キーワード、および検索文を表わす検索キーワー
ドにそれぞれ変換する構文解析手段と、一般登録キーワ
ードおよび専門登録キーワードを連想記憶して一般連想
辞書および専門連想辞書をそれぞれ生成し、検索キーワ
ードに応じて一般連想辞書および専門連想辞書から想起
キーワードを想起する連想記憶手段と、一般登録文と一
般登録キーワードとを対応付けて登録し、専門登録文と
専門登録キーワードとを対応付けて登録するデータベー
スと、データベースに登録されたキーワードのうち想起
キーワードに関連するキーワードに対応付けられた登録
文をデータベースから抽出するデータベース管理手段と
を含む。
【0026】好ましくは、上記連想記憶手段は、検索キ
ーワードに応じて専門連想辞書から第1のキーワードを
想起し、その第1のキーワードに応じて一般連想辞書か
ら第2のキーワードを想起し、その第2のキーワードを
想起キーワードとして出力する。
【0027】好ましくは、上記連想記憶手段は、検索キ
ーワードに応じて専門連想辞書から第1のキーワードを
想起し、検索キーワードおよび第1のキーワードに応じ
て一般連想辞書から第2のキーワードを想起し、その第
2のキーワードを想起キーワードとして出力する。
【0028】好ましくは、上記連想記憶手段は、一般連
想辞書と専門連想辞書とを融合して融合連想辞書を生成
し、検索キーワードに応じて融合連想辞書からキーワー
ドを想起し、そのキーワードを想起キーワードとして出
力する。
【0029】
【0030】
【0031】
【作用】この発明に従った情報検索装置は、連想記憶手
段によって生成された一般連想辞書および専門連想辞書
を用いて想起キーワードが想起されるため、一般連想辞
書および専門連想辞書に依存した想起キーワードが出力
される。
【0032】
【0033】
【0034】上記連想記憶手段は検索キーワードに応じ
て専門連想辞書から第1のキーワードを想起し、その第
1のキーワードに応じて一般連想辞書から第2のキーワ
ードを想起するため、専門連想辞書の専門分野に依存し
た想起キーワードが出力される。
【0035】上記連想記憶手段は検索キーワードに応じ
て専門連想辞書から第1のキーワードを想起し、検索キ
ーワードおよび第1のキーワードに応じて一般連想辞書
から第2のキーワードを想起するため、検索文が含む検
索意図に依存するような想起キーワードが出力される。
【0036】上記連想記憶手段は一般連想辞書と専門連
想辞書とを融合して融合連想辞書を生成し、検索キーワ
ードに応じて融合連想辞書からキーワードを想起するた
め、融合される専門分野に依存した想起キーワードが出
力される。
【0037】
【実施例】図1は、この発明の一実施例による情報検索
装置のブロック図であり、図2は、図1の連想記憶部の
内部構成を示した図である。
【0038】情報検索装置51は、構文解析部25と、
想起情報抽出部53と、データベース29とを含む。想
起情報抽出部53は、データベース管理部31と、図2
に示すように一般連想辞書35に加えて専門連想辞書5
7をも含む連想記憶部55とを備えている。したがっ
て、図1および図2に示す情報検索装置において、図1
5および図16に示した従来の情報検索装置と異なる部
分は、特に連想記憶部55が専門連想辞書57を備えた
ことである。
【0039】次に、動作について簡単に説明する。始め
に一般連想辞書35とデータベース29が構築される。
まずデータベース29に登録される記事(登録文)37
が構文解析部25に入力される。構文解析部25は、記
事37をキーワードベクトルKi に変換する。このキー
ワードベクトルKi は連想記憶部55に入力される。連
想記憶部55は、連想記憶を行なって一般連想辞書35
を生成する。そして、同時にキーワードベクトルKi
記事37と対応付けられてデータベース29に入力され
る。データベース29は記事データベースとして構築さ
れる。
【0040】次に、専門連想辞書57が構築される。こ
の専門連想辞書57の作成は、一般連想辞書35と基本
的に同様である。ただし、専門連想辞書57が構築され
るために使用される記事文は、想定されている専門分野
に依存したものである。記事として、たとえば専門書が
用いられてもよく、または実際に人間の専門家により構
築された連想辞書が用いられてもよい。なお、専門連想
辞書57が構築された際に使用される記事は、データベ
ース29には登録されていない。
【0041】次に、本装置が仮想門外漢として使用され
る場合について説明する。まず利用者は自分の意見(検
索文)39をテキストとして情報検索装置51に入力す
る。入力された意見39は構文解析部25でキーワード
ベクトルQに変換される。このキーワードベクトルQか
ら連想記憶部55の専門連想辞書57によってキーワー
ドベクトルR1 が想起される。キーワードベクトルR1
はキーワードベクトルQ′として一般連想辞書35に入
力され、キーワードベクトルR2 としてさらに想起され
る。データベース管理部31は、想起されたキーワード
ベクトルR2 とデータベース29に登録されている各記
事のキーワードベクトルKi との相互相関を後で説明す
る方法で計算し、相関値の高い記事を抽出する。このと
き、データベース管理部31は各会議参加者の記事提供
履歴43を参照しながら相関値の高い記事を抽出する。
そして、利用者にはデータベース29から記事の提供5
9が行なわれる。
【0042】これにより、利用者に与えられる記事の提
供59は、専門連想辞書57の専門分野に依存したもの
となる。
【0043】図3は、この発明の他の実施例による情報
検索装置の連想記憶部を示した図である。以下、図2に
示す連想記憶部と異なる部分について特に説明する。
【0044】この連想記憶部61は、専門連想辞書57
および一般連想辞書35に加えて、演算部63を含む。
演算部63は、専門連想辞書57で想起されたキーワー
ドベクトルR1 と構文解析部25で変換されたキーワー
ドベクトルQとを演算してキーワードベクトルQ″を生
成する。たとえば、キーワードベクトルQ,R1 が2値
化信号であれば、演算部63はキーワードベクトルQと
キーワードベクトルR 1 との論理和をとってキーワード
ベクトルQ″を生成する。一般連想辞書35は、キーワ
ードベクトルQ″から連想想起を行なってキーワードベ
クトルR3 を想起する。
【0045】これによって、データベース29からはキ
ーワードベクトルR3 とデータベース29に登録された
キーワードベクトルKi との間での相関値の高い記事が
利用者に提供される。
【0046】図3に示す連想記憶部61では、一般連想
辞書35に専門連想辞書57で想起されたキーワードベ
クトルR1 のみならず構文解析部25で構文解析されて
変換されたキーワードベクトルQの影響が及ぶため、一
般連想辞書35で得られるキーワードベクトルR3 は、
図2に示すキーワードベクトルR2 に比べて専門連想辞
書57の影響が多少少なくなって想起される。すなわ
ち、図3に示す連想記憶部61によって専門連想辞書5
7に記憶された専門分野の依存はあるが、図2に示す連
想記憶部55に比べて専門分野の依存が少ない想起ベク
トルが得られる。
【0047】図4は、この発明のさらに他の実施例によ
る情報検索装置の連想記憶部を示した図である。
【0048】以下、図2に示す連想記憶部55と特に異
なる部分について説明する。図4に示す連想記憶部65
は、記憶された専門連想辞書と記憶された一般連想辞書
とが融合されて得られる連想辞書67に基づいて、連想
記憶を行なう。専門連想辞書および一般連想辞書がたと
えば後で説明する連想記憶マトリックスであれば、連想
辞書67はマトリックスの和となる。そして、構文解析
部25で構文解析されて変換されたキーワードベクトル
Qは連想辞書67で連想記憶され、想起ベクトルR4
想起される。
【0049】図4に示す連想記憶部65によっても、連
想記憶部67に含まれる専門連想辞書によって専門分野
に依存した想起ベクトルR4 が得られる。そのため、利
用者には専門分野に依存した記事の提供が行なわれる。
【0050】次に、後で説明する実験のために、図1に
示す情報検索装置の各構成についてさらに詳しく説明す
る。
【0051】まず、構文解析部25について説明する。
構文解析部25は、まず入力された記事37,意見39
を単語に分解して、各単語を正規形に戻す。正規形と
は、たとえば動詞ならその基本形(日本語なら終止形、
英語なら現在形)、名詞なら単数形である。そして、構
文解析部25は簡単な構文解析によって各単語の品詞を
決定する。ここで、文の正確な意味理解が求められてい
ないので、この品詞決定はあまり厳格なものである必要
はない。むしろ処理速度の向上のために、アルゴリズム
が簡素化されればよい。この解析の結果は、文に出現し
た単語が品詞付リストとして出力されることで行なわれ
る。
【0052】さらに、構文解析部25はこのリストから
キーワードベクトルKi ,Qを生成する。リストから記
事の内容を表わす語として使用する品詞の単語のみが取
出されて、単語のリストのサブセットが作成される。実
験では使用する品詞は名詞および品詞同定不能語に限っ
ている。このサブセットによりキーワードベクトルが生
成される。記事Ai のキーワードベクトルKi は第
(1)式のように生成される。第(1)式において、各
要素は第(2)式のように決定されている。ここに、第
(1)式におけるmは装置が処理した単語の種類の総数
であり、第(2)式におけるwj は装置が処理した全単
語種類のうちのj番目の単語である。
【0053】第(2)式における1をセットする要素δ
j はその記事または発言に出現する順に採用し、その個
数は1記事・発言あたり最大50個に制限されて実験が
行なわれている。これは、主に処理速度と後で説明する
連想記憶部としてのアソシアトロンの想起の正確さの要
請とによっている。
【0054】次に、連想記憶部55について説明する。
連想記憶部55としては、たとえばアソシアトロンがあ
る。このアソシアトロンについての記銘・想起の方法に
ついて説明する。
【0055】記銘の方法について説明する。アソシアト
ロンでは、ベクトルの自己相関行列が積算された連想記
憶マトリクスMが生成されることによって記銘が行なわ
れる。n個の記事のキーワードベクトルKi (1≦i≦
n)の記銘は、第(3)式のようにして行なわれる。こ
こに、Mは連想記憶マトリックスである。第(3)式に
おけるKi は縦ベクトルであり、記号′はベクトルの転
置を示す。以下使用するベクトルはすべて縦ベクトルと
する。第(3)式に示すようにして得られる連想記憶マ
トリックスMは、図2から図4に示す連想辞書に相当す
る。
【0056】次に、想起の方法について説明する。検索
文から得られたキーワードベクトルQによって、第
(4)式に示すキーワードベクトルRが想起される。第
(4)式において、φ0 は第(5)式に示される量子化
関数であり、第(4)式におけるθ* は第(6)式に示
す量子化関数である。この第(5)式および第(6)式
に示すφ0 ,φ* はベクトルおよび行列に対しても適用
されて、その場合はベクトルまたは行列のすべての要素
が第(4)式〜第(6)式に示す規則にしたがって量子
化される。
【0057】第(6)式におけるθの値が適切に選ばれ
ることにより、アソシアトロンは記銘した情報を正確に
想起できる。なお、アソシアトロンはこのように−1,
0,1の3値論理となっている。本装置および本実験で
は0,1だけの2値化論理で記銘・想起が行なわれてい
る。また、θの値は、想起の結果得られるベクトルの1
になる要素数が、データベースのキーワードベクトル生
成時に1をセットした要素数と同じかそれ以下でその数
にできるだけ近くなるように想起ごとに決定されてい
る。
【0058】アソシアトロンは記銘したベクトルの一部
からそのベクトル全体を想起する。そして検索ベクトル
Qにノイズが含まれてもある程度自動的にキャンセルさ
れる。ただし、実際に多くのベクトルが記銘された場合
には、完全な想起が行なわれることは困難である。その
ため、後で説明するようなベクトルの相互相関が求めら
れるなどの方法によって最終的な検索結果が得られる必
要が生じる。これによって想起結果に若干のノイズが残
ってしまうが、このノイズは本当に全く無意味なもので
はない。すなわち、ここでのノイズは、少なくともすで
に記銘したいずれかの1の記事において、検索文に含ま
れるいずれかの要素と共起しているものである。そのた
め、文字として表れるような語から間接的関連が導き出
され、これは新たな発想の手掛かりとなると思われる。
【0059】このように、本装置では、アソシアトロン
による想起が完全なものである必要はなく、むしろ想起
の不完全な部分が積極的に利用されて、検索意図と異な
る想起情報が求められる。
【0060】次に、データベース管理部31について説
明する。データベース管理部31は、想起されたキーワ
ードベクトルR2 (R3 ,R4 )と、データベース29
に登録されている各記事のキーワードベクトルKi との
相互相関を計算する。たとえば想起ベクトルRとキーワ
ードベクトルKi の相互相関ri は第(7)式で求めら
れる。ここに、nR はキーワードベクトルRの要素のう
ち値が1の要素の個数であり、nKiはベクトルKi の要
素のうち値が1の要素の個数である。演算子・はベクト
ルの内積を示す。
【0061】この結果、相互相関の値の最も高い記事に
関するキーワードベクトルに対応する記事が提供候補と
される。このような検索によって、キーワードは通常の
データベース検索で使用されるandまたはorでない
中間的な条件で組合わされる。
【0062】なお、データベース管理部31は、各参加
者について過去に提供した記事の履歴情報である記事提
供履歴43を持っており、すべての参加者に対してすで
に提供したことのある記事については始めから候補外と
してこの相互相関を計算しない。
【0063】
【数1】
【0064】実験を説明するために連想辞書の構築につ
いて説明する。専門連想辞書の構築としては、門外漢に
対して主に法律・政治に関する勉強をしている人の連想
結果を与えた。そのため、京都大学法学部の教職員なら
びに学生、合わせて30名の人々の協力を得てアンケー
トが行なわれ、この結果に基づく専門連想辞書が構築さ
れた。
【0065】図5は、行なったアンケートのごく一部を
示す図である。アンケートは、こちらから指定した語に
対しまず自由に連想を行なってもらい、思いつくままに
思いつく限りの語を記述してもらう。次に、「あなたは
コンピュータの専門家数名と、コンピュータと法律の関
係に関する議論を行なっている。あなたには、法律に詳
しい人としての立場からの意見が期待されている。」と
いう状況を想定した上で、各項についてさらに連想され
る語があれば記述してもらう。図5における下線を引い
た語がこちらから与えた連想の種となる語(以下SEE
D語と呼ぶ)、左欄の語が第1の自由連想で得られた
語、右欄の語が状況を想定した状況想定の第2の連想で
得られた語である。
【0066】自由連想では、たとえば製品責任という与
えられた語に対して大企業、PL法、品質管理が得られ
ている。これに対し、状況想定連想においては不法行為
が得られている。また、医用情報処理システムという語
に対しては自由連想において大病院、白衣、受付、診察
料金、カルテが得られ、状況想定連想においてはプライ
バシーが得られている。
【0067】このような自由連想および状況想定連想の
種となるSEED語には、以下のような語が選ばれてい
る。
【0068】第1の条件としては、後で説明する想起実
験で用いられる検索文からキーワードとして抽出される
語である。たとえば、Windows,Macinto
sh,PowerPCなどである。
【0069】第2の条件としては、JICST科学技術
用語シソーラス「JICST87」から抽出した、コン
ピュータやその関連技術と関係する種々の階層の語であ
る。たとえば、計算機利用システム、知識ベースシステ
ム、意思決定支援システムである。
【0070】第3の条件としては、JICST科学技術
用語シソーラスから抽出した、法律と関係する種々の階
層の語である。たとえば、法規、情報政策、知的所有権
である。
【0071】このようにして、全部で114語がSEE
D語として選び出され、このうちから一人あたり38語
が選ばれて与えられた。
【0072】得られた回答から、専門連想辞書が構築さ
れるための記事が作成される。まず、SEED語および
連想語がすべて英訳される。構文解析部25が実験では
英語にしか対応していないためである。そして、各回答
者ごとに1つのSEED語とそのSEED語に対する全
部の連想語が1つのファイルとされ、これが1つの記事
とされる。このようにして、全回答者の全SEED語に
対する回答がそれぞれここに記事とされ、これが連想記
憶されて専門連想辞書が構築される。
【0073】次に、一般連想辞書の構築について説明す
る。一般連想辞書としては、その記事として米国Cla
riNet社が提供する商用ネットワークニュースの記
事が使用された。記事の内容は基本的に通常の新聞と同
様な幅広い分野にわたる。この新聞記事における中でも
比較的多い分野は、コンピュータを中心とした電子産業
業界関連記事、事件関係記事、およびスポーツ関係記事
であった。記憶された記事の総数は1465であった。
【0074】次に、想起実験について説明する。想起実
験では、図6に示されるようなテーマ、興味、意見が装
置に入力される。この図6に示すテキストが検索文とし
て構文解析され、検索についてのキーワードベクトルQ
が生成される。そして、このキーワードベクトルQが用
いられて以下の4種類のアルゴリズムに従う方法で想起
が行なわれ、記事が取出される。
【0075】図7は、4種類のアルゴリズムの処理の概
要を示した図である。第1のアルゴリズムは、図7
(a)に示すアルゴリズムである。検索ベクトルQと専
門連想辞書Jが用いられて想起が行なわれる。この結果
得られる想起ベクトルR1 と、各記事の記事ベクトルK
i との相互相関が求められ、相関値の高い記事が提供さ
れる。
【0076】第2のアルゴリズムは、図7(b)に示す
アルゴリズムである。検索ベクトルQと専門連想辞書J
が用いられて第1段目の想起が行なわれる。この結果得
られる想起ベクトルR1 がそのまま検索ベクトルQ′と
して一般連想辞書Uに用いられて第2段目の想起が行な
われる。この結果得られる想起ベクトルR2 と、各記事
の記事ベクトルKi との相互相関が求められ、相関値の
高い記事が提供される。このアルゴリズムは、図1およ
び図2に示す情報検索装置に対応している。
【0077】第3のアルゴリズムは、図7(c)に示す
アルゴリズムである。検索ベクトルQと専門連想辞書J
が用いられて第1段目の想起が行なわれる。この結果得
られる想起ベクトルR1 と、元の検索ベクトルQとの要
素ごとに論理和がとられて得られるベクトルQ″と一般
連想辞書Uが用いられて第2段目の想起が行なわれる。
この結果得られる想起ベクトルR3 と、各記事の記事ベ
クトルKi との相互相関が求められ、相関値の高い記事
が提供される。このアルゴリズムは、図1および図3に
示す情報検索装置に対応している。
【0078】第4のアルゴリズムは、図7(d)に示す
アルゴリズムである。検索ベクトルQと一般連想辞書U
が用いられて想起が行なわれる。この結果得られた想起
ベクトルR0 と、各記事の記事ベクトルKi との相互相
関が求められ、相関値の高い記事が提供される。このア
ルゴリズムは、図15および図16に示した従来の情報
検索装置に対応している。
【0079】図8は、検索ベクトルQおよび想起ベクト
ルR1 ,R2 ,R3 ,R0 を示した図である。特に、図
8(a)は、検索ベクトルQを示した図であり、図8
(b)は、第1のアルゴリズムで想起されたベクトルR
1 を示した図であり、図8(c)は、第2のアルゴリズ
ムで想起されたベクトルR2 を示した図であり、図8
(d)は、第3のアルゴリズムで想起されたベクトルR
3 を示した図であり、図8(e)は、第4のアルゴリズ
ムで想起されたベクトルR0 を示した図である。
【0080】図8では、ベクトルのうち値1がセットさ
れた要素に対応する語が示されている。
【0081】図9から図12は、各アルゴリズムによっ
て得られた記事の内容の要約を示した図である。図9
は、第1のアルゴリズムによって抽出された記事を示し
た図であり、図10は、第2のアルゴリズムによって抽
出された記事を示した図であり、図11は、第3のアル
ゴリズムによって抽出された記事を示した図であり、図
12は、第4のアルゴリズムによって抽出された記事を
示した図である。図9から図12において、各文で与え
られる括弧内の数字は、相互相関の値である。以下、図
8から図12を用いて、実験結果について説明する。
【0082】第1のアルゴリズムでは、与えられた検索
文のうちから設定された専門の範囲にある語に関しては
連想を幅広く行なう一方、範囲外の語に関しては連想は
ほとんど行なわれず、専門連想辞書には全く含まれない
語に関しては当然何らの連想も行なわれない。この結果
想起されるベクトルR1 は専門範囲に関しては充実し、
専門外に関しては非常に貧弱な構成となる。
【0083】すなわち、図8(b)の語群からわかるよ
うに、もともと検索文には多く含まれていたコンピュー
タ用語のうち、PowerPCやchipなどの多少専
門的な語は消滅し、一方でディスプレイやPCといっ
た、コンピュータにあまり詳しくない人がコンピュータ
と言われてとりあえず思いつくような語が増えている。
これに対し、図8(a)に示す検索ベクトルQにはma
rket程度しかなかった社会的分野の語は、想起ベク
トルR1 ではcompany,trade,firm,
law,corporationと増強されている。こ
のようなR1 がそのまま用いられて各記事ベクトルとの
相互相関がとられれば、設定された専門分野の記事が上
位に表われると予想される。
【0084】第2のアルゴリズムでは、想起ベクトルR
1 が一般連想辞書によって再想起されるため、第1のア
ルゴリズムよりは専門的色彩が弱くなると予想される。
【0085】第3のアルゴリズムでは、検索文に含まれ
ていた語のうち、専門辞書による連想で失われた専門外
の語は補充され、これを用いて一般連想辞書で再想起さ
れている。このため、第2のアルゴリズムよりもさらに
専門的色彩は弱く、一方で検索文との直接的な関連性が
より高い記事が上位に表われる。
【0086】第4のアルゴリズムでは、従来から用いら
れているものであり、専門連想辞書が使用されないの
で、基本的に最も検索文の内容との直接的な関連性が高
い記事が上位に表われる。
【0087】まとめると、各アルゴリズムによって抽出
される記事は、第1のアルゴリズムで最も法律的色彩が
濃く、第2、第3、第4と次第に法律的色彩が弱まって
いき、逆に検索文との直接的関連性は、第1のアルゴリ
ズムで最も弱く、第2、第3、第4と次第に直接的関連
性が強くなる。
【0088】図9から図12を参照して、どのアルゴリ
ズムによって抽出された記事も、図11の3−2の記事
を除いて、すべてコンピュータに関わるものとなってい
る。3−2だけがコンピュータと関係なく株式市場の話
題となっているが、抽出された記事はすべて基本的にc
omputer marketというテーマに沿ったも
のとなっていると思われる。これは、図8(b)に見ら
れるように、第1のアルゴリズムにおいてもコンピュー
タ関係のキーワードが完全には消滅していないためであ
る。
【0089】ただし、検索文との直接的な関連性の強さ
はアルゴリズムによって変化している。図9の1−5の
記事は、図10の2−4、図11の3−3、図12の4
−1で表われ、すべてのアルゴリズムで抽出されてい
る。この内容は、ここに示した他のどの記事よりも直接
的に検索文の内容と関連していると思われる。1−5は
第1のアルゴリズムでは相関値0.0294であり、第
2のアルゴリズムでは0.0799であり、第3のアル
ゴリズムでは0.1137であり、第4のアルゴリズム
では0.1406である。この結果、第4、第3のアル
ゴリズムではこの記事1−5は最も強い相関で抽出され
ているが、第2のアルゴリズムでは2位の相関、第1の
アルゴリズムでは3位の相関となっている。このよう
に、第1、第2のアルゴリズムでは抽出される記事と検
索文との直接的な関連は弱まっている。
【0090】一方、第1のアルゴリズムでは1−1およ
び1−2の記事に見られるように、法律との関連が強い
記事が上位に見られる。これら2つの記事のうち、1−
1の記事は第2のアルゴリズムでも2−3として1位の
相関で抽出されているが、1−2は上位である5つの記
事から消えている。さらに、第3のアルゴリズムになる
と、1−1の記事も上位から消えている。このように、
抽出される記事の、設定した専門分野との関連性も、予
想されたとおり第1のアルゴリズムで最も強く、第2、
第3と次第に弱まっている。
【0091】以上の結果から、複数の連想辞書が用いら
れ、これらが組合わされて使用されることによって抽出
される情報の分野の粗い制御が可能となること立証され
ている。
【0092】次に、想起されたベクトルR2 ,R3 ,R
0 の3つを比較する。想起ベクトルR2 ,R0 には表わ
れない語が図8に示すように想起ベクトルR3 に表われ
ていることがわかる。その語は、図8(d)に下線付で
示したfirst,Texas,Washingto
n,development,report,chi
p,need,peopleである。ベクトルQ″は、
ベクトルQと想起ベクトルR1 との論理和であった。し
たがって、第2のアルゴリズムと第4のアルゴリズムと
が単純に組合わされれば、一般連想辞書による想起の段
階に投入された語は第3のアルゴリズムと同じになる。
しかし、Q″によって想起されたベクトルR3 は、ベク
トルR2 とベクトルR 0 との論理和になっておらず、R
2 とR0 のいずれにも表れない語を含むものとなってい
る。これらは、専門連想辞書が用いられて拡張されたこ
とによって追加された語と、元の検索ベクトルによって
含まれた語との組合せによって始めて強く連想されて表
われてきている。
【0093】まとめると、このような語は、第2のアル
ゴリズムでは消滅してしまったコンピュータに関するや
や専門的な領域の知識と、第4のアルゴリズムでは存在
しなかった法律的な分野に関する専門的な知識の両方に
またがるような知識を持つものでなければ想起できない
ような語と思われる。人間にたとえれば、第3のアルゴ
リズムは法律にも詳しいと同時にコンピュータにもそれ
なりに詳しい者にあたる。
【0094】図11の検索結果からわかるように、第3
のアルゴリズムで得られた検索結果のうち、最も強く想
起された記事のうち3つ(3−1,3−2,3−4)が
他のアルゴリズムの検索では上位に表われないものであ
る。特に、3−1の記事の内容は、法律的な分野とコン
ピュータの両分野にまたがりかつ意外性を感じさせるも
のとなっていると思われる。
【0095】このように、複数の連想辞書が使用される
ことによって複数分野に詳しいような門外漢が構成され
る。そして、専門連想辞書が用いられて検索文から一旦
連想が行なわれ、この結果と元の検索文とが合成された
後さらに一般連想辞書で連想が行なわれると、複数分野
にまたがる知識を持つ者だけが認識できるような関連性
に基づく情報の抽出が行なわれる。すなわち、分野Aだ
けに精通する専門家と分野Bだけに精通する専門家が2
人集まっても得難いような、分野A,B両分野にまたが
る専門知識を持つ人ならではの情報が取出される。この
ような情報は、発想に有効に作用する。
【0096】なお、本装置で入力される記事および検索
文は、必ずしも英文である必要はなく、完全な文章であ
る必要もない。
【0097】また、検索意図として個人の利用者の検索
意図について説明したが、実際に会議などの複数の人間
が本装置を使用する場合も想定され、そのような場合に
は必要であればその会議参加者の全員または一部の複数
の人間の検索意図が用いられてもよい。
【0098】さらに、実験では専門連想辞書として法学
関係者によって構成されたものを1つ用いたが、他にも
さまざまな専門連想辞書が構成されてもよい。さらに、
それぞれが異なる複数の専門連想辞書が適当にいくつか
組合わされて使用されることにより、自由に複数の専門
分野を持つような仮想人物が構成される。そして単一分
野の専門家がより集まっただけでは容易に発見できない
ような新たな関連性を持つ情報が提供される。
【0099】さらに、専門連想辞書は常に何らかの特定
の学問的分野に限定して構築される必要はない。たとえ
ば、特定の個人に対して特に分野を限定することなくさ
まざまな連想を行なってもらい、これに基づいて連想辞
書が構築されれば、この連想辞書はその個人の思考の思
考性を持つものとなる。このような連想辞書が用いられ
れば、その連想辞書を構築した本人がいなくても、本装
置が用いられることで、ある情報からその人ならこう連
想してこのような情報を提供するだろうというような、
特定個人の連想傾向が模倣されることとなる。すなわ
ち、連想辞書の構築の仕方によって、本装置に個性のよ
うなものを持たせることができると思われる。
【0100】さらに、実施例ではバーチャルリアリティ
技術に適用できるような臨場感通信会議システムに対し
ての情報検索装置について説明したが、関連性はある
が、同時に検索意図と異なる異質な情報を制御しつつ抽
出すべき検索が必要な場合には、本装置は有効である。
【0101】さらに、連想記憶部に記憶されるそれぞれ
が異なる複数の連想辞書の連想情報のいずれかが、必ず
しもデータベースに登録される登録文情報と一致する必
要はない。
【0102】
【発明の効果】以上のようにこの発明によれば、複数の
連想情報が用いられて、検索意図と異なる想起情報を複
数の連想情報に依存させて制御できるので、たとえば特
定の分野に依存した想起情報によって発想のきっかけと
なるような情報がデータベースから提供される。
【図面の簡単な説明】
【図1】この発明の一実施例による情報検索装置の概略
ブロック図である。
【図2】図1の連想記憶部の内部構成を示した図であ
る。
【図3】この発明の他の実施例による情報検索装置の連
想記憶部の内部構成を示した図である。
【図4】この発明のさらに他の実施例による情報検索装
置の連想記憶部の内部構成を示した図である。
【図5】実験で用いられたアンケートの例を示した図で
ある。
【図6】実験で用いられたテーマ、興味、意見を示した
図である。
【図7】実験で用いられる4種類のアルゴリズムを示し
た図である。
【図8】実験で用いられた検索ベクトルおよび図7のそ
れぞれのアルゴリズムによって想起されたベクトルを示
した図である。
【図9】図7(a)に示すアルゴリズムによって抽出さ
れた記事を示した図である。
【図10】図7(b)に示されるアルゴリズムによって
抽出された記事を示した図である。
【図11】図7(c)に示されたアルゴリズムによって
抽出された記事を示した図である。
【図12】図7(d)に示されたアルゴリズムによって
抽出された記事を示した図である。
【図13】臨場感通信会議システムを示した図である。
【図14】門外漢を示した図である。
【図15】従来の情報検索装置の概略ブロック図であ
る。
【図16】図15の連想記憶部の内部構成を示した図で
ある。
【符号の説明】
51 情報検索装置 53 想起情報抽出部 55,61,65 連想記憶部 57 専門連想辞書 67 連想辞書 35 一般連想辞書
フロントページの続き (56)参考文献 特開 平1−224863(JP,A) 特開 平5−113967(JP,A) 特開 平6−96118(JP,A) 西本一志ほか、発散的発想支援−以外 性のある情報の提供手法に関する検討 −、人工知能学会研究会資料(SIG− HICG−9301−1)、人工知能学会、 平成5年5月21日 渡部勇、発散的指思考の計算機支援、 情報処理学会研究報告ヒューマンインタ ーフェース29−4、p1−、1990.03. 09 折原良平、発散的思考支援ツールの研 究開発動向、人工知能学会誌vol8 No.5,p560−,平成5年9月 河越正弘ほか、創造システムに関する 基礎的考察、情報処理学会第36回(昭和 63年前記)全国大会、p1389−1890、昭 和63年 西本一志ほか、発想支援システムに関 する一考察、情報処理学会第46回(平成 5年前期)全国大会、p6−283、平成 5年 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 一般分野に属する一般登録文、専門分野
    に属する専門登録文、および検索文を構文解析し、前記
    一般登録文を表わす一般登録キーワード、前記専門登録
    文を表わす専門登録キーワード、および前記検索文を表
    わす検索キーワードにそれぞれ変換する構文解析手段
    と、 前記一般登録キーワードおよび前記専門登録キーワード
    を連想記憶して一般連想辞書および専門連想辞書をそれ
    ぞれ生成し、前記検索キーワードに応じて前記一般連想
    辞書および前記専門連想辞書から想起キーワードを想起
    する連想記憶手段と、 前記一般登録文と前記一般登録キーワードとを対応付け
    て登録し、前記専門登録文と前記専門登録キーワードと
    を対応付けて登録するデータベースと、 前記データベースに登録されたキーワードのうち前記想
    起キーワードに関連するキーワードに対応付けられた登
    録文を前記データベースから抽出するデータベース管理
    手段とを含む、情報検索装置。
  2. 【請求項2】 前記連想記憶手段は、前記検索キーワー
    ドに応じて前記専門連想辞書から第1のキーワードを想
    起し、その第1のキーワードに応じて前記一般連想辞書
    から第2のキーワードを想起し、その第2のキーワード
    を前記想起キーワードとして出力する、請求項1に記載
    の情報検索装置。
  3. 【請求項3】 前記連想記憶手段は、前記検索キーワー
    ドに応じて前記専門連想辞書から第1のキーワードを想
    起し、前記検索キーワードおよび前記第1のキーワード
    に応じて前記一般連想辞書から第2のキーワードを想起
    し、その第2のキーワードを前記想起キーワードとして
    出力する、請求項1に記載の情報検索装置。
  4. 【請求項4】 前記連想記憶手段は、前記一般連想辞書
    と前記専門連想辞書とを融合して融合連想辞書を生成
    し、前記検索キーワードに応じて前記融合連想辞書から
    キーワードを想起し、そのキーワードを前記想起キーワ
    ードとして出力する、請求項1に記載の情報検索装置。
JP6161280A 1994-07-13 1994-07-13 情報検索装置 Expired - Fee Related JP2839839B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6161280A JP2839839B2 (ja) 1994-07-13 1994-07-13 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6161280A JP2839839B2 (ja) 1994-07-13 1994-07-13 情報検索装置

Publications (2)

Publication Number Publication Date
JPH0830630A JPH0830630A (ja) 1996-02-02
JP2839839B2 true JP2839839B2 (ja) 1998-12-16

Family

ID=15732113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6161280A Expired - Fee Related JP2839839B2 (ja) 1994-07-13 1994-07-13 情報検索装置

Country Status (1)

Country Link
JP (1) JP2839839B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100550014C (zh) 2004-10-29 2009-10-14 松下电器产业株式会社 信息检索装置
JP4331257B2 (ja) 2006-11-06 2009-09-16 パナソニック株式会社 情報検索装置
JP5565568B2 (ja) * 2010-03-30 2014-08-06 日本電気株式会社 情報推薦装置、情報推薦方法およびプログラム
CN109753553A (zh) * 2018-12-03 2019-05-14 广东工业大学 自然语言的处理系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01224863A (ja) * 1988-03-04 1989-09-07 Ricoh Co Ltd 辞書登録方法
JPH0325620A (ja) * 1989-06-23 1991-02-04 Nec Corp エキスパートシステム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
折原良平、発散的思考支援ツールの研究開発動向、人工知能学会誌vol8 No.5,p560−,平成5年9月
河越正弘ほか、創造システムに関する基礎的考察、情報処理学会第36回(昭和63年前記)全国大会、p1389−1890、昭和63年
渡部勇、発散的指思考の計算機支援、情報処理学会研究報告ヒューマンインターフェース29−4、p1−、1990.03.09
西本一志ほか、発想支援システムに関する一考察、情報処理学会第46回(平成5年前期)全国大会、p6−283、平成5年
西本一志ほか、発散的発想支援−以外性のある情報の提供手法に関する検討−、人工知能学会研究会資料(SIG−HICG−9301−1)、人工知能学会、平成5年5月21日

Also Published As

Publication number Publication date
JPH0830630A (ja) 1996-02-02

Similar Documents

Publication Publication Date Title
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
Pedersen A simple approach to building ensembles of naive bayesian classifiers for word sense disambiguation
EP1604307B1 (en) Natural language processor
JP4129987B2 (ja) テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
MXPA04010820A (es) Sistema para identificar parafrasis utilizando tecnicas de traduccion de maquina.
Grobelnik et al. Automated knowledge discovery in advanced knowledge management
Chalmers Awareness, representation and interpretation
CN111522924A (zh) 一种带有主题感知的情感聊天式回复生成方法
WO2017170454A1 (ja) 個人や個人の所属する組織・グループの価値観・価値を理解蓄積、推測予測し、価値に基づく支援や分析実現を支援する人工知能装置
JP2005174325A (ja) 意味的速記のためのシステム及び方法
JP2839839B2 (ja) 情報検索装置
CN116662502A (zh) 基于检索增强的金融问答文本生成方法、设备及存储介质
Destaw et al. Question answering classification for Amharic social media community based questions
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
JPH0962684A (ja) 情報検索方法及び情報検索装置と、情報案内方法及び情報案内装置
JP2832678B2 (ja) 情報検索装置
McCoy et al. Towards generating textual summaries of graphs.
Kirmani et al. Analysis of Abstractive and Extractive Summarization Methods.
Ahmed et al. Impact of Related Languages as Pivot Language on Machine Translation
US20230334087A1 (en) Method and system for generating candidate vocabulary
Yu et al. Extracting and Clustering of Story Events from a Story Corpus.
Hamandi et al. A proposed english to american sign language translation system
Ahmed et al. Implications of English as a Pivot Language in Arabic-Hindi Machine Translation
Pala et al. DESAM—approaches to disambiguation

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19980602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980922

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees