JP2006085389A - 検索装置 - Google Patents

検索装置 Download PDF

Info

Publication number
JP2006085389A
JP2006085389A JP2004268845A JP2004268845A JP2006085389A JP 2006085389 A JP2006085389 A JP 2006085389A JP 2004268845 A JP2004268845 A JP 2004268845A JP 2004268845 A JP2004268845 A JP 2004268845A JP 2006085389 A JP2006085389 A JP 2006085389A
Authority
JP
Japan
Prior art keywords
search
relevance
user
database
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004268845A
Other languages
English (en)
Inventor
Tetsuo Sawaragi
哲夫 椹木
Yukio Horiguchi
由貴男 堀口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University NUC
Original Assignee
Kyoto University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University NUC filed Critical Kyoto University NUC
Priority to JP2004268845A priority Critical patent/JP2006085389A/ja
Publication of JP2006085389A publication Critical patent/JP2006085389A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 ノウハウの適用結果である作業記録を蓄積した事例データベースから、ユーザである技術者が直面する問題解決の手がかりを得るための情報検索を支援する検索装置を実現する。
【解決手段】 検索装置は、複数のデータを含むデータベースを用いて検索された検索履歴を履歴データベースとして記憶する記憶手段と、ユーザから検索情報の入力を受け付ける入力手段と、上記履歴データベースに蓄積された情報から、上記検索情報と関連性の深い検索履歴情報を抽出する抽出手段とを備える。
【選択図】 図1

Description

本発明は、データベースとその検索機能に関するものであり、より詳細には、複数のドキュメントを含むデータベースから目的となるものを検索する検索装置に関するものである。
従来は、装置を操作するオペレータの技量に属する知識や技能、または、良く訓練された職業人や教師、医者、日常を構成する一般の人々の知識、技能、知能は、各人のみに帰結していたが、近年の技術革新によってデータベース等の工業製品として、情報の共有化が図られるようになっている。
技術者個人の経験に基づく属人的なノウハウを集団内で共有するために、再利用可能な知識インフラを構築していくことは、組織の技術力を増進し競争力を維持するために重要である。
しかし、多大な労力をかけてデータベースを作成しても、目的とする情報を引出す苦労が多いため使用されず、充分な活用をみないまま休眠知と化している例が多い。
また、ユーザは予め検索したい内容を明確に見出しておらず、また直面する問題についての知識自体も乏しいことが多い。それゆえ、どこまでが自らのニーズに合致する情報であるかの範囲の見極めが難しい場合がある。
そこで、周辺範囲の情報も併せて検索し、その中から重要作業を認識するといったメリハリの効いた情報の検索・提示が不可欠となる。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ノウハウの適用結果である作業記録を蓄積した事例データベースから、ユーザである技術者が直面する問題解決の手がかりを得るための情報検索を支援する検索装置を実現することである。
そこで、本発明では、ユーザが検索条件として指定する検索ワードに加えて、予め事例データ全体から抽出したワード間の関連性知識をもとに、その検索ワードと関連があると推定される別の検索ワードを用いることで、問題領域固有の関連性知識に基づく検索範囲の拡大を行う。
さらに、同集団に属する他ユーザの検索履歴から抽出したワード間の関連性知識をもとにして検索結果の絞込みに有用な検索ワードをユーザに提示することで、蓄積されている情報の効率的な取り出しを支援する。
このように、得られる多数の検索結果の絞り込みを誘導するために、「同様の目的を持ってデータベースにアクセスを試みた他ユーザの参照状況(=手垢)」を周辺情報として提示することで、情報の効率的な取り出しを支援することができる。
具体的には、本発明にかかる検索システムは、検索もしくは探索しようとするユーザが予め決定したワードに関し、関連性知識をもとに、当該ワードと関連があると推定される別の他ワードを用いた関連情報として提供する構成と、検索もしくは探索しようとするユーザが上記決定したワードと関連があると推定される別の他ワードを検索ワードとして提供する構成とを併せ持つ構成とすることがより好ましい。
人々が無意識に日常実行している行為をソフトウエアに置き換える。本、辞書、など手垢の付いた「よく使い込んだ物」は新品よりも効率よく使える。誰も客の入っていない店よりも誰かがいる店の方が別の客にとって入り易い。装置にも個別の癖がある。使い込んだ物はその癖がわかり口コミでノウハウを伝達できる。本発明では、これらの事例のように、使い込みによって賢く成る検索機能を持ったデータベースを構築する。
上記検索システムは、検索もしくは探索しようとするユーザが、検索しようとするワード(情報)と関連があると推定される別の他ワードに該当する情報と、過去の推論結果を蓄積し統計やニューラルネットなどの数学的推論をも組み込む手法によって検索ワードとを提示する構成であることがより好ましい。このような構成とすることで、実質的な検索範囲を拡大することができるとともに、ユーザに提示する情報の絞り込みを行うことができる。
本発明の一実施形態について説明すると以下の通りである。
本発明では、データベースもしくはシステム上の仕組みをユーザが利用し情報を検索もしくは探索しようとする場合であって、検索結果として得られる多数の候補の中から得たい情報を含む事例をより的確に選り出すために、上記データベースまたはシステムと並行した第二のデータベースもしくはシステム上の仕組みを備えることにより、上記従来の問題を解決する。
上記「第二のデータベースもしくはシステム上の仕組み」とは過去にこのデータベースに接近し利用した第三者の行為と行為の順序と行為の結果の当否と利用時間などの副情報を蓄積する仕組みをいう。概念的には「手垢の残る作業事例データベース」といえる。
同様の目的を持ってデータベースにアクセスを試みた第三者(他ユーザ)の参照状況(第二のデータベースもしくはシステム上の仕組み)を「情報の探し方」の手がかりとして自身の検索等に活用する。
すなわち、問題領域固有の関連性知識(従来技術と同じ側面を持つ部分)と他ユーザの検索行為の参照(第二のデータベースもしくはシステム上の仕組みを反映する側面を持つ部分)によってユーザの検索を方向付ける。
何が重要で何が重要でないかについてのメリハリのついた情報提示を行うことで、データベース内事例へのアクセスと流通を促し作業効率とユーザの意図反映によって問題を解決に導く。
本発明よって「ノウハウ」という本質的に形式化できない属人的かつ暗黙的な知識の側面を、事例データベースの探索を介して他者の参照状況を眺め、それとの比較においてユーザが主体的に習得する新たな機会を提供することができる。
さらに他者も使わない知識は第二のデータベースもしくはシステム上の仕組み併用によって検索頻度が比較され相対的に淘汰されていくことにより、常に更新の加えられた「生きた」知識インフラとして充実していくことが可能になる。
本発明は人間の記憶構造を反映した意味ネットワークと関連性知識に基づき入力概念に対する連想を想起するプライミング効果をネットワーク内の活性伝播によってモデル化したものである。さらに特定集団の内部での情報の共有と伝達を構成する。ユーザ単独にて発見する知識の不足分を支援することのできるアルゴリズムである。
「問題領域固有の関連性知識」は蓄積した作業事例集合(文書データベース(以下、文書DBと称する))から抽出したワード群の意味ネットワークとして構築される。同様に、「他者の参照状況」は蓄積した検索履歴集合(検索履歴データベース(以下、履歴DBと称する))から抽出したワード群の意味ネットワークとして構築される。この両者を検索ワードの入力に応じて操作し知識管理に利用する。
辞書のように網羅的ではなく限られた専門語の集合内で多用されるキーワードを用いた検索ワードの入力は活性伝播の手法によって評価される。
文書DBと履歴DBから構築される二つの意味ネットワークは、前者が作業領域におけるワード群の関連性を属性とし、後者が検索質問におけるワード群の関連性を属性とする。ユーザの指定する検索ワードはこの二つに対して同時に入力され、二重の立場から情報検索支援を受ける。
ユーザの入力に対し二つのデータベースはそれぞれの検索結果をユーザに返す。
データベース内の全文書データに含まれるワードAの総数をWAとし、ワードBを含む全文書データに含まれるワードAの総数をWAgivenBとする。これにより、ワードBを含むある文書データの中にワードAが存在する確率P(A;B)は次式(1)で表される。
Figure 2006085389
「ワード群の意味ネットワーク」はワード間の関連性を数値化したデータ記憶構造である。各ワードはネットワーク中の一つのノードとして表され、ワードAのワードBに対する関連性は確率P(A;B)によってノードBからノードAへの結合によって表現される。
文書DBをもとに構築される意味ネットワークは、作業記録の事例データがデータベースに追加される毎に式(1)の確率計算に従って結合が更新される。
履歴DBはユーザからの新たな検索ワードの入力によって事例が追加され、それをもとに構築される意味ネットワークは式(1)の確率計算に従って結合が更新される。
ユーザからの検索ワードの入力に対して、その入力に対応するノードが活性量1を、その他のノードが活性量0を付与される。そして、ワード間の結合に従って活性量の伝播を繰り返し関連ワードの導出を行う。ここで活性伝播のモデル式は式(2)、式(3)とする。
Figure 2006085389
Figure 2006085389
上記式(2)、(3)の活性伝播は全ノードの伝播量が0になるまで繰り返される。その後、入力ワード に対する全ワードの関連性の強さを求めるために、全ノードの活性量を式(4)に従って規格化する。
Figure 2006085389
ユーザによる検索条件が複数ワードの論理結合として指定される場合の取り扱いは次の通りである。
検索条件としてワードPとワードQが論理和の関係で結合されているAND検索の場合、他ワードの関連性の強さは式(5)に従う。
Figure 2006085389
一方、検索条件としてワードPとワードQが論理積の関係で結合されているOR検索の場合、他ワードの関連性の強さは式(6)に従う。
Figure 2006085389
また、検索条件としてワードPの否定が指定されているNOT検索の場合、他ワードの関連性の強さは式(7)に従う。
Figure 2006085389
問題領域固有の関連性知識に基づく検索範囲の拡大では、ユーザが指定した検索条件を入力として、文書DBから抽出したワード群の意味ネットワークに式(4)〜式(7)の操作を適用して得られた全キーワードの関連性の強さをもとにデータベース内の全文書データをソートすることで、この検索条件の周辺も含めた文書データのマッチングを行う。
他ユーザの参照状況に基づく検索の方向付けでは、ユーザが指定した検索条件を入力として、履歴DBから抽出したワード群の意味ネットワークに式(4)〜式(7)の操作を適用して得られた関連性の強さをもとに他キーワードをソートすることで、次の検索条件として追加が見込まれるキーワードを提示する。
データベースの仕組み上の欠点としては、検索機能を充実させるもしくはデータベースの構造に自由度を与え過ぎると、所望の検索速度の低下や判断機能の低下に伴う所謂「データベースの白痴化」がおこる点が挙げられる。特定のワードを選択出来なければもはやデータベースの目的をはたさないからである。本発明技術では検索結果として得られる多数の候補の中から得たい情報を含む事例をより的確に選り出すために、同様の目的を持ってデータベースにアクセスを試みた他ユーザの参照状況を「情報の探し方」の手がかりとして活用する。すなわち、問題領域固有の関連性知識と他ユーザの検索行為の参照によってユーザの検索を方向付け、何が重要で何が重要でないかについてのメリハリのついた情報提示を行なうことでデータベース内事例へのアクセスと流通を促す。これによって、ノウハウという本質的に形式化できない属人的かつ暗黙的な知識の側面を、事例データベースの探索を介してユーザが主体的に習得する新たな機会を提供することができると考える。さらに他者も使わない知識は淘汰されていくことにより、常に更新の加えられた「生きた」知識インフラとしていくことが可能になる。
日常の何気無い生活の中で人々は暗黙の内に第二のデータベースもしくはシステム上の仕組みを使っている。例えば良く使い込まれた本や辞書には手垢が残っている。使用者は無意識にこの手垢を即決の手段としている。更には満員電車乗車時に近隣の駅で下車する人をその社会的装束や身のこなしで無意識に判断している。ラジオの選局つまみにはよく聞く局の周辺が磨り減って変色する。これらの副次的な情報を用いると言葉に変換し左脳で判断するまでもなく、右脳で直感的に行動できさほど大きなエラーを含んでいない。
経験に乏しい操作者にとってデータベースもしくはシステムの仕組みの側から暗黙の内に回答を提示する検索システムもしくはシステム上の仕組みを提供する効果がある。
よく技術に精通した第三者が検索行為を実施した方法と方向及び時間等の付帯的で副次的な情報の共有が可能となる。
検索行為を継続することによるデータベースもしくはシステム上の仕組みが永遠に稼動することにより全ての選択肢を蓄積し選別機能を抄出しない仕組みを作りだすことができる。
そして、本実施の形態にかかる検索装置は、例えば、ディジタルコンピュータのアプリケーション・ソフトウエアとして、単独のソフトウエアとして製品化することができる。また、上記検索装置の各手段を実現するための検索プログラムを記録した記録媒体として流通させることができる。
また、上記検索装置は、アナログもしくはディジタル装置として簡単なデータベース機能を作り、汎用的な付属システムとして実施する方法でも最良の形態を作ることができる。
また、既存のソフトウエア−システムに追加ソフトとして提供する方法でも最良の形態を実現できる。
また、データベースと検索のアルゴリズムとして新規性・進歩性があり提供できる。そして、人に優しいアルゴリズムである。
また、闇雲にデータベースの検索範囲を広げデータベースを白痴化するのでは無く有効な検索範囲をガイドできる。このように、他に類を見ない技術として最良の形態を構成できる。
また、発明を実施する為の最良の形態は本発明を移植するためのメディアとして種々の手段を選択できる。アナログ、ディジタル回路、汎用ソフトウエア、機械による作り込み等である。しかしいずれも大きく分けて次の機能を内包する。
(1)一般の検索機能、これは、データベースの検索機能として公知の種々の方法がある。(2)副次的検索機能、具体的には、本発明の特徴である第二のデータベース(手垢の残るデータベース)に依存する。(3)忘却能の獲得、具体的には、本発明の特徴である第二のデータベースの側面である忘却機能に依存する。
本発明では、人間の記憶構造の表現法として提唱された意味ネットワークと、ある概念の想起に基づき関連概念も想起するというプライミング効果をモデル化した活性伝播モデルを用いる。この2つの組み合わせることによって、検索キーワードに対する他の語の想起を捉え、ユーザが自らキーワードを想起しなければならない情報検索において、関係づけられた知識を用いて支援を行う。最初に検索において重要な単語間の意味的なつながりを考慮し、事例内での共起確率に基づく単語群の意味ネットワークの構築と、不特定多数のユーザの検索履歴におけるキーワードの共起性に基づくキーワード群の意味ネットワークの構築を行う。そして、検索キーワードに対して両方のネットワーク上にそれぞれ各結合度に基づいた伝播を生じさせ、検索キーワードに対する関連度を算出する。これにより、前者では検索範囲の拡大、後者では検索キーワードの入力支援を行う。また、ユーザが事例を追加することにより文書データベース(文書DB)を更新することと検索行為により履歴データベース(履歴DB)を更新することにより、2つの意味ネットワークを変動させ知識管理が促されることを示す。
上記意味ネットワークは、人間の記憶構造の表現法として提唱されたものである。「物」や「事柄」、「概念」に関する人間の知識はばらばらに存在するのではなく、ある関係によって組織化されて記憶されているという考え方が基礎となっている。また、人間の記憶には、ある語が想起(活性化)されるとその語に関連する語も想起されるというプライミング効果がある。そして、このメカニズムを近似したものに活性伝播モデルがある。本研究では、この組み合わせにより検索キーワードに対する他の語の想起を捉え、ユーザが自らキーワードを想起しなければならない情報検索において、関係づいた知識を用いて支援を行うことが可能であると考える。
文書は単なる文や単語の列でなく、ある目的のために組織化された文書構造を持つ。それぞれの文や単語の意味はそれらをとりまく文書構造に依存する。そのため、文書構造をとらえることは文書理解に不可欠である。また、入力キーワードに対してシステムが検索者の望む文書を提示するために、文書理解ができるというのは大きな利点であると言える。文書構造を理解するために単語の関連性を利用する。本研究で対象とするような、ある限定されたカテゴリーに属したDB(データベース)を検索する際には、辞書のような一般的な知識における単語の関連度より、その文書集合に属する単語の関連度のほうが重要であると考える。そのため、文書集合における単語の共起性を利用することにより単語間
の関連性を構築する。
単語の関連性を検索時に考慮することによって、結果数を拡大することが容易に推測できる。これはWWWを検索する際は、数万件提示されユーザを困惑させるかもしれない。しかし、本研究の場合はより多くの近い事例が検索結果として得られることが望ましいため、関連性を考慮することは有用だと考える。
以上のことから本研究においては、文書集合を用いた関連性を意味ネットワークとして構築することにする。次に、入力されたキーワードに対して活性伝播の手法を用いて関連性を算出する。そして、これを用いて入力キーワードに関連するキーワードで検索した場合の結果も提示する。
検索履歴は、ユーザの特定、さらにはその検索の意図を推定する上で重要な手がかりになる。本研究における対象は、WWWのように幅広い情報を検索するシステムでなく、情報共有という目的のもとに形成されたDBを検索するシステムであり、ユーザ間の共有性を重視するために、不特定多数の履歴を用いて意図を推定するのが望ましいと考える。既存の検索システムでは、検索語の入力、検索結果の評価、情報閲覧という大きな流れの中で、ユーザは常に検索とその見直しといった試行錯誤を繰り返しており、多くの負担を強いられている。この際の繰り返し作業の中でユーザは、望む結果を得るために複数のキーワードを組み合わせて検索を行っている。このことより、ユーザは必要でキーワードの組み合わせは何度も用いていると考えられる。よって本研究では、不特定多数の検索履歴から検索質問におけるキーワードの共起性を利用することを考える。
ユーザが望む情報をDBから検索してくるための検索キーワードと実際に入力している検索キーワードが一致しないため、ユーザは検索行為を繰り返す。このキーワードの相違をユーザに気がつかせることが支援の目的である。このためにまず、不特定多数の履歴から単語の意味的なつながりを構築する。そして、入力されたキーワードに対して活性伝播ネットワークを用いてユーザに有用であろうキーワードを提示する。
提案する検索支援システムにおいて必要なサブシステムを2点示す。A.DB内に存在する文書の持つ単語群の関連性を保持するサブシステム。B.検索履歴DB内の検索質問の単語群の関連性を保持するサブシステム。
「文書を介した単語の関連性」と「ユーザの検索質問を介した単語の関連性」という単語の関連性が2つの視点から構築される。また、文書を利用した関連性は新たな文書がDBに加わることで変化する。同様に、検索質問を利用した関連性も検索が行われることで変わる。さらに、このあるカテゴリーに属するDBを利用して情報共有を行う集団では、システムのユーザは文書を追加する立場にも文書を検索する立場にもなりうる。
次に、ユーザが検索キーワードを入力することによって生じるシステムの振る舞いを2点示す。1、サブシステム の保持する関連性を用いて、検索結果に反映する:構築された関連性において入力された単語と結びついている関連語だけでなく、ある語を介して結びついているものも考慮して幅広く検索し結果に反映する。ただし、介しているため遠くなるほど結びつきが弱くなるように考慮してある。2、サブシステムBの保持する関連性を用いて、ユーザに別のキーワードを提示する:構築された関連性を用いて、入力キーワードに対して関連度の高い別のキーワードを提示する。この提示において並べる順序は、上記1、において行う方法と、どうようにして関連度を出しその高い順に表示する。
この検索支援システム全体の概略図を図1に示す。
そして、ある単語Aの関連度確率P(A;B)は式(1)のように求められ、得られたネットワークを図2に示す。用いた単語は、検査対象である「チップ」「ガラス」「液晶」「キャップ」とそれ以外の「光沢」「反射」「横線」「黒点」「エッジ画像」「欠け」「液晶マーク」「背面」「平滑化強」「交点」である。このネットワークから、「チップ」→「横線」→「平滑化強」→「ガラス」というパスを通して、検査対象同士がつながることが分かる。この検査対象のつながりから、事例DB内にあるチップの検査方法のどれを用いても適用できないと判断された場合でも、検索結果にガラスも考慮されるため対処法が増えることが推測される。
前章で形成したネットワークの単語1つ1つをノードとみなす。そのノードに入力された単語を1、それ以外を0という初期値にしてそこから伝播していくと考える。伝播方法としては、ある状態における次への伝播はその過去の伝播の値とは関係なく、その状態のみを考慮することにする。定式化のベースとなる活性伝播モデルは式(3)〜(7)で表される。
このようにして得られる活性伝播における各伝播回数での各単語への伝播度と、各状態までの総和を算出したものを用いて伝播結果を検討する。伝播に関しては、図2で双方向に結合を持つ「平滑化強」と「エッジ画像」の部分は交互に活性の伝播が行われていることが分かる。また、「液晶」や「黒点」など伝播が起こらない場所は、値が0のままである。これらのことから、検査対象物でない入力キーワードのほうが、他のキーワードに対して活性度を高める、つまり関連性を強くすることが分かる。
ユーザが複数の検索語を用いる場合、一般的にAND検索とOR検索の選択を迫られる。このときAND検索を選択するユーザには、検索結果を絞り込みたいという意図がある。またOR検索を選択するユーザには、検索結果を広げたいという意図がある。これらの意図を意味ネットワーク上の活性伝播を利用した検索結果提示において反映させるために、AND検索の場合はファジィ集合の演算方法である論理積、OR検索の場合は論理和を用いる。
例えば、あるDBに対する情報検索における検索ログを基に、同じ検索語を含むクエリで10分以内に検索がなされているものを同一人物による再検索とみなし、検索履歴をモデル化したものを表1に示す。表中のA、B、Cはそれぞれ異なる検索語を示し、A−ABはAを検索して結果を見た後にBを追加して再検索というパターンである。本研究ではこのモデルを利用して構築することにする。
Figure 2006085389
模擬構築における前提条件を述べる。まず、延べ10000人のユーザによる検索行為から、履歴DBを構築する。この際、キーワード群として用いるのは上記で関連性を構築した14種類に限る。また、延べ10000人のユーザを検索者集合とみなす。その集合のタイプを、文書DBを検索する際にどのようなキーワードを同時に打ち込むのがよいのかに関して「詳しいタイプ」と「詳しくないタイプ」の2種類に分類し、ドメインに精通しているか否かによる検索のタイプ分けを行う。「詳しいタイプ」は上記で得られた文書から得られる単語の関連性を持ち、それをもとに検索キーワードを入力するタイプである。「詳しくないタイプ」は、あるキーワードに対して他のいろんなキーワードを同時に入力し、手探りの検索の仕方を余儀なくされるタイプである。つまり、確信できる関連性がなく結合が弱い。そして、この2種類のタイプに対してそれぞれ履歴DBを模擬構築する。次に履歴DBを構築するためのアルゴリズムを述べる。
構築アルゴリズム
1.ユーザの検索パターンを行うかを確率で決める。上記表のパターンNO.10ならキーワードAのみの検索する。
2.キーワードAを上記説明の14種類の単語の中から同確率で選ぶ。
3.次のキーワードB、Cを選ぶ。
4.複数キーワードの検索質問を履歴として残す。
5.上記操作を10000回繰り返す。
このアルゴリズムの3.において、Aに対する関連語としてのBとCを選ぶ際の確率として、前述の2つのタイプの持つ関連性をそれぞれ用いる。これにより、「詳しいタイプ」と「詳しくないタイプ」の2種類のタイプに分けた履歴DBを構築することができる。
そして、文書から単語の関連性を構築した方法と同様に、単語の共起性を利用して履歴から関連度確率を算出して関連性を構築する。
このとき、「詳しいタイプ」の場合、入力キーワードに対して関連があるキーワードとそうでないキーワードが明確に分かれている。このことは、関連性がしっかり捉えられていることを示す。一方、「詳しくないタイプ」の場合は、全体的に小さい割合で活性伝播が行われ、関連あるキーワードがはっきり表れない。このことは、関連性に詳しくないことを示す。これらにより、上手く模擬が出来ていることが分かる。この関連度を用いて入力支援を行う適用案を考えると、入力キーワードに対する関連度の上位数個を提示することにする。また、提示数に関しては、ユーザに選択性を与えるのが妥当だと思われる。
文書DB内の各文書を特徴付けるために単語の文書内での重要度を求める方法として、TF・IDF法がある。これは、文書集合が与えられた時点で得られるもので、TF(Term Frequency)と呼ばれる文書内に存在する単語頻度によって得られる指標と、IDF(Inverse Document Frequency)と呼ばれる文書DBにおける単語の偏在性を表す指標の積で求められるものである。本研究では文書集合において重要ならば、各文書においても重要度が高いと考え、各文書に特徴付けられたTF・IDFの値の文書集合での総和をとって文書集合内での重要度とする。この結果から、明らかに検査対象物である「チップ」「ガラス」「液晶」「キャップ」の重要度が高いことが分かる。この拡張TF・IDF法は、各単語が他の単語との関係を用いることなく自単語の文書集合内における存在頻度に依存している。次節において、本研究の活性伝播ネットワークを用いた場合に得られる他単語との関連を考慮した文書集合内での重要度を考える。
ここでは他単語との関連を考慮した重要度について考える。まず単語が持つ他の単語に対する牽引力と他の単語から受ける被牽引力を算出する。ここで言う牽引力とは、検索する際にその単語がどれだけ他単語の関連度を活性化して牽引して検索に考慮できるかを示す。入力キーワードに対する関連語の活性度の総和を求めることにより得られる。また被牽引力とはその逆で、他単語からどれだけ活性化を誘起させられて検索に考慮されたかを示すものである。他単語によって活性させられた値の総和を求めることにより得られる。文書DB内において重要な単語は、前述した牽引力と被牽引力が高いと考えられる。よって、重要度を牽引力と被牽引力の和とする。この結果より、検索対象物でなく、「エッジ画像」、「横線」やなどの視覚検査のシステム設計に必要な単語の重要度が検査対象物の
単語に比べて高くなっている。これは、文書DBとは異なるものとなっていることがわかる。
ここで、DEMATELの可視化手法に倣って文書集合内における単語の構造化を行い各単語の文書集合内における役割を考える。DEMATELの手法を用いるためには、上述のように牽引力と被牽引力の和と差を算出する。
そして、この結果より、これにより、「エッジ画像」、「横線」や「欠け」は他の語に対して牽引力が強いことが分かり、他の多くの語を関連語として用いるためより多くの結果提示を得ることができる。また「ガラス」、「平滑化強」や「反射」は被牽引力が強いことが分かり、関連語として用いられやすいためよくユーザの目に触れる単語になる。そして、「チップ」、「エッジ画像」や「平滑化強」は、重要度が高くて差がないため牽引力も被牽引力も強いと考えられる。つまり、ユーザが入力キーワードとして用いた際には検索結果を多く提示し、他の語を入力した際には関連語として働き検索結果提示でユーザの目によく触れることになる。よって、これらの単語は文書データベースでも重要だが、本発明で提案した検索システム用いていくことでユーザにとっても重要な単語になると考えられる。
次に、文書集合から得られた関連度と、検索履歴から得られた関連度について類似性を比較する。前者は、ユーザが事例をDBに追加することにより変動する。後者は、ユーザが検索を行うごとに変動する。この2つの変動による全体への作用を考えることが目的である。ここでは結果提示支援により単語間の関連性にさらに詳しく捉えているユーザを想定した「さらに詳しいタイプの集合」も用いて考慮することにする。この集合における関連度は、上記説明における活性伝播後の値を検索履歴構築のための検索質問における共起確率として、上記説明したように構築する。関連度の類似性を算出する方法を、各行の類似度の総和とする。文書DBより得られた関連性をR、履歴DBより得られた関連性をRとする。それぞれの各行ベクトルをそれぞれri d、ri qで表す。このとき関連性の類似度R-Similarity(RD、RQ)は、式(8)で示される。
Figure 2006085389
これによって文書DBにおける単語間の関連性Rと各履歴DBにおける単語間の関連性
との類似度の値それぞれを表2に示す。
Figure 2006085389
「詳しくないタイプ」から「詳しいタイプ」になると、関連性はより類似していくことが分かる。しかし、さらに詳しくなると文書集合との類似度が低くなる。当該ドメインにおける単語間の意味的つながりを熟知したユーザは、常に新規な検索結果を追求することで、検索パターンを変更する傾向にあることを示唆している。DBを固定的なインフラと考えるのではなく、常に更新され変わりつづける対象とし、やはり変動しつづけるユーザの検索ニーズとの動的適合性を保証していくことが重要と考える。
ここまでは、検索するユーザの持つ意味ネットワークが変わり検索履歴が変わることによる関連度の類似性を考えた。しかし、本研究におけるDBにおいては、検索する人と文書集合を構築する人が同じである。このことは文書集合における関連度や単語の重要度が変化することを示し、類似性の変化に影響していると考える。
DBを使用するユーザは作成した事例文書を文書DBに蓄える。このDBには個々のユーザの持つ関連性が各事例として関連無く蓄えられていることになる。しかし、本発明の手法により個々に蓄えていた時には考慮することができない関連性が見出すことができる。この関連性は個々のユーザの持つ関連性ではなく、DBに事例を加えたユーザ集合における関連性である。よって、この関連性を用いて検索結果の提示支援を行うということは、ユーザ集団における知識の共有を促すこととなる。
また、個々のユーザの検索という行為により履歴DBに履歴が蓄えられる。この履歴の蓄えにより文書DBと同様の手順により、ユーザが個々に検索していた際には考慮していない関連性が見出される。この関連性は、検索する際の入力キーワードの提示という形でユーザ集合に知識の共有を促すものとなる。
この2つの作用は事例文書作成と検索という個々のユーザの主導によって導き出される。しかし、規則正しくこの作用が繰り返されるわけではなく、事例文書が連続して作成されて蓄えられる場合もあれば、検索行為が何度も繰り返される場合もある。また、本研究のフレームワークを有するDBによって知識を共有していながらも、ユーザは個々によって単語の関連性も異なれば単語の重要性も異なる。そして、前節において文書DBを固定し、ユーザ集合の個々のユーザを全部統一した単純な模擬の作用を考察した。そこでは、予測とは異なり単純な模擬作用においてDBによって構築された関連性も単語の重要性も類似性が高くなるように作用しないと示唆した。このことから、ユーザが主導となり不規則に事例文書作成と検索を繰り返せば、導き出される2つの作用は複雑に絡み合うことが予測される。
本発明では、検査装置運用のためのDB検索を支援するために、ユーザの主導によって変動する意味ネットワークを2つ持つ知識管理フレームワークを提案した。単語の共起確率に基づく事例DB(文書DB)からの意味ネットワークの構築をし、検索キーワードに対してネットワーク上で活性伝播を行わせることにより、検索キーワードに対するほかの語の関連度を算出した。そして、関連度を考慮した結果提示によりユーザに提示する情報が広がることを示した。また、模擬的に文書集合内の単語の関連性について詳しいタイプの集合と詳しくないタイプの集合と検索行為のモデルを用いて不特定多数の検索履歴DBを構築した。次に、単語の共起性に基づく履歴DBからの意味ネットワークの構築をし、入力キーワードに対してネットワーク上で活性伝播を行わせることにより、検索キーワードに対する関連度を算出した。そして、その上位数個を入力支援としてキーワード提示する手法を示した。また、ユーザが主導となることによって作用するこの知識管理フレームワークによって、ユーザ集合内において知識共有が促されることを示唆した。さらに、文書集合内における単語の重要性の観点からも、あるカテゴリーに属するDBにおいて本研究における知識管理フレームワークは有用だと示した。最後に、制約の入った単純な模擬において、知識が共有されていく過程では、DBによって構築された関連性も、そこから得られる単語の重要性も類似性が高くなるのが良いわけではないことを示した。このことより、ユーザの主導によって知識を共有していくことによって2つの意味ネットワークは不規則に絡み合うと予測される。
各種のデータベースとその検索手法が提案され使用されている。これらのデータベースをより日常的に使いやすいものとする方法を発明した。ある知識を専門に使用する集団の中では日常多くのデータアクセスをする熟練者と未熟者が共存する。日常生活においては熟練者からノウハウということで未熟練者に伝達される。未熟練者単独では過誤を起こすような条件下にあっても、少しノウハウを伝えられることによって知識レベルは飛躍的に向上する。
更に良く使い込まれたガイドブックなどには使用頻度に応じた手垢が付いており無意識にそれに誘導されることが多い。これらは経験の蓄積といえる。本発明は単語によるデータベースと経験によるデータベースを相乗的に利用する検索技術を確立するものである。
データベースでは検索語を増やすと選択肢は増える。しかし過剰な選択肢はフィルターとしての検索機能の主旨を阻害してしまう。さらに未熟練者にとっては過剰な選択肢の中をさまよい、結果として「迷子」に成る場合もある。ここでは未熟練者が熟練者の検索方法から示唆を受けるようにし、未熟練者にとって短期間に的確な検索が出来るようにすることを狙った技術を提供する。
IT化の進展とともにナレッジマネジメント機能を付与した各種の製品が商品化されている。それらの機能に「技能やノウハウを再利用するための機能」を本発明を用いて付加すると差別化を図った商品となる。情報の蓄積に応じてそれへのアクセスを容易なものとしていく事ができる、ヒトからヒトへのノウハウ流通を支援する技術となる。各種検索機能を持ったデータベース商品(例えば電子辞書、電子地図、文字の類推と検索を実行する電子機器、産業上活用される各種機器類の操作マニュアル、日常の家電製品などの操作機能、ヘルプ機能等)広範囲に商品化できる。
これまでの検索者自らの技量に頼ってきた検索に対して本発明技術は第三者の使用経験に照らした初級者のガイドもしくはヘルプ機能を提供し、多くの現存する製品類をさらに高度化することができる。他者の痕跡を手がかりとして活用することが出来る。
電子媒体データに対して自然にアクセスする中から「手垢の残せる」検索システムを実現するものであり、情報へのアクセスと流通を格段に向上でき、適用対象は極めて広範なものである。
利用分野は車両、飛行機、船などの計器ガイドシステム、産業機器類の計器ガイドシステム、マーケッティング、宣伝試料などの作成補助ツール。情報機器類のデータベース。同アプリケーションシステム。各種案内板、カメラ用の記録機器類など現存機器、日用品などの多くの分野に波及できる。
ソフトウエアベンダーに対して技術移転できる。
計装機器、装置メーカー、出版業界などへ技術移転できる。
流通及び市場調査企業などへ技術移転できる。
教育産業、トレーニング事業などへ技術移転できる。
検索支援システム全体の概略図である。 関連度確率を求めることによって得られたネットワークの概略を示す図面である。 意味ネットワークを説明する図面である。

Claims (2)

  1. 複数のデータを含むデータベースを用いて検索された検索履歴を履歴データベースとして記憶する記憶手段と、
    ユーザから検索情報の入力を受け付ける入力手段と、
    上記履歴データベースに蓄積された情報から、上記検索情報と関連性の深い検索履歴情報を抽出する抽出手段とを備えることを特徴とする検索装置。
  2. 上記データベースから、上記検索情報と関連性の深いデータを抽出するデータ抽出手段を備えていることを特徴とする請求項1の検索装置。
JP2004268845A 2004-09-15 2004-09-15 検索装置 Pending JP2006085389A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004268845A JP2006085389A (ja) 2004-09-15 2004-09-15 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004268845A JP2006085389A (ja) 2004-09-15 2004-09-15 検索装置

Publications (1)

Publication Number Publication Date
JP2006085389A true JP2006085389A (ja) 2006-03-30

Family

ID=36163857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004268845A Pending JP2006085389A (ja) 2004-09-15 2004-09-15 検索装置

Country Status (1)

Country Link
JP (1) JP2006085389A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328469A (ja) * 2006-06-06 2007-12-20 Navitime Japan Co Ltd 地図情報提供システムおよび地図情報提供サーバならびに端末装置および地図情報提供方法
JP2008134800A (ja) * 2006-11-28 2008-06-12 Ntt Docomo Inc 検索システムおよび検索方法
JP2012014561A (ja) * 2010-07-02 2012-01-19 Mitsubishi Electric Corp ラダープログラム作成装置
WO2012063772A1 (ja) * 2010-11-10 2012-05-18 楽天株式会社 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム
JP2012512465A (ja) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての判定情報を使用した勧告の提供
JP2023039158A (ja) * 2021-09-08 2023-03-20 カシオ計算機株式会社 情報処理装置、情報処理方法、及び、情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JP2001243223A (ja) * 2000-02-29 2001-09-07 Nec Corp 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体
JP2002092032A (ja) * 2000-09-12 2002-03-29 Nippon Telegr & Teleph Corp <Ntt> 次検索候補単語提示方法および装置と次検索候補単語提示プログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319767A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 類義語辞書登録方法
JP2001243223A (ja) * 2000-02-29 2001-09-07 Nec Corp 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体
JP2002092032A (ja) * 2000-09-12 2002-03-29 Nippon Telegr & Teleph Corp <Ntt> 次検索候補単語提示方法および装置と次検索候補単語提示プログラムを記録した記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
下畑 光夫,外3名: "連想辞書を利用した意味検索システム", 沖電気研究開発, vol. 第65巻,第1号, JPN6009026584, 1 January 1998 (1998-01-01), JP, pages 15 - 18, ISSN: 0001496579 *
小嶋 秀樹,外1名: "単語の意味的な類似度の計算", 電子情報通信学会技術研究報告, vol. 第92巻,第426号, JPN6009026585, 22 January 1993 (1993-01-22), JP, pages 81 - 88, ISSN: 0001496578 *
徳永 健伸, 言語と計算5 情報検索と言語処理, vol. 第1版, JPN6009026586, 25 November 1999 (1999-11-25), JP, pages 36 - 39, ISSN: 0001336620 *
椹木 哲夫,金田 靖弘,堀口 由貴男,仲島 晶: "ユーザと装置ベンダの相互運用による協業型知識管理モデル", 第48回システム制御情報学会研究発表講演会講演論文集, JPN6009026588, 19 May 2004 (2004-05-19), JP, pages 635 - 636, ISSN: 0001336617 *
金田 靖弘,堀口 由貴男,椹木 哲夫,仲島 晶: "検査装置運用に関するユーザ主導型知識管理フレームワークの提案", 第31回知能システムシンポジウム資料, JPN6009026587, 15 March 2004 (2004-03-15), JP, pages 279 - 284, ISSN: 0001336616 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328469A (ja) * 2006-06-06 2007-12-20 Navitime Japan Co Ltd 地図情報提供システムおよび地図情報提供サーバならびに端末装置および地図情報提供方法
JP2008134800A (ja) * 2006-11-28 2008-06-12 Ntt Docomo Inc 検索システムおよび検索方法
JP2012512465A (ja) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての判定情報を使用した勧告の提供
JP2012014561A (ja) * 2010-07-02 2012-01-19 Mitsubishi Electric Corp ラダープログラム作成装置
WO2012063772A1 (ja) * 2010-11-10 2012-05-18 楽天株式会社 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム
JP5340491B2 (ja) * 2010-11-10 2013-11-13 楽天株式会社 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム
US9442976B2 (en) 2010-11-10 2016-09-13 Rakuten, Inc. Related-word registration device, information processing device, related-word registration method, program for related-word registration device, recording medium, and related-word registration system
JP2023039158A (ja) * 2021-09-08 2023-03-20 カシオ計算機株式会社 情報処理装置、情報処理方法、及び、情報処理プログラム
JP7359196B2 (ja) 2021-09-08 2023-10-11 カシオ計算機株式会社 情報処理装置、情報処理方法、及び、情報処理プログラム

Similar Documents

Publication Publication Date Title
CN111415740B (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
US20200065709A1 (en) Integrated Neural Network and Semantic System
US20180025303A1 (en) System and method for computerized predictive performance analysis of natural language
US20150095278A1 (en) Adaptive Probabilistic Semantic System and Method
US20090198488A1 (en) System and method for analyzing communications using multi-placement hierarchical structures
US20160232222A1 (en) Generating Usage Report in a Question Answering System Based on Question Categorization
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
US11232134B2 (en) Customized visualization based intelligence augmentation
Chergui et al. Integrating a Bayesian semantic similarity approach into CBR for knowledge reuse in Community Question Answering
Van de Camp et al. The socialist network
WO2015093539A1 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
Niu et al. FACETS: A cognitive business intelligence system
JP6729095B2 (ja) 情報処理装置及びプログラム
Tabebordbar et al. Conceptmap: A conceptual approach for formulating user preferences in large information spaces
KR20200119393A (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
Szymański et al. Information retrieval with semantic memory model
Issaoui et al. A new approach for interactive design pattern recommendation
US7319998B2 (en) Method and system for supporting symbolic serendipity
Ezaldeen et al. Semantically enhanced machine learning approach to recommend e-learning content
CN112507139B (zh) 基于知识图谱的问答方法、系统、设备及存储介质
JP2006085389A (ja) 検索装置
US20230081891A1 (en) System and method of managing knowledge for knowledge graphs
US20210089723A1 (en) Response selecting apparatus, model learning apparatus, response selecting method, model learning method, and program
Chen et al. A network-based computational model for creative knowledge discovery bridging human-computer interaction and data mining
Yao et al. A novel search ranking method for MOOCs using unstructured course information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100420