JP2002230020A - 情報検索装置、情報検索方法、及び記憶媒体 - Google Patents

情報検索装置、情報検索方法、及び記憶媒体

Info

Publication number
JP2002230020A
JP2002230020A JP2001024365A JP2001024365A JP2002230020A JP 2002230020 A JP2002230020 A JP 2002230020A JP 2001024365 A JP2001024365 A JP 2001024365A JP 2001024365 A JP2001024365 A JP 2001024365A JP 2002230020 A JP2002230020 A JP 2002230020A
Authority
JP
Japan
Prior art keywords
word
search
information
expansion
evaluation scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001024365A
Other languages
English (en)
Inventor
Yuji Kobayashi
雄二 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001024365A priority Critical patent/JP2002230020A/ja
Publication of JP2002230020A publication Critical patent/JP2002230020A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 適切な展開語を備えた検索語展開辞書を処理
時間の増大を招くことなく作成するようにする。 【解決手段】 蓄積文書217が複数のマルチメディア
情報の内容をそれぞれ言語表現した文字情報を記憶す
る。また検索語展開辞書206が、検索語と関連性のあ
る展開語を、該検索語と対応づけて予め記憶する。そし
て、検索要求入力処理部201が、所望のマルチメディ
ア情報を検索するための検索文を外部から受け取り、検
索要求入力処理部201によって現在までに受け取られ
た全ての検索文をそれぞれ構成していた検索語を検索語
履歴保持部203に記憶する。検索語履歴保持部203
に記憶された各検索語とそれぞれ関連する関連語を、蓄
積文書217に記憶された文字情報から抽出し、抽出さ
れた関連語を対応検索語に対応づけて検索語展開辞書2
06に登録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索装置、情
報検索方法、及び記憶媒体に関し、特に、複数のマルチ
メディア情報を管理し、該複数のマルチメディア情報の
中から所望のマルチメディア情報を検索することが可能
な情報検索装置、該情報検索装置に適用される情報検索
方法、及び該情報検索方法を実行するプログラムを記憶
した記憶媒体に関する。
【0002】
【従来の技術】従来、複数のマルチメディア情報を管理
し、その管理されているマルチメディア情報の中から所
望のマルチメディア情報を検索することが可能な情報検
索装置が考案されている。すなわち、マルチメディア情
報が例えば画像であり、それらの内容を記述する文書あ
るいは文字が各画像に付随されて管理されている情報検
索装置に、所望の検索対象を表す語あるいは文が入力さ
れた場合、情報検索装置では、入力された語あるいは文
と一致する語あるいは文が付随された画像を検索するこ
とが行なわれる。また、入力された語あるいは文と一致
する語あるいは文が付随された画像(マルチメディア情
報)を単に検索するのみならず、入力された語あるいは
文と類似な概念と判断される語あるいは文が付随された
画像(マルチメディア情報)を検索し得る情報検索装置
も考案されている。
【0003】ところで、特に検索対象を表現する検索要
求文が短い場合あるいは検索要求文が単一の語で表され
るような場合、関連語展開によって、入力した語と関連
する語を求め、関連語の概念を加味して検索要求概念を
作成し、この検索要求概念に類似する概念を有するマル
チメディア情報を検索し、これによって所望のマルチメ
ディア情報を得るようにする提案がなされている。
【0004】こうした関連語展開機能を備えた情報検索
装置では、検索要求概念に類似する概念を有するマルチ
メディア情報を検索する際に、まず関連語展開が必要で
ある。この関連語展開では、検索要求文を構成する検索
語に対する関連語(展開語)を格納した検索語展開辞書
が使用されるが、この展開語は、検索対象となる複数の
マルチメディア情報の内容をそれぞれ記述した付随文書
(マルチメディア情報が文書である場合には、その文書
自身ということもある)から成る蓄積文書から抽出され
る。
【0005】ところで蓄積文書数が少ないと、検索語展
開辞書に十分な数の関連語を備えることができない。そ
の場合、関連語展開を行なっても僅かな数の展開語しか
得ることができないので、検索要求概念を関連語によっ
て的確に表現することができず、その結果、所望のマル
チメディア情報を得ることができない。
【0006】また、蓄積文書から関連語を抽出して検索
語展開辞書を構成するのでは、検索要求文に相応しい適
切な関連語を必ずしも得ることができない。そこで、蓄
積文書に頼るだけでなく、他の方法によっても検索語展
開辞書に関連語を設定して、蓄積文書の多寡に拘らず、
適切な関連語展開が行なえるように構成されている。
【0007】
【発明が解決しようとする課題】しかしながら、上記の
関連語展開機能を備えた従来の情報検索装置において、
どんな検索要求に対しても展開語(関連語)を十分に提
供できる検索語展開辞書を備えるようにすることは困難
である。例えば、日々生まれている新しい語に追従する
ことは困難であり、また、新しい概念を、検索語展開辞
書に既に格納されている展開語(関連語)だけで捕捉す
ることも不可能である。
【0008】また、上記の蓄積文書から展開語を抽出す
る方法では、蓄積文書に出現するすべての語を対象にし
て展開語の抽出処理を行うので、蓄積文書数が増大する
と処理時間の増大を招くという問題点がある。
【0009】本発明はこのような問題点に鑑みてなされ
たものであって、適切な展開語を備えた検索語展開辞書
を処理時間の増大を招くことなく作成することを可能に
した情報検索装置、情報検索方法、及び記憶媒体を提供
することを目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明によれば、複数のマルチメディ
ア情報を管理し、該複数のマルチメディア情報の中から
所望のマルチメディア情報を検索することが可能な情報
検索装置において、前記複数のマルチメディア情報の内
容をそれぞれ言語表現した文字情報を記憶する文字情報
記憶手段と、検索語と関連性のある展開語を、該検索語
と対応づけて予め記憶する検索語展開辞書と、所望のマ
ルチメディア情報を検索するための検索文を外部から受
け取る受取手段と、前記受取手段によって現在までに受
け取られた全ての検索文をそれぞれ構成していた検索語
を記憶する検索語記憶手段と、前記検索語記憶手段によ
って記憶された各検索語とそれぞれ関連する関連語を、
前記文字情報記憶手段によって記憶された文字情報から
抽出する関連語抽出手段と、前記関連語抽出手段によっ
て抽出された関連語を対応検索語に対応づけて前記検索
語展開辞書に登録する登録手段と、前記受取手段によっ
て今回受け取られた検索文を構成する検索語のうち1つ
の検索語を選択する検索語選択手段と、前記検索語展開
辞書を参照して、前記検索語選択手段によって選択され
た検索語に対応する展開語または関連語を取得する取得
手段と、前記取得手段によって取得された展開語または
関連語の概念特徴を第1の評価尺度によって表現する第
1の評価尺度表現手段と、前記文字情報記憶手段によっ
て記憶された各文字情報の概念特徴を第2の評価尺度に
よって表現する第2の評価尺度表現手段と、前記第1の
評価尺度表現手段によって表現された第1の評価尺度と
前記第2の評価尺度表現手段によって表現された第2の
評価尺度とを基に、前記検索語選択手段によって選択さ
れた検索語と前記複数のマルチメディア情報の各々との
類似度を算出する類似度算出手段とを有することを特徴
とする。
【0011】また、請求項8記載の発明によれば、複数
のマルチメディア情報を管理し、該複数のマルチメディ
ア情報の中から所望のマルチメディア情報を検索するこ
とが可能な情報検索装置に適用される情報検索方法にお
いて、前記複数のマルチメディア情報の内容をそれぞれ
言語表現した文字情報を格納する文字情報格納ステップ
と、所望のマルチメディア情報を検索するための検索文
を外部から受け取る受取ステップと、前記受取ステップ
によって現在までに受け取られた全ての検索文をそれぞ
れ構成していた検索語を格納する検索語格納ステップ
と、前記検索語記憶ステップによって格納された各検索
語とそれぞれ関連する関連語を、前記文字情報格納ステ
ップによって格納された文字情報から抽出する関連語抽
出ステップと、前記関連語抽出ステップによって抽出さ
れた関連語を対応検索語に対応づけて、検索語と関連性
のある展開語を、該検索語と対応づけて予め記憶する検
索語展開辞書に登録する登録ステップと、前記受取ステ
ップによって今回受け取られた検索文を構成する検索語
のうち1つの検索語を選択する検索語選択ステップと、
前記検索語展開辞書を参照して、前記検索語選択ステッ
プによって選択された検索語に対応する展開語または関
連語を取得する取得ステップと、前記取得ステップによ
って取得された展開語または関連語の概念特徴を第1の
評価尺度によって表現する第1の評価尺度表現ステップ
と、前記文字情報格納ステップによって格納された各文
字情報の概念特徴を第2の評価尺度によって表現する第
2の評価尺度表現ステップと、前記第1の評価尺度表現
ステップによって表現された第1の評価尺度と前記第2
の評価尺度表現ステップによって表現された第2の評価
尺度とを基に、前記検索語選択ステップによって選択さ
れた検索語と前記複数のマルチメディア情報の各々との
類似度を算出する類似度算出ステップとを有することを
特徴とする。
【0012】さらに、請求項15記載の発明によれば、
複数のマルチメディア情報を管理し、該複数のマルチメ
ディア情報の中から所望のマルチメディア情報を検索す
ることが可能な情報検索装置に適用される情報検索方法
をプログラムとして記憶した、コンピュータにより読み
出し可能な記憶媒体において、前記情報検索方法が、前
記複数のマルチメディア情報の内容をそれぞれ言語表現
した文字情報を格納する文字情報格納ステップと、所望
のマルチメディア情報を検索するための検索文を外部か
ら受け取る受取ステップと、前記受取ステップによって
現在までに受け取られた全ての検索文をそれぞれ構成し
ていた検索語を格納する検索語格納ステップと、前記検
索語記憶ステップによって格納された各検索語とそれぞ
れ関連する関連語を、前記文字情報格納ステップによっ
て格納された文字情報から抽出する関連語抽出ステップ
と、前記関連語抽出ステップによって抽出された関連語
を対応検索語に対応づけて、検索語と関連性のある展開
語を、該検索語と対応づけて予め記憶する検索語展開辞
書に登録する登録ステップと、前記受取ステップによっ
て今回受け取られた検索文を構成する検索語のうち1つ
の検索語を選択する検索語選択ステップと、前記検索語
展開辞書を参照して、前記検索語選択ステップによって
選択された検索語に対応する展開語または関連語を取得
する取得ステップと、前記取得ステップによって取得さ
れた展開語または関連語の概念特徴を第1の評価尺度に
よって表現する第1の評価尺度表現ステップと、前記文
字情報格納ステップによって格納された各文字情報の概
念特徴を第2の評価尺度によって表現する第2の評価尺
度表現ステップと、前記第1の評価尺度表現ステップに
よって表現された第1の評価尺度と前記第2の評価尺度
表現ステップによって表現された第2の評価尺度とを基
に、前記検索語選択ステップによって選択された検索語
と前記複数のマルチメディア情報の各々との類似度を算
出する類似度算出ステップとを有することを特徴とす
る。
【0013】
【発明の実施の形態】以下、本発明の実施の形態を、図
面を参照して説明する。
【0014】図1は、本発明に係る情報検索装置の一実
施の形態の構成を示すブロック図である。なお、本実施
の形態では、検索対象となるマルチメディア情報は文書
情報である。
【0015】図1において、11はマイクロプロセッサ
(CPU)であり、情報検索のための演算、論理判断等
を行ない、またアドレスバスAB、コントロールバスC
B、データバスDBを介して、それらのバスに接続され
た各構成要素を制御する。
【0016】アドレスバスABは、CPU11が制御の
対象とする構成要素を指定するためのアドレス信号を転
送する。コントロールバスCBは、CPU11が制御の
対象とする各構成要素に対してCPU11から印加され
るコントロール信号を転送する。データバスDBは、各
構成要素相互間のデータ転送を行なう。
【0017】12は読出し専用の固定メモリ(ROM)
であり、本実施の形態で実行される処理プログラム等の
制御プログラムコードを記憶する。
【0018】13は1ワード16ビットで構成される書
込み可能なランダムアクセスメモリ(RAM)であり、
各構成要素から送られた各種データの一時記憶に用いら
れる。また、図2を参照して後述する検索語保持部20
2、検索語履歴保持部203、展開語保持部207、検
索概念特徴1保持部210、検索概念特徴2保持部22
5、検索結果保持部213を構成する。
【0019】14は外部メモリ(DISK)であり、図
2を参照して後述する検索語展開辞書206、概念辞書
208、蓄積文書概念特徴1保持部212、蓄積文書概
念特徴2保持部218、蓄積文書217、単語インデッ
クス226を構成する。また、図2を参照して後述する
検索要求入力処理部201、検索語展開処理部205、
概念特徴1抽出処理部209、関連語抽出処理部21
1、類似概念特徴検索処理部214、概念特徴2抽出処
理部221の各処理部を実行するプログラムコードが格
納される。また、これらのデータ及びプログラムを格納
する記憶媒体としては、ROM、フロッピー(登録商
標)ディスク、CD−ROM、DVD−ROM、メモリ
カード、光磁気ディスクなどを用いることができる。
【0020】15はキーボード(KB)であり、アルフ
ァベットキー、ひらがなキー、カタカナキー、句点等の
文字記号入力キー、検索を指示する検索キー、カーソル
移動を指示するカーソル移動キー等の各種の機能キーを
備えている。
【0021】16は表示用ビデオメモリ(VRAM)で
あり、表示すべきデータの表示パターンを蓄える。
【0022】17はCRTコントローラー(CRTC)
であり、表示用ビデオメモリ(VRAM)16に蓄えら
れた内容を後述の表示装置(CRT)18に表示する役
割を担う。
【0023】18は陰極線管、液晶パネル等の表示装置
(CRT)であり、これに、ドット構成の表示パターン
およびカーソルが、CRTコントローラ(CRTC)1
7による制御によって表示される。
【0024】19はネットワークコントローラ(NI
C)であり、情報検索装置をEthernetなどのネ
ットワークに接続する役割を担う。
【0025】かかる各構成要素からなる情報検索装置に
おいては、キーボード(KB)15からの各種の入力及
びネットワークコントローラ(NIC)19から供給さ
れるネットワーク経由の各種入力に応じて作動するもの
であって、キーボード(KB)15からの入力またはネ
ットワークコントローラ(NIC)19からの入力が供
給されると、まず、インタラプト信号がマイクロプロセ
ッサ(CPU)11に送られ、マイクロプロセッサ(C
PU)11が、外部メモリ(DISK)14内に記憶し
てある各種の制御信号を読出し、それらの制御信号に従
って、各種の制御が行なわれる。
【0026】図2は、図1に示す情報検索装置の機能構
成を示すブロック図である。
【0027】図2において検索要求入力処理部201
は、検索対象に関する要求事項(検索文)を受け取る。
検索語保持部202は、検索要求入力処理部201で受
け取った要求事項を記憶する。検索語履歴保持部203
では、図9を参照して後述するように、検索要求入力処
理部201で受け取った要求事項が分解されて、それに
含まれる検索語が、その検索対象となる頻度等とともに
記憶される。検索語履歴保持部203では過去の検索語
を全て保存する。検索語展開判定部204は、検索語保
持部202に記憶された検索要求に従って、検索語を関
連する他の単語に展開すべきか否かを決定する。
【0028】検索語展開処理部205は、検索語展開辞
書206を参照して、検索語保持部202に記憶された
検索文を構成する検索語を関連語(展開語)に展開す
る。検索語展開辞書206は、図5を参照して後述する
ように、単語(検索語)毎に、該単語に関連する関連語
を関連度等と対応させて格納する。展開語保持部207
は、検索語展開処理部205で展開された関連語を検索
語とともに記憶する。
【0029】概念辞書208は、図6を参照して後述す
るように、展開対象の各単語(検索語)の概念を、普遍
的な意味素の重みを要素とする多次元ベクトルで表した
ものを記憶する。概念特徴1抽出処理部209は、展開
語保持部207と概念辞書208と登録文書224とを
参照して、検索語あるいは登録文書の概念特徴を概念特
徴1として抽出する。検索概念特徴1保持部210は、
概念特徴1抽出処理部209によって抽出された、検索
語あるいは登録文書に対する概念特徴1を保持する。検
索概念特徴2保持部225は、概念特徴2抽出処理部2
21によって抽出された検索語に対する概念特徴2を保
持する。
【0030】関連語抽出処理部211は、蓄積文書21
7に蓄積された各文書から、関連度の高い単語の組を抽
出して、検索語展開辞書206に格納する。
【0031】概念特徴2抽出処理部221は、登録文書
224における概念特徴2を抽出する。蓄積文書概念特
徴2保持部218は、概念特徴2抽出処理部221で抽
出された概念特徴2を登録文書224と対応付けて記憶
する。蓄積文書概念特徴1保持部212は、概念特徴1
抽出処理部209で抽出された、登録文書224に対応
する概念特徴1を保持する。
【0032】類似概念特徴検索処理部214は、蓄積文
書概念特徴1保持部212、検索概念特徴1保持部21
0、蓄積文書概念特徴2保持部218を参照して、類似
概念検索処理を実行する。検索結果保持部213は、類
似概念特徴検索処理部214の処理結果を保持する。
【0033】図3は、表示装置18に表示され、検索文
を入力するために使用される表示ウインドウを示す図で
ある。この表示ウインドウは、検索要求入力処理部20
1において、操作者が類似検索の検索要求文あるいは検
索要求語を指定する場合に使用される。
【0034】図3において、301は検索要求入力操作
を行うための表示ウインドウである。302は検索要求
文あるいは検索要求語を入力する検索文入力領域であ
る。303は入力中の検索要求文を示しており、図示に
おいては「モバイル機器の市場動向」と入力されてい
る。304は検索文入力領域における入力位置を示す入
力カーソルである。
【0035】308は検索処理の実行を指定する検索実
行ボタンであり、検索実行ボタン308をクリックする
ことで、指定した検索処理が実行される。309は検索
処理の終了あるいは中止を指定するキャンセルボタンで
あり、キャンセルボタン309をクリックすると、ただ
ちに検索処理を終了し、表示ウインドウ301を閉じて
終了する。
【0036】310は、検索ボタン308のクリックに
よって検索処理が行なわれた結果得られた検索結果を表
示する検索結果表示領域であり、図3においては検索処
理が未だなされていない状態であるので、何も表示され
ていない。
【0037】次に、検索文入力領域302に検索要求文
または検索要求語が入力されて検索処理が実行され、引
き続き類似検索が実行される場合について、図4を参照
して説明する。
【0038】図4は、検索文入力領域302に検索要求
文あるいは検索要求語が入力されて検索処理が実行さ
れ、その結果得られた検索結果例が表示された表示ウイ
ンドウ301を示す図である。
【0039】図4において、401は図3の310に相
当する検索結果表示領域である。402はランク表示領
域である。後述の図10に示すステップS1002の文
書概念類似検索処理が実行されて得られた各文書は、検
索要求に類似している順にランク付けされ、ランク順に
表示される。ランク表示領域402はそのランク順を示
す。図4の表示例においては、ランク25位から30位
までの検索結果が表示されている。
【0040】403は検索の結果得られた各文書の表題
の表示領域、404は各文書のファイル名の表示領域で
ある。405は各文書の大意が掴める程度の内容を表示
する表示領域である。文書内容表示領域405には、あ
らかじめ文書の書誌的属性として与えられた要約文、文
書から自動的に要約した要約文、あるいは文書の一部を
大意として抽出した大意文などが表示される。406は
エレベータバーであり、検索の結果得られた各文書を全
て検索結果表示領域401に表示しきれない場合に、そ
れらの文書の一部を表示し、表示されていない他の文書
を表示するために用いられる。
【0041】図4に示される表示ウインドウ301では
検索結果表示領域401に、検索要求文303に示され
た「モバイル機器の市場動向」に対して文書内容類似検
索を行った結果得られた検索結果を表示している。な
お、引き続いて類似検索を行う場合、検索文入力領域3
02に検索文を入力するか、あるいは検索結果表示領域
401に表示された各文書の中から類似検索を行ないた
い文書を選択し、その選択された文書を検索文入力領域
302にドラッグ&ドロップする。このドラッグ&ドロ
ップにより、選択された文書の内容が検索文入力領域3
02にコピーされる(不図示)。
【0042】図5は、検索語展開辞書206の構成を示
す図である。
【0043】検索語展開辞書206は、展開情報を個々
に識別する識別番号を収納するID欄501と、展開さ
れるべき単語を収納する展開見出し語欄502と、展開
見出し語欄502に収納された単語から連想派生可能な
連想語、収納された単語に関連する関連語など、展開可
能な単語を格納する展開語欄503と、展開見出し語と
展開語との関連度合いを示す関連度を収納する関連度欄
504と、展開語の種別を示す符号を収納するFLG欄
505と、展開語欄503に収納されている単語が属す
る展開グループの識別番号を収納するグループID欄5
06とから構成される。
【0044】上記の関連度欄504に収納される関連度
は、0から9までの数値で表され、数値が高いほど関連
性が高いことを示す。FLG欄505に収納される符号
は、展開語欄503に収納されている単語が標準的に用
意されている初期登録語であるか、または蓄積文書22
4から抽出された関連語であるかの展開語種別を示し、
「S」は初期登録されている標準展開語、「A」は蓄積
文書224から抽出された関連語を示す。
【0045】またグループID欄506に収納される識
別番号は、展開語欄503に収納されている単語が属す
る展開グループを示し、同じグループIDをもつ展開語
どうしは同じ観点に基づいて展開されたことを表してい
る。例えば、図5に示す検索語展開辞書の例では、グル
ープIDが「1」を示している展開語「携帯」、「可
搬」はともに、展開見出し語「モバイル」を「持ち運
び、運搬」という観点に基づいて展開した場合の展開語
を示しており、こうした展開語はグループID「1」に
属しているものとする。また、グループIDが「2」を
示している展開語「携帯電話」、「携帯端末」、「ノー
トPC」、「ラップトップ」、「PDA」、「GPS」
は、展開見出し語「モバイル」を「小型可搬機器」とい
う観点に基づいて展開した場合の展開語を示しており、
こうした展開語はグループID「2」に属しているもの
とする。なお、特定のグループIDを持たない展開語に
ついては、グループID欄506に値「0」を格納す
る。グループIDの値は、同じ展開見出し語において展
開グループを識別する識別値であると同時に、その値自
体が展開見出し語を展開する際の展開優先度を示す。す
なわち、図5の例では、展開見出し語「モバイル」で
は、グループIDが「1」である展開語がまず優先的に
処理対象になり、続いて「2」、「3」のグループID
を持つ展開語が処理対象となる。
【0046】次に、図6は概念辞書208の構成を示す
図である。
【0047】概念辞書208は、単語の概念を、普遍的
な意味素の重みを要素とする多次元ベクトルで表す。図
6において列601(第1列目)には、概念辞書の見出
しとなる単語が格納される。行602(第1行目)に
は、見出し単語に対する256次元で表される意味素ベ
クトルの各要素を表す添え字が格納される。欄603
(第2列目以降および第2行目以降の欄)には、意味素
ベクトルの各要素の重みを格納し、重みは0から1の間
の実数をとり、意味素ベクトルの大きさが1となるよう
正規化された値が格納される。
【0048】概念辞書208における多次元ベクトルの
要素となる普遍的な意味素とは、1つのまとまった意味
概念を表すラベルであり、例えば、「これ、それ、あ
れ、どっち」などの語が内包している「指示の概念」、
「クラス、グレード、級、ランク、順位、劣等、優劣、
優等」などの語が内包している「等級の概念」、「変
化、変身、革新、勃興」などの語が内包している「変化
の概念」、「協力、挨拶、団結、握手、友好、国交、交
友」などの語が内包している「交わりの概念」、「動
物、哺乳類、ペンギン、犬、人間、金魚」などの語が内
包している「生物の概念」といった、特定の語に依らな
い各々独立した普遍的な意味素である。図6に示す例で
は、256種の意味素を用い、256次元の概念表現ベ
クトルを構成する。
【0049】次に、単語インデックス226について、
図7及び図8を参照して説明する。
【0050】図7は単語インデックス226の構成を示
す図である。
【0051】単語インデックス226は、検索対象とな
る全登録文書において、各登録文書中に出現する単語の
文書中における出現頻度を格納するテーブルである。テ
ーブルの列701(第1列目)には各登録文書を識別す
るための文書IDが収納される。行702(第1行目)
には、登録文書中に出現する単語を表す添え字(単語識
別番号)が収納される。欄704(第2列目以降および
第2行目以降で最終行の1つ前の行までの欄)には、各
登録文書中に出現する単語毎の出現頻度が収納される。
行703(最終行)には、各単語の出現数の総和が収納
される。
【0052】図8は、登録文書中に出現する単語とその
単語を表す添え字(単語インデックス)との対応関係を
示すテーブルの構成を示す図である。
【0053】この対応テーブルは、単語欄801と添え
字(単語インデックス)欄802とから構成され、例え
ば、単語「市場」の添え字(単語インデックス)は「5
6」であることが示される。
【0054】図7および図8によれば、例えば文書ID
が「00146」である登録文書では、添え字「56」
を持つ単語「市場」が登録文書中に12回出現している
ことを示している。
【0055】図9は検索語履歴保持部203の構成を示
す図である。
【0056】検索語履歴保持部203は、過去に入力し
た全ての検索文から取り出された検索語を保持するもの
で、検索語を収納する検索語欄901と、検索語が処理
対象となった頻度を収納する頻度欄902と、検索語に
対して関連語抽出処理が実行されたか否かを示すフラグ
が収納される処理済フラグ欄903とから構成されるテ
ーブルを保持する。処理済フラグ欄903におけるフラ
グ「0」は、まだ関連語抽出処理が行なわれていない検
索語であることを示し、フラグ「1」は、関連語抽出処
理が既に行なわれた検索語であることを示す。頻度欄9
02に収納された頻度は、対応の検索語が処理対象とな
る度に1だけカウントアップされる。
【0057】次に、本実施の形態で実行される文書類似
検索処理について、図10を参照して説明する。
【0058】図10は、情報検索装置で実行される文書
類似検索の処理の手順を示すフローチャートである。
【0059】ステップS1001で、図2における検索
要求入力処理部201によって検索要求入力処理を行
う。この検索要求入力処理の詳細については、図11を
参照して後述する。
【0060】ステップS1002で、ステップS100
1の実行によって入力された検索要求に従って、文書内
容の概念が類似している文書を検索する文書概念類似検
索処理を行う。この文書概念類似検索処理の詳細につい
ては、図12および図13を参照して後述する。
【0061】ステップS1003で、ステップS100
2の実行によって得られた検索結果を表示する。
【0062】図11は、図10のステップS1001で
実行される検索要求入力処理の詳細を示すフローチャー
トである。
【0063】ステップS2001で、検索要求となる検
索文を、図3における検索文入力領域302へ入力カー
ソル304の示す位置に従い入力する。検索文は単一の
語であってもよいし、複数の語からなる文であってもよ
い。検索文の入力は、キーボード(KB)15から入力
された文字コードをRAM13上の検索語保持部202
に格納することにより行われる。
【0064】次にステップS2002において、検索文
入力領域302への検索文の入力があったか否かを判定
する。その結果、検索文入力領域302への検索文の入
力がなく、さらに、検索結果表示領域401に表示され
た検索結果文書のいずれかが検索文入力領域302へド
ラッグされたと検知されたならば、ステップS2003
へ進み、一方、検索文入力領域302への検索文の入力
があったと判定された場合、本処理を終了する。
【0065】ステップS2003で、検索文入力領域3
02へドラッグされた文書の文書ファイル名を、検索結
果表示領域401のファイル名表示領域404より取得
して、当該文書を読み出しのためにオープンする。
【0066】次にステップS2004で、オープンした
文書の内容を読み込み、ステップS2005において、
読み込んだ文書内容を検索要求文として、検索語保持部
202に格納するとともに、検索文入力領域302へそ
の内容を表示する。
【0067】図12および図13は、図10のステップ
S1002で実行される文書概念類似検索処理の詳細を
示すフローチャートである。
【0068】ステップS3001で、検索語保持部20
2に格納されている検索文を取り出し、単語に分割す
る。検索文の単語への分割には公知の形態素解析処理手
法を適用する。
【0069】次にステップS3002で、ステップS3
001の実行の結果得られた各単語を検索語履歴保持部
203(図9)の検索語欄901に格納し、処理済フラ
グ欄903の対応フラグを0とする。なお、検索語欄9
01にすでに同じ単語が格納されている場合は、頻度欄
902の対応頻度を1だけカウントアップする。
【0070】次にステップS3003で、ステップS3
001の実行の結果得られた単語の個数に応じて、検索
語の展開処理を行うか否かを判定する。すなわち、単語
数が所定の閾値(例えば5)より少ない場合にのみ検索
語展開処理を行うようにする。
【0071】検索語展開処理を行わないと判定されたな
らば、展開語保持部207に各単語を格納した後、ステ
ップS3008へ進み、一方、検索語展開処理を行うと
判定されたならば、ステップS3004へ進む。
【0072】ステップS3004では、ステップS30
01の実行の結果得られた各単語のうち、展開処理が行
なわれるべき単語を決定する。すなわち、ステップS3
001の実行の結果得られた単語が1個の場合は、その
1語を展開対象検索語とし、複数個存在する場合は、検
索文を最も端的に表現する1語を選択する。例えば、複
数個の単語が「形容詞」、「名詞」の順に並んでいると
すれば、「形容詞」の係り先である「名詞」を展開対象
検索語と決定するなど、展開対象検索語を決定するため
の不図示のパターンテンプレートを適用する。
【0073】ステップS3005では、検索語展開辞書
206(図5)を参照して、ステップS3004で決定
された展開対象検索語に一致する単語を、展開見出し語
欄502において検索する。展開対象検索語に一致する
見出し語が存在する場合、その見出し語に対応する展開
語欄503の展開語、関連度欄504の関連度、グルー
プID欄506の展開グループの識別番号(グループI
D)を読み出して、展開語保持部207に格納する。そ
して、グループIDをキーにして展開語保持部207を
ソートする。なお、展開語保持部207には展開対象検
索語自体も格納する。
【0074】次にステップS3006で、展開語保持部
207に格納されているグループIDのうち最も優先度
の高いグループIDを検出する。
【0075】ステップS3007では、ステップS30
06で検出されたグループIDが付与されている展開語
を展開語保持部207から取り出し、概念辞書208
(図6)の列601(第1列目)に格納された見出し語
において、一致するものを検索する。展開語に一致する
見出し語が存在する場合、その見出し語に対応する概念
ベクトルデータ(意味素ベクトルの各要素の重み)を概
念辞書208の欄603より読み出す。
【0076】ステップS3008で、取得した概念ベク
トルデータの構成要素の成分値に対し、展開語保持部2
07に格納されている対応展開語の関連度を乗算し、検
索要求概念特徴1データに加算して、ステップS300
6で検出されたグループIDに対応する検索要求概念特
徴1データを構築する。なお検索要求概念特徴1データ
ではあらかじめ、概念ベクトルのすべての次元要素を0
に初期化しておく。
【0077】ステップS3009で、ステップS300
6で検出されたグループIDをもつすべての展開語に対
して、ステップS3007,S3008の処理を実行し
たか否かを判定する。その結果、すべての展開語に対し
て処理を終えていると判定されたならば、検索要求概念
特徴1ベクトルデータに対して、各要素の2乗和が1に
なるように正規化を行い、検索概念特徴1保持部210
に格納し、ステップS3010へ進む。一方、ステップ
S3009で未処理の展開語があると判定されたなら
ば、ステップS3007へ戻る。
【0078】次にステップS3010で、検索要求概念
特徴1ベクトルデータが構築できたかどうかを判定す
る。この判定は、検索要求概念特徴1ベクトルデータが
ゼロベクトルではないか否かによって行なわれる。検索
要求概念特徴1ベクトルデータがゼロベクトルである場
合は構築できていないとして、ステップS3014へ進
む。検索要求概念特徴1ベクトルデータがゼロベクトル
ではなく、検索要求概念特徴1ベクトルデータが構築で
きている場合は、ステップS3011へ進む。
【0079】ステップS3011では、検索対象となる
全蓄積文書における蓄積文書概念特徴1ベクトルデータ
を蓄積文書概念特徴1保持部212より取得する。
【0080】ステップS3012で、蓄積文書概念特徴
1ベクトルデータと、検索概念特徴1保持部210に格
納された検索要求概念特徴1ベクトルデータとを基に、
概念類似度を算出する。概念類似度は、両ベクトルデー
タの余弦測度によって求めることができる。算出された
概念類似度は、検索文と蓄積文書との概念の類似性を示
すものであり、ステップS3006で検出されたグルー
プIDおよび蓄積文書の文書IDと対応付けて不図示の
バッファメモリに一時記憶される。
【0081】ステップS3013で、すべての蓄積文書
に対してステップS3011およびステップS3012
の処理を終えたかどうかを判定する。未処理の蓄積文書
があると判定されれば、ステップS3011へ戻り、一
方、すべての蓄積文書に対して処理を終えていればステ
ップS3020へ進む。
【0082】ステップS3010において、検索要求概
念特徴1ベクトルデータが構築できなかったと判定され
た場合は、検索要求概念特徴2ベクトルデータを構築
し、蓄積文書の概念特徴2ベクトルデータとの概念類似
度を算出し、これによって、文書内容類似概念検索を行
う。まず、ステップS3014において、ステップS3
006で検出されたグループIDをもつ展開語を展開語
保持部207より読み出す。
【0083】次にステップS3015で、単語インデッ
クス226(図7)を参照して、単語インデックスを次
元要素とするベクトルデータを検索要求概念特徴2ベク
トルデータとして構築する。すなわち、図8に示す対応
テーブルの単語欄801において、ステップS3014
で読み出された展開語と一致す単語を検出し、検出され
た単語に対応する添え字欄802の添え字(単語インデ
ックス)を取得する。そして、その添え字をもった要素
値に該単語の出現頻度を与え、一方、対応テーブルの単
語欄801に一致する単語がなかった展開語において
は、要素値に0を与える。
【0084】ステップS3016で、ステップS300
6で検出されたグループIDをもつすべての展開語に対
して、ステップS3014およびステップS3015の
処理を実行したか否かを判定する。未処理の展開語があ
ると判定されればステップS3014へ戻り、一方、す
べての展開語に対して処理を実行し終えていると判定さ
れれば、検索要求概念特徴2ベクトルデータの各要素値
の2乗和が1となるように正規化して、ステップS30
17へ進む。
【0085】ステップS3017で、蓄積文書概念特徴
2ベクトルデータを蓄積文書概念特徴2保持部218よ
り取り出し、ステップS3015で構築した検索要求概
念特徴2ベクトルデータと比較する。その結果、検索要
求概念特徴2ベクトルデータの次元要素のうち、蓄積文
書概念特徴2ベクトルデータの次元要素に含まれないも
のがあれば、その次元要素の成分要素値を0としてその
次元要素を蓄積文書概念特徴2ベクトルデータに追加す
る。
【0086】ステップS3018で、ステップS301
7で補正し取得した蓄積文書概念特徴2ベクトルデータ
と、ステップS3015で構築した検索要求概念特徴2
ベクトルデータとを基に概念類似度を算出する。この概
念類似度は、両ベクトルデータの余弦測度によって求め
ることができる。算出された概念類似度は、ステップS
3006で検出されたグループIDおよび蓄積文書の文
書IDと対応付けて不図示のバッファメモリに一時記憶
される。
【0087】ステップS3019で、全ての文書に対し
てステップS3017およびステップS3018の処理
を実行したか否かを判定する。未処理の文書があると判
定されればステップS3017へ戻り、すべての文書に
対して処理をし終えていればステップS3020へ進
む。
【0088】ステップS3020で、展開語保持部20
7に未処理のグループIDがあるか否かを判定する。未
処理のグループIDがあると判定されればステップS3
006へ戻り、未処理のグループIDを対象に、それら
の中で最も優先度の高いグループIDの検出を行なう。
一方、すべてのグループIDに対して処理をし終えてい
ればステップS3021へ進む。
【0089】ステップS3021では、ステップS30
12あるいはステップS3018において算出されバッ
ファメモリに格納された概念類似度等のデータを、グル
ープIDをキーにして降順にソートし、さらに概念類似
度の降順にソートして、検索結果保持部213に格納す
る。
【0090】かくして、文書概念類似検索処理を終了す
る。
【0091】次に、文書登録処理について、図14を参
照して説明する。
【0092】図14は、情報検索装置で実行される文書
登録の処理の手順を示すフローチャートである。
【0093】ステップS4001で、登録文書の内容か
ら概念特徴を抽出して登録する文書内容概念登録処理を
行う。この文書内容概念登録処理の詳細については、図
15を参照して後述する。
【0094】次にステップS4002で、登録文書を含
めた蓄積文書より検索関連語を抽出して検索語展開辞書
206に登録する処理を行う。この検索関連語抽出処理
の詳細については、図16を参照して後述する。
【0095】次にステップS4003で、概念辞書20
8に見出し語として登録されていない検索語について、
検索概念特徴1を推定し、追加登録を行う検索語概念抽
出処理を行う。この検索語概念抽出処理の詳細について
は、図17を参照して後述する。
【0096】図15は、図14のステップS4001で
実行される文書内容概念登録処理の詳細を示すフローチ
ャートである。
【0097】ステップS5001で、検索対照である登
録文書224より単語を抽出する。単語の抽出には一般
に用いられる形態素解析処理の手法を適用する。
【0098】次にステップS5002で、抽出された単
語を単語インデックス226(図7)へ登録する。すな
わち、図8に示す対応テーブルの単語欄801を参照し
て、抽出された単語に一致する単語を探す。一致する単
語が存在すれば、その単語に対応する添え字(単語イン
デックス)を添え字欄802から取得する。そして、図
7に示す単語インデックス226の行702においてそ
の取得した添え字(単語インデックス)をもつ列を見つ
け、その列の対象登録文書に対応する行に該登録文書内
における出現頻度を格納する。一方、図8に示す対応テ
ーブルの単語欄801に、抽出された単語に一致する単
語が見つからなければ、単語欄801に該単語を追加
し、添え字欄802に新たな添え字(単語インデック
ス)を割り振り、その新たな添え字(単語インデック
ス)を、図7に示す単語インデックス226の行702
に加え、登録済みの登録文書の欄704の新たな添え字
(単語インデックス)に対しては出現頻度として0を格
納し、対象登録文書に対しては出現頻度を格納する。
【0099】次にステップS5003で、単語インデッ
クス226を参照して、文書概念特徴2ベクトルデータ
を構築する。すなわち、単語インデックス226におい
て対象登録文書に対応する行データを取り出し、各添え
字(単語インデックス)の出現頻度をベクトルデータの
各成分要素に対応づける。
【0100】ステップS5004で、概念辞書208
(図6)の列601(第1列目)を参照し、ステップS
5001で抽出された単語と一致する単語を探す。一致
する単語が存在すれば、欄603から、その単語に対応
する概念特徴1ベクトルデータを取り出す。
【0101】ステップS5005で、ステップS500
4にて取り出された概念特徴1ベクトルデータに出現頻
度に応じた重みを乗じて、文書概念特徴1ベクトルデー
タに加算する。ここで頻度に乗じた重みは、文書内単語
頻度(TF値)と逆文書頻度(IDF)との積に応じて
決まる値である。
【0102】ステップS5006で、登録文書のすべて
の単語に対してステップS5002〜S5005の処理
を終えたか否かを判定し、未処理の単語があればステッ
プS5002へ戻り、すべての単語について処理を終え
ていればステップS5007へ進む。
【0103】ステップS5007で、文書概念特徴1ベ
クトルデータをベクトル要素の2乗和が1となるように
正規化して、蓄積文書概念特徴1保持部212へ登録
し、文書概念特徴2ベクトルデータも同様にベクトル要
素の2乗和が1となるように正規化して長さをそろえ
て、蓄積文書概念特徴2保持部218へ登録する。
【0104】かくして、文書内容概念登録処理を終了す
る。
【0105】図16は、図14のステップS4002で
実行される検索関連語抽出処理の詳細を示すフローチャ
ートである。
【0106】ステップS6001で、検索語履歴保持部
203の検索語欄901から検索語を1つ取り出す。次
にステップS6002で、検索語履歴保持部203に保
持されたすべての検索語を処理したか否かを判定し、す
べて処理したならば本処理を終了し、未処理の検索語が
あれば、ステップS6003へ進む。なお、すべての検
索語を処理したか否かの判定は、検索語履歴保持部20
3の処理済フラグ欄903におけるフラグを参照して行
なう。
【0107】ステップS6003で、検索語履歴保持部
203の処理済フラグ欄903において、ステップS6
001で取り出された検索語のフラグを、処理済状態を
表す「1」に設定する。
【0108】ステップS6004で、ステップS600
1で取り出された検索語について、登録文書224にお
ける出現頻度を参照して、その検索語が特定の登録文書
と相関度が特異的に高い共起語であるか否かを判別す
る。すなわち、単語インデックス226を参照して、他
の登録文書への出現頻度が低いが、注目登録文書におい
ては特異的に共起して出現する単語であることを、文書
内単語頻度(TF値)と逆文書頻度(IDF値)との積
が最大になるものからランク付けして決定する。
【0109】ステップS6005で、ステップS600
4で取得した共起語が検索語展開辞書206(図5)の
展開語欄503に登録済みであるか否かを判断し、登録
済みであればステップS6004へ戻り、次の共起語を
取得する。一方、ステップS6004で取得した共起語
が検索語展開辞書206に登録されていなければ、ステ
ップS6006へ進む。なお、ステップS6005で、
ステップS6004で取得した共起語が検索語展開辞書
206(図5)の展開語欄503に登録済みであると判
断された場合に、該共起語を検索語展開辞書206の展
開語欄503の同一語と置換するようにしてもよい。
【0110】ステップS6006で、ステップS600
5で検索語展開辞書206に未登録と判定された共起語
を、ステップS6001で取り出された検索語に対応す
る展開語として検索語展開辞書206の展開語欄503
に追加登録する。その際、ステップS6004で求めた
相関度を按分して関連度欄504の値とし、FLG欄5
05に、追加展開語であることを示すフラグ情報「A」
を対応付けて登録する。
【0111】ステップS6007で、すべての共起語に
対してステップS6004〜S6006の処理を行なっ
たか否かを判定し、未処理の共起語があればステップS
6004へ戻る。
【0112】図17は、図14のステップS4003で
実行される検索語概念抽出処理の詳細を示すフローチャ
ートである。
【0113】ステップS7001で、概念辞書208
(図6)の列601(第1列目)に登録されていない未
知概念語を取得する。未知概念語は、図8の対応テーブ
ルの単語欄801に存在して、概念辞書208の列60
1(第1列目)に存在しない単語とする。
【0114】ステップS7002で、検索語展開辞書2
06(図5)の展開見出し語欄502に、取得された未
知概念語と同じ単語を探す。存在する場合、その単語に
対応する展開語欄503の展開語(関連語)と、関連度
欄504の関連度とを展開語保持部207に格納する。
【0115】ステップS7003で、展開語保持部20
7に格納された展開語(関連語)を取得し、概念辞書2
08(図6)を検索して、展開語(関連語)に対応する
概念特徴1ベクトルデータを取得する。もし、概念辞書
208の列601(第1列目)に展開語(関連語)と同
一の単語が登録されていない場合は、概念特徴1ベクト
ルデータをベクトル要素すべてが0であるゼロベクトル
とする。
【0116】ステップS7004で、ステップS700
3で得られた展開語(関連語)の概念特徴1ベクトルデ
ータに、展開語保持部207に格納された関連度を乗じ
たものを未知概念語の概念特徴1ベクトルデータに加算
する。なお、未知概念語の概念特徴1ベクトルデータの
各要素値をすべて0に予め設定してゼロベクトルに初期
化しておく。
【0117】ステップS7005で、展開語保持部20
7に格納されたすべての展開語(関連語)に対してステ
ップS7003,S7004の処理を実行したか否かを
判定し、未処理の展開語(関連語)があればステップS
7003へ戻り、すべての展開語(関連語)に対して処
理を実行し終えていればステップS7006へ進む。
【0118】ステップS7006で、未知語概念特徴1
ベクトルを各要素値の2乗和が1となるように正規化し
た後、概念辞書208に登録する。
【0119】ステップS7007で、すべての未知概念
語に対してステップS7001〜S7006の処理を実
行したか否かを判定し、未処理の未知概念語があればス
テップS7001へ戻り、すべての未知概念語に対して
処理を実行し終えたならば本処理を終了する。
【0120】なお、上記実施の形態では、検索対象は文
書情報であったが、文書情報以外の画像情報、動画情
報、番組内容記述情報などのマルチメディア情報であっ
ても、内容記述メタデータが付随されていれば、同様に
検索できる。つまり、内容記述された文章情報に対し
て、情報特徴量抽出を行い、情報特徴量の類似測度を求
めることによって、本発明を適用することができる。
【0121】また以上の説明において、検索対象となる
蓄積文書217、蓄積文書概念特徴1保持部212、蓄
積文書概念特徴2保持部218、単語インデックス22
6、概念辞書208、検索語展開辞書206を、単一の
装置を構成する外部メモリ(DISK)14に配置する
ものとして説明したが、これらを、複数の外部記憶装置
に分散配置し、ネットワークコントローラ(NIC)1
9を介してネットワーク上で処理するように構成しても
よい。
【0122】また、本発明は複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
してもよい。
【0123】また、本発明の目的は、前述した実施の形
態の機能を実現するソフトウェアのプログラムコードを
記録した記憶媒体を、システムあるいは装置に供給し、
そのシステムあるいは装置のコンピュータ(またはCP
UやMPU)が記憶媒体に格納されたプログラムコード
を読出し実行することによっても達成されることは言う
までもない。
【0124】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。
【0125】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピーディスク、ハードディ
スク、光磁気ディスク、CD−ROM、CD−R、CD
−RW、DVD−ROM、DVD−RAM、DVD−R
W、DVD+RW、磁気テープ、不揮発性のメモリカー
ド、ROMなどを用いることができる。
【0126】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼動しているOS(オ
ペレーティングシステム)などが実際の処理の一部また
は全部を行い、その処理によって前述した実施の形態の
機能が実現される場合も含まれることは言うまでもな
い。
【0127】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張ボー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書き込まれた後、そのプログラムコードの指
示に基づき、その機能拡張ボードや機能拡張ユニットに
備わるCPUなどが実際の処理の一部または全部を行
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれることは言うまでもない。
【0128】
【発明の効果】以上詳述したように請求項1、請求項8
または請求項15記載の発明によれば、複数のマルチメ
ディア情報の内容をそれぞれ言語表現した文字情報を記
憶する文字情報記憶手段と、検索語と関連性のある展開
語を、該検索語と対応づけて予め記憶する検索語展開辞
書とを備える。そして、所望のマルチメディア情報を検
索するための検索文を外部から受け取り、現在までに受
け取られた全ての検索文をそれぞれ構成していた検索語
を記憶する。次に、前記記憶された各検索語とそれぞれ
関連する関連語を、前記文字情報記憶手段によって記憶
された文字情報から抽出し、前記抽出された関連語を対
応検索語に対応づけて前記検索語展開辞書に登録する。
【0129】これによって、適切な展開語を備えた検索
語展開辞書を処理時間の増大を招くことなく作成するこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明に係る情報検索装置の一実施の形態の構
成を示すブロック図である。
【図2】図1に示す情報検索装置の機能構成を示すブロ
ック図である。
【図3】表示装置18に表示され、検索文を入力するた
めに使用される表示ウインドウを示す図である。
【図4】検索文入力領域に検索要求文あるいは検索要求
語が入力されて検索処理が実行され、その結果得られた
検索結果例が表示された表示ウインドウを示す図であ
る。
【図5】検索語展開辞書の構成を示す図である。
【図6】概念辞書の構成を示す図である。
【図7】単語インデックスの構成を示す図である。
【図8】登録文書中に出現する単語とその単語を表す添
え字(単語インデックス)との対応関係を示すテーブル
の構成を示す図である。
【図9】検索語履歴保持部の構成を示す図である。
【図10】情報検索装置で実行される文書類似検索の処
理の手順を示すフローチャートである。
【図11】図10のステップS1001で実行される検
索要求入力処理の詳細を示すフローチャートである。
【図12】図10のステップS1002で実行される文
書概念類似検索処理の詳細を示すフローチャート(1/
2)である。
【図13】図10のステップS1002で実行される文
書概念類似検索処理の詳細を示すフローチャート(2/
2)である。
【図14】情報検索装置で実行される文書登録の処理の
手順を示すフローチャートである。
【図15】図14のステップS4001で実行される文
書内容概念登録処理の詳細を示すフローチャートであ
る。
【図16】図14のステップS4002で実行される検
索関連語抽出処理の詳細を示すフローチャートである。
【図17】図14のステップS4003で実行される検
索語概念抽出処理の詳細を示すフローチャートである。
【符号の説明】
11 マイクロプロセッサ(CPU、受取手段、関連語
抽出手段、登録手段、検索語選択手段、取得手段、第1
の評価尺度表現手段、第2の評価尺度表現手段、類似度
算出手段) 12 ROM 13 RAM(検索語記憶手段) 14 外部メモリ(DISK、文字情報記憶手段、検索
語展開辞書) 15 キーボード(KB) 16 表示用ビデオメモリ(VRAM) 17 CRTコントローラ(CRTC) 18 表示装置(CRT) 19 ネットワークコントローラ(NIC)

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 複数のマルチメディア情報を管理し、該
    複数のマルチメディア情報の中から所望のマルチメディ
    ア情報を検索することが可能な情報検索装置において、 前記複数のマルチメディア情報の内容をそれぞれ言語表
    現した文字情報を記憶する文字情報記憶手段と、 検索語と関連性のある展開語を、該検索語と対応づけて
    予め記憶する検索語展開辞書と、 所望のマルチメディア情報を検索するための検索文を外
    部から受け取る受取手段と、 前記受取手段によって現在までに受け取られた全ての検
    索文をそれぞれ構成していた検索語を記憶する検索語記
    憶手段と、 前記検索語記憶手段によって記憶された各検索語とそれ
    ぞれ関連する関連語を、前記文字情報記憶手段によって
    記憶された文字情報から抽出する関連語抽出手段と、 前記関連語抽出手段によって抽出された関連語を対応検
    索語に対応づけて前記検索語展開辞書に登録する登録手
    段と、 前記受取手段によって今回受け取られた検索文を構成す
    る検索語のうち1つの検索語を選択する検索語選択手段
    と、 前記検索語展開辞書を参照して、前記検索語選択手段に
    よって選択された検索語に対応する展開語または関連語
    を取得する取得手段と、 前記取得手段によって取得された展開語または関連語の
    概念特徴を第1の評価尺度によって表現する第1の評価
    尺度表現手段と、 前記文字情報記憶手段によって記憶された各文字情報の
    概念特徴を第2の評価尺度によって表現する第2の評価
    尺度表現手段と、 前記第1の評価尺度表現手段によって表現された第1の
    評価尺度と前記第2の評価尺度表現手段によって表現さ
    れた第2の評価尺度とを基に、前記検索語選択手段によ
    って選択された検索語と前記複数のマルチメディア情報
    の各々との類似度を算出する類似度算出手段とを有する
    ことを特徴とする情報検索装置。
  2. 【請求項2】 前記登録手段は、前記関連語抽出手段に
    よって抽出された関連語に、前記検索語展開辞書に予め
    記憶された展開語ではないことを示す識別情報を付帯さ
    せて前記検索語展開辞書に登録することを特徴とする請
    求項1記載の情報検索装置。
  3. 【請求項3】 前記登録手段は、前記関連語抽出手段に
    よって抽出された関連語に、対応検索語との関連度を付
    帯させて前記検索語展開辞書に登録することを特徴とす
    る請求項1または請求項2記載の情報検索装置。
  4. 【請求項4】 前記登録手段は、前記関連語抽出手段に
    よって抽出された関連語と同一の語が、前記検索語展開
    辞書に予め記憶された展開語に含まれる場合、前記関連
    語を前記検索語展開辞書に登録することを中止すること
    を特徴とする請求項1乃至請求項3のいずれかに記載の
    情報検索装置。
  5. 【請求項5】 前記登録手段は、前記関連語抽出手段に
    よって抽出された関連語と同一の語が、前記検索語展開
    辞書に予め記憶された展開語に含まれる場合、前記展開
    語を前記関連語に置換して前記検索語展開辞書に登録す
    ることを特徴とする請求項1乃至請求項3のいずれかに
    記載の情報検索装置。
  6. 【請求項6】 前記第1の評価尺度及び前記第2の評価
    尺度は、複数の意味素から成る複数次元ベクトルによっ
    てそれぞれ構成され、概念特徴は意味素の集合で表現さ
    れることを特徴とする請求項1乃至請求項5のいずれか
    に記載の情報検索装置。
  7. 【請求項7】 前記第1の評価尺度及び前記第2の評価
    尺度は、単語の集合から構成されることを特徴とする請
    求項1乃至請求項5のいずれかに記載の情報検索装置。
  8. 【請求項8】 複数のマルチメディア情報を管理し、該
    複数のマルチメディア情報の中から所望のマルチメディ
    ア情報を検索することが可能な情報検索装置に適用され
    る情報検索方法において、 前記複数のマルチメディア情報の内容をそれぞれ言語表
    現した文字情報を格納する文字情報格納ステップと、 所望のマルチメディア情報を検索するための検索文を外
    部から受け取る受取ステップと、 前記受取ステップによって現在までに受け取られた全て
    の検索文をそれぞれ構成していた検索語を格納する検索
    語格納ステップと、 前記検索語記憶ステップによって格納された各検索語と
    それぞれ関連する関連語を、前記文字情報格納ステップ
    によって格納された文字情報から抽出する関連語抽出ス
    テップと、 前記関連語抽出ステップによって抽出された関連語を対
    応検索語に対応づけて、検索語と関連性のある展開語
    を、該検索語と対応づけて予め記憶する検索語展開辞書
    に登録する登録ステップと、 前記受取ステップによって今回受け取られた検索文を構
    成する検索語のうち1つの検索語を選択する検索語選択
    ステップと、 前記検索語展開辞書を参照して、前記検索語選択ステッ
    プによって選択された検索語に対応する展開語または関
    連語を取得する取得ステップと、 前記取得ステップによって取得された展開語または関連
    語の概念特徴を第1の評価尺度によって表現する第1の
    評価尺度表現ステップと、 前記文字情報格納ステップによって格納された各文字情
    報の概念特徴を第2の評価尺度によって表現する第2の
    評価尺度表現ステップと、 前記第1の評価尺度表現ステップによって表現された第
    1の評価尺度と前記第2の評価尺度表現ステップによっ
    て表現された第2の評価尺度とを基に、前記検索語選択
    ステップによって選択された検索語と前記複数のマルチ
    メディア情報の各々との類似度を算出する類似度算出ス
    テップとを有することを特徴とする情報検索方法。
  9. 【請求項9】 前記登録ステップは、前記関連語抽出ス
    テップによって抽出された関連語に、前記検索語展開辞
    書に予め記憶された展開語ではないことを示す識別情報
    を付帯させて前記検索語展開辞書に登録することを特徴
    とする請求項8記載の情報検索方法。
  10. 【請求項10】 前記登録ステップは、前記関連語抽出
    ステップによって抽出された関連語に、対応検索語との
    関連度を付帯させて前記検索語展開辞書に登録すること
    を特徴とする請求項8または請求項9記載の情報検索方
    法。
  11. 【請求項11】 前記登録ステップは、前記関連語抽出
    ステップによって抽出された関連語と同一の語が、前記
    検索語展開辞書に予め記憶された展開語に含まれる場
    合、前記関連語を前記検索語展開辞書に登録することを
    中止することを特徴とする請求項8乃至請求項10のい
    ずれかに記載の情報検索方法。
  12. 【請求項12】 前記登録ステップは、前記関連語抽出
    ステップによって抽出された関連語と同一の語が、前記
    検索語展開辞書に予め記憶された展開語に含まれる場
    合、前記展開語を前記関連語に置換して前記検索語展開
    辞書に登録することを特徴とする請求項8乃至請求項1
    0のいずれかに記載の情報検索方法。
  13. 【請求項13】 前記第1の評価尺度及び前記第2の評
    価尺度は、複数の意味素から成る複数次元ベクトルによ
    ってそれぞれ構成され、概念特徴は意味素の集合で表現
    されることを特徴とする請求項8乃至請求項12のいず
    れかに記載の情報検索方法。
  14. 【請求項14】 前記第1の評価尺度及び前記第2の評
    価尺度は、単語の集合から構成されることを特徴とする
    請求項8乃至請求項12のいずれかに記載の情報検索方
    法。
  15. 【請求項15】 複数のマルチメディア情報を管理し、
    該複数のマルチメディア情報の中から所望のマルチメデ
    ィア情報を検索することが可能な情報検索装置に適用さ
    れる情報検索方法をプログラムとして記憶した、コンピ
    ュータにより読み出し可能な記憶媒体において、 前記情報検索方法が、 前記複数のマルチメディア情報の内容をそれぞれ言語表
    現した文字情報を格納する文字情報格納ステップと、 所望のマルチメディア情報を検索するための検索文を外
    部から受け取る受取ステップと、 前記受取ステップによって現在までに受け取られた全て
    の検索文をそれぞれ構成していた検索語を格納する検索
    語格納ステップと、 前記検索語記憶ステップによって格納された各検索語と
    それぞれ関連する関連語を、前記文字情報格納ステップ
    によって格納された文字情報から抽出する関連語抽出ス
    テップと、 前記関連語抽出ステップによって抽出された関連語を対
    応検索語に対応づけて、検索語と関連性のある展開語
    を、該検索語と対応づけて予め記憶する検索語展開辞書
    に登録する登録ステップと、 前記受取ステップによって今回受け取られた検索文を構
    成する検索語のうち1つの検索語を選択する検索語選択
    ステップと、 前記検索語展開辞書を参照して、前記検索語選択ステッ
    プによって選択された検索語に対応する展開語または関
    連語を取得する取得ステップと、 前記取得ステップによって取得された展開語または関連
    語の概念特徴を第1の評価尺度によって表現する第1の
    評価尺度表現ステップと、 前記文字情報格納ステップによって格納された各文字情
    報の概念特徴を第2の評価尺度によって表現する第2の
    評価尺度表現ステップと、 前記第1の評価尺度表現ステップによって表現された第
    1の評価尺度と前記第2の評価尺度表現ステップによっ
    て表現された第2の評価尺度とを基に、前記検索語選択
    ステップによって選択された検索語と前記複数のマルチ
    メディア情報の各々との類似度を算出する類似度算出ス
    テップとを有することを特徴とする記憶媒体。
  16. 【請求項16】 前記登録ステップは、前記関連語抽出
    ステップによって抽出された関連語に、前記検索語展開
    辞書に予め記憶された展開語ではないことを示す識別情
    報を付帯させて前記検索語展開辞書に登録することを特
    徴とする請求項15記載の記憶媒体。
  17. 【請求項17】 前記登録ステップは、前記関連語抽出
    ステップによって抽出された関連語に、対応検索語との
    関連度を付帯させて前記検索語展開辞書に登録すること
    を特徴とする請求項15または請求項16記載の記憶媒
    体。
  18. 【請求項18】 前記登録ステップは、前記関連語抽出
    ステップによって抽出された関連語と同一の語が、前記
    検索語展開辞書に予め記憶された展開語に含まれる場
    合、前記関連語を前記検索語展開辞書に登録することを
    中止することを特徴とする請求項15乃至請求項17の
    いずれかに記載の記憶媒体。
  19. 【請求項19】 前記登録ステップは、前記関連語抽出
    ステップによって抽出された関連語と同一の語が、前記
    検索語展開辞書に予め記憶された展開語に含まれる場
    合、前記展開語を前記関連語に置換して前記検索語展開
    辞書に登録することを特徴とする請求項15乃至請求項
    17のいずれかに記載の記憶媒体。
  20. 【請求項20】 前記第1の評価尺度及び前記第2の評
    価尺度は、複数の意味素から成る複数次元ベクトルによ
    ってそれぞれ構成され、概念特徴は意味素の集合で表現
    されることを特徴とする請求項15乃至請求項19のい
    ずれかに記載の記憶媒体。
  21. 【請求項21】 前記第1の評価尺度及び前記第2の評
    価尺度は、単語の集合から構成されることを特徴とする
    請求項15乃至請求項19のいずれかに記載の記憶媒
    体。
JP2001024365A 2001-01-31 2001-01-31 情報検索装置、情報検索方法、及び記憶媒体 Pending JP2002230020A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001024365A JP2002230020A (ja) 2001-01-31 2001-01-31 情報検索装置、情報検索方法、及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001024365A JP2002230020A (ja) 2001-01-31 2001-01-31 情報検索装置、情報検索方法、及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2002230020A true JP2002230020A (ja) 2002-08-16

Family

ID=18889513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001024365A Pending JP2002230020A (ja) 2001-01-31 2001-01-31 情報検索装置、情報検索方法、及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2002230020A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
JP2010170191A (ja) * 2009-01-20 2010-08-05 Yahoo Japan Corp テレビ番組のメタ情報に基づく検索方法、検索システム、及び検索ターム生成装置
JP2011180901A (ja) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 経験情報の再利用性評価装置及び方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
JP2010170191A (ja) * 2009-01-20 2010-08-05 Yahoo Japan Corp テレビ番組のメタ情報に基づく検索方法、検索システム、及び検索ターム生成装置
JP2011180901A (ja) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 経験情報の再利用性評価装置及び方法及びプログラム

Similar Documents

Publication Publication Date Title
KR101554293B1 (ko) 교차 언어 정보 검색
CN101019119B (zh) 基于名称的url输入
US9158846B2 (en) Entity detection and extraction for entity cards
US8661049B2 (en) Weight-based stemming for improving search quality
US20070156748A1 (en) Method and System for Automatically Generating Multilingual Electronic Content from Unstructured Data
US20020032693A1 (en) Method and system of establishing electronic documents for storing, retrieving, categorizing and quickly linking via a network
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
US20110307482A1 (en) Search result driven query intent identification
CN103620604A (zh) 按类别暴露搜索历史
US20210103622A1 (en) Information search method, device, apparatus and computer-readable medium
US20050138079A1 (en) Processing, browsing and classifying an electronic document
Atwan et al. Semantically enhanced pseudo relevance feedback for Arabic information retrieval
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
JP2002230020A (ja) 情報検索装置、情報検索方法、及び記憶媒体
Khan et al. A content-based technique for linking dual language news articles in an archive
Ramirez et al. ACE: improving search engines via Automatic Concept Extraction
JP2002123550A (ja) 情報検索装置、方法、及び記憶媒体
JP2002175329A (ja) 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
Modi et al. Multimodal web content mining to filter non-learning sites using NLP
Liu et al. Context-based online medical terminology navigation
JP4289891B2 (ja) 情報検索装置、情報検索方法およびプログラム
JP2002108936A (ja) 情報検索装置及びその制御方法及びコンピュータ読み取り可能な記憶媒体
JP2002123551A (ja) 情報検索装置、情報検索方法、及び記憶媒体
Eldin et al. Cross-language semantic web service discovery to improve the selection mechanism by using data mining techniques
KR20100039968A (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060404

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626