JP2002175329A - 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 - Google Patents

情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体

Info

Publication number
JP2002175329A
JP2002175329A JP2000373242A JP2000373242A JP2002175329A JP 2002175329 A JP2002175329 A JP 2002175329A JP 2000373242 A JP2000373242 A JP 2000373242A JP 2000373242 A JP2000373242 A JP 2000373242A JP 2002175329 A JP2002175329 A JP 2002175329A
Authority
JP
Japan
Prior art keywords
search
word
information
similarity
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000373242A
Other languages
English (en)
Inventor
Yuji Kobayashi
雄二 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000373242A priority Critical patent/JP2002175329A/ja
Publication of JP2002175329A publication Critical patent/JP2002175329A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 操作者に指定された検索要求に従って、適切
な概念類似情報検索を行う。 【解決手段】 複数の文章が格納されたデータベースの
中から所望の文章を検索すべく、操作者によって入力さ
れた検索語あるいは検索文と、該複数の文章をなす言語
表現された文字情報との類似性を評価する検索要求概念
特徴1と、該検索語あるいは検索文と該文字情報との類
似性を評価するところの、該検索要求概念特徴1とは異
なる評価尺度である検索要求概念特徴2とを構築する(S
3004, S3011)と共に、それらを用いて類似性評価を行い
(S3008, S3014)、取得した類似性評価の結果に基づい
て、当該入力された検索語あるいは検索文に対応する所
望の文章を、当該データベースの中から検索する(S301
6)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数のマルチメデ
ィア情報を管理し、その管理されているマルチメディア
情報から所望のマルチメディア情報を検索する情報検索
装置及び情報検索方法及びコンピュータ読み取り可能な
記憶媒体に関する。
【0002】
【従来の技術】従来より、情報検索の分野においては、
例えば、画像等の情報に、その情報のコンテンツを記述
する文書或いは文字が付帯された所謂マルチメディア情
報を検索する情報検索装置が提案されており、このよう
な装置として、例えば、所望の情報を表す語或いは文を
操作者が入力するのに応じて、入力された語或いは文と
一致する語或いは文を、予めデータベースとして蓄積さ
れている多数のマルチメディア情報の中から検索(取
得)する、所謂、全文検索と呼ばれる手法を適用した情
報検索装置が知られている。
【0003】また、近年においては、操作者によって入
力された語或いは文と一致する語或いは文を単に検索す
るのみならず、入力された語或いは文と類似する概念と
判断される語或いは文を保持するマルチメディア情報を
検索する、所謂、類似概念検索と呼ばれる手法を適用し
た情報検索装置も提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の情報検索装置においては、検索対象として既に蓄積
されている文書(蓄積文書)に出現する語群の中から、
操作者によって入力された語あるいは文に関連する関連
語を抽出するので、予め用意した蓄積文書が少ない場合
には、十分な量の関連語を得ることができず、検索要求
を満足する適切な検索結果を得ることができないという
問題点がある。
【0005】更に、蓄積文書に出現しない関連語には展
開することはできないため、検索要求に相応する適切な
関連語を得ることができないという問題点がある。この
場合、検索要求の概念を補完すべく、検索要求に対応づ
けられた関連語を予め備えておくことで、蓄積文書の多
寡に関わらず、関連語による検索要求の補完を行うこと
ができる。しかしながら、すべての検索要求に対して関
連語を予め用意することは非現実的であり、また、情報
検索装置内に予め用意した関連語が、日々生まれている
新しい語、新しい概念に追従できないという問題点があ
る。
【0006】また、操作者によって入力された語或いは
文が内包する概念と、データベース内に予め蓄積された
マルチメディア情報の内包する概念との類似性に基づい
て情報検索が行われる手法が提案されている。この手法
においては、そのデータベースの中から操作者が所望の
情報を取得しようとして入力する検索要求を表現する文
(検索要求文)が短い、或いは単一の語で表される場
合、入力された検索要求に対応する概念に最適な表現を
情報検索装置の内部において設定できないことから、結
果として、自動検索を行っても、操作者が想定していた
所望の検索結果をヒットできない場合も多い。具体的に
は、例えば、検索に先立って操作者がデータベースの中
から「モバイル」を概念とする機器に関する情報の取得
を所望し、その情報を検索するための検索要求として、
「モバイル」という語を入力した場合、従来の情報検索
装置においては、検索要求文の「モバイル」という語を
含むマルチメディア情報を検索するのみであるため、検
索の結果入手したマルチメディア情報が実際に「モバイ
ル」を概念とする機器に関する情報である、という点で
の妥当性は保証されておらず、入力された検索要求に類
似する概念を検索しているとは必ずしも言えない。
【0007】また、例えば、語あるいは文を内包する概
念の表現として、その概念を構成する語あるいは文を構
成している複数の語を1つの構成要素とみなして、それ
ら複数の語に従って多変量尺度による相関判定を行う手
法が提案されている。この手法においては、検索要求と
して操作者によって入力された語あるいは文と、検索対
象となるデータベース内のマルチメディア情報に付帯す
る語あるいは文との間で使用されている用語が異なる
と、自動検索に当たって両者の間の類似性を適切に判定
できないために、実際の語あるいは文においては当該検
索要求の概念と類似であっても、妥当な類似概念を内包
するマルチメディア情報をヒットできないという問題点
がある。
【0008】また、例えば、語あるいは文が内包する概
念の表現として、その語あるいは文を構成している用語
には依存せずに、その語あるいは文を構成している語が
本質的に保持していると考えられるところの、普遍的で
単一の意味概念を基底とする集合を当該概念を構成する
1つの構成要素とみなして、その構成要素をなす複数の
意味概念基底に従って多変量尺度による相関判定を行う
手法が提案されている。この手法においては、検索要求
として入力された語あるいは文と、検索対象となるデー
タベース内のマルチメディア情報に付帯する語あるいは
文との間で使用されている用語が異なっていても、普遍
的な意味概念基底に従って相関判定がなされるため、用
語選択の適否に関わらず妥当な類似概念を内包するマル
チメディア情報をヒットすることができる。しかしなが
ら、この手法においては、検索要求を表す語あるいは文
と、検索対象となるマルチメディア情報に付帯する語あ
るいは文を構成するそれぞれの語との間で、それらの語
が有する普遍的な意味概念に関する情報を得ることがで
きない場合(即ち、未知概念の語であった場合)には、
適切な類似性判定を行うことができず、妥当な類似概念
を内包するマルチメディア情報をヒットできないという
問題点がある。
【0009】そこで本発明は、操作者に指定された検索
要求に従って、適切な概念類似情報検索を行う情報検索
装置及び情報検索方法及びコンピュータ読み取り可能な
記憶媒体の提供を目的とする。
【0010】
【課題を解決するための手段】上記の目的を達成するた
め、本発明に係る情報検索装置は、以下の構成を特徴と
する。
【0011】即ち、データベースに予め格納された複数
のマルチメディア情報の中から所望のマルチメディア情
報を検索する情報検索装置であって、前記データベース
の中から所望のマルチメディア情報を検索するための検
索語あるいは検索文を入力可能な入力手段と、前記入力
手段によって入力された検索語あるいは検索文と、前記
複数のマルチメディア情報に付帯する言語表現された文
字情報との類似性を評価する第1の類似性評価尺度情報
と、該検索語あるいは検索文と該文字情報との類似性を
評価するところの、該第1の類似性評価尺度情報とは異
なる評価尺度である第2の類似性評価尺度情報とを用い
て類似性評価を行う類似性評価手段と、前記入力手段に
よって入力された検索語あるいは検索文に対応する所望
のマルチメディア情報として、前記類似性評価手段によ
る類似性評価の結果に基づいて、前記データベースの中
からマルチメディア情報を検索する検索手段とを備える
ことを特徴とする。
【0012】好適な実施形態において、前記入力手段に
よって入力され得る検索語あるいは検索文と関連性のあ
る語を展開語として、その検索語あるいは検索文と対応
づけされた状態で予め記憶されている検索語展開辞書を
更に備え、前記類似性評価手段は、前記第1の類似性評
価尺度情報として、前記文字情報の概念特徴を表す類似
性評価尺度を構築する第1の類似性評価尺度構築手段
と、前記検索語あるいは検索文に対応する検索展開語
を、前記検索語展開辞書から取得し、その取得した検索
展開語に基づいて、前記検索語あるいは検索文の概念特
徴を表す類似性評価尺度を構築する第2の類似性評価尺
度構築手段とを含み、前記検索手段は、前記第1及び第
2の類似性評価尺度構築手段によって構築されたところ
の、前記第1の類似性評価尺度情報と、前記第2の類似
性評価尺度情報との類似度を算出すると共に、算出した
類似度に応じて、前記入力手段によって入力された検索
語あるいは検索文に類似するマルチメディア情報を、前
記データベースの中から検索することを特徴とする。
【0013】また、例えば前記類似性評価手段は、前記
第1の類似性評価尺度情報によって類似性を評価できな
いときに、前記第2の類似性評価尺度情報による類似性
の評価を行うと良い。
【0014】また、例えば前記第1の類似性評価尺度情
報は、語の内包する意味概念の集合であり、前記第2の
類似性評価尺度は、語の集合であると良い。
【0015】また、例えば前記第1及び第2の類似性評
価尺度情報は、語の内包する意味概念の集合である、或
いは、語の集合であると良い。
【0016】また、例えば前記検索語展開辞書に記憶す
べく、予め記憶された展開語は、前記検索語から連想派
生可能な連想語であると良い。
【0017】また、上記の同目的を達成するため、本発
明に係る情報検索方法は、以下の構成を特徴とする。
【0018】即ち、データベースに予め格納された複数
のマルチメディア情報の中から所望のマルチメディア情
報を検索する情報検索方法であって、前記データベース
の中から所望のマルチメディア情報を検索するための検
索語あるいは検索文を入力可能な入力工程と、前記入力
工程にて入力された検索語あるいは検索文と、前記複数
のマルチメディア情報に付帯する言語表現された文字情
報との類似性を評価する第1の類似性評価尺度情報と、
該検索語あるいは検索文と該文字情報との類似性を評価
するところの、該第1の類似性評価尺度情報とは異なる
評価尺度である第2の類似性評価尺度情報とを用いて類
似性評価を行う類似性評価工程と、前記入力工程にて入
力された検索語あるいは検索文に対応する所望のマルチ
メディア情報として、前記類似性評価工程にて取得した
類似性評価の結果に基づいて、前記データベースの中か
らマルチメディア情報を検索する検索工程とを有するこ
とを特徴とする。
【0019】好適な実施形態においては、前記入力工程
にて入力され得る検索語あるいは検索文と関連性のある
語を展開語として、その検索語あるいは検索文と対応づ
けされた状態の検索語展開辞書を予め用意する辞書作成
工程を更に有し、前記類似性評価工程は、前記第1の類
似性評価尺度情報として、前記文字情報の概念特徴を表
す類似性評価尺度を構築する第1の類似性評価尺度構築
工程と、前記検索語あるいは検索文に対応する検索展開
語を、前記検索語展開辞書から取得し、その取得した検
索展開語に基づいて、前記検索語あるいは検索文の概念
特徴を表す類似性評価尺度を構築する第2の類似性評価
尺度構築工程とを含み、前記検索工程では、前記第1及
び第2の類似性評価尺度構築工程にて構築されたところ
の、前記第1の類似性評価尺度情報と、前記第2の類似
性評価尺度情報との類似度を算出すると共に、算出した
類似度に応じて、前記入力工程にて入力された検索語あ
るいは検索文に類似するマルチメディア情報を、前記デ
ータベースの中から検索することを特徴とする。
【0020】更に、上記の情報検索装置及び情報検索方
法を、コンピュータによって実現するプログラムコード
が格納されている、コンピュータ読み取り可能な記憶媒
体を特徴とする。
【0021】
【発明の実施の形態】以下、本発明を、文書情報を検索
する情報検索装置に適用した実施形態として、図面を参
照して詳細に説明する。
【0022】<装置構成>図1は、本実施形態における
情報検索装置の装置構成を示すブロック図である。
【0023】図1において、11はマイクロプロセッサ
(CPU)であり、情報検索のための演算や論理判断等
を行ない、アドレスバスAB,コントロールバスCB,
データバスDBを介して、それらのバスに接続された各
構成要素を制御する。
【0024】アドレスバスABは、CPU11が制御の
対象とする構成要素を指示するアドレス信号を転送す
る。コントロールバスCBは、CPU11が制御の対象
とする各構成要素のコントロール信号を転送する。そし
て、データバスDBは、各構成機器相互間のデータ転送
を行なう。
【0025】12は、読出し専用の固定メモリ(RO
M)であり、本実施形態で実行される処理プログラム等
の制御プログラムコードを記憶する。
【0026】13は、1ワード16ビットで構成される
書き込み可能なランダムアクセスメモリ(RAM)であ
り、各構成要素に転送すべき各種データ及び受信した各
種データの一時記憶に用いられる。また、RAM13
は、図2を参照して後述する検索語保持部202、検索
観点保持部203、展開語保持部207、検索概念特徴
1保持部210、検索概念特徴2保持部225、検索結
果保持部213を記憶する。
【0027】14は、大容量記憶装置としての外部メモ
リ(DISK)であり、図2を参照して後述する検索語
展開辞書206、概念辞書208、蓄積文書概念特徴1
保持部209、蓄積文書概念特徴2保持部218、蓄積
文書フォーム保持部219、蓄積文書属性保持部22
0、蓄積文書217、単語インデックス226が格納さ
れる。
【0028】ここで、本実施形態において、蓄積文書2
17は、後述する文書検索処理(図9)における検索対
象としての複数の文書(文書データファイル)が格納さ
れたデータベースである。また、登録文書224は、当
該文書検索処理に必要な各種情報を用意すべく、後述す
る文書登録処理(図12)にて処理の対象とする文書
(文書データファイル)であり、操作者が、当該文書登
録処理の実行に際して、蓄積文書217の中から任意に
選択した文書である。
【0029】更に、外部メモリ14には、図2を参照し
て後述する検索要求入力処理部201、類似検索処理判
定部204、検索語展開処理部205、概念特徴1抽出
処理部209、関連語抽出処理部211、類似概念特徴
検索処理部214、類似フォーム検索処理部215、類
似属性検索処理部216、概念特徴2抽出処理部22
1、文書フォーム判定処理部222、文書属性抽出処理
部223の各処理部を実行するプログラムコードが格納
される。
【0030】尚、外部メモリ14に記憶されるデータ及
びプログラムを格納する記憶媒体としては、ROM,フ
ロッピー(登録商標)ディスク,CD−ROM,DVD
−ROM,メモリカード,光磁気ディスクなどを用いる
ことができる。
【0031】15は、キーボード(KB)であり、アル
ファベットキー,ひらがなキー,カタカナキー,句点等
の文字記号入力キー,検索を指示する検索キー及びカー
ソル移動を指示するカーソル移動キー等のような各種の
機能キーを備えている。
【0032】16は、表示用ビデオメモリ(VRAM)
であり、表示すべきデータのパターンを一時的に蓄え
る。
【0033】17は、CRTコントローラー(CRT
C)であり、表示用ビデオメモリVRAM16に蓄えら
れた描画内容を、表示装置18に表示する役割を担う。
【0034】18は、陰極線管、液晶パネル等の表示装
置(CRT)であり、その表示装置CRTにおけるドッ
ト構成の表示パターンおよびカーソルの表示をCRTコ
ントローラ17で制御する。
【0035】19は、ネットワークコントローラ(NI
C)であり、本実施形態における情報検索装置を、Ethe
rnetなどのネットワークに接続する役割を担う。
【0036】上述した構成を備える情報検索装置は、キ
ーボードKB15を介した操作者による各種入力、並び
にネットワークコントローラ19から供給されるネット
ワーク経由の各種入力に応じて作動する。即ち、キーボ
ードKB15からの入力及び/またはネットワークコン
トローラ19からの入力が当該情報検索装置(図1)に
供給されると、まず、インタラプト信号がマイクロプロ
セッサCPU11に送られ、そのマイクロプロセッサC
PU11が外部メモリDISK14内に記憶してある各
種の制御信号を読み出し、それらの制御信号に従って、
各種の制御が行なわれる。
【0037】また、本実施形態において説明する検索動
作に係わるプログラムを予め格納した記憶媒体を、図1
に示す装置(システム)に供給し、その装置のコンピュ
ータが、記憶媒体に格納されたプログラムコードを読み
出し実行することによっても本実施形態における検索動
作は達成される。
【0038】<機能構成>次に、本実施形態に係る情報
検索装置の機能構成について、図2を参照して説明す
る。
【0039】図2は、本実施形態における情報検索装置
の機能構成を示すブロック図である。
【0040】図2において、201は、例えば操作者に
よってキーボード15を介して入力された所望の検索対
象に関する要求事項(検索文或いは検索語,類似検索観
点等)が設定される検索要求入力処理部である。202
は、検索要求入力処理部201に入力された検索語を記
憶する検索語保持部である。203は、検索要求入力処
理部201に入力された類似検索観点を記憶する検索観
点保持部である。
【0041】204は、検索観点保持部203に記憶さ
れた類似検索観点に従って、実行すべき類似検索処理の
種類を決定する類似検索処理判定部である。
【0042】206は、見出しとなる単語と、その単語
について展開されるべき関連語とが対応する状態で、両
者の関連度と共に格納された検索語展開辞書である。2
05は、検索語保持部202に記憶された検索語或いは
検索文に対して、検索語展開辞書206を参照すること
により、展開可能な関連語に展開する検索語展開処理部
である。207は、検索対象としている検索語について
検索語展開処理部205で展開された関連語を記憶する
展開語保持部である。
【0043】208は、見出しとなる単語の意味特徴が
記述された概念が格納された概念辞書である。209
は、展開語保持部207、概念辞書208、及び登録文
書224を参照して、検索要求文或いは登録文書の概念
特徴を概念特徴1として抽出する概念特徴1抽出処理部
である。
【0044】210は、概念特徴1抽出処理部209に
よって抽出されたところの、検索語202に対する概念
特徴1を保持する検索概念特徴1保持部である。225
は、概念特徴2抽出処理部221によって抽出されたと
ころの、検索語202に対する概念特徴2を保持する検
索概念特徴2保持部である。
【0045】211は、蓄積文書217に蓄積された各
文書から、関連度の高い単語の組を抽出し、抽出した単
語の組みを、検索語展開辞書206に格納する関連語抽
出処理部である。
【0046】221は、登録文書224に対して概念特
徴2を抽出する概念特徴2抽出処理部である。218
は、概念特徴2抽出処理部221で抽出された概念特徴
2を、登録文書224と対応付けて記憶する蓄積文書概
念特徴2保持部である。212は、概念特徴1抽出処理
部209で抽出された登録文書224に対応する概念特
徴1を保持する蓄積文書概念特徴1保持部である。
【0047】214は、蓄積文書概念特徴1保持部21
2、検索概念特徴1保持部210、及び蓄積文書概念特
徴2保持部218を参照して、類似概念検索処理を実行
する類似概念特徴検索処理部である。
【0048】222は、登録文書224の文書フォーム
を判定する文書フォーム判定処理部である。219は、
文書フォーム判定処理部222で判定された文書フォー
ムを登録文書224に対応付けて記憶する蓄積文書フォ
ーム保持部である。215は、蓄積文書フォーム保持部
219を参照して、類似フォーム文書を検索する類似フ
ォーム検索処理部である。
【0049】223は、登録文書224の文書属性を抽
出する文書属性抽出処理部である。220は、文書属性
抽出処理部223で抽出された文書属性を、登録文書2
24に対応付けて記憶する蓄積文書属性保持部である。
216は、蓄積文書属性保持部220を参照して、類似
属性文書を検索する類似属性検索処理部である。
【0050】そして213は、類似概念特徴検索処理部
214、類似フォーム検索処理部215、及び類似属性
検索処理部216の各検索処理部の処理結果を保持する
検索結果保持部である。
【0051】次に、検索要求入力処理部201におい
て、類似検索の検索要求文或いは検索要求語と、どの観
点で類似検索を実行するかを操作者が指示する場合の操
作パネルの表示例について、図3を用いて説明する。
【0052】図3は、本実施形態における検索要求文或
いは検索要求語と、類似検索観点とを指示する場合の操
作パネルの表示例を示す図である。
【0053】図3において、301は、検索要求をすべ
く入力操作を行う表示ウィンドウである。302は、検
索要求の対象となる文或いは語を入力する検索文入力領
域である。303は、操作者による入力中の検索要求文
を例示しており、図示においては「モバイル機器の市場
動向」と入力されている。304は、検索文入力領域に
おける入力位置を示す入力カーソルである。
【0054】305,306,307は、類似文書検索
における類似性の判別観点を操作者が指定可能なラジオ
ボタンであり、具体的には、文書内容類似305は、そ
れぞれ文書の意味内容の観点で類似している文書の検索
を指示する場合に指定する。文書フォーム類似306
は、文書の体裁,書式が類似している文書の検索を指示
する場合に指定する。文書属性類似307は、タイト
ル,作成者,作成日時,管理者,分類,キーワードなど
の文書の書誌的属性情報が類似している文書の検索を指
示する場合に指定する。また、本実施形態において、こ
れらのラジオボタンによる操作者による明示的な指示が
なされない場合には、暗黙的に文書内容類似305が選
択される。
【0055】308は、検索処理の実行を指定する検索
実行ボタンであり、検索実行ボタン308を押下するこ
とで、指定した検索処理が実行される。309は、検索
処理の終了或いは中止を指定するキャンセルボタンであ
り、キャンセルボタン309を押下すると、ただちに検
索処理を終了し、表示ウィンドウ301を閉じて終了す
る。
【0056】310は、検索ボタン308の押下によっ
て検索処理を行った結果を表示する検索結果表示領域で
あり、図示においては検索処理がなされていない状態で
あるので、何も表示されていない。
【0057】次に、検索要求入力処理部201の処理に
より、上述した図3の画面において類似検索の検索要求
文或いは検索要求語と、どの観点で類似検索を実行すべ
きかが操作者により指示され、それらの指示項目に従っ
て検索処理が実行された場合について、図4を参照して
説明する。
【0058】図4は、本実施形態における検索結果の表
示例、及び引き続き類似検索を実行する場合の検索要求
文或いは検索要求語或いは類似要求文書指定と、類似検
索観点の入力を示す図である。
【0059】図4において、401は、図3の310に
相当する検索結果の表示領域である。402は、検索結
果の順位を示すランク表示領域である。本実施形態にお
いて、検索結果は、検索要求に類似している順にランク
付けされ、ランク順に表示される。図4の表示例では、
ランク25位から30位までの検索結果が表示されてい
る。
【0060】403には、検索された文書の表題が表示
され、404には、検索された文書のファイル名が表示
される。405には、検索された文書の大意が掴める程
度の内容が表示される。即ち、文書内容表示405に
は、予め文書の書誌的属性として与えられた要約文或い
は、文書から自動的に要約した要約文、或いは文書の一
部を大意として抽出した大意文などが表示される。
【0061】406は、検索結果表示領域401に表示
しきれない場合に、表示領域401内において検索結果
を部分表示しながら、表示されていない他の部分を表示
するために、表示位置を指定するために同種のウィンド
ウ表示装置において用いられているエレベータバーであ
る。
【0062】図4に例示されている表示状態は、検索文
303に示された「モバイル機器の市場動向」に対し
て、文書内容類似ラジオボタン305で指示された文書
内容類似検索を行った検索結果を表示している。このと
き、操作者が引き続いて類似検索を行う場合には、検索
要求文入力領域302に上述した如く検索文を入力する
か、或いは検索結果表示領域401から、類似検索を所
望する文書の表示行を選択すると共に、選択した表示行
を検索要求文入力領域302にドラッグ&ドロップする
ことで、選択された文書の文書内容が検索要求文入力領
域302にコピー(不図示)すればよい。
【0063】<検索語展開辞書203>次に、検索語展
開辞書203の構成について、図5を用いて説明する。
【0064】図5は、本実施形態における検索語展開辞
書の構成を例示する図である。
【0065】検索語展開辞書203は、図5に示すよう
に、展開情報の識別情報を示すID501と、展開見出
し語502、展開見出し語502と関連する展開語50
3、展開見出し語502と展開語503との関連度50
4、展開語の種別を示すFLG505の各項目が対応付
けられた状態で予め格納されている。
【0066】即ち、ID501は、検索展開辞書203
に格納された各レコードに対して一意に付与された識別
番号である。展開見出し語502は、展開見出し語とな
るべき単語が格納される。展開語503は、展開見出し
語502と関連する連想語、関連語などの展開可能な単
語である。関連度504は、展開見出し語502に対応
する展開語503の関連性の度合(関連度)を、0から
9の数値で表わしており、格納されている数値が高いほ
ど関連性が高いことを示す。FLG505は、展開語種
別(即ち、展開見出し語502に対応する展開語503
が、標準的に予め用意された初期登録語であるのか、或
いは、蓄積文書から抽出された関連語であるのかの種
別)を示す識別情報であり、「S」は初期登録されてい
る標準展開語,「A」は蓄積文書から抽出された関連語
を示す。
【0067】<概念辞書208>次に、概念辞書208
の構成について、図6を用いて説明する。
【0068】図6は、本実施形態における概念辞書の構
成を示す図である。
【0069】概念辞書208は、単語の概念を、普遍的
な意味素の重みを要素とする多次元ベクトルで表したも
のであり、図6に示すように、概念辞書の見出しとなる
単語601と、256次元で表される意味素ベクトルの
各要素を表す添え字602とに対応した状態で、意味素
ベクトルの各要素の重み(重み付け値)603が格納さ
れている。この意味素ベクトルの重み603は、0から
1の間の実数をとり、意味素ベクトルの大きさが1とな
るよう正規化して格納する。
【0070】ここで、概念辞書208を構成する多次元
ベクトルの要素となる普遍的な意味素とは、ひとつのま
とまった意味概念を表すラベルであり、例えば、「こ
れ、それ、あれ、どっち」などの語が内包している「指
示の概念」、「クラス、グレード、級、ランク、順位、
劣等、優劣、優等」などの語が内包している「等級の概
念」、「変化、変身、革新、勃興」などの語が内包して
いる「変化の概念」、「協力、挨拶、団結、握手、友
好、国交、交友」などの語が内包している「交わりの概
念」、「動物、哺乳類、ペンギン、犬、人間、金魚」な
どの語が内包している「生物の概念」等のように、特定
の語に依存しない各々独立した普遍的な意味素を用い
る。本実施形態では、図6に例示するように256種の
意味素を用い、256次元の概念表現ベクトルを構成す
る。
【0071】<単語インデックス226>次に、単語イ
ンデックス226の構成について、図7及び図8を用い
て説明する。
【0072】図7は、本実施形態における単語インデッ
クスの構成を示す図である。
【0073】単語インデックス226は、登録文書22
4中に出現する全ての単語について、文書中の出現頻度
を格納するテーブルである。図7において、テーブルの
第1列情報である701は、登録文書を一意に同定する
文書IDである。テーブルの第2列情報から第n列情報
702は、図8において示される各々の単語を表す添え
字である。テーブルの末尾行703は、各々の単語の出
現数の総和を格納する。図7において、文書IDが00
146である文書は、添え字1256の示す単語「市
場」が12回文書中に出現していることを示している。
【0074】次に、単語インデックス226において、
単語と、単語インデックステーブルの添え字の対応を格
納した対応テーブルの構成について、図8を用いて説明
する。
【0075】図8は、本実施形態における単語インデッ
クスと単語との対応テーブルの構成を示す図であり、当
該対応テーブルには、単語801と対応付けられた一意
の単語インデックス802とが対応付けられた状態で格
納されており、例えば、単語「市場」の単語インデック
スは、1256である。
【0076】<文書類似検索処理>次に、本実施形態で
実行される文書類似検索処理について、図9を用いて説
明する。
【0077】図9は、本実施形態において情報検索装置
(図2)が実行する文書類似検索処理を示すフローチャ
ートである。
【0078】同図において、ステップS1001では、
図2における検索要求入力処理部201の動作を行う処
理モジュールによって、検索要求入力処理を行う。尚、
この検索要求入力処理の詳細については後述する。
【0079】ステップS1002では、ステップS10
01の処理で図2における検索観点保持部203に記憶
された類似検索観点に従って、類似検索処理種別を判定
する。即ち、文書概念類似検索処理(ステップS100
3)、文書フォーム類似検索処理(ステップS100
4)、文書属性類似検索処理(ステップS1005)の
いずれかの処理に分岐する。
【0080】ステップS1003では、検索要求入力処
理(ステップS1001)で入力された検索要求に従っ
て、文書内容の表す概念が類似する文書を検索する文書
概念類似検索処理を行う。尚、この文書概念類似検索処
理の詳細については後述する。
【0081】ステップS1004では、検索要求入力処
理(ステップS1001)で入力された文書IDと文書
体裁が類似する文書を検索する文書フォーム類似検索処
理を行う。この文書フォーム類似検索処理には、現在で
は一般的な類似検索手法を採用するものとして、本実施
形態における説明は省略する。
【0082】ステップS1005でで、検索要求入力処
理(ステップS1001)で入力された文書IDと文書
の書誌的属性情報が類似している文書を検索する文書属
性類似検索処理を行う。この文書属性類似検索処理に
は、文書のメタデータを検索する現在では一般的な類似
検索手法を採用するものとして、本実施形態における説
明は省略する。
【0083】ステップS1006では、ステップS10
03,ステップS1004,ステップS1005のいず
れかのステップにおいて検索された検索結果を、図2に
おける検索結果保持部213より取り出して表示する。
尚、検索結果を表示する処理には、現在では一般的な手
法を採用するものとして、本実施形態における説明は省
略する。
【0084】(検索要求入力処理)次に、ステップS1
001の検索要求入力処理の詳細について、図10を用
いて説明する。
【0085】図10は、本発明の実施形態における検索
要求入力処理の詳細を示すフローチャートである。
【0086】同図において、ステップS2001では、
操作者の指示操作により、検索要求の対象となる検索文
が、図3を参照して上述した如く、検索文入力領域30
2内の入力カーソル304の示す位置に入力される。こ
こで、検索文は、単一の語であってもよいし、複数の語
からなる文であってもよい。検索文の入力は、KB15
から入力された文字コードをRAM13上の検索語保持
部202に格納することにより行われる。
【0087】次にステップS2002では、検索文入力
領域302への入力があったかどうか判定し、検索文入
力領域302への検索文入力がなく、検索結果表示領域
401に表示された検索結果文書のいずれかが検索文入
力領域302へドラッグされたことを検知したならば、
ステップS2003へ処理を分岐し、検索文入力を検知
したならば、ステップS2006の処理へ分岐する。
【0088】ステップS2003では、検索文入力領域
302へドラッグされた文書の文書ファイル名を、ファ
イル名404(図4参照)に表示される情報より取得
し、そのファイル名に対応する文書を、読み出しのため
にオープンする。
【0089】次にステップS2004では、ステップS
2003にてオープンした文書の内容を読み込み、ステ
ップS2005において、読み込んだ文書内容を、新た
な検索要求文として、検索語保持部202に格納すると
共に、検索要求文入力領域302にその内容を表示す
る。
【0090】ステップS2006では、類似文書検索を
どの観点で行うかを、文書内容類似ボタン305、文書
フォーム類似ボタン306、文書属性類似ボタン307
のいずれがチェックされたかによって判別し、選択され
た類似検索観点を検索観点保持部203へ格納し、処理
を終了する。
【0091】(文書概念類似検索処理)次に、ステップ
S1003の文書概念類似検索処理の詳細について図1
1を用いて説明する。
【0092】図11は、本実施形態における文書概念類
似検索処理の詳細を示すフローチャートである。
【0093】ステップS3001では、上述した検索要
求入力処理(図10)にて検索語保持部202に格納さ
れている検索文(操作者が所望の文書を検索するために
入力した文、または再検索のために選択された文)を取
り出し、取り出した検索文を構成する文字列を、単語
(検索語)に分割する。検索文の単語(検索語)への分
割は、形態素解析処理として公知の手法を適用する。
【0094】次にステップS3002では、ステップS
3001で得られた全ての検索語について、検索展開辞
書206の展開見出し語502と一致する展開語データ
を検索する。そして、検索語に一致する見出し語が存在
する場合には、その展開語503を、対応する関連度5
04及び検索語と共に、全て展開語保持部207に格納
する。
【0095】ステップS3003では、ステップS30
02にて展開語保持部207に格納されている展開語を
取り出し、概念辞書208の見出し語601(図6)と
一致するものがあるか検索する。そして、展開語に一致
する概念辞書見出し語601が存在する場合には、対応
する概念ベクトルデータを、概念辞書208より取り出
す。
【0096】次にS3004では、取得した概念ベクト
ルデータの構成要素の成分値と、展開語保持部207に
展開語と対応して格納されている関連度504の値とを
乗じて、得られた積を検索要求概念特徴1に加算するこ
とにより、類似性を評価する第1の類似性評価尺度情報
として、検索要求概念特徴1データを構築する。尚、検
索要求概念特徴1は、予めベクトルの全ての次元要素を
0に初期化しておく。
【0097】ステップS3005では、展開語保持部2
07に格納された全ての展開語を処理したかどうか判定
し、全ての展開語の処理を終えたならば、検索要求概念
特徴1ベクトルデータを、各要素の2乗和が1になるよ
う正規化を行った後、検索概念特徴1保持部210に格
納し、ステップS3006へ分岐する。未処理の展開語
があればステップS3003の処理へループする。
【0098】次にステップS3006では、検索要求概
念特徴1ベクトルデータが構築できたかどうかを、検索
要求概念特徴1ベクトルデータがゼロベクトルであるか
どうかによって判定し、この判定の結果、ゼロベクトル
であった場合は、ステップS3010の処理へ分岐し、
一方、検索要求概念特徴1ベクトルデータが構築できた
場合は、ステップS3007へ分岐する。
【0099】ステップS3007では、ステップS30
06の判断において検索要求概念特徴1ベクトルデータ
がゼロではなく、検索要求概念特徴1ベクトルデータが
構築できたと判定されたので、後述する文書登録処理
(図13)のステップS5007において予め格納した
ところの、対応する蓄積文書概念特徴1ベクトルデータ
を、蓄積文書概念特徴1保持部212より取得する。
【0100】ステップS3008では、取得した蓄積文
書概念特徴1ベクトルデータと、検索要求概念特徴1保
持部210に格納された検索要求概念特徴1ベクトルデ
ータとの概念類似度を算出する。本ステップにおいて、
概念類似度の算出は、当該両ベクトルデータの余弦測度
によって求めることができる。算出した概念類似度は、
蓄積文書の文書IDと対応付けて不図示のバッファメモ
リに一時記憶する。
【0101】ステップS3009では、全ての蓄積文書
についてステップS3008の処理を終えたかどうかを
判定し、未処理の蓄積文書があれば、ステップS300
7へループし、全ての蓄積文書に対して処理を終えてい
ればステップS3016へ分岐する。
【0102】一方、ステップS3006の判断において
検索要求概念特徴1ベクトルデータがゼロのままであ
り、検索要求概念特徴1ベクトルデータが構築できなか
ったと判定された場合には、以下に説明するステップS
3010乃至ステップS3015の各ステップの処理に
より、検索要求概念特徴2ベクトルデータを構築し、蓄
積文書の概念特徴2ベクトルデータとの概念類似度を算
出することにより、文書内容の類似概念検索を行う。
【0103】即ち、ステップS3010において、展開
語保持部207より展開語を取り出す。
【0104】次に、ステップS3011では、単語イン
デックス226を参照して、単語インデックスを次元要
素とするベクトルデータを、検索要求概念特徴2データ
として構築する。この検索要求概念特徴2データは、上
述した検索要求概念特徴1とは異なる評価尺度であると
ころの、類似性を評価する第2の類似性評価尺度情報で
ある。即ち、単語インデックステーブルから単語ID8
02がインデックスとして取得できる単語については、
そのインデックスを添え字とする要素値として、該単語
の出現頻度を与え、出現しなかった単語のインデックス
を添え字とする要素値として0を与える。
【0105】ステップS3012では、展開語保持部2
07に格納された全ての展開語を処理し終えたかどうか
判定し、未処理の展開語があればステップS3010へ
ループし、全ての展開語の処理を終えれば、検索要求概
念特徴2ベクトルデータの各要素値の2乗和が1となる
ように正規化して、検索要求ステップS3013へ分岐
する。
【0106】ステップS3013では、後述する文書登
録処理(図13)のステップS5007において予め格
納したところの、蓄積文書概念特徴2ベクトルデータ
を、蓄積文書概念特徴2保持部218より取り出し、も
し、ステップS3011で構築した検索要求概念特徴2
ベクトルデータの次元要素のうち、蓄積文書概念特徴2
ベクトルデータの次元要素にないものがあれば、その単
語インデックスに相当する成分要素値を0とし、蓄積文
書概念特徴2ベクトルデータの要素として追加する。
【0107】ステップS3014では、ステップS30
13で取得した蓄積文書概念特徴2ベクトルデータと、
ステップS3011で算出した検索要求概念特徴2ベク
トルデータとの概念類似度を算出する。本ステップにお
ける概念類似度の算出は、当該両ベクトルデータの余弦
測度によって求めることができる。算出した概念類似度
は、蓄積文書の文書IDと対応付けて不図示のバッファ
メモリに一時記憶する。
【0108】そしてステップS3016では、ステップ
S3008或いはステップS3014において算出さ
れ、且つ不図示のバッファメモリに格納された類似概念
の全ての検索結果を、概念類似度の降順にソートし、そ
のソートした結果を検索結果保持部213に格納して、
終了する。
【0109】<文書登録処理>次に、文書登録処理につ
いて図12を参照して説明する。本実施形態において、
文書登録処理は、当該情報検索装置による効率的な情報
検索を担保すべく、上述した文書検索処理による文書の
検索とは別個に、メンテナンスの位置付けで定期または
不定期に実行される。
【0110】図12は、本実施形態で実行される文書登
録処理を示すフローチャートである。
【0111】同図において、ステップS4001では、
登録文書の内容から概念特徴を抽出して登録する文書内
容概念登録処理を行う。尚、この文書内容概念登録処理
の詳細については後述する。
【0112】次にステップS4002では、登録文書を
含めた蓄積文書217から検索関連語を抽出して検索語
展開辞書に登録する処理を行う。尚、この検索関連語抽
出処理の詳細については後述する。
【0113】次にステップS4003では、概念辞書2
08(図6)に見出し単語601として登録されていな
い検索語について概念特徴1を推定し、追加登録を行う
検索語概念抽出処理を行う。尚、この検索語概念抽出処
理の詳細については後述する。
【0114】次にステップS4004では、登録文書の
スタイル,体裁,フォーマットなどの文書フォーマット
情報に基づいて、文書フォーム情報を登録する文書フォ
ーム登録処理を行う。この処理は同種の情報検索装置に
おいて公知の処理を行うものである。
【0115】次にステップS4005では、登録文書の
タイトル,作者,管理者,作成日時,作成部門,作成目
的,その他の文書に附帯するメタデータを文書属性とし
て登録する文書属性登録処理を行う。この処理は同種の
情報検索装置において公知の処理を行うものである。
【0116】そして、ステップS4006では、対象と
している登録文書に、ステップS4001乃至ステップ
S4005の各ステップにて取得した各種データを対応
付けした状態で、登録文書224に登録する。
【0117】(文書内容概念登録処理)次に、ステップ
S4001の文書内容概念登録処理の詳細について図1
3を用いて説明する。
【0118】図13は、本実施形態における文書概念登
録処理の詳細を示すフローチャートである。
【0119】同図において、ステップS5001では、
登録対象とする登録文書224(対象登録文書)の文字
列を構成する単語を抽出する。単語の抽出は、形態素解
析処理として一般に用いられる手法を適用する。
【0120】次にステップS5002では、ステップS
5001にて抽出した各単語について、単語インデック
ス226への登録を行う。即ち、単語インデックステー
ブル内の単語801に一致する単語であれば、該当する
単語IDを取得し、取得した単語IDをインデックスと
する当該テーブルの列情報に、対象登録文書における出
現頻度を格納する。一方、単語インデックステーブルの
単語801と一致しない単語については、その単語を単
語インデックステーブルに追加すべく、当該単語に対し
て新規に一意な単語IDを割り振り、割り振られた単語
IDを当該テーブルの列情報の欄に加え、登録済みの蓄
積文書に対しては頻度として0を格納し、対象登録文書
に対しては出現頻度を格納する。
【0121】次にステップS5003では、単語インデ
ックス226を参照して、文書概念特徴2ベクトルデー
タを構築する。即ち、単語インデックス226の対象登
録文書の行データを取り出し、各単語インデックスに対
する成分要素として、出現頻度を与える。
【0122】ステップS5004では、ステップS50
01にて抽出した単語と一致する見出し語601がある
か否かを概念辞書208にて検索し、その検索の結果、
一致する見出し語が存在すれば、対応する概念特徴1ベ
クトルデータを取り出す。
【0123】ステップS5005では、ステップS50
04にて取り出した概念特徴1ベクトルデータに頻度に
応じた重みを乗じて、算出した積を、ステップS500
3にて構築した蓄積文書概念特徴2ベクトルデータに加
算する。ここで頻度に乗じた重みとは、文書内単語頻度
(TF値)と逆文書頻度(IDF)の積に応じて与える
ものとする。
【0124】ステップS5006では、登録文書の全て
の単語について処理を終えたかどうか判定し、未処理の
単語があればステップS5001へループし、全ての単
語について処理を終えていればステップS5007へ分
岐する。
【0125】そして、ステップS5007では、文書概
念特徴1ベクトルデータをベクトル要素の2乗和が1と
なるように正規化し、その正規化したデータを、図11
のステップS3008にて使用する蓄積文書概念特徴1
ベクトルデータとして、蓄積文書概念特徴1保持部21
2に登録する。また、文書概念特徴2ベクトルデータ
も、同様に要素の2乗和が1となるように正規化して長
さをそろえて、その正規化したデータを、図11のステ
ップS3014にて使用する蓄積文書概念特徴2ベクト
ルデータとして、蓄積文書概念特徴2保持部218に登
録して終了する。
【0126】(検索関連語抽出処理)次に、ステップS
4002の検索関連語抽出処理の詳細について図14を
用いて説明する。
【0127】図14は、本実施形態における検索関連語
抽出処理の詳細を示すフローチャートである。
【0128】同図において、ステップS6001では、
登録文書224(対象登録文書)の文字列を構成する単
語を抽出する。単語の抽出は、形態素解析処理として一
般に用いられる手法を適用する。
【0129】ステップS6002では、抽出された各々
の単語について、登録文書224に出現する他の単語と
の相関度を求めて、関連性の高い共起語を取得する。相
関度の求め方としては、単語インデックステーブル22
6を参照して、他の文書への出現頻度は低いが、当該対
象登録文書において、注目する単語と特異的に共起して
出現する単語を、単語頻度(TF値)と逆文書頻度(I
DF値)との積が最大になるものからランク付けして決
定する。
【0130】ステップS6003では、ステップS60
02で求めた共起語が検索語展開辞書206に展開語5
03として既に登録済みであるかどうか検索し、その検
索の結果、登録済みであればステップS6002へルー
プして次の共起語を取得し、未登録の展開語であれば、
ステップS6004の処理へ分岐する。
【0131】ステップS6004では、ステップS60
03にて検索語展開辞書206に未登録と判定された共
起語を、該単語に対応する展開語として検索語展開辞書
206に追加登録する。その際、ステップS6002に
て求めた共起相関度を按分して関連度504の値とし、
FLG505として追加展開語であることを示すフラグ
情報「A」と対応付けて登録する。
【0132】ステップS6005では、全ての共起語を
処理したか判定し、未処理の共起語があればステップS
6002へループする。
【0133】そしてステップS6006では、登録文書
224の全ての単語を処理したか判定し、未処理の単語
があればステップS6001へループし、全ての単語の
処理を終えれば終了する。
【0134】(検索語概念抽出処理)次に、ステップS
4003の検索語概念抽出処理の詳細について図15を
用いて説明する。
【0135】図15は、本発明実施形態の検索語概念抽
出処理の詳細を示すフローチャートである。
【0136】ステップS7001では、概念辞書208
の見出し語601に登録されていない未知概念語を取得
する。ここで、未知概念語であるか否かの判定は、単語
インデックス226の単語801に存在して、且つ概念
辞書208の見出し語601に存在しない単語を、未知
概念語であると判定する。
【0137】ステップS7002では、取り出した未知
概念語の関連語を、検索語展開辞書206を検索するこ
とによって取得し、取得した関連語、その関連語を展開
見出し語502として持つ展開語、並びに両者の関連度
504を、展開語保持部207に格納する。
【0138】ステップS7003では、展開語保持部2
07に格納された関連語を取得し、取得した関連語に従
って概念辞書208を検索することにより、当該関連語
に対応する概念特徴1ベクトルデータを取得する。この
とき、当該関連語が概念辞書208に見出し語として登
録されていない場合には、概念特徴1ベクトルデータと
して要素全てが0であるゼロベクトルとする。
【0139】ステップS7004では、ステップS70
03で得られた関連語の概念特徴1ベクトルデータに、
展開語保持部207に格納された関連度を乗じたものを
未知概念語の概念特徴1ベクトルデータに加算する。
尚、未知概念語の概念特徴1ベクトルデータは、予め各
要素値が全て0のゼロベクトルに初期化しておく。
【0140】ステップS7006では、展開語保持部2
07に格納された全ての関連語を処理し終えたかどうか
判定し、未処理の関連語があればステップS7003へ
ループし、全ての関連語について処理し終えればステッ
プS7007へ分岐する。
【0141】ステップS7007では、未知語概念特徴
1ベクトルを各要素値の2乗和が1となるように正規化
した後、概念辞書208に登録する。
【0142】ステップS7008では、全ての未知概念
語を処理し終えたかどうか判定し、未処理の未知概念語
があればステップS7001へループし、全ての未知概
念語について処理を終えたならば終了する。
【0143】上述した本実施形態によれば、類似情報検
索の操作指示を、図3(図4)に例示するような1つの
操作画面にまとめつつ、且つ、何れの類似情報検索を行
うかを、操作者が類似性の観点によって明示的に且つ容
易に指定可能に構成することによって、適切な概念類似
検索を行うことができ、利便性も向上する。
【0144】
【他の実施形態】上述した実施形態では、検索対象とし
て文書情報を用いて説明したが、文書情報以外の内容記
述メタデータが付随した画像情報,動画情報,番組内容
記述情報などのマルチメディア情報についても、内容記
述された文章情報に対して、情報特徴量抽出を行い、情
報特徴量の類似測度を求めることによって、本発明を適
用することができる。
【0145】また、上述した実施形態において、検索対
象となる蓄積文書217、蓄積文書概念特徴1保持部2
12、蓄積文書概念特徴2保持部218、蓄積文書フォ
ーム保持部219、蓄積文書属性保持部220、単語イ
ンデックス226、概念辞書208、検索語展開辞書2
06は、単一の装置を構成するDISK14に配置する
ものとして説明したが、これらの構成要件を異なる装置
に分散配置し、NIC19を介してネットワーク上で処
理を行うようにすることも可能である。
【0146】尚、本発明は複数の機器(例えばホストコ
ンピュータ,インタフェース機器,リーダー,プリンタ
など)から構成されるシステムに適用しても、ひとつの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。
【0147】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システム或いは装置に供給し、その
システム或いは装置のコンピュータ(またはCPUやM
PU)が記憶媒体に格納されたプログラムコードを読出
し実行することによっても達成される。
【0148】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0149】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピーディスク,ハードディ
スク,光磁気ディスク,CD−ROM,CD−R,CD
−RW,DVD−ROM,DVD−RAM,DVD−R
W,DVD+RW,磁気テープ,不揮発性のメモリカー
ド,ROMなどを用いることができる。
【0150】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼動しているOS(オペ
レーティングシステム)などが実際の処理の一部または
全部を行い、その処理によって前述した実施形態の機能
が実現される場合も含まれる。
【0151】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれる。
【0152】
【発明の効果】以上説明したように、本発明によれば、
操作者に指定された検索要求に従って、適切な概念類似
情報検索を行う情報検索装置及び情報検索方法及びコン
ピュータ読み取り可能な記憶媒体の提供が実現する。
【図面の簡単な説明】
【図1】本実施形態における情報検索装置の装置構成を
示すブロック図である。
【図2】本実施形態における情報検索装置の機能構成を
示すブロック図である。
【図3】本実施形態における検索要求文或いは検索要求
語と、類似検索観点とを指示する場合の操作パネルの表
示例を示す図である。
【図4】本実施形態における検索要求文及び類似検索観
点に対応する検索結果の表示例を示す図である。
【図5】本実施形態における検索語展開辞書の構成を例
示する図である。
【図6】本実施形態における概念辞書の構成を示す図で
ある。
【図7】本実施形態における単語インデックスの構成を
示す図である。
【図8】本実施形態における単語インデックスにおける
単語IDと単語の対応関係を示す図である。
【図9】本実施形態において実行される類似文書検索処
理を示すフローチャートである。
【図10】本実施形態において実行される検索要求入力
処理の詳細を示すフローチャートである。
【図11】本実施形態において実行される文書概念類似
検索処理の詳細を示すフローチャートである。
【図12】本実施形態において実行される文書登録処理
を示すフローチャートである。
【図13】本実施形態において実行される文書内容概念
登録処理の詳細を示すフローチャートである。
【図14】本実施形態において実行される検索関連語抽
出処理の詳細を示すフローチャートである。
【図15】本実施形態において実行される検索語概念抽
出処理の詳細を示すフローチャートである。
【符号の説明】
11:CPU, 12:ROM, 13:RAM, 14:DISK, 15:KB, 16:VRAM, 17:CRTC, 18:CRT, 19:NIC,

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 データベースに予め格納された複数のマ
    ルチメディア情報の中から所望のマルチメディア情報を
    検索する情報検索装置であって、 前記データベースの中から所望のマルチメディア情報を
    検索するための検索語あるいは検索文を入力可能な入力
    手段と、 前記入力手段によって入力された検索語あるいは検索文
    と、前記複数のマルチメディア情報に付帯する言語表現
    された文字情報との類似性を評価する第1の類似性評価
    尺度情報と、該検索語あるいは検索文と該文字情報との
    類似性を評価するところの、該第1の類似性評価尺度情
    報とは異なる評価尺度である第2の類似性評価尺度情報
    とを用いて類似性評価を行う類似性評価手段と、 前記入力手段によって入力された検索語あるいは検索文
    に対応する所望のマルチメディア情報として、前記類似
    性評価手段による類似性評価の結果に基づいて、前記デ
    ータベースの中からマルチメディア情報を検索する検索
    手段と、を備えることを特徴とする情報検索装置。
  2. 【請求項2】 更に、前記入力手段によって入力され得
    る検索語あるいは検索文と関連性のある語を展開語とし
    て、その検索語あるいは検索文と対応づけされた状態で
    予め記憶されている検索語展開辞書を備え、 前記類似性評価手段は、 前記第1の類似性評価尺度情報として、前記文字情報の
    概念特徴を表す類似性評価尺度を構築する第1の類似性
    評価尺度構築手段と、 前記検索語あるいは検索文に対応する検索展開語を、前
    記検索語展開辞書から取得し、その取得した検索展開語
    に基づいて、前記検索語あるいは検索文の概念特徴を表
    す類似性評価尺度を構築する第2の類似性評価尺度構築
    手段とを含み、 前記検索手段は、 前記第1及び第2の類似性評価尺度構築手段によって構
    築されたところの、前記第1の類似性評価尺度情報と、
    前記第2の類似性評価尺度情報との類似度を算出すると
    共に、算出した類似度に応じて、前記入力手段によって
    入力された検索語あるいは検索文に類似するマルチメデ
    ィア情報を、前記データベースの中から検索することを
    特徴とする請求項1記載の情報検索装置。
  3. 【請求項3】 前記類似性評価手段は、前記第1の類似
    性評価尺度情報によって類似性を評価できないときに、
    前記第2の類似性評価尺度情報による類似性の評価を行
    うことを特徴とする請求項1または請求項2記載の情報
    検索装置。
  4. 【請求項4】 前記第1の類似性評価尺度情報は、語の
    内包する意味概念の集合であり、前記第2の類似性評価
    尺度は、語の集合であることを特徴とする請求項1乃至
    請求項3の何れかに記載の情報検索装置。
  5. 【請求項5】 前記第1及び第2の類似性評価尺度情報
    は、語の内包する意味概念の集合であることを特徴とす
    る請求項1乃至請求項3の何れかに記載の情報検索装
    置。
  6. 【請求項6】 前記第1及び第2の類似性評価尺度情報
    は、語の集合であることを特徴とする請求項1乃至請求
    項3の何れかに記載の情報検索装置。
  7. 【請求項7】 前記検索語展開辞書に記憶すべく、予め
    記憶された展開語は、前記検索語から連想派生可能な連
    想語であることを特徴とする請求項2記載の情報検索装
    置。
  8. 【請求項8】 前記文字情報を構成する語と語との関連
    性の度合を算出した結果に基づいて、関連語を抽出する
    関連語抽出手段と、 前記関連語抽出手段によって抽出された関連語が前記検
    索語展開辞書に登録されていないときに、その関連語
    を、前記検索語展開辞書の新たな展開語として登録する
    登録手段と、を更に備えることを特徴とする請求項2記
    載の情報検索装置。
  9. 【請求項9】 前記登録手段は、前記関連語抽出手段に
    よって抽出された関連語と、前記検索語展開辞書に記憶
    すべく予め記憶された展開語とを識別する情報を付与し
    て、前記検索語展開辞書に登録することを特徴とする請
    求項8記載の情報検索装置。
  10. 【請求項10】 前記登録手段は、前記関連語抽出手段
    によって抽出された関連語を、前記関連語抽出手段によ
    って算出された関連性の度合と対応づけて前記検索語展
    開辞書に登録することを特徴とする請求項8記載の情報
    検索装置。
  11. 【請求項11】 前記登録手段は、前記検索語展開辞書
    に記憶すべく予め記憶された展開語と、前記関連語抽出
    手段によって抽出された関連語とが一致する場合に、前
    記関連語抽出手段によって抽出された関連語を前記検索
    語展開辞書に登録することを抑制することを特徴とする
    請求項8記載の情報検索装置。
  12. 【請求項12】 前記登録手段は、前記検索語展開辞書
    に記憶すべく予め記憶された展開語と、前記関連語抽出
    手段によって抽出された関連語とが一致する場合に、該
    展開語を、該関連語に置換して前記検索語展開辞書に登
    録することを特徴とする請求項8記載の情報検索装置。
  13. 【請求項13】 データベースに予め格納された複数の
    マルチメディア情報の中から所望のマルチメディア情報
    を検索する情報検索方法であって、 前記データベースの中から所望のマルチメディア情報を
    検索するための検索語あるいは検索文を入力可能な入力
    工程と、 前記入力工程にて入力された検索語あるいは検索文と、
    前記複数のマルチメディア情報に付帯する言語表現され
    た文字情報との類似性を評価する第1の類似性評価尺度
    情報と、該検索語あるいは検索文と該文字情報との類似
    性を評価するところの、該第1の類似性評価尺度情報と
    は異なる評価尺度である第2の類似性評価尺度情報とを
    用いて類似性評価を行う類似性評価工程と、 前記入力工程にて入力された検索語あるいは検索文に対
    応する所望のマルチメディア情報として、前記類似性評
    価工程にて取得した類似性評価の結果に基づいて、前記
    データベースの中からマルチメディア情報を検索する検
    索工程と、を有することを特徴とする情報検索方法。
  14. 【請求項14】 更に、前記入力工程にて入力され得る
    検索語あるいは検索文と関連性のある語を展開語とし
    て、その検索語あるいは検索文と対応づけされた状態の
    検索語展開辞書を予め用意する辞書作成工程を有し、 前記類似性評価工程は、 前記第1の類似性評価尺度情報として、前記文字情報の
    概念特徴を表す類似性評価尺度を構築する第1の類似性
    評価尺度構築工程と、 前記検索語あるいは検索文に対応する検索展開語を、前
    記検索語展開辞書から取得し、その取得した検索展開語
    に基づいて、前記検索語あるいは検索文の概念特徴を表
    す類似性評価尺度を構築する第2の類似性評価尺度構築
    工程とを含み、 前記検索工程では、 前記第1及び第2の類似性評価尺度構築工程にて構築さ
    れたところの、前記第1の類似性評価尺度情報と、前記
    第2の類似性評価尺度情報との類似度を算出すると共
    に、算出した類似度に応じて、前記入力工程にて入力さ
    れた検索語あるいは検索文に類似するマルチメディア情
    報を、前記データベースの中から検索することを特徴と
    する請求項13記載の情報検索方法。
  15. 【請求項15】 前記類似性評価工程では、前記第1の
    類似性評価尺度情報によって類似性を評価できないとき
    に、前記第2の類似性評価尺度情報による類似性の評価
    を行うことを特徴とする請求項13または請求項14記
    載の情報検索方法。
  16. 【請求項16】 前記第1の類似性評価尺度情報は、語
    の内包する意味概念の集合であり、前記第2の類似性評
    価尺度は、語の集合であることを特徴とする請求項13
    乃至請求項15の何れかに記載の情報検索方法。
  17. 【請求項17】 前記第1及び第2の類似性評価尺度情
    報は、語の内包する意味概念の集合であることを特徴と
    する請求項13乃至請求項15の何れかに記載の情報検
    索方法。
  18. 【請求項18】 前記第1及び第2の類似性評価尺度情
    報は、語の集合であることを特徴とする請求項13乃至
    請求項15の何れかに記載の情報検索方法。
  19. 【請求項19】 前記検索語展開辞書に記憶すべく、予
    め記憶された展開語は、前記検索語から連想派生可能な
    連想語であることを特徴とする請求項14記載の情報検
    索方法。
  20. 【請求項20】 前記辞書作成工程は、 前記文字情報を構成する語と語との関連性の度合を算出
    した結果に基づいて、関連語を抽出する関連語抽出工程
    と、 前記関連語抽出工程にて抽出された関連語が前記検索語
    展開辞書に登録されていないときに、その関連語を、前
    記検索語展開辞書の新たな展開語として登録する登録工
    程と、を含むことを特徴とする請求項14記載の情報検
    索方法。
  21. 【請求項21】 前記登録工程では、前記関連語抽出工
    程にて抽出された関連語と、前記検索語展開辞書に記憶
    すべく予め記憶された展開語とを識別する情報を付与し
    て、前記検索語展開辞書に登録することを特徴とする請
    求項20記載の情報検索方法。
  22. 【請求項22】 前記登録工程では、前記関連語抽出工
    程にて抽出された関連語を、前記関連語抽出工程にて算
    出された関連性の度合と対応づけて前記検索語展開辞書
    に登録することを特徴とする請求項20記載の情報検索
    方法。
  23. 【請求項23】 前記登録工程では、前記検索語展開辞
    書に記憶すべく予め記憶された展開語と、前記関連語抽
    出工程にて抽出された関連語とが一致する場合に、前記
    関連語抽出工程にて抽出された関連語を前記検索語展開
    辞書に登録することを抑制することを特徴とする請求項
    20記載の情報検索方法。
  24. 【請求項24】 前記登録工程では、前記検索語展開辞
    書に記憶すべく予め記憶された展開語と、前記関連語抽
    出工程にて抽出された関連語とが一致する場合に、該展
    開語を、該関連語に置換して前記検索語展開辞書に登録
    することを特徴とする請求項20記載の情報検索方法。
  25. 【請求項25】 請求項1乃至請求項12の何れかに記
    載の情報検索装置としてコンピュータを動作させるプロ
    グラムコードが格納されていることを特徴とするコンピ
    ュータ読み取り可能な記憶媒体。
  26. 【請求項26】 請求項13乃至請求項24記載の情報
    検索方法をコンピュータによって実現可能なプログラム
    コードが格納されていることを特徴とするコンピュータ
    読み取り可能な記憶媒体。
JP2000373242A 2000-12-07 2000-12-07 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 Withdrawn JP2002175329A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000373242A JP2002175329A (ja) 2000-12-07 2000-12-07 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000373242A JP2002175329A (ja) 2000-12-07 2000-12-07 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体

Publications (1)

Publication Number Publication Date
JP2002175329A true JP2002175329A (ja) 2002-06-21

Family

ID=18842659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000373242A Withdrawn JP2002175329A (ja) 2000-12-07 2000-12-07 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP2002175329A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098932A (ja) * 2007-10-17 2009-05-07 Nomura Research Institute Ltd 連想検索システム
JP2014153744A (ja) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
CN110199354A (zh) * 2017-01-09 2019-09-03 金善中 生物体系信息检索系统以及方法
WO2020079751A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 文献検索方法および文献検索システム
CN113554053A (zh) * 2021-05-20 2021-10-26 重庆康洲大数据有限公司 一种比较中药处方相似性的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098932A (ja) * 2007-10-17 2009-05-07 Nomura Research Institute Ltd 連想検索システム
JP2014153744A (ja) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
CN110199354A (zh) * 2017-01-09 2019-09-03 金善中 生物体系信息检索系统以及方法
CN110199354B (zh) * 2017-01-09 2023-08-04 金善中 生物体系信息检索系统以及方法
WO2020079751A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 文献検索方法および文献検索システム
JPWO2020079751A1 (ja) * 2018-10-16 2021-10-28 株式会社島津製作所 文献検索方法および文献検索システム
CN113554053A (zh) * 2021-05-20 2021-10-26 重庆康洲大数据有限公司 一种比较中药处方相似性的方法

Similar Documents

Publication Publication Date Title
CA2539431C (en) Personalized searchable library with highlighting capabilities
US7174054B2 (en) Method and system for access to electronic images of text based on user ownership of corresponding physical text
US8380728B2 (en) Personalized searchable library with highlighting capabilities
US7149353B2 (en) Method and system for suppression of features in digital images of content
KR101554293B1 (ko) 교차 언어 정보 검색
JP5033221B2 (ja) 電子的ドキュメントレポジトリーマネジメントおよびアクセスシステム
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20020032693A1 (en) Method and system of establishing electronic documents for storing, retrieving, categorizing and quickly linking via a network
WO2011040025A1 (en) Method for setting metadata, system for setting metadata, and program
JP2002175329A (ja) 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
JP7125322B2 (ja) 属性抽出装置および属性抽出方法
JP2002108936A (ja) 情報検索装置及びその制御方法及びコンピュータ読み取り可能な記憶媒体
JP2002108914A (ja) 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
JP2002230020A (ja) 情報検索装置、情報検索方法、及び記憶媒体
JP4289891B2 (ja) 情報検索装置、情報検索方法およびプログラム
JP3529659B2 (ja) マルチメディア情報検索・提示方法、システム、およびマルチメディア情報検索・提示システムを記録した記録媒体
JP2002123550A (ja) 情報検索装置、方法、及び記憶媒体
JP3543726B2 (ja) 書籍などの検索を支援する知識検索サービス方法および装置
JP2002123551A (ja) 情報検索装置、情報検索方法、及び記憶媒体
JP7284371B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2003091556A (ja) 情報検索方法、情報検索装置、記憶媒体及びプログラム
JP3243949B2 (ja) 文書作成支援装置
JP3447534B2 (ja) 情報アクセス装置
JP2011154718A5 (ja)

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080304