JP2002123551A - 情報検索装置、情報検索方法、及び記憶媒体 - Google Patents

情報検索装置、情報検索方法、及び記憶媒体

Info

Publication number
JP2002123551A
JP2002123551A JP2000316513A JP2000316513A JP2002123551A JP 2002123551 A JP2002123551 A JP 2002123551A JP 2000316513 A JP2000316513 A JP 2000316513A JP 2000316513 A JP2000316513 A JP 2000316513A JP 2002123551 A JP2002123551 A JP 2002123551A
Authority
JP
Japan
Prior art keywords
word
search
expansion
evaluation scale
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000316513A
Other languages
English (en)
Inventor
Yuji Kobayashi
雄二 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000316513A priority Critical patent/JP2002123551A/ja
Publication of JP2002123551A publication Critical patent/JP2002123551A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索語が多数存在する場合に発生する検索処
理速度の低下や操作性の低下を防止する。 【解決手段】 蓄積文書217が複数のマルチメディア
情報の内容をそれぞれ言語表現した文字情報を記憶し、
検索語展開辞書206が、検索語と関連性のある展開語
を、該検索語と対応づけて記憶する。検索要求入力処理
部201が、所望のマルチメディア情報を検索するため
の検索文を外部から受け取り、検索語展開判定部204
が、該受け取られた検索文を構成する検索語に応じて、
該検索語に対して展開語への展開を行なうか否かを判別
する。この判別により展開を行なうと判別された場合
に、検索語展開処理部205が、検索語展開辞書206
を参照して、前記検索語に対応する展開語を取得する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索装置、情
報検索方法、及び記憶媒体に関し、特に、複数のマルチ
メディア情報を管理し、該複数のマルチメディア情報の
中から所望のマルチメディア情報を検索することが可能
な情報検索装置、該情報検索装置に適用される情報検索
方法、及び該情報検索方法を実行するプログラムを記憶
した記憶媒体に関する。
【0002】
【従来の技術】従来、複数のマルチメディア情報を管理
し、その管理されているマルチメディア情報の中から所
望のマルチメディア情報を検索することが可能な情報検
索装置が考案されている。すなわち、マルチメディア情
報が例えば画像であり、それらの内容を記述する文書あ
るいは文字が各画像に付随されて管理されている情報検
索装置に、所望の検索対象を表す語あるいは文が入力さ
れた場合、情報検索装置では、入力された語あるいは文
と一致する語あるいは文が付随された画像を検索するこ
とが行なわれる。また、入力された語あるいは文と一致
する語あるいは文が付随された画像(マルチメディア情
報)を単に検索するのみならず、入力された語あるいは
文と類似な概念と判断される語あるいは文が付随された
画像(マルチメディア情報)を検索し得る情報検索装置
も考案されている。
【0003】ところで、特に検索対象を表現する検索要
求文が短い場合あるいは検索要求文が単一の語で表され
るような場合を考慮して、関連語展開によって、入力し
た語と関連する語を求め、関連語の概念を加味して検索
要求概念を作成し、この検索要求概念に類似する概念を
有するマルチメディア情報を検索し、これによって所望
のマルチメディア情報を得るようにする提案がなされて
いる。
【0004】また、こうした関連語展開処理を実行する
か否かを操作者が選択できるように構成された情報検索
装置も提案されている。
【0005】
【発明が解決しようとする課題】しかしながら、上記の
関連語展開処理を実行する従来の情報検索装置におい
て、検索要求文を構成する検索語が多数存在する場合、
関連語展開処理の実行が頻発し、検索処理速度の低下を
招くという問題があった。
【0006】また、関連語展開処理を実行するか否かを
操作者が選択する情報検索装置では、操作者が検索語毎
に選択を行なわねばならず、検索語が多数存在する場合
には操作性が低下するという問題があった。
【0007】本発明はこのような問題点に鑑みてなされ
たものであって、検索語が多数存在する場合に発生する
検索処理速度の低下や操作性の低下を防止した情報検索
装置、情報検索方法、及び記憶媒体を提供することを目
的とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明によれば、複数のマルチメディ
ア情報を管理し、該複数のマルチメディア情報の中から
所望のマルチメディア情報を検索することが可能な情報
検索装置において、前記複数のマルチメディア情報の内
容をそれぞれ言語表現した文字情報を記憶する文字情報
記憶手段と、検索語と関連性のある展開語を、該検索語
と対応づけて記憶する検索語展開辞書と、所望のマルチ
メディア情報を検索するための検索文を外部から受け取
る受取手段と、前記受取手段によって受け取られた検索
文を構成する検索語に応じて、該検索語に対して展開語
への展開を行なうか否かを判別する判別手段と、前記判
別手段により展開を行なうと判別された場合に、前記検
索語展開辞書を参照して、前記検索語に対応する展開語
を取得する展開語取得手段と、前記展開語取得手段によ
って取得された展開語の概念特徴を第1の評価尺度によ
って表現する第1の評価尺度表現手段と、前記文字情報
記憶手段によって記憶された各文字情報の概念特徴を第
2の評価尺度によって表現する第2の評価尺度表現手段
と、前記第1の評価尺度表現手段によって表現された第
1の評価尺度と前記第2の評価尺度表現手段によって表
現された第2の評価尺度とを基に、前記検索文を構成す
る検索語と前記複数のマルチメディア情報の各々との類
似度を算出する類似度算出手段とを有することを特徴と
する。
【0009】また、請求項7記載の発明によれば、複数
のマルチメディア情報を管理し、該複数のマルチメディ
ア情報の中から所望のマルチメディア情報を検索するこ
とが可能な情報検索装置に適用される情報検索方法にお
いて、前記複数のマルチメディア情報の内容をそれぞれ
言語表現した文字情報を格納する文字情報格納ステップ
と、所望のマルチメディア情報を検索するための検索文
を外部から受け取る受取ステップと、前記受取ステップ
によって受け取られた検索文を構成する検索語に応じ
て、該検索語に対して展開語への展開を行なうか否かを
判別する判別ステップと、前記判別ステップにより展開
を行なうと判別された場合に、検索語と関連性のある展
開語を、該検索語と対応づけて記憶する検索語展開辞書
を参照して、前記検索文を構成する検索語に対応する展
開語を取得する展開語取得ステップと、前記展開語取得
ステップによって取得された展開語の概念特徴を第1の
評価尺度によって表現する第1の評価尺度表現ステップ
と、前記文字情報格納ステップによって格納された各文
字情報の概念特徴を第2の評価尺度によって表現する第
2の評価尺度表現ステップと、前記第1の評価尺度表現
ステップによって表現された第1の評価尺度と前記第2
の評価尺度表現ステップによって表現された第2の評価
尺度とを基に、前記検索文を構成する検索語と前記複数
のマルチメディア情報の各々との類似度を算出する類似
度算出ステップとを有することを特徴とする。
【0010】さらに、請求項13記載の発明によれば、
複数のマルチメディア情報を管理し、該複数のマルチメ
ディア情報の中から所望のマルチメディア情報を検索す
ることが可能な情報検索装置に適用される情報検索方法
をプログラムとして記憶した、コンピュータにより読み
出し可能な記憶媒体において、前記情報検索方法が、前
記複数のマルチメディア情報の内容をそれぞれ言語表現
した文字情報を格納する文字情報格納ステップと、所望
のマルチメディア情報を検索するための検索文を外部か
ら受け取る受取ステップと、前記受取ステップによって
受け取られた検索文を構成する検索語に応じて、該検索
語に対して展開語への展開を行なうか否かを判別する判
別ステップと、前記判別ステップにより展開を行なうと
判別された場合に、検索語と関連性のある展開語を、該
検索語と対応づけて記憶する検索語展開辞書を参照し
て、前記検索文を構成する検索語に対応する展開語を取
得する展開語取得ステップと、前記展開語取得ステップ
によって取得された展開語の概念特徴を第1の評価尺度
によって表現する第1の評価尺度表現ステップと、前記
文字情報格納ステップによって格納された各文字情報の
概念特徴を第2の評価尺度によって表現する第2の評価
尺度表現ステップと、前記第1の評価尺度表現ステップ
によって表現された第1の評価尺度と前記第2の評価尺
度表現ステップによって表現された第2の評価尺度とを
基に、前記検索文を構成する検索語と前記複数のマルチ
メディア情報の各々との類似度を算出する類似度算出ス
テップとを有することを特徴とする。
【0011】
【発明の実施の形態】以下、本発明の実施の形態を、図
面を参照して説明する。
【0012】図1は、本発明に係る情報検索装置の一実
施の形態の構成を示すブロック図である。なお、本実施
の形態では、検索対象となるマルチメディア情報は文書
情報である。
【0013】図1において、11はマイクロプロセッサ
(CPU)であり、情報検索のための演算、論理判断等
を行ない、またアドレスバスAB、コントロールバスC
B、データバスDBを介して、それらのバスに接続され
た各構成要素を制御する。
【0014】アドレスバスABは、CPU11が制御の
対象とする構成要素を指定するためのアドレス信号を転
送する。コントロールバスCBは、CPU11が制御の
対象とする各構成要素に対してCPU11から印加され
るコントロール信号を転送する。データバスDBは、各
構成要素相互間のデータ転送を行なう。
【0015】12は読出し専用の固定メモリ(ROM)
であり、本実施の形態で実行される処理プログラム等の
制御プログラムコードを記憶する。
【0016】13は1ワード16ビットで構成される書
込み可能なランダムアクセスメモリ(RAM)であり、
各構成要素から送られた各種データの一時記憶に用いら
れる。また、図2を参照して後述する検索語保持部20
2、検索語履歴保持部203、展開語保持部207、検
索概念特徴1保持部210、検索概念特徴2保持部22
5、検索結果保持部213を構成する。
【0017】14は外部メモリ(DISK)であり、図
2を参照して後述する検索語展開辞書206、概念辞書
208、蓄積文書概念特徴1保持部212、蓄積文書概
念特徴2保持部218、蓄積文書217、単語インデッ
クス226を構成する。また、図2を参照して後述する
検索要求入力処理部201、検索語展開処理部205、
概念特徴1抽出処理部209、関連語抽出処理部21
1、類似概念特徴検索処理部214、概念特徴2抽出処
理部221の各処理部を実行するプログラムコードが格
納される。また、これらのデータ及びプログラムを格納
する記憶媒体としては、ROM、フロッピー(登録商
標)ディスク、CD−ROM、DVD−ROM、メモリ
カード、光磁気ディスクなどを用いることができる。
【0018】15はキーボード(KB)であり、アルフ
ァベットキー、ひらがなキー、カタカナキー、句点等の
文字記号入力キー、検索を指示する検索キー、カーソル
移動を指示するカーソル移動キー等の各種の機能キーを
備えている。
【0019】16は表示用ビデオメモリ(VRAM)で
あり、表示すべきデータの表示パターンを蓄える。
【0020】17はCRTコントローラー(CRTC)
であり、表示用ビデオメモリ(VRAM)16に蓄えら
れた内容を後述の表示装置(CRT)18に表示する役
割を担う。
【0021】18は陰極線管、液晶パネル等の表示装置
(CRT)であり、これに、ドット構成の表示パターン
およびカーソルが、CRTコントローラ(CRTC)1
7による制御によって表示される。
【0022】19はネットワークコントローラ(NI
C)であり、情報検索装置をEthernetなどのネ
ットワークに接続する役割を担う。
【0023】かかる各構成要素からなる情報検索装置に
おいては、キーボード(KB)15からの各種の入力及
びネットワークコントローラ(NIC)19から供給さ
れるネットワーク経由の各種入力に応じて作動するもの
であって、キーボード(KB)15からの入力またはネ
ットワークコントローラ(NIC)19からの入力が供
給されると、まず、インタラプト信号がマイクロプロセ
ッサ(CPU)11に送られ、マイクロプロセッサ(C
PU)11が、外部メモリ(DISK)14内に記憶し
てある各種の制御信号を読出し、それらの制御信号に従
って、各種の制御が行なわれる。
【0024】図2は、図1に示す情報検索装置の機能構
成を示すブロック図である。
【0025】図2において検索要求入力処理部201
は、検索対象に関する要求事項(検索文)を受け取る。
検索語保持部202は、検索要求入力処理部201で受
け取った要求事項を記憶する。検索語履歴保持部203
では、図9を参照して後述するように、検索要求入力処
理部201で受け取った要求事項が分解されて、それに
含まれる検索語が、その検索対象となる頻度等とともに
記憶される。検索語履歴保持部203では過去の検索語
を全て保存する。検索語展開判定部204は、検索語保
持部202に記憶された検索要求に従って、検索語を関
連する他の単語に展開すべきか否かを決定する。
【0026】検索語展開処理部205は、検索語展開辞
書206を参照して、検索語保持部202に記憶された
検索文を構成する検索語を関連語(展開語)に展開す
る。検索語展開辞書206は、図5を参照して後述する
ように、単語(検索語)毎に、該単語に関連する関連語
を関連度等と対応させて格納する。展開語保持部207
は、検索語展開処理部205で展開された関連語を検索
語とともに記憶する。
【0027】概念辞書208は、図6を参照して後述す
るように、展開対象の各単語(検索語)の概念を、普遍
的な意味素の重みを要素とする多次元ベクトルで表した
ものを記憶する。概念特徴1抽出処理部209は、展開
語保持部207と概念辞書208と登録文書224とを
参照して、検索語あるいは登録文書の概念特徴を概念特
徴1として抽出する。検索概念特徴1保持部210は、
概念特徴1抽出処理部209によって抽出された、検索
語あるいは登録文書に対する概念特徴1を保持する。検
索概念特徴2保持部225は、概念特徴2抽出処理部2
21によって抽出された検索語に対する概念特徴2を保
持する。
【0028】関連語抽出処理部211は、蓄積文書21
7に蓄積された各文書から、関連度の高い単語の組を抽
出して、検索語展開辞書206に格納する。
【0029】概念特徴2抽出処理部221は、登録文書
224における概念特徴2を抽出する。蓄積文書概念特
徴2保持部218は、概念特徴2抽出処理部221で抽
出された概念特徴2を登録文書224と対応付けて記憶
する。蓄積文書概念特徴1保持部212は、概念特徴1
抽出処理部209で抽出された、登録文書224に対応
する概念特徴1を保持する。
【0030】類似概念特徴検索処理部214は、蓄積文
書概念特徴1保持部212、検索概念特徴1保持部21
0、蓄積文書概念特徴2保持部218を参照して、類似
概念検索処理を実行する。検索結果保持部213は、類
似概念特徴検索処理部214の処理結果を保持する。
【0031】図3は、表示装置18に表示され、検索文
を入力するために使用される表示ウインドウを示す図で
ある。この表示ウインドウは、検索要求入力処理部20
1において、操作者が類似検索の検索要求文あるいは検
索要求語を指定する場合に使用される。
【0032】図3において、301は検索要求入力操作
を行うための表示ウインドウである。302は検索要求
文あるいは検索要求語を入力する検索文入力領域であ
る。303は入力中の検索要求文を示しており、図示に
おいては「モバイル機器の市場動向」と入力されてい
る。304は検索文入力領域における入力位置を示す入
力カーソルである。
【0033】308は検索処理の実行を指定する検索実
行ボタンであり、検索実行ボタン308をクリックする
ことで、指定した検索処理が実行される。309は検索
処理の終了あるいは中止を指定するキャンセルボタンで
あり、キャンセルボタン309をクリックすると、ただ
ちに検索処理を終了し、表示ウインドウ301を閉じて
終了する。
【0034】310は、検索ボタン308のクリックに
よって検索処理が行なわれた結果得られた検索結果を表
示する検索結果表示領域であり、図3においては検索処
理が未だなされていない状態であるので、何も表示され
ていない。
【0035】次に、検索文入力領域302に検索要求文
または検索要求語が入力されて検索処理が実行され、引
き続き類似検索が実行される場合について、図4を参照
して説明する。
【0036】図4は、検索文入力領域302に検索要求
文あるいは検索要求語が入力されて検索処理が実行さ
れ、その結果得られた検索結果例が表示された表示ウイ
ンドウ301を示す図である。
【0037】図4において、401は図3の310に相
当する検索結果表示領域である。402はランク表示領
域である。後述の図10に示すステップS1002の文
書概念類似検索処理が実行されて得られた各文書は、検
索要求に類似している順にランク付けされ、ランク順に
表示される。ランク表示領域402はそのランク順を示
す。図4の表示例においては、ランク25位から30位
までの検索結果が表示されている。
【0038】403は検索の結果得られた各文書の表題
の表示領域、404は各文書のファイル名の表示領域で
ある。405は各文書の大意が掴める程度の内容を表示
する表示領域である。文書内容表示領域405には、あ
らかじめ文書の書誌的属性として与えられた要約文、文
書から自動的に要約した要約文、あるいは文書の一部を
大意として抽出した大意文などが表示される。406は
エレベータバーであり、検索の結果得られた各文書を全
て検索結果表示領域401に表示しきれない場合に、そ
れらの文書の一部を表示し、表示されていない他の文書
を表示するために用いられる。
【0039】図4に示される表示ウインドウ301では
検索結果表示領域401に、検索要求文303に示され
た「モバイル機器の市場動向」に対して文書内容類似検
索を行った結果得られた検索結果を表示している。な
お、引き続いて類似検索を行う場合、検索文入力領域3
02に検索文を入力するか、あるいは検索結果表示領域
401に表示された各文書の中から類似検索を行ないた
い文書を選択し、その選択された文書を検索文入力領域
302にドラッグ&ドロップする。このドラッグ&ドロ
ップにより、選択された文書の内容が検索文入力領域3
02にコピーされる(不図示)。
【0040】図5は、検索語展開辞書206の構成を示
す図である。
【0041】検索語展開辞書206は、展開情報を個々
に識別する識別番号を収納するID欄501と、展開さ
れるべき単語を収納する展開見出し語欄502と、展開
見出し語欄502に収納された単語から連想派生可能な
連想語、収納された単語に関連する関連語など、展開可
能な単語を格納する展開語欄503と、展開見出し語と
展開語との関連度合いを示す関連度を収納する関連度欄
504と、展開語の種別を示す符号を収納するFLG欄
505と、展開語欄503に収納されている単語が属す
る展開グループの識別番号を収納するグループID欄5
06とから構成される。
【0042】上記の関連度欄504に収納される関連度
は、0から9までの数値で表され、数値が高いほど関連
性が高いことを示す。FLG欄505に収納される符号
は、展開語欄503に収納されている単語が標準的に用
意されている初期登録語であるか、または蓄積文書22
4から抽出された関連語であるかの展開語種別を示し、
「S」は初期登録されている標準展開語、「A」は蓄積
文書224から抽出された関連語を示す。
【0043】またグループID欄506に収納される識
別番号は、展開語欄503に収納されている単語が属す
る展開グループを示し、同じグループIDをもつ展開語
どうしは同じ観点に基づいて展開されたことを表してい
る。例えば、図5に示す検索語展開辞書の例では、グル
ープIDが「1」を示している展開語「携帯」、「可
搬」はともに、展開見出し語「モバイル」を「持ち運
び、運搬」という観点に基づいて展開した場合の展開語
を示しており、こうした展開語はグループID「1」に
属しているものとする。また、グループIDが「2」を
示している展開語「携帯電話」、「携帯端末」、「ノー
トPC」、「ラップトップ」、「PDA」、「GPS」
は、展開見出し語「モバイル」を「小型可搬機器」とい
う観点に基づいて展開した場合の展開語を示しており、
こうした展開語はグループID「2」に属しているもの
とする。なお、特定のグループIDを持たない展開語に
ついては、グループID欄506に値「0」を格納す
る。グループIDの値は、同じ展開見出し語において展
開グループを識別する識別値であると同時に、その値自
体が展開見出し語を展開する際の展開優先度を示す。す
なわち、図5の例では、展開見出し語「モバイル」で
は、グループIDが「1」である展開語がまず優先的に
処理対象になり、続いて「2」、「3」のグループID
を持つ展開語が処理対象となる。
【0044】次に、図6は概念辞書208の構成を示す
図である。
【0045】概念辞書208は、単語の概念を、普遍的
な意味素の重みを要素とする多次元ベクトルで表す。図
6において列601(第1列目)には、概念辞書の見出
しとなる単語が格納される。行602(第1行目)に
は、見出し単語に対する256次元で表される意味素ベ
クトルの各要素を表す添え字が格納される。欄603
(第2列目以降および第2行目以降の欄)には、意味素
ベクトルの各要素の重みを格納し、重みは0から1の間
の実数をとり、意味素ベクトルの大きさが1となるよう
正規化された値が格納される。
【0046】概念辞書208における多次元ベクトルの
要素となる普遍的な意味素とは、1つのまとまった意味
概念を表すラベルであり、例えば、「これ、それ、あ
れ、どっち」などの語が内包している「指示の概念」、
「クラス、グレード、級、ランク、順位、劣等、優劣、
優等」などの語が内包している「等級の概念」、「変
化、変身、革新、勃興」などの語が内包している「変化
の概念」、「協力、挨拶、団結、握手、友好、国交、交
友」などの語が内包している「交わりの概念」、「動
物、哺乳類、ペンギン、犬、人間、金魚」などの語が内
包している「生物の概念」といった、特定の語に依らな
い各々独立した普遍的な意味素である。図6に示す例で
は、256種の意味素を用い、256次元の概念表現ベ
クトルを構成する。
【0047】次に、単語インデックス226について、
図7及び図8を参照して説明する。
【0048】図7は単語インデックス226の構成を示
す図である。
【0049】単語インデックス226は、検索対象とな
る全登録文書において、各登録文書中に出現する単語の
文書中における出現頻度を格納するテーブルである。テ
ーブルの列701(第1列目)には各登録文書を識別す
るための文書IDが収納される。行702(第1行目)
には、登録文書中に出現する単語を表す添え字(単語識
別番号)が収納される。欄704(第2列目以降および
第2行目以降で最終行の1つ前の行までの欄)には、各
登録文書中に出現する単語毎の出現頻度が収納される。
行703(最終行)には、各単語の出現数の総和が収納
される。
【0050】図8は、登録文書中に出現する単語とその
単語を表す添え字(単語インデックス)との対応関係を
示すテーブルの構成を示す図である。
【0051】この対応テーブルは、単語欄801と添え
字(単語インデックス)欄802とから構成され、例え
ば、単語「市場」の添え字(単語インデックス)は「5
6」であることが示される。
【0052】図7および図8によれば、例えば文書ID
が「00146」である登録文書では、添え字「56」
を持つ単語「市場」が登録文書中に12回出現している
ことを示している。
【0053】図9は検索語履歴保持部203の構成を示
す図である。
【0054】検索語履歴保持部203は、過去に入力し
た全ての検索文から取り出された検索語を保持するもの
で、検索語を収納する検索語欄901と、検索語が処理
対象となった頻度を収納する頻度欄902と、検索語に
対して関連語抽出処理が実行されたか否かを示すフラグ
が収納される処理済フラグ欄903とから構成されるテ
ーブルを保持する。処理済フラグ欄903におけるフラ
グ「0」は、まだ関連語抽出処理が行なわれていない検
索語であることを示し、フラグ「1」は、関連語抽出処
理が既に行なわれた検索語であることを示す。頻度欄9
02に収納された頻度は、対応の検索語が処理対象とな
る度に1だけカウントアップされる。
【0055】次に、本実施の形態で実行される文書類似
検索処理について、図10を参照して説明する。
【0056】図10は、情報検索装置で実行される文書
類似検索の処理の手順を示すフローチャートである。
【0057】ステップS1001で、図2における検索
要求入力処理部201によって検索要求入力処理を行
う。この検索要求入力処理の詳細については、図11を
参照して後述する。
【0058】ステップS1002で、ステップS100
1の実行によって入力された検索要求に従って、文書内
容の概念が類似している文書を検索する文書概念類似検
索処理を行う。この文書概念類似検索処理の詳細につい
ては、図12および図13を参照して後述する。
【0059】ステップS1003で、ステップS100
2の実行によって得られた検索結果を表示する。
【0060】図11は、図10のステップS1001で
実行される検索要求入力処理の詳細を示すフローチャー
トである。
【0061】ステップS2001で、検索要求となる検
索文を、図3における検索文入力領域302へ入力カー
ソル304の示す位置に従い入力する。検索文は単一の
語であってもよいし、複数の語からなる文であってもよ
い。検索文の入力は、キーボード(KB)15から入力
された文字コードをRAM13上の検索語保持部202
に格納することにより行われる。
【0062】次にステップS2002において、検索文
入力領域302への検索文の入力があったか否かを判定
する。その結果、検索文入力領域302への検索文の入
力がなく、さらに、検索結果表示領域401に表示され
た検索結果文書のいずれかが検索文入力領域302へド
ラッグされたと検知されたならば、ステップS2003
へ進み、一方、検索文入力領域302への検索文の入力
があったと判定された場合、本処理を終了する。
【0063】ステップS2003で、検索文入力領域3
02へドラッグされた文書の文書ファイル名を、検索結
果表示領域401のファイル名表示領域404より取得
して、当該文書を読み出しのためにオープンする。
【0064】次にステップS2004で、オープンした
文書の内容を読み込み、ステップS2005において、
読み込んだ文書内容を検索要求文として、検索語保持部
202に格納するとともに、検索文入力領域302へそ
の内容を表示する。
【0065】図12および図13は、図10のステップ
S1002で実行される文書概念類似検索処理の詳細を
示すフローチャートである。
【0066】ステップS3001で、検索語保持部20
2に格納されている検索文を取り出し、単語に分割す
る。検索文の単語への分割には公知の形態素解析処理手
法を適用する。
【0067】次にステップS3002で、ステップS3
001の実行の結果得られた各単語を検索語履歴保持部
203(図9)の検索語欄901に格納し、処理済フラ
グ欄903の対応フラグを0とする。なお、検索語欄9
01にすでに同じ単語が格納されている場合は、頻度欄
902の対応頻度を1だけカウントアップする。
【0068】次にステップS3003で、ステップS3
001の実行の結果得られた単語の個数に応じて、検索
語の展開処理を行うか否かを判定する。すなわち、単語
数が所定の閾値(例えば5)より少ない場合にのみ検索
語展開処理を行うようにする。
【0069】検索語展開処理を行わないと判定されたな
らば、展開語保持部207に各単語を格納した後、ステ
ップS3008へ進み、一方、検索語展開処理を行うと
判定されたならば、ステップS3004へ進む。
【0070】ステップS3004では、ステップS30
01の実行の結果得られた各単語のうち、展開処理が行
なわれるべき単語を決定する。すなわち、ステップS3
001の実行の結果得られた単語が1個の場合は、その
1語を展開対象検索語とし、複数個存在する場合は、検
索文を最も端的に表現する1語を選択する。例えば、複
数個の単語が「形容詞」、「名詞」の順に並んでいると
すれば、「形容詞」の係り先である「名詞」を展開対象
検索語と決定するなど、展開対象検索語を決定するため
の不図示のパターンテンプレートを適用する。
【0071】ステップS3005では、検索語展開辞書
206(図5)を参照して、ステップS3004で決定
された展開対象検索語に一致する単語を、展開見出し語
欄502において検索する。展開対象検索語に一致する
見出し語が存在する場合、その見出し語に対応する展開
語欄503の展開語、関連度欄504の関連度、グルー
プID欄506の展開グループの識別番号(グループI
D)を読み出して、展開語保持部207に格納する。そ
して、グループIDをキーにして展開語保持部207を
ソートする。なお、展開語保持部207には展開対象検
索語自体も格納する。
【0072】次にステップS3006で、展開語保持部
207に格納されているグループIDのうち最も優先度
の高いグループIDを検出する。
【0073】ステップS3007では、ステップS30
06で検出されたグループIDが付与されている展開語
を展開語保持部207から取り出し、概念辞書208
(図6)の列601(第1列目)に格納された見出し語
において、一致するものを検索する。展開語に一致する
見出し語が存在する場合、その見出し語に対応する概念
ベクトルデータ(意味素ベクトルの各要素の重み)を概
念辞書208の欄603より読み出す。
【0074】ステップS3008で、取得した概念ベク
トルデータの構成要素の成分値に対し、展開語保持部2
07に格納されている対応展開語の関連度を乗算し、検
索要求概念特徴1データに加算して、ステップS300
6で検出されたグループIDに対応する検索要求概念特
徴1データを構築する。なお検索要求概念特徴1データ
ではあらかじめ、概念ベクトルのすべての次元要素を0
に初期化しておく。
【0075】ステップS3009で、ステップS300
6で検出されたグループIDをもつすべての展開語に対
して、ステップS3007,S3008の処理を実行し
たか否かを判定する。その結果、すべての展開語に対し
て処理を終えていると判定されたならば、検索要求概念
特徴1ベクトルデータに対して、各要素の2乗和が1に
なるように正規化を行い、検索概念特徴1保持部210
に格納し、ステップS3010へ進む。一方、ステップ
S3009で未処理の展開語があると判定されたなら
ば、ステップS3007へ戻る。
【0076】次にステップS3010で、検索要求概念
特徴1ベクトルデータが構築できたかどうかを判定す
る。この判定は、検索要求概念特徴1ベクトルデータが
ゼロベクトルではないか否かによって行なわれる。検索
要求概念特徴1ベクトルデータがゼロベクトルである場
合は構築できていないとして、ステップS3014へ進
む。検索要求概念特徴1ベクトルデータがゼロベクトル
ではなく、検索要求概念特徴1ベクトルデータが構築で
きている場合は、ステップS3011へ進む。
【0077】ステップS3011では、検索対象となる
全蓄積文書における蓄積文書概念特徴1ベクトルデータ
を蓄積文書概念特徴1保持部212より取得する。
【0078】ステップS3012で、蓄積文書概念特徴
1ベクトルデータと、検索概念特徴1保持部210に格
納された検索要求概念特徴1ベクトルデータとを基に、
概念類似度を算出する。概念類似度は、両ベクトルデー
タの余弦測度によって求めることができる。算出された
概念類似度は、検索文と蓄積文書との概念の類似性を示
すものであり、ステップS3006で検出されたグルー
プIDおよび蓄積文書の文書IDと対応付けて不図示の
バッファメモリに一時記憶される。
【0079】ステップS3013で、すべての蓄積文書
に対してステップS3011およびステップS3012
の処理を終えたかどうかを判定する。未処理の蓄積文書
があると判定されれば、ステップS3011へ戻り、一
方、すべての蓄積文書に対して処理を終えていればステ
ップS3020へ進む。
【0080】ステップS3010において、検索要求概
念特徴1ベクトルデータが構築できなかったと判定され
た場合は、検索要求概念特徴2ベクトルデータを構築
し、蓄積文書の概念特徴2ベクトルデータとの概念類似
度を算出し、これによって、文書内容類似概念検索を行
う。まず、ステップS3014において、ステップS3
006で検出されたグループIDをもつ展開語を展開語
保持部207より読み出す。
【0081】次にステップS3015で、単語インデッ
クス226(図7)を参照して、単語インデックスを次
元要素とするベクトルデータを検索要求概念特徴2ベク
トルデータとして構築する。すなわち、図8に示す対応
テーブルの単語欄801において、ステップS3014
で読み出された展開語と一致す単語を検出し、検出され
た単語に対応する添え字欄802の添え字(単語インデ
ックス)を取得する。そして、その添え字をもった要素
値に該単語の出現頻度を与え、一方、対応テーブルの単
語欄801に一致する単語がなかった展開語において
は、要素値に0を与える。
【0082】ステップS3016で、ステップS300
6で検出されたグループIDをもつすべての展開語に対
して、ステップS3014およびステップS3015の
処理を実行したか否かを判定する。未処理の展開語があ
ると判定されればステップS3014へ戻り、一方、す
べての展開語に対して処理を実行し終えていると判定さ
れれば、検索要求概念特徴2ベクトルデータの各要素値
の2乗和が1となるように正規化して、ステップS30
17へ進む。
【0083】ステップS3017で、蓄積文書概念特徴
2ベクトルデータを蓄積文書概念特徴2保持部218よ
り取り出し、ステップS3015で構築した検索要求概
念特徴2ベクトルデータと比較する。その結果、検索要
求概念特徴2ベクトルデータの次元要素のうち、蓄積文
書概念特徴2ベクトルデータの次元要素に含まれないも
のがあれば、その次元要素の成分要素値を0としてその
次元要素を蓄積文書概念特徴2ベクトルデータに追加す
る。
【0084】ステップS3018で、ステップS301
7で補正し取得した蓄積文書概念特徴2ベクトルデータ
と、ステップS3015で構築した検索要求概念特徴2
ベクトルデータとを基に概念類似度を算出する。この概
念類似度は、両ベクトルデータの余弦測度によって求め
ることができる。算出された概念類似度は、ステップS
3006で検出されたグループIDおよび蓄積文書の文
書IDと対応付けて不図示のバッファメモリに一時記憶
される。
【0085】ステップS3019で、全ての文書に対し
てステップS3017およびステップS3018の処理
を実行したか否かを判定する。未処理の文書があると判
定されればステップS3017へ戻り、すべての文書に
対して処理をし終えていればステップS3020へ進
む。
【0086】ステップS3020で、展開語保持部20
7に未処理のグループIDがあるか否かを判定する。未
処理のグループIDがあると判定されればステップS3
006へ戻り、未処理のグループIDを対象に、それら
の中で最も優先度の高いグループIDの検出を行なう。
一方、すべてのグループIDに対して処理をし終えてい
ればステップS3021へ進む。
【0087】ステップS3021では、ステップS30
12あるいはステップS3018において算出されバッ
ファメモリに格納された概念類似度等のデータを、グル
ープIDをキーにして降順にソートし、さらに概念類似
度の降順にソートして、検索結果保持部213に格納す
る。
【0088】かくして、文書概念類似検索処理を終了す
る。
【0089】次に、文書登録処理について、図14を参
照して説明する。
【0090】図14は、情報検索装置で実行される文書
登録の処理の手順を示すフローチャートである。
【0091】ステップS4001で、登録文書の内容か
ら概念特徴を抽出して登録する文書内容概念登録処理を
行う。この文書内容概念登録処理の詳細については、図
15を参照して後述する。
【0092】次にステップS4002で、登録文書を含
めた蓄積文書より検索関連語を抽出して検索語展開辞書
206に登録する処理を行う。この検索関連語抽出処理
の詳細については、図16を参照して後述する。
【0093】次にステップS4003で、概念辞書20
8に見出し語として登録されていない検索語について、
検索概念特徴1を推定し、追加登録を行う検索語概念抽
出処理を行う。この検索語概念抽出処理の詳細について
は、図17を参照して後述する。
【0094】図15は、図14のステップS4001で
実行される文書内容概念登録処理の詳細を示すフローチ
ャートである。
【0095】ステップS5001で、検索対照である登
録文書224より単語を抽出する。単語の抽出には一般
に用いられる形態素解析処理の手法を適用する。
【0096】次にステップS5002で、抽出された単
語を単語インデックス226(図7)へ登録する。すな
わち、図8に示す対応テーブルの単語欄801を参照し
て、抽出された単語に一致する単語を探す。一致する単
語が存在すれば、その単語に対応する添え字(単語イン
デックス)を添え字欄802から取得する。そして、図
7に示す単語インデックス226の行702においてそ
の取得した添え字(単語インデックス)をもつ列を見つ
け、その列の対象登録文書に対応する行に該登録文書内
における出現頻度を格納する。一方、図8に示す対応テ
ーブルの単語欄801に、抽出された単語に一致する単
語が見つからなければ、単語欄801に該単語を追加
し、添え字欄802に新たな添え字(単語インデック
ス)を割り振り、その新たな添え字(単語インデック
ス)を、図7に示す単語インデックス226の行702
に加え、登録済みの登録文書の欄704の新たな添え字
(単語インデックス)に対しては出現頻度として0を格
納し、対象登録文書に対しては出現頻度を格納する。
【0097】次にステップS5003で、単語インデッ
クス226を参照して、文書概念特徴2ベクトルデータ
を構築する。すなわち、単語インデックス226におい
て対象登録文書に対応する行データを取り出し、各添え
字(単語インデックス)の出現頻度をベクトルデータの
各成分要素に対応づける。
【0098】ステップS5004で、概念辞書208
(図6)の列601(第1列目)を参照し、ステップS
5001で抽出された単語と一致する単語を探す。一致
する単語が存在すれば、欄603から、その単語に対応
する概念特徴1ベクトルデータを取り出す。
【0099】ステップS5005で、ステップS500
4にて取り出された概念特徴1ベクトルデータに出現頻
度に応じた重みを乗じて、文書概念特徴1ベクトルデー
タに加算する。ここで頻度に乗じた重みは、文書内単語
頻度(TF値)と逆文書頻度(IDF)との積に応じて
決まる値である。
【0100】ステップS5006で、登録文書のすべて
の単語に対してステップS5002〜S5005の処理
を終えたか否かを判定し、未処理の単語があればステッ
プS5002へ戻り、すべての単語について処理を終え
ていればステップS5007へ進む。
【0101】ステップS5007で、文書概念特徴1ベ
クトルデータをベクトル要素の2乗和が1となるように
正規化して、蓄積文書概念特徴1保持部212へ登録
し、文書概念特徴2ベクトルデータも同様にベクトル要
素の2乗和が1となるように正規化して長さをそろえ
て、蓄積文書概念特徴2保持部218へ登録する。
【0102】かくして、文書内容概念登録処理を終了す
る。
【0103】図16は、図14のステップS4002で
実行される検索関連語抽出処理の詳細を示すフローチャ
ートである。
【0104】ステップS6001で、検索語履歴保持部
203の検索語欄901から検索語を1つ取り出す。次
にステップS6002で、検索語履歴保持部203に保
持されたすべての検索語を処理したか否かを判定し、す
べて処理したならば本処理を終了し、未処理の検索語が
あれば、ステップS6003へ進む。なお、すべての検
索語を処理したか否かの判定は、検索語履歴保持部20
3の処理済フラグ欄903におけるフラグを参照して行
なう。
【0105】ステップS6003で、検索語履歴保持部
203の処理済フラグ欄903において、ステップS6
001で取り出された検索語のフラグを、処理済状態を
表す「1」に設定する。
【0106】ステップS6004で、ステップS600
1で取り出された検索語について、登録文書224にお
ける出現頻度を参照して、その検索語が特定の登録文書
と相関度が特異的に高い共起語であるか否かを判別す
る。すなわち、単語インデックス226を参照して、他
の登録文書への出現頻度が低いが、注目登録文書におい
ては特異的に共起して出現する単語であることを、文書
内単語頻度(TF値)と逆文書頻度(IDF値)との積
が最大になるものからランク付けして決定する。
【0107】ステップS6005で、ステップS600
4で取得した共起語が検索語展開辞書206(図5)の
展開語欄503に登録済みであるか否かを判断し、登録
済みであればステップS6004へ戻り、次の共起語を
取得する。一方、ステップS6004で取得した共起語
が検索語展開辞書206に登録されていなければ、ステ
ップS6006へ進む。なお、ステップS6005で、
ステップS6004で取得した共起語が検索語展開辞書
206(図5)の展開語欄503に登録済みであると判
断された場合に、該共起語を検索語展開辞書206の展
開語欄503の同一語と置換するようにしてもよい。
【0108】ステップS6006で、ステップS600
5で検索語展開辞書206に未登録と判定された共起語
を、ステップS6001で取り出された検索語に対応す
る展開語として検索語展開辞書206の展開語欄503
に追加登録する。その際、ステップS6004で求めた
相関度を按分して関連度欄504の値とし、FLG欄5
05に、追加展開語であることを示すフラグ情報「A」
を対応付けて登録する。
【0109】ステップS6007で、すべての共起語に
対してステップS6004〜S6006の処理を行なっ
たか否かを判定し、未処理の共起語があればステップS
6004へ戻る。
【0110】図17は、図14のステップS4003で
実行される検索語概念抽出処理の詳細を示すフローチャ
ートである。
【0111】ステップS7001で、概念辞書208
(図6)の列601(第1列目)に登録されていない未
知概念語を取得する。未知概念語は、図8の対応テーブ
ルの単語欄801に存在して、概念辞書208の列60
1(第1列目)に存在しない単語とする。
【0112】ステップS7002で、検索語展開辞書2
06(図5)の展開見出し語欄502に、取得された未
知概念語と同じ単語を探す。存在する場合、その単語に
対応する展開語欄503の展開語(関連語)と、関連度
欄504の関連度とを展開語保持部207に格納する。
【0113】ステップS7003で、展開語保持部20
7に格納された展開語(関連語)を取得し、概念辞書2
08(図6)を検索して、展開語(関連語)に対応する
概念特徴1ベクトルデータを取得する。もし、概念辞書
208の列601(第1列目)に展開語(関連語)と同
一の単語が登録されていない場合は、概念特徴1ベクト
ルデータをベクトル要素すべてが0であるゼロベクトル
とする。
【0114】ステップS7004で、ステップS700
3で得られた展開語(関連語)の概念特徴1ベクトルデ
ータに、展開語保持部207に格納された関連度を乗じ
たものを未知概念語の概念特徴1ベクトルデータに加算
する。なお、未知概念語の概念特徴1ベクトルデータの
各要素値をすべて0に予め設定してゼロベクトルに初期
化しておく。
【0115】ステップS7005で、展開語保持部20
7に格納されたすべての展開語(関連語)に対してステ
ップS7003,S7004の処理を実行したか否かを
判定し、未処理の展開語(関連語)があればステップS
7003へ戻り、すべての展開語(関連語)に対して処
理を実行し終えていればステップS7006へ進む。
【0116】ステップS7006で、未知語概念特徴1
ベクトルを各要素値の2乗和が1となるように正規化し
た後、概念辞書208に登録する。
【0117】ステップS7007で、すべての未知概念
語に対してステップS7001〜S7006の処理を実
行したか否かを判定し、未処理の未知概念語があればス
テップS7001へ戻り、すべての未知概念語に対して
処理を実行し終えたならば本処理を終了する。
【0118】なお、上記実施の形態では、検索対象は文
書情報であったが、文書情報以外の画像情報、動画情
報、番組内容記述情報などのマルチメディア情報であっ
ても、内容記述メタデータが付随されていれば、同様に
検索できる。つまり、内容記述された文章情報に対し
て、情報特徴量抽出を行い、情報特徴量の類似測度を求
めることによって、本発明を適用することができる。
【0119】また以上の説明において、検索対象となる
蓄積文書217、蓄積文書概念特徴1保持部212、蓄
積文書概念特徴2保持部218、単語インデックス22
6、概念辞書208、検索語展開辞書206を、単一の
装置を構成する外部メモリ(DISK)14に配置する
ものとして説明したが、これらを、複数の外部記憶装置
に分散配置し、ネットワークコントローラ(NIC)1
9を介してネットワーク上で処理するように構成しても
よい。
【0120】また、本発明は複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
してもよい。
【0121】また、本発明の目的は、前述した実施の形
態の機能を実現するソフトウェアのプログラムコードを
記録した記憶媒体を、システムあるいは装置に供給し、
そのシステムあるいは装置のコンピュータ(またはCP
UやMPU)が記憶媒体に格納されたプログラムコード
を読出し実行することによっても達成されることは言う
までもない。
【0122】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。
【0123】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピーディスク、ハードディ
スク、光磁気ディスク、CD−ROM、CD−R、CD
−RW、DVD−ROM、DVD−RAM、DVD−R
W、DVD+RW、磁気テープ、不揮発性のメモリカー
ド、ROMなどを用いることができる。
【0124】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼動しているOS(オ
ペレーティングシステム)などが実際の処理の一部また
は全部を行い、その処理によって前述した実施の形態の
機能が実現される場合も含まれることは言うまでもな
い。
【0125】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張ボー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書き込まれた後、そのプログラムコードの指
示に基づき、その機能拡張ボードや機能拡張ユニットに
備わるCPUなどが実際の処理の一部または全部を行
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれることは言うまでもない。
【0126】
【発明の効果】以上詳述したように請求項1、請求項7
または請求項13記載の発明によれば、複数のマルチメ
ディア情報の内容をそれぞれ言語表現した文字情報を記
憶する文字情報記憶手段と、検索語と関連性のある展開
語を、該検索語と対応づけて記憶する検索語展開辞書と
を備え、所望のマルチメディア情報を検索するための検
索文を外部から受け取り、該受け取られた検索文を構成
する検索語に応じて、該検索語に対して展開語への展開
を行なうか否かを判別する。この判別により展開を行な
うと判別された場合に、前記検索語展開辞書を参照し
て、前記検索語に対応する展開語を取得し、該取得され
た展開語の概念特徴を第1の評価尺度によって表現す
る。また、前記文字情報記憶手段によって記憶された各
文字情報の概念特徴を第2の評価尺度によって表現す
る。次に、前記第1の評価尺度と前記第2の評価尺度と
を基に、前記検索文を構成する検索語と前記複数のマル
チメディア情報の各々との類似度を算出する。
【0127】これによって、検索語が多数存在する場合
に発生する検索処理速度の低下や操作性の低下が防止さ
れる。
【図面の簡単な説明】
【図1】本発明に係る情報検索装置の一実施の形態の構
成を示すブロック図である。
【図2】図1に示す情報検索装置の機能構成を示すブロ
ック図である。
【図3】表示装置18に表示され、検索文を入力するた
めに使用される表示ウインドウを示す図である。
【図4】検索文入力領域に検索要求文あるいは検索要求
語が入力されて検索処理が実行され、その結果得られた
検索結果例が表示された表示ウインドウを示す図であ
る。
【図5】検索語展開辞書の構成を示す図である。
【図6】概念辞書の構成を示す図である。
【図7】単語インデックスの構成を示す図である。
【図8】登録文書中に出現する単語とその単語を表す添
え字(単語インデックス)との対応関係を示すテーブル
の構成を示す図である。
【図9】検索語履歴保持部の構成を示す図である。
【図10】情報検索装置で実行される文書類似検索の処
理の手順を示すフローチャートである。
【図11】図10のステップS1001で実行される検
索要求入力処理の詳細を示すフローチャートである。
【図12】図10のステップS1002で実行される文
書概念類似検索処理の詳細を示すフローチャート(1/
2)である。
【図13】図10のステップS1002で実行される文
書概念類似検索処理の詳細を示すフローチャート(2/
2)である。
【図14】情報検索装置で実行される文書登録の処理の
手順を示すフローチャートである。
【図15】図14のステップS4001で実行される文
書内容概念登録処理の詳細を示すフローチャートであ
る。
【図16】図14のステップS4002で実行される検
索関連語抽出処理の詳細を示すフローチャートである。
【図17】図14のステップS4003で実行される検
索語概念抽出処理の詳細を示すフローチャートである。
【符号の説明】
11 マイクロプロセッサ(CPU、受取手段、判別手
段、展開語取得手段、第1の評価尺度表現手段、第2の
評価尺度表現手段、類似度算出手段) 12 ROM 13 RAM 14 外部メモリ(DISK、文字情報記憶手段、検索
語展開辞書) 15 キーボード(KB) 16 表示用ビデオメモリ(VRAM) 17 CRTコントローラ(CRTC) 18 表示装置(CRT) 19 ネットワークコントローラ(NIC)

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 複数のマルチメディア情報を管理し、該
    複数のマルチメディア情報の中から所望のマルチメディ
    ア情報を検索することが可能な情報検索装置において、 前記複数のマルチメディア情報の内容をそれぞれ言語表
    現した文字情報を記憶する文字情報記憶手段と、 検索語と関連性のある展開語を、該検索語と対応づけて
    記憶する検索語展開辞書と、 所望のマルチメディア情報を検索するための検索文を外
    部から受け取る受取手段と、 前記受取手段によって受け取られた検索文を構成する検
    索語に応じて、該検索語に対して展開語への展開を行な
    うか否かを判別する判別手段と、 前記判別手段により展開を行なうと判別された場合に、
    前記検索語展開辞書を参照して、前記検索語に対応する
    展開語を取得する展開語取得手段と、 前記展開語取得手段によって取得された展開語の概念特
    徴を第1の評価尺度によって表現する第1の評価尺度表
    現手段と、 前記文字情報記憶手段によって記憶された各文字情報の
    概念特徴を第2の評価尺度によって表現する第2の評価
    尺度表現手段と、 前記第1の評価尺度表現手段によって表現された第1の
    評価尺度と前記第2の評価尺度表現手段によって表現さ
    れた第2の評価尺度とを基に、前記検索文を構成する検
    索語と前記複数のマルチメディア情報の各々との類似度
    を算出する類似度算出手段とを有することを特徴とする
    情報検索装置。
  2. 【請求項2】 前記第1の評価尺度及び前記第2の評価
    尺度は、複数の意味素から成る複数次元ベクトルによっ
    てそれぞれ構成され、概念特徴は意味素の集合で表現さ
    れることを特徴とする請求項1記載の情報検索装置。
  3. 【請求項3】 前記第1の評価尺度及び前記第2の評価
    尺度は、単語の集合から構成されることを特徴とする請
    求項1記載の情報検索装置。
  4. 【請求項4】 前記判別手段は、前記受取手段によって
    受け取られた検索文を構成する検索語の数を所定値と比
    較し、該検索語の数が該所定値以下である場合に、該検
    索語に対して展開語への展開を行なうと判別することを
    特徴とする請求項1乃至請求項3のいずれかに記載の情
    報検索装置。
  5. 【請求項5】 前記展開語取得手段は、前記受取手段に
    よって受け取られた検索文を構成する検索語のうち所定
    の品詞の単語を選択し、該選択された単語に対応する展
    開語を取得することを特徴とする請求項1乃至請求項4
    のいずれかに記載の情報検索装置。
  6. 【請求項6】 前記検索語展開辞書に記憶される展開語
    は、対応の検索語から連想派生可能な連想語であること
    を特徴とする請求項1乃至請求項5のいずれかに記載の
    情報検索装置。
  7. 【請求項7】 複数のマルチメディア情報を管理し、該
    複数のマルチメディア情報の中から所望のマルチメディ
    ア情報を検索することが可能な情報検索装置に適用され
    る情報検索方法において、 前記複数のマルチメディア情報の内容をそれぞれ言語表
    現した文字情報を格納する文字情報格納ステップと、 所望のマルチメディア情報を検索するための検索文を外
    部から受け取る受取ステップと、 前記受取ステップによって受け取られた検索文を構成す
    る検索語に応じて、該検索語に対して展開語への展開を
    行なうか否かを判別する判別ステップと、 前記判別ステップにより展開を行なうと判別された場合
    に、検索語と関連性のある展開語を、該検索語と対応づ
    けて記憶する検索語展開辞書を参照して、前記検索文を
    構成する検索語に対応する展開語を取得する展開語取得
    ステップと、 前記展開語取得ステップによって取得された展開語の概
    念特徴を第1の評価尺度によって表現する第1の評価尺
    度表現ステップと、 前記文字情報格納ステップによって格納された各文字情
    報の概念特徴を第2の評価尺度によって表現する第2の
    評価尺度表現ステップと、 前記第1の評価尺度表現ステップによって表現された第
    1の評価尺度と前記第2の評価尺度表現ステップによっ
    て表現された第2の評価尺度とを基に、前記検索文を構
    成する検索語と前記複数のマルチメディア情報の各々と
    の類似度を算出する類似度算出ステップとを有すること
    を特徴とする情報検索方法。
  8. 【請求項8】 前記第1の評価尺度及び前記第2の評価
    尺度は、複数の意味素から成る複数次元ベクトルによっ
    てそれぞれ構成され、概念特徴は意味素の集合で表現さ
    れることを特徴とする請求項7記載の情報検索方法。
  9. 【請求項9】 前記第1の評価尺度及び前記第2の評価
    尺度は、単語の集合から構成されることを特徴とする請
    求項7記載の情報検索方法。
  10. 【請求項10】 前記判別ステップは、前記受取ステッ
    プによって受け取られた検索文を構成する検索語の数を
    所定値と比較し、該検索語の数が該所定値以下である場
    合に、該検索語に対して展開語への展開を行なうと判別
    することを特徴とする請求項7乃至請求項9のいずれか
    に記載の情報検索方法。
  11. 【請求項11】 前記展開語取得ステップは、前記受取
    ステップによって受け取られた検索文を構成する検索語
    のうち所定の品詞の単語を選択し、該選択された単語に
    対応する展開語を取得することを特徴とする請求項7乃
    至請求項10のいずれかに記載の情報検索方法。
  12. 【請求項12】 前記検索語展開辞書に記憶される展開
    語は、対応の検索語から連想派生可能な連想語であるこ
    とを特徴とする請求項7乃至請求項11のいずれかに記
    載の情報検索方法。
  13. 【請求項13】 複数のマルチメディア情報を管理し、
    該複数のマルチメディア情報の中から所望のマルチメデ
    ィア情報を検索することが可能な情報検索装置に適用さ
    れる情報検索方法をプログラムとして記憶した、コンピ
    ュータにより読み出し可能な記憶媒体において、 前記情報検索方法が、 前記複数のマルチメディア情報の内容をそれぞれ言語表
    現した文字情報を格納する文字情報格納ステップと、 所望のマルチメディア情報を検索するための検索文を外
    部から受け取る受取ステップと、 前記受取ステップによって受け取られた検索文を構成す
    る検索語に応じて、該検索語に対して展開語への展開を
    行なうか否かを判別する判別ステップと、 前記判別ステップにより展開を行なうと判別された場合
    に、検索語と関連性のある展開語を、該検索語と対応づ
    けて記憶する検索語展開辞書を参照して、前記検索文を
    構成する検索語に対応する展開語を取得する展開語取得
    ステップと、 前記展開語取得ステップによって取得された展開語の概
    念特徴を第1の評価尺度によって表現する第1の評価尺
    度表現ステップと、 前記文字情報格納ステップによって格納された各文字情
    報の概念特徴を第2の評価尺度によって表現する第2の
    評価尺度表現ステップと、 前記第1の評価尺度表現ステップによって表現された第
    1の評価尺度と前記第2の評価尺度表現ステップによっ
    て表現された第2の評価尺度とを基に、前記検索文を構
    成する検索語と前記複数のマルチメディア情報の各々と
    の類似度を算出する類似度算出ステップとを有すること
    を特徴とする記憶媒体。
  14. 【請求項14】 前記第1の評価尺度及び前記第2の評
    価尺度は、複数の意味素から成る複数次元ベクトルによ
    ってそれぞれ構成され、概念特徴は意味素の集合で表現
    されることを特徴とする請求項13記載の記憶媒体。
  15. 【請求項15】 前記第1の評価尺度及び前記第2の評
    価尺度は、単語の集合から構成されることを特徴とする
    請求項13記載の記憶媒体。
  16. 【請求項16】 前記判別ステップは、前記受取ステッ
    プによって受け取られた検索文を構成する検索語の数を
    所定値と比較し、該検索語の数が該所定値以下である場
    合に、該検索語に対して展開語への展開を行なうと判別
    することを特徴とする請求項13乃至請求項15のいず
    れかに記載の記憶媒体。
  17. 【請求項17】 前記展開語取得ステップは、前記受取
    ステップによって受け取られた検索文を構成する検索語
    のうち所定の品詞の単語を選択し、該選択された単語に
    対応する展開語を取得することを特徴とする請求項13
    乃至請求項16のいずれかに記載の記憶媒体。
  18. 【請求項18】 前記検索語展開辞書に記憶される展開
    語は、対応の検索語から連想派生可能な連想語であるこ
    とを特徴とする請求項13乃至請求項17のいずれかに
    記載の記憶媒体。
JP2000316513A 2000-10-17 2000-10-17 情報検索装置、情報検索方法、及び記憶媒体 Pending JP2002123551A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000316513A JP2002123551A (ja) 2000-10-17 2000-10-17 情報検索装置、情報検索方法、及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000316513A JP2002123551A (ja) 2000-10-17 2000-10-17 情報検索装置、情報検索方法、及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2002123551A true JP2002123551A (ja) 2002-04-26

Family

ID=18795448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000316513A Pending JP2002123551A (ja) 2000-10-17 2000-10-17 情報検索装置、情報検索方法、及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2002123551A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159396A (ja) * 2018-03-07 2019-09-19 株式会社日本電気特許技術情報センター 編集装置、編集方法および編集プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159396A (ja) * 2018-03-07 2019-09-19 株式会社日本電気特許技術情報センター 編集装置、編集方法および編集プログラム
JP7050533B2 (ja) 2018-03-07 2022-04-08 株式会社日本電気特許技術情報センター 編集装置、編集方法および編集プログラム

Similar Documents

Publication Publication Date Title
CN101019119B (zh) 基于名称的url输入
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
US9483460B2 (en) Automated formation of specialized dictionaries
US20070156748A1 (en) Method and System for Automatically Generating Multilingual Electronic Content from Unstructured Data
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
US20140012841A1 (en) Weight-based stemming for improving search quality
US20210103622A1 (en) Information search method, device, apparatus and computer-readable medium
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Atwan et al. Semantically enhanced pseudo relevance feedback for Arabic information retrieval
US20160154885A1 (en) Method for searching a database
KR20090097971A (ko) 특허 검색 시스템 및 검색 방법
Ramirez et al. ACE: improving search engines via Automatic Concept Extraction
JP2002230020A (ja) 情報検索装置、情報検索方法、及び記憶媒体
JP2009533767A (ja) 垂直ドメイン内で検索を実行するシステム及び方法
Khan et al. A content-based technique for linking dual language news articles in an archive
JP2002123550A (ja) 情報検索装置、方法、及び記憶媒体
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JP4289891B2 (ja) 情報検索装置、情報検索方法およびプログラム
JP2002175329A (ja) 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
JP2002123551A (ja) 情報検索装置、情報検索方法、及び記憶媒体
US8566079B2 (en) Retrieval result outputting apparatus and retrieval result outputting method
JP2002108936A (ja) 情報検索装置及びその制御方法及びコンピュータ読み取り可能な記憶媒体
Liu et al. Context-based online medical terminology navigation
Modi et al. Multimodal web content mining to filter non-learning sites using NLP
JP2002108914A (ja) 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060404

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626