JP2006227914A - 情報検索装置、情報検索方法、プログラム、記憶媒体 - Google Patents

情報検索装置、情報検索方法、プログラム、記憶媒体 Download PDF

Info

Publication number
JP2006227914A
JP2006227914A JP2005040897A JP2005040897A JP2006227914A JP 2006227914 A JP2006227914 A JP 2006227914A JP 2005040897 A JP2005040897 A JP 2005040897A JP 2005040897 A JP2005040897 A JP 2005040897A JP 2006227914 A JP2006227914 A JP 2006227914A
Authority
JP
Japan
Prior art keywords
search
document
contents
information
digitized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005040897A
Other languages
English (en)
Inventor
Tomonori Kudou
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005040897A priority Critical patent/JP2006227914A/ja
Publication of JP2006227914A publication Critical patent/JP2006227914A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 内容の類似する所望の電子化文書を効率よく検索することを可能にすること。
【解決手段】 一の電子化文書の内容に基づいて類似する内容の他の電子化文書を検索する情報検索方法は、入力された検索要求に基づいて、一の電子文書の内容を検索するための検索条件を取得し、一の電子化文書から検索条件に対応する部分を検索する。検索された電子化文書の対応部分のデータを取得し、取得された対応部分のデータが、記憶手段に格納されている他の電子化文書の内容と、類似するか否か判定し、対応部分のデータと類似する内容の他の電子化文書を検索する。
【選択図】 図3

Description

本発明は、検索要求に基づいて電子化文書を検索する情報検索技術に関するものである。
近年、大量の文書を処理する機会が増加したことに伴い所望の電子化文書(以下、単に「文書」という)を検索するための情報検索技術も多種多様になってきている。これは文書に含まれている用語に基づく単純なキーワード検索(キーワードを指示し、それが文書データ中に出現するか否かで検索を行う)だけでは、大量の文書を効率よく検索するというユーザの要求を十分に満たさなくなってきているためである。
キーワード検索に代わり、ある文書(または、フレーズ、単語)と内容が適合する(類似する)文書を検索するために、文書中の節や段落に含まれる単語(キーワード)相互の関係や文書における節や段落の構成の類似性をパラメータ(類似度)により判定したものや、あるいは、文書の内容を特徴づける「分野」、「単語」の情報等を要素とした文書ベクトルを文書ごとに求め、それぞれの文書ごとに求めた文書ベクトル間の内積の値を用いて文書間の類似度を求める検索技術が提案されている。
上述の従来技術として、例えば、以下の特許文献1に示されるものがある。
特開2003−6214号公報
しかしながら、従来の検索技術を適用した情報検索装置では、検索する文書の内容として、例えば、文書全体の段落にわたり複数の話題が含まれているような場合、文書ベクトルから求めた類似度に基づいて他の文書を検索しても、目的とする内容の文書が検索できないような場合がある。
また、文書データがファイルとして存在する場合、そのファイルを開き、個別に文書ファイルの内容を検索する必要があり、大量の文書を効率的に検索するには限界がある。また、文書ファイルが無い場合は、OCR等から文書を文書ファイルとして読み込み、読み込んだ文書ファイルから情報検索装置が文字検索を行う必要があるが、OCRによる文字の誤認識や文字のタイプミスなどが影響して検索結果は必ずしも所望のものとならず、検索漏れを起こす場合もある。
ユーザにとって、上述の検索技術は、検索に要する操作の面でも煩雑で、検索結果においても検索漏れの可能性があり、検索効率としては十分なものではなかった。
本発明は従来の問題点に鑑み、内容の類似する所望の電子化文書を効率よく検索することを可能にする操作性に優れた情報検索技術を提供することを目的とするものである。
上記の目的を達成するべく、本発明にかかる情報検索装置は、主として以下の構成を備えることを特徴とする。
すなわち、本発明にかかる情報検索装置は、一の電子化文書の内容に基づいて類似する内容の他の電子化文書を検索する情報検索装置であって、
入力された検索要求に基づいて、前記一の電子文書の内容を検索するための検索条件を取得する検索条件取得手段と、
前記一の電子化文書から前記検索条件に対応する部分を検索する対応部分検索手段と、
前記対応部分検索手段により検索された前記電子化文書の対応部分のデータを取得するデータ取得手段と、
前記データ取得手段により取得された前記対応部分のデータが、記憶手段に格納されている前記他の電子化文書の内容と、類似するか否か判定し、前記対応部分のデータと類似する内容の他の電子化文書を検索する電子化文書検索手段とを備えることを特徴とする。
本発明によれば、所望の電子化文書を効率よく検索することが可能になる。
以下、添付図面を参照して本発明の実施形態を説明する。
[第1実施形態]
図1は、本発明の第1実施形態に係る情報検索装置10の構成を示すブロック図である。情報検索装置10は、以下に説明する目次検索、フレーズ検索、概念検索に関する情報検索処理や情報検索装置10の全体的な制御を実行する中央処理ユニット1を有している。また、情報検索装置10は、検索対象となる電子化文書やアノテーション付き画像等のほか、情報検索処理に関するプログラムや電子化辞書(基本ベクトル辞書を含む)、情報検索処理を実行する際に参照する閾値等のパラメータを格納する記憶ユニット2と、情報検索処理に関する操作設定を入力するキーボードやマウス等の入力ユニット3と、検索結果を表示する表示ユニット4、そしてFD(フレキシブルディスク)、CD−ROM、磁気テープ、DVD等の記録媒体に記憶されたプログラムや閾値等のパラメータ、電子化文書等を記憶ユニット2に格納する記憶媒体読取ユニット5を有している。
以下に説明する目次検索、フレーズ検索、概念検索における電子化文書は、スキャナーなどで読み込んだ文書でもよく、CD−ROM、磁気テープ、DVD等の記録媒体に記憶されたものでもよく、後に説明するネットワーク7上の他の情報検索装置8と通信ユニット6を介して通信して取得した電子化文書でもよい。
更に、情報検索装置10は、通信ユニット6を有し、ネットワーク7(例えば、インターネットやLAN等を含む双方向に通信が可能な電気通信回線)と接続し、ネットワーク7上の他の情報検索装置8と通信ユニット6を介して通信して、上述のプログラムや閾値等のパラメータや、電子化された目次データや電子化文書に関する情報を送受信することができる。
本実施形態にかかる情報検索装置10は、一の電子化文書の内容に基づいて類似する内容の他の電子化文書を、他の電子化文書が格納されている記憶部(2、8、21a,21b)から検索することが可能である。この情報検索装置の構成は、入力された検索要求に基づいて、一の電子文書の内容を検索するための検索条件(以下に詳細に説明する目次検索における目次項目、フレーズ検索における単語や構文情報、概念検索における検索要求に基づく単語)を取得する検索条件取得部と、一の電子化文書から検索条件に対応する部分を検索する対応部分検索部と、対応部分検索部により検索された電子化文書の対応部分のデータを取得するデータ取得部と、データ取得部により取得された対応部分のデータが、記憶部(2、8、21a,21b)に格納されている他の電子化文書の内容と、類似するか否か判定し、対応部分のデータと類似する内容の他の電子化文書を検索する電子化文書検索部とを備える。
図2は本発明の実施形態にかかる情報検索装置10が有する機能を備える複数のクライアント20a〜dがネットワーク27a,b(例えば、インターネットやLAN等を含む双方向に通信が可能な電気通信回線)を介して接続し、サーバー21a,21bに設けられている不図示のデータベースに格納されている文書を検索する情報検索システムの構成例を概略的に示す図である。例えば、クライアント20aは他のクライアント20b〜dのいずれかから入力された文書と類似する文書を検索するために、サーバー21a,またはサーバー21bに登録されている文書に関する情報から以下に詳細に説明する目次検索、フレーズ検索及び概念検索のいずれかを適用して、所望の文書の内容に類似する文書を検索することができる。以下の説明では、情報検索装置10単体に着目し、目次検索、フレーズ検索及び概念検索がいかに実行させるか具体的に説明する。
[検索処理の概要説明]
本発明の実施形態にかかる情報検索装置10は、検索処理として、目次データから電子化文書の内容を検索する目次検索、検索しようとするフレーズに基づいて文書の内容を検索するフレーズ検索、文書に含まれる単語に基づいて文書の特徴を特徴量ベクトルによりデータ化する概念検索が可能である。以下、本実施形態の検索処理として、目次検索、フレーズ検索及び概念検索について具体的に説明する。
(1.目次検索)
図3は、目次検索処理の流れを説明するフローチャートである。
まず、図4Aに示す表示ユニット4の画面表示41から、目的の文書(ここでは、「DOM−Level−1.html」)を選択し、ポップアップメニュー43から「目次表示」(40)を選択すると、中央処理ユニット1は、図4Bのような目次データ44を表示ユニット4に表示する。
この目次データ44から検索する目次項目として、図4Cに示すように、「1.1 DOMコアインタフェースの概要」(45)をユーザが入力ユニット3を介して選択すると、中央処理ユニット1は、図4Dのようにポップアップメニュー46を表示ユニット4に表示する。そして、ユーザによる「項目検索」(47)の選択により、目次データから指定された目次項目の検索がスタートする。
説明を図3に戻し、中央処理ユニット1は、ステップS301の目次項目取得処理において、文章の目次データ44から、検索するべき目次項目(図4Cの45)に関する情報を取得する。この目次項目に関する情報は、図8の800に示すように、項番号801a,段落のタイトル(見出し)801b、該当するページ番号801cに関する情報を含み、検索の対象となる対象段落(検索するべき文書の内容)を特定する情報として取得される。
次に、ステップS302において、先のステップS301で得られた目次項目に対応する文章中の対応部分のデータを取得する。この処理の具体的な内容は、図5Aのフローチャートを参照して以下詳細に説明する。
<対応部分取得処理(S302)の詳細について>
図5Aは、図3のステップS302における対応部分取得処理の詳細を説明するフローチャートである。中央処理ユニット1は、ステップS501において、図3のステップS301で取得された、検索要求(query:クエリー)に対応する目次項目の情報(項番号、見出し、ページ番号など)を取得する。
そして、ステップS502の検索対応項目リンク判定処理において、先のステップS501で得られた検索要求に対応する目次項目が文章中の本文のデータとリンクされているか否かを判定する。例えば、文書がHTML、XMLなどの構造化文書で、検索要求に対応する目次項目と文章中の本文のデータとがタグの設定によりリンクされているか否かを判定する。そして、中央処理ユニット1は、文章中の本文のデータと検索要求に対応する目次項目とがリンクされていると判断する場合(S502−Yes)、処理をステップS503に進め、リンク先から検索要求に対応する部分(リンク先部分)の情報を取得する。
中央処理ユニット1は、リンク先部分の情報として、検索要求に対応する見出しの情報、または、見出しとその見出しに対応する本文の情報を取得することができる。
例えば、検索要求(「1.1 DOMコアインタフェースの概要」(45):図4Cを参照)に対応する部分として、図5Bの511、512、図5Cの513、図5Dの514に示すような文章中のデータがリンクされている場合、ステップS503の処理により、リンク先として、対応する見出しとその見出しに対応する本文がリンク先部分のデータとして取得される。
尚、図5Bの511は、「1.1 DOMコアインタフェースの概要」に関する文書を例示しており、図5Bの512、図5Cの513は、項番号「1.1」に含まれる「1.1.1 DOM構造モデル」に関する文章を例示しており、図5Dの514は、項番号「1.1」に含まれる「1.1.2 メモリ管理」に関する文章を例示している。検索要求として指定された目次項目「1.1 DOMコアインタフェースの概要」と関連する文章の内容にリンクが設定されている場合、リンク先部分の情報として、検索要求に該当する目次項目部分その他リンク設定がされている本文のデータが一括して取得される。
一方、文章中の本文のデータとリンクされていない場合(S502−No)、処理をステップS504に進め、先のステップS501で得られた目次データ44から検索要求の目次項目45に対応する部分を検索する。目次項目45に対応する部分(対応部分)を取得するための具体的な処理の内容は、図6を参照して後に詳細に説明する。対応部分の検索結果は、一時的に記憶ユニット2に格納され、次のステップS505の処理において、必要に応じて、中央処理ユニット1が読み出すようにしてもよい。例えば、対応部分の候補となる部分が複数箇所検索された場合、これらの検索結果を一旦、記憶ユニット2に格納しておき、後の対応部分取得処理(S505)において、順次検索結果を読み出して、検索結果として得られた対応部分の位置(目次項目の見出し、ページ、項番号に対応する位置)が正しいか否かを判定するようにしてもよい。
そして、ステップS505の対応部分取得処理において、ステップS504で検索された検索要求に対応する部分(例えば、見出しにより特定される位置(見出し))の本文データを取得する。この処理の具体的な内容は、図7を参照して後に詳細に説明する。
説明を図3に戻し、対応部分の取得処理(S302)が完了すると、中央処理ユニット1は、ステップS303において、先のステップS302で得られた目次項目に対応する本文データの内容と類似している電子化文書(文書)を、記憶ユニット2に格納されている複数の文書から検索する。
中央処理ユニット1は、取得した本文データに含まれる単語、または単語の組み合わせによる構文が検索対象となる電子化文章中の内容に含まれるか否か、含まれている場合、完全一致か否か、相違点の数などを個別にカウントし、各判定要素を数値化して、電子化文書が本文データの内容と似ていることを示すパラメータとして類似度を定量的に求め、本文データの内容と類似している電子化文書を判定することができる。
尚、電子化文書の検索は、図2のシステムの構成で説明したように、情報検索装置10内の記憶ユニット2に限定されるものではなく、サーバー21a,21bに設けられているデータベースを参照することも可能である。
ステップS304の検索結果表示処理において、ステップS303で得られた検索結果に基づいて、中央処理ユニット1は、図7Cに示すように検索結果リストを内容が一致している割合(一致度)の高い順に表示ユニット4に一覧表示し、この検索結果を記憶ユニット2に格納する。
次に、ステップS504の対応部分検索処理(図5A)の詳細について図6のフローチャートを参照して説明する。
<対応部分検索処理(S504)の詳細について>
図6は、図5AのステップS504における対応部分検索処理の詳細を説明するフローチャートである。中央処理ユニット1は、ステップS601において、図5AのステップS501で取得した検索要求に対応する目次項目の情報から同一文書内において対応する部分を検索する(ファイル内検索)。この場合、例えば、検索要求中において指定されているページ番号801c(図8)から対応する部分を検索するようにしてもよい。あるいは、ページ番号801cに限らず、項番号801a、見出しの文字列(以下、単に「見出し」ともいう)801bの比較、あるいはこれらの組み合わせによっても検索することは可能である。
そして、ステップS602における検索判定処理において、同一文書内に対応する部分が存在すれば(S602−Yes)、その検索結果(対応部分を特定する位置(例えば、見出し))を記憶ユニット2に格納してステップS504の処理を終了する。
一方、同一文書内に対応する部分が存在しなければ(S602−No)、ステップS603に処理を進め、中央処理ユニット1は、記憶ユニット2に格納されている複数の電子化文書から検索要求に対応する部分を検索する。
記憶ユニット2中に検索要求に対応する部分がある場合は、その検索結果を記憶ユニット2に格納し、対応する部分が無ければ、対応部分の検索に失敗したものとして処理を終了する。この際、中央処理ユニット1は、情報検索装置10内に限定されず、例えば、他の情報検索装置(例えば、図1の8)や、サーバー21a,21bのデータベースを検索することも可能である。
ここで取得された検索結果もステップS602−Yesの場合と同様に記憶ユニット2に格納される。
次に、検索要求として指定された目次項目に対応する部分の取得処理を図7Aのフローチャートを参照して説明する。
<目次項目に対応する部分の取得処理>
図7Aは、図5AのステップS505の対応部分取得処理に関する処理の流れを説明するフローチャートである。
中央処理ユニット1は、ステップS701において、図5AのステップS504で取得された対応部分を特定する位置(例えば、見出し)を、中央処理ユニット1内で演算するための不図示の記憶領域に設定する(ここで、候補となる見出しが複数ある場合は、見出しの文字列を順次読み出し、不図示の記憶領域に設定するようにしてもよい)。
ステップS702において、先のステップS701で設定された見出しと、目次データ44における目次項目45における見出しとの一致度が閾値より大きいか否かを判定する。
中央処理ユニット1は一致度を、ステップS701で設定された見出しと、目次項目45における見出しとの特徴点を抽出し、特徴点が一致する割合に基づくパターン認識技術を適用して、定量的に求めることができる。
図7Bは、「見出し」の検索例を説明する図であり、「見出し」514には、OCRで読み込んだ際の誤認識72(長音記号が「−」マイナス記号として誤認識されている文字列)が含まれている。また、項番号「1.1」の部分には、誤認識71(数字の「1」がアルファベットの小文字(エル)「l」として誤認識されている文字列)が含まれている。誤認識の文字列が含まれていると、一致度の評価は、完全一致の場合に比べて低くなる。
説明を図7AのステップS702に戻し、見出しの一致度が閾値より大きい場合(S702−Yes)、処理をステップS707に進めて、取得した位置は正しいもの(取得位置正解)として判定して(S707)、処理を終了する。
一方、ステップS702の判定で、見出しの一致度が閾値以下の場合(S702−No)、処理をステップS703に進める。中央処理ユニット1は、ステップS703の処理において、候補となる全ての見出しに対する一致度と閾値との比較を行ったか否かを判定し、全ての見出しに対する判定が終了した場合(S703−Yes)、処理をステップS706に進め、取得した全ての位置(見出し)は正しくないもの(取得位置不正解)として判定し、処理を終了する。
ステップS703の判定において、全ての見出しの判定が終了していない場合は(S703−No)、処理をステップS705に進め、次の見出しを設定し(S705)、再び処理をステップS702に戻し、見出しの一致度の算出、閾値との比較について判定処理を再び行う。
そして、再度設定された次の見出しの一致度が閾値を超える場合(S702−Yes)、処理をステップS707に進め、中央処理ユニット1は、取得した位置(見出し)は正しい(取得位置正解)と判定する。
目次項目の検索としては、例えば、ページ単位、または段落を指定するための項番号の指定により検索範囲を特定するようにしてもよい。
ここで説明した目次検索によれば、検索により取得された見出しの文字列と目次項目45の文字列との一致度に基づいて、検索範囲を特定する位置(見出し)が正しく取得できているか否かを正確に判定することが可能になり、指定された目次項目に対応する部分を効率的に取得(抽出)することができる。
(2.フレーズ検索)
次に、情報検索装置10が実行可能な検索処理の一態様として、フレーズ検索を説明する。図9Aは、フレーズ検索の処理の流れを説明するフローチャートであり、図9Bはフレーズ検索におけるフレーズの解析例を示す図である。このフレーズ検索は図3で説明した、ステップS303の類似検索の1例として実行することも可能である。
すなわち、本実施形態にかかる情報検索装置において、検索条件取得部は、検索条件となる単語の情報または単語の組み合わせによる構文情報を取得し、電子化文書検索部は、検索条件取得部が取得した単語の情報または単語の組み合わせによる構文情報に基づいて、検索しようとする他の電子化文書と類似するか否か判定する。類似するか否かの判定は、後に詳細に説明する(1)、(2)式による類似度の算出に基づいて行うことができる。電子化文書検索部は、その判定に基づいて、検索条件から類似する内容の電子化文書を検索する。
図9AのステップS91において、中央処理ユニット1は、検索要求(クエリー)として入力されたフレーズを解析し、フレーズの解析結果からフレーズを構成する単語相当(以下、「クエリー単語」ともいう)に分解するクエリー単語取得処理を実行する。
例えば、図9Bの901に示す「画像を印刷する。」というフレーズが入力された場合、中央処理ユニット1は、入力されたフレーズを基に、単語相当のレベルに分解したクエリー単語として「画像」、「を」、「印刷する。」を取得する。
次に、ステップS92において、中央処理ユニット1は、先のステップS91の処理で分解されたクエリー単語間の関係(単語の組み合わせによる構文情報、以下、単に「構文情報」という)を取得する。例えば、図9Bの901において、「画像」という単語が「印刷する。」に係る関係があることを取得する。
ステップS93において、先のステップS91及びステップS92で取得したクエリー単語及びクエリー単語間の関係(構文情報)と、文書中の単語及び文書中の単語間の関係(構文情報)と、を比較して類似度を算出する。
例えば、図9Bの902に示すフレーズ1には、クエリー単語として「画像」、「を」、「印刷する。」が含まれており、検索要求901のクエリー単語を全て含んでいる。また、クエリー単語間の関係として、「画像」が「印刷する。」に係っているという関係は共通するが、フレーズ901には含まれない「高速」というクエリー単語が「印刷する。」に係る関係がフレーズ902に含まれている点において相違する。
クエリー単語の共通性と単語間の関係に基づいて、中央処理ユニット1は、類似度を以下の(1)のように算出する。
類似度=1.0−(クエリー単語による減点(0:901のクエリー単語を全て含んでいるので減点はゼロ))−単語間の関係による減点(0.1:「高速」という1単語が余分に含まれている)=0.9・・・(1)
次に、図9Bの903に示すフレーズ2では、検索要求901のクエリー単語を全て含んでいるので、クエリー単語による減点はゼロである。また、クエリー単語間の関係では、「画像」というクエリー単語は「読み込む。」に係り、「文書」というクエリー単語は「印刷する。」に係っており、検索要求901のクエリー単語間の関係と係り先が異なることから、減点を0.5とすると、類似度は(2)に示すように算出される。
類似度=1.0−単語による減点(0)−単語の関係による減点(0.5)=0.5…(2)
中央処理ユニット1は、ステップS93の類似度の算出結果に基づいて、指定されたフレーズに類似する内容の電子化文書(文書)を個別に判定し、記憶ユニット2に格納されている複数の文書から検索する(S93)。尚、文書の検索は、図2のシステムの構成で説明したように、情報検索装置10内の記憶ユニット2に限定されるものではなく、サーバー21a,21bに設けられているデータベースを参照することも可能である。
検索要求として指定されたフレーズと類似するフレーズを含む文書の検索結果は、図3のステップS304と同様の処理により、図7Cに示すように類似度の高い順に表示ユニット4に一覧表示され、検索結果は記憶ユニット2に格納される。
(3.概念検索)
次に、情報検索装置10が実行可能な検索処理の一態様として、概念検索について説明する。図10、図11は、概念検索の処理の流れを説明するフローチャートである。この概念検索は図3で説明した、ステップS303の類似検索の1例として実行することも可能である。
すなわち、本実施形態にかかる情報検索装置は、概念検索を実行する構成として、記憶部(2、8、21a,21b)に格納する電子化文書の内容を解析し、電子化文書に含まれている単語を取得する電子化文書解析部と、単語毎に複数の次元に応対した特徴量が格納されている基本ベクトル辞書を参照して、電子化文書解析部が取得した単語の特徴量を求め、単語の特徴量に基づいて、電子化文書の特徴を数値化した文書ベクトルを生成する文書ベクトル生成部と、生成された文書ベクトルを、電子化文書を特定するための識別情報と共にインデックステーブルに登録する登録部を備える。電子化文書の解析、文書ベクトルの生成、インデックステーブルへの登録処理は具体的に図10のフローチャートに従う。また、概念検索を実行する情報検索装置において、電子化文書検索部は、基本ベクトル辞書を参照し、検索要求から取得した単語の特徴量に基づく検索要求ベクトルを生成し、検索要求ベクトルと、インデックステーブルに登録されている文書ベクトルとが類似しているか否かを判定し、その判定に基づいて、検索要求に類似する内容の電子化文書をインデックステーブルから検索する。電子化文書の検索処理は具体的に図11のフローチャートに従う。
図10は、概念検索で使用するインデックステーブルに文書のデータを登録するための処理の流れを説明するフローチャートである。
まず、ステップS1010において、中央処理ユニット1は記憶ユニット2のインデックステーブルに登録する文書を解析し、文書に含まれている単語を取得する。例えば、上述のフレーズ検索で説明したように、単語の解析、単語間の関係(構文情報)を求める処理がセンテンス、またはセンテンスの集合としての文書全体に適用され、文書に含まれる単語に関する情報が取得される。
次に、ステップS1020において、中央処理ユニット1は、ステップS1010で取得した単語から基本ベクトル辞書(図12)を用いて文書ベクトルを算出する。
図12は、基本ベクトル辞書の構成を例示した図である。同図に示すように、基本ベクトル辞書には、単語毎に複数の次元(Dim.01〜10・・・)に応対した特徴量が格納されている。次元は、その単語本来の意味や使用分野によって異なる意味で使用されている場合など、単語の使用に応じて複数の次元に分類されており(Dim.01〜Dim.10・・・)、分類された次元ごとに特徴量が数値化されている。
例えば、「単語1」の「Dim.01」の特徴量は「0」であり、「Dim.02」の特徴量は「23」である。中央処理ユニット1は、ステップS1010の文書解析の結果により得られた各単語に基づいて、次元ごとに数値化されている特徴量を求めることができる。特徴量は、その単語が使用される文章の内容を特徴づけ、その単語を含む文書の内容を次元ごとに分類するための基準値として使用することが可能である。文書を構成するすべての単語から得られる次元ごとの特徴量から、文書全体の特徴量が各次元を要素とするベクトルで表現される。中央処理ユニット1は、得られたベクトルをノルム=1として正規化した値をベクトルの要素とする文書ベクトルを生成する。
説明を図10に戻し、ステップS1030において、中央処理ユニット1は、先のステップS1020で生成された文書ベクトルの要素を図13Aに示すようなインデックステーブルの各次元(Dim.01〜10・・・)に対応させて登録する。
例えば、「文書ID=6947」の文書ベクトルにおいて、文書ベクトルの要素「Dim.01」の特徴量は、0.183と登録され、「Dim.02」の特徴量は、0.214と登録される。
以上の処理により、電子化文書の内容を特徴量により定量化した情報がインデックステーブルに登録される。
図13Bはインデックステーブル1301とインデックステーブルに登録されている電子化文書の関係を模式的に示す図である。電子化文書は、記憶ユニット2、あるいはサーバー21a,21bのデータベースに格納される際、その特徴量が解析され文書ベクトルが生成され、格納される電子化文書と対応可能なように識別IDが個別に付与され、電子化文書ごとの文書ベクトルを登録したインデックステーブル1301と、各電子化文書1302〜1305とが記憶ユニット2、あるいはサーバー21a,21bのデータベースに格納される。
次に、図11のフローチャートを用いて、概念検索の処理の流れを説明する。まず、ステップS1110において、例えば、検索要求(クエリー:query)として指定された目次項目や入力されたフレーズ中に含まれる単語を取得する。この単語の取得は、例えば、図9Bで説明したように、フレーズ中に含まれている単語レベルの分解処理により求めることができる。
ステップS1120において、中央処理ユニット1は、先のステップS1110における単語の取得結果から検索要求ベクトル(以下、「クエリーベクトル」という)を生成する。このクエリーベクトルは、図13Aに示すインデックス中のおける各次元(Dim.01〜10・・・)と対比可能なように、次元ごとに対応した特徴量を要素とするものである。中央処理ユニット1は、図12に示すような基本ベクトル辞書を参照して、検索要求から取得した単語の特徴量を求めることができる。
そして、ステップS1130において、先のステップS1120で得られたクエリーベクトルと、記憶ユニット2のインデックステーブルに登録されている文書(・・・ID6947−6959・・・)毎の文書ベクトルと、を比較して類似度を算出する。
中央処理ユニット1は、類似度算出結果に基づいて、指定された検索要求に類似する内容の電子化文書(文書)を、記憶ユニット2のインデックステーブルに登録されている文書から検索する(S1130)。尚、文書の検索は、図2のシステムの構成で説明したように、情報検索装置10内の記憶ユニット2に限定されるものではなく、サーバー21a,21bにインデックステーブルを設けることも可能である。
ステップS1130の類似度算出結果に基づく検索結果は、図3のステップS304と同様の処理により、図7Cに示すように類似度の高い順に表示ユニット4に一覧表示され、検索結果は記憶ユニット2に格納される。
本実施形態によれば、内容の類似する所望の電子化文書を効率よく検索することを可能にする操作性に優れた情報検索技術を提供することが可能になる。
[第2実施形態]
次に、目次検索処理に関する本発明の第2実施形態を説明する。
図14は、第2実施形態にかかる目次検索処理の流れを説明するフローチャートである。まず、図15に示す表示ユニット4の画面表示1541から、目的の文書(ここでは、「DOM−Level−1.html」)を選択し、ポップアップメニュー1543から「類似内容検索」(1548)を選択すると、目次検索で使用する条件設定に移行する。図16は、目次検索で使用する条件を設定する入力画面であり、「目次項目番号」(1603)、「対象段落」(1602)、「対象ページ」(1603)のいずれかを設定することができる。ここで設定された範囲が類似内容検索範囲となる。図16の設定により、目次項目を構成する目次項目番号(項番号)、対象段落(見出しの文字列)、対象ページ、を個別に設定することができ、ユーザが検索を希望する内容を項目ごとに条件設定することができる。
図17は、図16の類似内容検索における範囲の設定で、目次項目番号として「1.1」が目次検索の条件として設定された表示ユニット4の画面を示す図である。また、図18は、図16の類似内容検索における範囲の設定で、対象段落として、「DOMコアインタフェースの概要」が目次検索の条件として設定された表示ユニット4の画面を示す図である。
中央処理ユニット1は、ステップS1401において、目次検索で使用する条件を設定する。例えば、図17に示す検索要求の入力画面から目次の項目番号として「1.1」が指定されると、この指定により、目次項目番号「1.1」が検索要求(クエリー)として設定される。同様に、中央処理ユニット1は、目次検索で使用する条件として、図18に示すように対象段落として「DOMコアインタフェースの概要」を検索要求(クエリー)として指定することも可能である。また、図示していないが、図16の検索条件の設定で、対象ページが指定された場合は、ページ番号を設定することも可能である。
次に、ステップS1402において、先のステップS1401で得られた検索条件(例えば、目次項目番号)から文章中の対応部分を取得する。この処理は、第1実施形態の目次検索処理において、対応部分の取得処理(図3のステップS302)と同様の処理により、指定された目次項目番号に対応する部分を取得する。具体的な処理の説明は、第1実施形態と重複するので省略する。
ステップS1403において、先のステップ1402で得られた対応部分と、記憶ユニット2に格納されている複数の文書から内容が類似している文書を検索する類似検索を行う。類似検索としては、例えば、先に説明した概念検索の例を適用することができる。この場合、中央処理ユニット1は、検索条件の設定で指定された範囲内の本文データの特徴量からクエリーベクトルを求め、記憶ユニット2に登録されているインデックステーブルの文書ベクトルと、クエリーベクトルとの類似度を求めて、指定された検索要求に従い、類似する内容の電子化文書(文書)を、記憶ユニット2のインデックステーブルに登録されている文書から検索する。尚、文書の検索は、図2のシステムの構成で説明したように、情報検索装置10内の記憶ユニット2に限定されるものではなく、サーバー21a,21bにインデックステーブルを設けることも可能である。
そして、ステップS1404において、中央処理ユニット1は、先のステップS1403で得られた検索結果を基に図7Cに示すように検索結果リストを類似度の高い順に表示ユニット4に一覧表示し、検索結果を記憶ユニット2に格納する。
本実施形態によれば、内容の類似する所望の電子化文書の検索において、ユーザが検索を希望する検索内容を項目ごとに条件設定することで、より操作性に優れた情報検索技術を提供することが可能になる。
[他の実施形態]
前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは情報検索装置に供給し、そのシステムあるいは情報検索装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の第1実施形態に係る情報検索装置の構成を示すブロック図である。 本発明の実施形態にかかる情報検索装置が有する機能を備える複数のクライアントと、サーバーを有する情報検索システムの構成例を概略的に示す図である。 目次検索処理の流れを説明するフローチャートである。 表示ユニット4の画面表示を示す図である。 表示ユニット4上に表示されている目次データ44を示す図である。 目次データ44から目次項目45を選択した状態を示す図である。 選択した目次項目に基づく検索を指示する状態を示す図である。 図3のステップS302における対応部分取得処理の詳細を説明するフローチャートである。 対応部分の検索データの例を示す図である。 対応部分の検索データの例を示す図である。 対応部分の検索データの例を示す図である。 図5AのステップS504における対応部分検索処理の詳細を説明するフローチャートである。 図5AのステップS505の対応部分取得処理に関する処理の流れを説明するフローチャートである。 「見出し」の検索例を説明する図である。 検索結果の表示例を示す図である。 目次項目を構成する項番号、段落のタイトル(見出し)、該当ページを例示的に示す図である。 フレーズ検索の処理の流れを説明するフローチャートである。 フレーズ検索におけるフレーズの解析例を示す図である。 概念検索の処理の流れを説明するフローチャートである。 概念検索の処理の流れを説明するフローチャートである。 基本ベクトル辞書の構成を例示した図である。 インデックステーブルの構成を例示した図である。 インデックステーブルと電子化文書の関係を模式的に示した図である。 第2実施形態にかかる目次検索処理の流れを説明するフローチャートである。 第2実施形態における表示ユニットの画面表示を例示する図である。 第2実施形態に係る目次検索で使用する条件を設定する入力画面である。 図16の類似内容検索における範囲の設定で、目次項目番号として「1.1」が目次検索の条件として設定された表示ユニットの画面を示す図である。 図16の類似内容検索における範囲の設定で、対象段落として、「DOMコアインタフェースの概要」が目次検索の条件として設定された表示ユニットの画面を示す図である。

Claims (11)

  1. 一の電子化文書の内容に基づいて類似する内容の他の電子化文書を検索する情報検索装置であって、
    入力された検索要求に基づいて、前記一の電子文書の内容を検索するための検索条件を取得する検索条件取得手段と、
    前記一の電子化文書から前記検索条件に対応する部分を検索する対応部分検索手段と、
    前記対応部分検索手段により検索された前記電子化文書の対応部分のデータを取得するデータ取得手段と、
    前記データ取得手段により取得された前記対応部分のデータが、記憶手段に格納されている前記他の電子化文書の内容と類似するか否か判定し、前記対応部分のデータと類似する内容の他の電子化文書を検索する電子化文書検索手段と
    を備えることを特徴とする情報検索装置。
  2. 前記検索条件取得手段は、前記一の電子文書の目次データから前記検索条件を取得することを特徴とする請求項1に記載の情報検索装置。
  3. 前記対応部分検索手段は、前記目次データから得られた前記検索条件に対応する部分を、当該検索条件の文字列と前記一の電子化文書中の文字列との特徴点が一致する割合に基づいて当該一の電子化文書から検索することを特徴とする請求項1に記載の情報検索装置。
  4. 前記検索条件取得手段は、前記入力された検索要求から、検索条件となる単語の情報または単語の組み合わせによる構文情報を取得することを特徴とする請求項1に記載の情報検索装置。
  5. 前記電子化文書検索手段は、前記検索条件取得手段が取得した前記単語の情報または単語の組み合わせによる構文情報に基づいて、前記一の電子化文書と、前記他の電子化文書との内容が類似するか否か判定することを特徴とする請求項1または4に記載の情報検索装置。
  6. 前記記憶手段に格納する電子化文書の内容を解析し、当該電子化文書に含まれている単語を取得する電子化文書解析手段と、
    単語毎に複数の次元に応対した特徴量が格納されている基本ベクトル辞書を参照して、前記電子化文書解析手段が取得した前記単語の特徴量を求め、当該単語の特徴量に基づいて、前記電子化文書の特徴を数値化した文書ベクトルを生成する文書ベクトル生成手段と、
    前記文書ベクトル生成手段により生成された文書ベクトルを、前記電子化文書を特定するための識別情報と共にインデックステーブルに登録する登録手段と
    を更に備えることを特徴とする請求項1に記載の情報検索装置。
  7. 前記電子化文書検索手段は、前記基本ベクトル辞書を参照し、前記検索条件取得手段が検索要求から取得した単語の特徴量に基づく検索要求ベクトルを生成し、当該検索要求ベクトルと、前記インデックステーブルに登録されている前記文書ベクトルとが類似しているか否かを判定し、前記検索要求に類似する内容の電子化文書を前記インデックステーブルから検索することを特徴とする請求項1に記載の情報検索装置。
  8. 前記検索条件を設定するための設定手段を更に備え、
    前記対応部分検索手段は、前記設定手段により設定された検索条件に対応する部分を前記一の電子化文書から検索することを特徴とする請求項1に記載の情報検索装置。
  9. 一の電子化文書の内容に基づいて類似する内容の他の電子化文書を検索する情報検索方法であって、
    入力された検索要求に基づいて、前記一の電子文書の内容を検索するための検索条件を取得する検索条件取得工程と、
    前記一の電子化文書から前記検索条件に対応する部分を検索する対応部分検索工程と、
    前記対応部分検索工程により検索された前記電子化文書の対応部分のデータを取得するデータ取得工程と、
    前記データ取得工程により取得された前記対応部分のデータが、記憶手段に格納されている前記他の電子化文書の内容と、類似するか否か判定し、前記対応部分のデータと類似する内容の他の電子化文書を検索する電子化文書検索工程と
    を備えることを特徴とする情報検索方法。
  10. 請求項9に記載の情報検索方法をコンピュータに実行させることを特徴とするプログラム。
  11. 請求項10に記載のプログラムを格納したことを特徴とするコンピュータ可読の記憶媒体。
JP2005040897A 2005-02-17 2005-02-17 情報検索装置、情報検索方法、プログラム、記憶媒体 Withdrawn JP2006227914A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005040897A JP2006227914A (ja) 2005-02-17 2005-02-17 情報検索装置、情報検索方法、プログラム、記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005040897A JP2006227914A (ja) 2005-02-17 2005-02-17 情報検索装置、情報検索方法、プログラム、記憶媒体

Publications (1)

Publication Number Publication Date
JP2006227914A true JP2006227914A (ja) 2006-08-31

Family

ID=36989252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005040897A Withdrawn JP2006227914A (ja) 2005-02-17 2005-02-17 情報検索装置、情報検索方法、プログラム、記憶媒体

Country Status (1)

Country Link
JP (1) JP2006227914A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276550A (ja) * 2007-04-27 2008-11-13 Hitachi Ltd 文書検索システム及び文書検索方法
JP2009277154A (ja) * 2008-05-16 2009-11-26 Ntt Docomo Inc 情報検索装置及び情報検索方法
JP2011022630A (ja) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276550A (ja) * 2007-04-27 2008-11-13 Hitachi Ltd 文書検索システム及び文書検索方法
JP2009277154A (ja) * 2008-05-16 2009-11-26 Ntt Docomo Inc 情報検索装置及び情報検索方法
JP2011022630A (ja) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム
JP7263753B2 (ja) 2018-12-13 2023-04-25 コニカミノルタ株式会社 文書処理装置および文書処理プログラム

Similar Documents

Publication Publication Date Title
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US7958444B2 (en) Visualizing document annotations in the context of the source document
US20060095426A1 (en) System and method for creating document abstract
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2011501258A (ja) 情報抽出装置および方法
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
JP2007094855A (ja) 文書処理装置及び文書処理方法
JP2011513810A (ja) 用語識別方法および装置
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP2006227823A (ja) 情報処理装置及びその制御方法
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
EP2544100A2 (en) Method and system for making document modules
JP5463494B2 (ja) 技術動向情報作成装置
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JPH06195371A (ja) 未登録語獲得方式
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP2006146578A (ja) 検索装置、検索方法、及びプログラム
JP4739637B2 (ja) シソーラス構築支援装置およびシソーラス構築支援方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513