JP2007241473A

JP2007241473A - 情報処理装置、情報処理方法、プログラム、記憶媒体

Info

Publication number: JP2007241473A
Application number: JP2006060239A
Authority: JP
Inventors: Hidetomo Soma; 英智相馬
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-03-06
Filing date: 2006-03-06
Publication date: 2007-09-20

Abstract

【課題】マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することを可能にする。
【解決手段】異なる属性のデータを含む電子文書を処理することが可能な情報処理方法は、選択された第１属性のデータを検索するための第２属性のデータを検索し（Ｓ４０３、Ｓ４０４）、検索された第２属性のデータを構成する部分データに分けて、部分データごとの重要度を定量化する（Ｓ４０５、Ｓ４０６）。解析結果により、閾値を超える重要度の部分データを検索用データとして登録する（Ｓ４０６）。
【選択図】図４

Description

本発明は、動画、静止画、音声データ、テキストなどを構成要素として含む電子文書（以下、「マルチメディア文書」ともいう。）を検索、利用する技術に関するものである。

近年、デジタルデータの処理・通信技術の発達により、動画、静止画、音声、テキストなどが混在したマルチメディア文書を扱うことが可能なシステムが提供されている。かかるシステムによれば、マルチメディア文書をコンテンツとして作成し、記録（蓄積）することが可能であり、また、蓄積したマルチメディア文書を検索し、利用することも可能である。

マルチメディア文書の各構成要素（動画、静止画、音声データ、テキストなど）に着目し、検索を実現する技術は動画、静止画、音声、テキストなどのそれぞれについて、検索に使用する技術が異なる。そのため、動画、静止画、音声データ、テキストなどのうちから必要な情報を検索する場合、個別の検索技術の適用が必要となる。特定の構成要素として動画、静止画、音声、テキストを検索する際に、各構成要素自体の情報と、マルチメディア文書内の他の情報とを組み合わせ、各構成要素を特徴付けた検索技術がある。この検索技術によると、例えば、静止画の検索において、マルチメディア文書内の他の情報として、文書中のタイトルや静止画の説明文などが組み合わされて、静止画が特徴付けられている。この検索技術では、静止画等を特徴付ける情報として、その静止画に対するマルチメディア文書中のタイトルや、説明文などのテキストをどのように獲得するかが問題である。例えば、特許文献１においては、マルチメディア文書中の画像情報に関連するテキスト情報を抽出し検索時に利用している。
特開２０００−３０６１０３公報

しかしながら、検索対象のマルチメディア文書中の画像情報に関連するテキスト情報を利用しても検索結果としては通常の検索精度に留まっており、文書中のタイトルや説明文に関する情報を精度よく取得するには至っていない。

本発明は、マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することを可能にする技術の提供を目的とする。

上記目的を達成するべく、本発明にかかる情報処理装置は、
異なる属性のデータを含む電子文書を処理することが可能な情報処理装置であって、
選択された第１属性のデータを検索するための第２属性のデータを検索する検索手段と、
前記検索手段により検索された前記第２属性のデータを構成する部分データに分けて、当該部分データごとの重要度を定量化するデータ解析手段と、
前記データ解析手段の解析結果により、閾値を超える重要度の部分データを検索用データとして登録する登録手段とを備えることを特徴とする。

本発明に拠れば、マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することが可能になる。

本発明の実施形態を添付図面の参照により説明する。図１は、本発明の実施形態にかかる情報処理装置の内部構成を概略的に説明する図である。

同図において、ＣＰＵ１０１は情報処理装置における各種制御を実行する。ＲＯＭ１０２は情報処理装置の立ち上げ時に実行されるブートプログラムや各種データを格納する。ＲＡＭ１０３はＣＰＵ１０１が処理するための制御プログラムを格納するとともに、ＣＰＵ１０１が各種制御を実行する際の作業領域を提供する。

入力部１０４はキーボード、マウス、スタイラスペン、ダイヤルなどから構成され、ユーザによる各種入力操作環境を提供する。

外部記憶装置１０５はハードディスクやフロッピー(登録商標)ディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ、不揮発性のメモリカード等の記録媒体と、記憶媒体を駆動し、情報を記録するドライブなどで構成される。外部記憶装置１０５はマルチメディア文書やそれを検索、再利用する際に使用する情報などを記録し、利用することが可能な記憶容量を有するものとする。情報処理装置が検索サーバとして、検索サービスを提供する場合、検索用付加情報を検索用のメタデータとして外部記憶装置１０５に格納する。

表示部１０６はディスプレイなどで構成され、各種入力操作の状態をユーザに対して表示する。通信部１０７は他の機器と通信を行うための構成要素であり、ＲＳ２３２Ｃ、ＵＳＢ、ＩＥＥＥ１３９４、Ｐ１２８４、ＳＣＳＩ、モデム、Ethernet(登録商標)などの有線通信機能を有する。また、通信部１０７は Bluetooth、赤外線通信、IEEE802.11b等の無線通信の各種通信機能を有する。１０８はＬＡＮであり、通信部１０７はＬＡＮ１０８を介して情報処理装置を他の機器と通信することが可能である。コネクタ１０９は通信部１０７を介して情報処理装置を他の機器と接続するためのコネクタである。コネクタ１０９の先に、記憶装置や、他の機器を接続して情報処理装置から記憶装置等を利用することが可能になる。

１１５は、撮像ユニットであり、動画または静止画を撮影することが可能である。情報処理装置内の各構成要素は内部バス１１０により接続されており、相互にデータの送受信が可能である。情報処理装置は、ＬＡＮ１０８、通信部１０７を介して他の装置から送信されたマルチメディア文書を外部記憶装置１０５に格納することも可能である。また、情報処理装置は、撮像ユニット１１５により撮像された静止画等と入力部１０４により入力された文書等とを組み合わせたマルチメディア文書を生成することが可能である。また、情報処理装置は、生成したマルチメディア文書を外部記憶装置１０５に格納し、マルチメディア文書を検索し、利用することが可能である。

図２は、本実施形態で処理の対象となるマルチメディア文書２０１の１ページ分の構成例を例示した図である。２０２はマルチメディア文書２０１の文書部分を示し、２０３は文書の見出しを示す。見出し２０３には、文書部分２０４、円グラフ２０５、円グラフ２０５のキャプション（説明文）２０６、円グラフ２０７、円グラフ２０７のキャプション（説明文）２０８、ページ番号２０９が含まれる。

図３は、情報処理装置のＣＰＵ１０１がマルチメディア文書２０１のレイアウト解析を行った結果を記述するデータ構成を示す図である。図２で示したマルチメディア文書２０１の１ページ分の構成が、見出し２０３や文書部分２０４等の構成要素ごとに抽出されている。図中右に示す（３−１）から（３−３２）は、レイアウト解析結果の各行番号に対応したものである。尚、レイアウト解析結果の表示は、図３に示すＸＭＬ形式に限定されるものでなく、ＳＧＭＬ形式など他の構造化文書により表記することも可能である。

（３−１）行目はページの開始を示すもので、マルチメディア文書２０１のページ番号が１１であることを示している。また、（３−３２）行は該当ページの終了を示している。

（３−２）から（３−４）行目までは、該当ページの大きさを特定するための情報を記述している。ページ左上を原点（Ｏ）とし、ｙ軸をページ下方向に正方向、ｘ軸を右方向に正方向とするｘ−ｙ座標系で記述している（図２）。（３−３）行目において、ｘ方向に６００、ｙ方向に９００の大きさであると記述されている。以下、位置や大きさなどの情報は、この座標系により記述するものとする。尚、ページの大きさは、縦横の数値に限らず、Ａ４、Ｂ５等の規格により特定してもよいし、ｍ行ｘｎ列等のページレイアウトの設定値により特定することも可能である。

（３−５）から（３−３１）行目は、ページ内の構成要素を列挙したもので、各構成要素をブロック(Ｂｌｏｃｋ)という単位で表現している。ここで、（３−６）から（３−２１）行目は、図２に示すマルチメディア文書２０１の文書部分２０２、見出し２０３、文書部分２０４の文章領域のブロックを表現したものである。

（３−６）行目は、レイアウト解析により付されたブロックを識別するための番号（以下、「ブロック識別番号」という。）が「１１０１」であること、データの属性が文章を入れるテキスト形式のブロックであることを示している。

（３−７）から（３−９）行目はブロック識別番号１１０１により特定されるブロックのページ内における位置情報が示されている。（３−８）行目において、位置情報は（５０、４０）と記述されており、この位置情報は文書部分２０２、見出し２０３及び文書部分２０４を含む文書領域のブロックにおける点Ｇ１に対応する（図２を参照）。

（３−１０）から（３−１２）行目は、文書領域のブロックの大きさ(サイズ)の情報が示されている。図３において、サイズは（ｘ、ｙ）＝（４００、５００）である。文書領域のブロックの点Ｇ１を基準として、サイズの情報に基づいて、文書領域のブロックのページ内における位置とサイズを特定することが可能になる。

（３−１３）から（３−２０）行目は、文書領域のブロックで記述されている内容が示されている。データの属性は、テキスト形式のブロックなので、文章が格納されている。この文章は、紙媒体などからスキャンした場合には、文字認識などの技術を用いることで、画像から文字やテキスト情報に変換することで実現される。あるいは、ＬＡＮ１０８を介して、他の装置から送信されてくる電子データに基づいてテキスト情報等を取得することも可能である。

（３−１５）行目は、見出し部分２０３に相当する内容であって、見出しの番号が「５」であること、見出しのタイトルが「客層の分析」という内容であることを示すＸＭＬ情報が記述されている。

同様に（３−１８）行目は、文章部分２０４に相当する内容であって、「スキー客」という表現がアンダーラインつきの表現であることを示すＸＭＬ情報（タグ＜ＵＬ＞および＜/ＵＬ＞）が記述されている。

（３−２２）行目は、レイアウト解析により付されたブロック識別番号」が「１１０２」であること、データの属性が図形を入れるグラフ形式のブロックであることを示している。

（３−２３）から（３−２５）行目はブロック識別番号１１０２により特定されるブロックのページ内における位置情報が示されている。（３−２４）行目において、位置情報は（６０、５６０）と記述されており、この位置情報は円グラフ２０５、円グラフ２０７を含む図形領域のブロックにおける点Ｇ２に対応する（図２を参照）。

（３−２６）から（３−２８）行目は、グラフ形式のブロックの大きさ(サイズ)の情報が示されている。図３において、サイズは（ｘ、ｙ）＝（１００、８０）である。グラフ形式のブロックの点Ｇ２を基準として、サイズの情報に基づいて、グラフ形式のブロックのページ内における位置とサイズを特定することが可能になる。

（３−２９）、（３−３０）行目は、円グラフ２０５（Ｇｒａｐｈ１）、円グラフ２０７（Ｇｒａｐｈ２）が記述されている。尚、各種グラフに限られず、表形式の表示、写真や描画データなどをマルチメディア文書の構成要素とすることも可能である。また、図表データを例としているが、この他、動画、静止画であってもよい。

レイアウト解析の結果、マルチメディア文書２０１に含まれる構成要素（文書部分２０２等、グラフ２０５等）が抽出される。構成要素はブロックごとに、ブロック識別番号、属性情報、ブロックの位置情報、サイズ情報、文書またはグラフ等に抽出される。

ＣＰＵ１０１は外部記憶装置１０５に保存されたマルチメディア文書に対してレイアウト解析を行う。そして、レイアウト解析の結果から構成要素ごとに（ブロックごとに）特徴量を抽出し、これをメタデータとして、その特徴量を処理可能な検索用の情報として、外部記憶装置１０５に登録することが可能である。レイアウト解析に基づく特徴量の抽出により、様々なマルチメディア文書の記録されている様々なフォーマットに依存することなく、検索が可能になる。更に、検索時にメタデータの検索だけを処理すればよいので、検索処理に要する処理時間を短縮することが可能になる。

次に、特徴量の抽出を図４のフローチャートを参照して説明する。図４は、マルチメディア文書内の図表要素の検索用メタデータを抽出する処理の流れを説明するフローチャートである。この処理は情報処理装置におけるＣＰＵ１０１の制御の下に実行されるものとする。

ステップＳ４０１で処理を開始し、ステップＳ４０２において、外部記憶装置１０６等内にあるマルチメディア文書に対してレイアウト解析を行う。

ステップＳ４０３において、レイアウト解析の結果から得られた図形又は表形式のデータ（図表データ）から選択したもののキャプション（説明文）を検索する。ここでは、例として、図２の円グラフ２０５が検索されたものとする。

ステップＳ４０４においては、検索した図表データにキャプション (説明文)があるか判定する。具体的にはレイアウト解析結果で図表の上下に本文の文章部分などとはレイアウトが異なるテキスト情報があるか否かを基準として判定される。図２の場合、円グラフ２０５のキャプション（説明文）２０６の存在によりキャプションが有ると判定される（Ｓ４０４−Ｙｅｓ）。一方、キャプションが無いと判定される場合、処理はステップＳ４１１に進められて終了する。

ステップＳ４０５において、キャプションの属性情報を解析する。キャプション（説明文）２０６において、フォントの太字化（ボールド化）や斜体化、アンダーラインや着色、サイズの拡大、飾り文字や文字の加工などといった、意図的な強調表現が用いられている場合、強調表現等に関する情報を取得する。強調表現等が用いられていない場合、これらに関する情報は取得されない。

キャプションのテキストデータに対してパターンマッチングのようなテキスト処理や自然言語処理の形態素解析などを用いて、キャプション（説明文）２０６の構文を解析する。構文の解析の結果、図表番号が「図３」、説明が「志賀の温泉」であり、「志賀」という地名の名詞と、「温泉」という名詞が抽出される。

ここで、「形態素解析」とは、文書の構文解析において、文書の構成で他の語との接続により変化しない最小単位の「素」に分ける処理をいう。

品詞、地名、数字、地名などのカテゴリ情報やアンダーライン等の強調表現等の補助情報に従って、検索用のメタデータとしての重要度を決めることができる。例えば、カテゴリ情報のうち数詞、数字、地名、名詞に関しては、定量的に重要度を高く、助詞等は重要度を低く設定すると（図５を参照）、構文解析により得られた個々の単語や語彙等の言語表現を定量的に評価することができる。図５の場合、数詞、数字、地名は重要度１００、アンダーライン付き名詞は重要度７０、助詞は重要度０、アンダーラインの無い名詞は６０、検索不向きの名詞は４０と、重要度が定量化されている。

重要度を判定するための閾値を予め決めておき、閾値を超える重要度の言語表現を検索用のメタデータとして重要部分と判定することができる。

例えば、閾値を６０と設定すると、構文解析の結果として得られた、「図３」、「志賀」、「温泉」は、カテゴリ情報のうち数詞、地名、名詞である。それぞれの重要度は１００、１００、６０であり、閾値を超えるので円グラフ２０５の内容を特徴づける重要部分であると判定される。

ステップＳ４０６において、Ｓ４０５で重要部分と判定された地名「志賀」、名詞「温泉」を検索用のメタデータとして、キャプション（説明文）２０６に関連付けて外部記憶装置１０６に登録する。

ステップＳ４０７において、近傍のテキスト形式のデータブロックに、キャプション（説明文）２０６と同じテキスト（表現）を検索する。先のステップＳ４０６で検索用のメタデータとして得られた、「図３」、「志賀」、「温泉」などをなるべく多く含む文書（テキスト（表現））を、近傍のテキストから検索する。検索の結果、例えば、図２の文書部分２０４内において、「図３のように志賀の場合、スキー客...。」といったテキストが検索される。

ステップＳ４０８において、キャプション（説明文）２０６と同じテキスト（表現）を含むデータが検索されなかった場合、処理はステップＳ４１１に進められる。

一方、ステップＳ４０８の判定で、キャプション（説明文）２０６と同じテキスト（表現）を含むデータが検索された場合、処理はステップＳ４０９に進められる。

ステップＳ４０９において、先のステップＳ４０７で検索して得られたテキスト（表現）をステップＳ４０６と同様に構文を解析する。形態素解析を行った結果を図５に示す。形態素解析を行うと文中の単語や語彙が抽出され、かつ、その個々の単語や語彙などについて、その品詞などのカテゴリ情報、アンダーライン等の強調表現に関する補助情報が得られる。例えば、図５に示すように、品詞などのカテゴリ情報や補助情報に従って、検索用のメタデータとしての重要度が決められているので、重要度に従って個々の単語や語彙の重要度が計算される。重要度により検索対象との関連性を定量的に評価することが可能である。

ステップＳ４１０において、先のステップＳ４０６で得られたデータ（「図３」、「志賀」、「温泉」）に加えて検索用メタデータを追加登録する。具体的には、ステップＳ４０９の解析により得られた、アンダーライン等の強調表現の有無または重要度の高い言語表現を検索し、「スキー客」の言語表現をキャプション２０６に関連付けて検索用のメタデータとして登録する。

尚、ステップＳ４０９において、例えば、キャプションと同じテキスト（表現）を一部に含む例として、「これを図３に示す。」のような表現を扱う場合等も有り得る。この場合、形態素解析やパターンマッチングで、「図３」以外に特徴となる情報が得られないことになる。このような場合には、更に、その前後のブロックも含めた検索範囲に拡張して、再度ステップＳ４０７の検索処理を繰り返すことも可能である。形態素解析解に基づいて、言語表現から重要度の高い検索用メタデータを取得することができない場合であっても、検索範囲を拡張していくことで、検索対象と関連性の高い（重要度の高い）検索用のメタデータの取得が可能になる。

実際にユーザがマルチメディア文書の検索を行う際には、ユーザの入力した検索キー、例えば、「スキー客」に対して、登録されている検索用のメタデータが検索される。検索用のメタデータ中には、「スキー客」なる言語表現がアンダーライン付きの重要度の高いメタデータとして登録されているので、このメタデータを基に、キャプション２０６及びこれに対応する円グラフ２０５を検索することが可能になる。

本実施形態に構成に拠れば、マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することが可能になる。

（第２実施形態）
第１実施形態では、構文の解析により得られたカテゴリ情報及び補助情報（図５を参照）を定量化した重要度により検索対象との関連性を評価したが、ページ内の距離（位置情報）により重要度を評価することも可能である。

図６はページ内にレイアウトされる距離（位置情報）による重要度の評価を説明する図である。６０１、６０２はテキストデータのブロックを示している。ブロック６０１はｍ１行ｘｎ１列のサイズを有しており、ブロック６０２はｍ２行ｘｎ２列のサイズを有しているものとする。ブロック６０１とブロック６０２の間はＳ１のスペース（空白行）があるものとする。

６０３は図形要素のブロックを示しており、ｍ３行ｘｎ３列のサイズを有しており、ブロック６０２との間にはＳ２のスペース（空白行）があるものとする。

ここで第１実施形態の場合と同様に、円グラフ２０５が検索されたものとして、円グラフ２０５のキャプション（説明文）２０６の構文を解析する。構文の解析により、図表番号が「図３」、説明が「志賀の温泉」であり、「志賀」という地名の名詞と、「温泉」という名詞が抽出される（図４のＳ４０５）。「志賀」という地名に着目して、近傍のブロックから同じテキスト（表現）を含むデータを検索すると（図４のＳ４０７）、ブロック６０１、６０２にそれぞれ「志賀」という地名が検索される。

ここで、キャプション２０６から各ブロック６０１、６０２における地名表記（「志賀」）までの距離（位置情報）を求める。

キャプション２０６からブロック６０２中の地名表記（「志賀」）までの距離ＬＬ１及びブロック６０１中の地名表記（「志賀」）までの距離ＬＬ２は以下の（１）、（２）式により算出することが可能である。

ＬＬ１＝Ｌ３＋Ｓ２＋ｍ２−Ｌ２・・・（１）
ＬＬ２＝ＬＬ１＋Ｌ２＋Ｓ１＋ｍ１−Ｌ１・・・（２）
尚、距離の算出は行数のみでなく、更に、列数の情報を組み合わせることも可能である。

また、距離の算出は、行数、列数の情報他、ページ内の物理的な寸法により算出することも可能である。

図７は、キャプション２０６から各ブロック６０１、６０２における地名表記（「志賀」）までの位置情報に基づく重要度の評価結果を示す図である。ブロック６０２内の地名表記（「志賀」）の位置情報はＬＬ１であり、ブロック６０１内の地名表記（「志賀」）の位置情報はＬＬ２である。この場合、ブロック６０２内の地名表記（「志賀」）の方が、ブロック６０１の表記よりキャプション２０６に近く、重要度が高いことを示している。レイアウトの位置情報により重要度を定量化して、検索対象との関連性を評価することも可能である。

尚、本実施形態において、近傍のブロックから同じテキスト（表現）を含むデータを検索しているが、この検索はブロック内の表記に限定されるものではない。例えば、ページのレイアウト解析により得られたヘッダ６１０やフッタ６２０、見出し、文書のタイトル等も検索の対象となることはいうまでもない。

また、本実施形態では、ページ内の距離（位置情報）により言語表現の重要度を評価したが、構文の階層構造の深さを評価して、重要度を判定することも可能である。図８は、テキストデータのブロック８０１における階層構造の例を示す図である。見出し８１０に対して、第１の階層８０２、第２の階層８０３、第３の階層８０４を有するものとする。ここで、検索用メタデータの重要度の評価として、例えば、第１の階層（８０２）の重要度を１００、第２の階層（８０３）の重要度を８０、第３の階層（８０４）の重要度を６０と、階層の深さに応じて重要度を定量化することも可能である。

更に、上述の第１実施形態で説明したカテゴリ情報、補助情報（図５を参照）に基づく言語表現の定量的評価と、本実施形態における位置情報に基づく評価とを組み合わせて検索用のメタデータを定量化して検索対象と関連付けをしてもよい。

（他の実施形態）
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給することによっても、達成されることは言うまでもない。また、システムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれることは言うまでもない。

本発明の実施形態にかかる情報処理装置の内部構成を概略的に説明する図である。本発明の第１実施形態で処理の対象となるマルチメディア文書の１ページ分の構成例を例示した図である。本発明の第１実施形態にかかるマルチメディア文書のレイアウト解析を行った結果を記述するデータ構成を示す図である。本発明の第１実施形態にかかるマルチメディア文書内の図表要素の検索用メタデータを抽出する処理の流れを説明するフローチャートである。本発明の第１実施形態にかかる検索用メタデータの形態素解析により得られた言語表現と重要度の関係を説明する図である。本発明の第２実施形態にかかるページ内のレイアウト位置による重要度の評価を説明する図である。本発明の第２実施形態にかかるキャプションから各ブロックにおける地名表記までの位置情報に基づく重要度の評価結果を示す図である。本発明の第２実施形態にかかるテキストデータのブロック８０１における階層構造の例を示す図である。

Claims

異なる属性のデータを含む電子文書を処理することが可能な情報処理装置であって、
選択された第１属性のデータを検索するための第２属性のデータを検索する検索手段と、
前記検索手段により検索された前記第２属性のデータを構成する部分データに分けて、当該部分データごとの重要度を定量化するデータ解析手段と、
前記データ解析手段の解析結果により、閾値を超える重要度の部分データを検索用データとして登録する登録手段と、
を備えることを特徴とする情報処理装置。
前記電子文書に含まれるデータのレイアウトを属性単位のブロックとして解析するレイアウト解析手段を更に備え、
前記検索手段は、前記第２属性のデータが含まれるブロック内及び当該ブロックの近傍に配置される他のブロックから、前記第２属性のデータを含むデータを検索し、
前記データ解析手段は、前記検索手段により検索された前記第２属性のデータを含むデータを、部分データに分けて、当該部分データごとの重要度を定量化し、
前記登録手段は、前記データ解析手段の解析結果により、前記閾値を超える重要度の部分データを前記検索用データに追加登録すること
を特徴とする請求項１に記載の情報処理装置。
前記データ解析手段は、テキストデータからなる前記第２属性のデータの構文解析により、当該第２属性のデータを構成する部分データに分解し、当該部分データの品詞、地名、強調表現の有無により各部分データの重要度を定量化することをと特徴とする請求項１または２に記載の情報処理装置。
前記データ解析手段は、前記部分データがページ内に配置される位置または階層の深さにより各部分データの重要度を定量化することを特徴とする請求項３に記載の情報処理装置。
前記第１属性のデータには動画、静止画、図表データが含まれることを特徴とする請求項１乃至４のいずれかに記載の情報処理装置。
異なる属性のデータを含む電子文書を処理することが可能な情報処理方法であって、
選択された第１属性のデータを検索するための第２属性のデータを検索する検索工程と、
前記検索工程により検索された前記第２属性のデータを構成する部分データに分けて、当該部分データごとの重要度を定量化するデータ解析工程と、
前記データ解析工程の解析結果により、閾値を超える重要度の部分データを検索用データとして登録する登録工程と、
を備えることを特徴とする情報処理方法。
前記電子文書に含まれるデータのレイアウトを属性単位のブロックとして解析するレイアウト解析工程を更に備え、
前記検索工程は、前記第２属性のデータが含まれるブロック内及び当該ブロックの近傍に配置される他のブロックから、前記第２属性のデータを含むデータを検索し、
前記データ解析工程は、前記検索工程により検索された前記第２属性のデータを含むデータを、部分データに分けて、当該部分データごとの重要度を定量化し、
前記登録工程は、前記データ解析工程の解析結果により、前記閾値を超える重要度の部分データを前記検索用データに追加登録すること
を特徴とする請求項６に記載の情報処理方法。
前記データ解析工程は、テキストデータからなる前記第２属性のデータの構文解析により、当該第２属性のデータを構成する部分データに分解し、当該部分データの品詞、地名、強調表現の有無により各部分データの重要度を定量化することをと特徴とする請求項６または７に記載の情報処理方法。
前記データ解析工程は、前記部分データがページ内に配置される位置または階層の深さにより各部分データの重要度を定量化することをと特徴とする請求項８に記載の情報処理方法。
前記第１属性のデータには動画、静止画、図表データが含まれることを特徴とする請求項６乃至９のいずれかに記載の情報処理方法。
請求項６乃至１０のいずれかに記載の情報処理方法をコンピュータに実行させることを特徴とするプログラム。
請求項１１に記載のプログラムを格納したことを特徴とするコンピュータ可読の記憶媒体。