JP2007241473A - 情報処理装置、情報処理方法、プログラム、記憶媒体 - Google Patents

情報処理装置、情報処理方法、プログラム、記憶媒体 Download PDF

Info

Publication number
JP2007241473A
JP2007241473A JP2006060239A JP2006060239A JP2007241473A JP 2007241473 A JP2007241473 A JP 2007241473A JP 2006060239 A JP2006060239 A JP 2006060239A JP 2006060239 A JP2006060239 A JP 2006060239A JP 2007241473 A JP2007241473 A JP 2007241473A
Authority
JP
Japan
Prior art keywords
data
attribute
importance
search
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006060239A
Other languages
English (en)
Inventor
Hidetomo Soma
英智 相馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006060239A priority Critical patent/JP2007241473A/ja
Publication of JP2007241473A publication Critical patent/JP2007241473A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することを可能にする。
【解決手段】 異なる属性のデータを含む電子文書を処理することが可能な情報処理方法は、選択された第1属性のデータを検索するための第2属性のデータを検索し(S403、S404)、検索された第2属性のデータを構成する部分データに分けて、部分データごとの重要度を定量化する(S405、S406)。解析結果により、閾値を超える重要度の部分データを検索用データとして登録する(S406)。
【選択図】 図4

Description

本発明は、動画、静止画、音声データ、テキストなどを構成要素として含む電子文書(以下、「マルチメディア文書」ともいう。)を検索、利用する技術に関するものである。
近年、デジタルデータの処理・通信技術の発達により、動画、静止画、音声、テキストなどが混在したマルチメディア文書を扱うことが可能なシステムが提供されている。かかるシステムによれば、マルチメディア文書をコンテンツとして作成し、記録(蓄積)することが可能であり、また、蓄積したマルチメディア文書を検索し、利用することも可能である。
マルチメディア文書の各構成要素(動画、静止画、音声データ、テキストなど)に着目し、検索を実現する技術は動画、静止画、音声、テキストなどのそれぞれについて、検索に使用する技術が異なる。そのため、動画、静止画、音声データ、テキストなどのうちから必要な情報を検索する場合、個別の検索技術の適用が必要となる。特定の構成要素として動画、静止画、音声、テキストを検索する際に、各構成要素自体の情報と、マルチメディア文書内の他の情報とを組み合わせ、各構成要素を特徴付けた検索技術がある。この検索技術によると、例えば、静止画の検索において、マルチメディア文書内の他の情報として、文書中のタイトルや静止画の説明文などが組み合わされて、静止画が特徴付けられている。この検索技術では、静止画等を特徴付ける情報として、その静止画に対するマルチメディア文書中のタイトルや、説明文などのテキストをどのように獲得するかが問題である。例えば、特許文献1においては、マルチメディア文書中の画像情報に関連するテキスト情報を抽出し検索時に利用している。
特開2000−306103公報
しかしながら、検索対象のマルチメディア文書中の画像情報に関連するテキスト情報を利用しても検索結果としては通常の検索精度に留まっており、文書中のタイトルや説明文に関する情報を精度よく取得するには至っていない。
本発明は、マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することを可能にする技術の提供を目的とする。
上記目的を達成するべく、本発明にかかる情報処理装置は、
異なる属性のデータを含む電子文書を処理することが可能な情報処理装置であって、
選択された第1属性のデータを検索するための第2属性のデータを検索する検索手段と、
前記検索手段により検索された前記第2属性のデータを構成する部分データに分けて、当該部分データごとの重要度を定量化するデータ解析手段と、
前記データ解析手段の解析結果により、閾値を超える重要度の部分データを検索用データとして登録する登録手段とを備えることを特徴とする。
本発明に拠れば、マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することが可能になる。
本発明の実施形態を添付図面の参照により説明する。図1は、本発明の実施形態にかかる情報処理装置の内部構成を概略的に説明する図である。
同図において、CPU101は情報処理装置における各種制御を実行する。ROM102は情報処理装置の立ち上げ時に実行されるブートプログラムや各種データを格納する。RAM103はCPU101が処理するための制御プログラムを格納するとともに、CPU101が各種制御を実行する際の作業領域を提供する。
入力部104はキーボード、マウス、スタイラスペン、ダイヤルなどから構成され、ユーザによる各種入力操作環境を提供する。
外部記憶装置105はハードディスクやフロッピー(登録商標)ディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ、不揮発性のメモリカード等の記録媒体と、記憶媒体を駆動し、情報を記録するドライブなどで構成される。外部記憶装置105はマルチメディア文書やそれを検索、再利用する際に使用する情報などを記録し、利用することが可能な記憶容量を有するものとする。情報処理装置が検索サーバとして、検索サービスを提供する場合、検索用付加情報を検索用のメタデータとして外部記憶装置105に格納する。
表示部106はディスプレイなどで構成され、各種入力操作の状態をユーザに対して表示する。通信部107は他の機器と通信を行うための構成要素であり、RS232C、USB、IEEE1394、P1284、SCSI、モデム、Ethernet(登録商標)などの有線通信機能を有する。また、通信部107は Bluetooth、赤外線通信、IEEE802.11b等の無線通信の各種通信機能を有する。108はLANであり、通信部107はLAN108を介して情報処理装置を他の機器と通信することが可能である。コネクタ109は通信部107を介して情報処理装置を他の機器と接続するためのコネクタである。コネクタ109の先に、記憶装置や、他の機器を接続して情報処理装置から記憶装置等を利用することが可能になる。
115は、撮像ユニットであり、動画または静止画を撮影することが可能である。情報処理装置内の各構成要素は内部バス110により接続されており、相互にデータの送受信が可能である。情報処理装置は、LAN108、通信部107を介して他の装置から送信されたマルチメディア文書を外部記憶装置105に格納することも可能である。また、情報処理装置は、撮像ユニット115により撮像された静止画等と入力部104により入力された文書等とを組み合わせたマルチメディア文書を生成することが可能である。また、情報処理装置は、生成したマルチメディア文書を外部記憶装置105に格納し、マルチメディア文書を検索し、利用することが可能である。
図2は、本実施形態で処理の対象となるマルチメディア文書201の1ページ分の構成例を例示した図である。202はマルチメディア文書201の文書部分を示し、203は文書の見出しを示す。見出し203には、文書部分204、円グラフ205、円グラフ205のキャプション(説明文)206、円グラフ207、円グラフ207のキャプション(説明文)208、ページ番号209が含まれる。
図3は、情報処理装置のCPU101がマルチメディア文書201のレイアウト解析を行った結果を記述するデータ構成を示す図である。図2で示したマルチメディア文書201の1ページ分の構成が、見出し203や文書部分204等の構成要素ごとに抽出されている。図中右に示す(3−1)から(3−32)は、レイアウト解析結果の各行番号に対応したものである。尚、レイアウト解析結果の表示は、図3に示すXML形式に限定されるものでなく、SGML形式など他の構造化文書により表記することも可能である。
(3−1)行目はページの開始を示すもので、マルチメディア文書201のページ番号が11であることを示している。また、(3−32)行は該当ページの終了を示している。
(3−2)から(3−4)行目までは、該当ページの大きさを特定するための情報を記述している。ページ左上を原点(O)とし、y軸をページ下方向に正方向、x軸を右方向に正方向とするx−y座標系で記述している(図2)。(3−3)行目において、x方向に600、y方向に900の大きさであると記述されている。以下、位置や大きさなどの情報は、この座標系により記述するものとする。尚、ページの大きさは、縦横の数値に限らず、A4、B5等の規格により特定してもよいし、m行xn列等のページレイアウトの設定値により特定することも可能である。
(3−5)から(3−31)行目は、ページ内の構成要素を列挙したもので、各構成要素をブロック(Block)という単位で表現している。ここで、(3−6)から(3−21)行目は、図2に示すマルチメディア文書201の文書部分202、見出し203、文書部分204の文章領域のブロックを表現したものである。
(3−6)行目は、レイアウト解析により付されたブロックを識別するための番号(以下、「ブロック識別番号」という。)が「1101」であること、データの属性が文章を入れるテキスト形式のブロックであることを示している。
(3−7)から(3−9)行目はブロック識別番号1101により特定されるブロックのページ内における位置情報が示されている。(3−8)行目において、位置情報は(50、40)と記述されており、この位置情報は文書部分202、見出し203及び文書部分204を含む文書領域のブロックにおける点G1に対応する(図2を参照)。
(3−10)から(3−12)行目は、文書領域のブロックの大きさ(サイズ)の情報が示されている。図3において、サイズは(x、y)=(400、500)である。文書領域のブロックの点G1を基準として、サイズの情報に基づいて、文書領域のブロックのページ内における位置とサイズを特定することが可能になる。
(3−13)から(3−20)行目は、文書領域のブロックで記述されている内容が示されている。データの属性は、テキスト形式のブロックなので、文章が格納されている。この文章は、紙媒体などからスキャンした場合には、文字認識などの技術を用いることで、画像から文字やテキスト情報に変換することで実現される。あるいは、LAN108を介して、他の装置から送信されてくる電子データに基づいてテキスト情報等を取得することも可能である。
(3−15)行目は、見出し部分203に相当する内容であって、見出しの番号が「5」であること、見出しのタイトルが「客層の分析」という内容であることを示すXML情報が記述されている。
同様に(3−18)行目は、文章部分204に相当する内容であって、「スキー客」という表現がアンダーラインつきの表現であることを示すXML情報(タグ<UL>および</UL>)が記述されている。
(3−22)行目は、レイアウト解析により付されたブロック識別番号」が「1102」であること、データの属性が図形を入れるグラフ形式のブロックであることを示している。
(3−23)から(3−25)行目はブロック識別番号1102により特定されるブロックのページ内における位置情報が示されている。(3−24)行目において、位置情報は(60、560)と記述されており、この位置情報は円グラフ205、円グラフ207を含む図形領域のブロックにおける点G2に対応する(図2を参照)。
(3−26)から(3−28)行目は、グラフ形式のブロックの大きさ(サイズ)の情報が示されている。図3において、サイズは(x、y)=(100、80)である。グラフ形式のブロックの点G2を基準として、サイズの情報に基づいて、グラフ形式のブロックのページ内における位置とサイズを特定することが可能になる。
(3−29)、(3−30)行目は、円グラフ205(Graph1)、円グラフ207(Graph2)が記述されている。尚、各種グラフに限られず、表形式の表示、写真や描画データなどをマルチメディア文書の構成要素とすることも可能である。また、図表データを例としているが、この他、動画、静止画であってもよい。
レイアウト解析の結果、マルチメディア文書201に含まれる構成要素(文書部分202等、グラフ205等)が抽出される。構成要素はブロックごとに、ブロック識別番号、属性情報、ブロックの位置情報、サイズ情報、文書またはグラフ等に抽出される。
CPU101は外部記憶装置105に保存されたマルチメディア文書に対してレイアウト解析を行う。そして、レイアウト解析の結果から構成要素ごとに(ブロックごとに)特徴量を抽出し、これをメタデータとして、その特徴量を処理可能な検索用の情報として、外部記憶装置105に登録することが可能である。レイアウト解析に基づく特徴量の抽出により、様々なマルチメディア文書の記録されている様々なフォーマットに依存することなく、検索が可能になる。更に、検索時にメタデータの検索だけを処理すればよいので、検索処理に要する処理時間を短縮することが可能になる。
次に、特徴量の抽出を図4のフローチャートを参照して説明する。図4は、マルチメディア文書内の図表要素の検索用メタデータを抽出する処理の流れを説明するフローチャートである。この処理は情報処理装置におけるCPU101の制御の下に実行されるものとする。
ステップS401で処理を開始し、ステップS402において、外部記憶装置106等内にあるマルチメディア文書に対してレイアウト解析を行う。
ステップS403において、レイアウト解析の結果から得られた図形又は表形式のデータ(図表データ)から選択したもののキャプション(説明文)を検索する。ここでは、例として、図2の円グラフ205が検索されたものとする。
ステップS404においては、検索した図表データにキャプション (説明文)があるか判定する。具体的にはレイアウト解析結果で図表の上下に本文の文章部分などとはレイアウトが異なるテキスト情報があるか否かを基準として判定される。図2の場合、円グラフ205のキャプション(説明文)206の存在によりキャプションが有ると判定される(S404−Yes)。一方、キャプションが無いと判定される場合、処理はステップS411に進められて終了する。
ステップS405において、キャプションの属性情報を解析する。キャプション(説明文)206において、フォントの太字化(ボールド化)や斜体化、アンダーラインや着色、サイズの拡大、飾り文字や文字の加工などといった、意図的な強調表現が用いられている場合、強調表現等に関する情報を取得する。強調表現等が用いられていない場合、これらに関する情報は取得されない。
キャプションのテキストデータに対してパターンマッチングのようなテキスト処理や自然言語処理の形態素解析などを用いて、キャプション(説明文)206の構文を解析する。構文の解析の結果、図表番号が「図3」、説明が「志賀の温泉」であり、「志賀」という地名の名詞と、「温泉」という名詞が抽出される。
ここで、「形態素解析」とは、文書の構文解析において、文書の構成で他の語との接続により変化しない最小単位の「素」に分ける処理をいう。
品詞、地名、数字、地名などのカテゴリ情報やアンダーライン等の強調表現等の補助情報に従って、検索用のメタデータとしての重要度を決めることができる。例えば、カテゴリ情報のうち数詞、数字、地名、名詞に関しては、定量的に重要度を高く、助詞等は重要度を低く設定すると(図5を参照)、構文解析により得られた個々の単語や語彙等の言語表現を定量的に評価することができる。図5の場合、数詞、数字、地名は重要度100、アンダーライン付き名詞は重要度70、助詞は重要度0、アンダーラインの無い名詞は60、検索不向きの名詞は40と、重要度が定量化されている。
重要度を判定するための閾値を予め決めておき、閾値を超える重要度の言語表現を検索用のメタデータとして重要部分と判定することができる。
例えば、閾値を60と設定すると、構文解析の結果として得られた、「図3」、「志賀」、「温泉」は、カテゴリ情報のうち数詞、地名、名詞である。それぞれの重要度は100、100、60であり、閾値を超えるので円グラフ205の内容を特徴づける重要部分であると判定される。
ステップS406において、S405で重要部分と判定された地名「志賀」、名詞「温泉」を検索用のメタデータとして、キャプション(説明文)206に関連付けて外部記憶装置106に登録する。
ステップS407において、近傍のテキスト形式のデータブロックに、キャプション(説明文)206と同じテキスト(表現)を検索する。先のステップS406で検索用のメタデータとして得られた、「図3」、「志賀」、「温泉」などをなるべく多く含む文書(テキスト(表現))を、近傍のテキストから検索する。検索の結果、例えば、図2の文書部分204内において、「図3のように志賀の場合、スキー客...。」といったテキストが検索される。
ステップS408において、キャプション(説明文)206と同じテキスト(表現)を含むデータが検索されなかった場合、処理はステップS411に進められる。
一方、ステップS408の判定で、キャプション(説明文)206と同じテキスト(表現)を含むデータが検索された場合、処理はステップS409に進められる。
ステップS409において、先のステップS407で検索して得られたテキスト(表現)をステップS406と同様に構文を解析する。形態素解析を行った結果を図5に示す。形態素解析を行うと文中の単語や語彙が抽出され、かつ、その個々の単語や語彙などについて、その品詞などのカテゴリ情報、アンダーライン等の強調表現に関する補助情報が得られる。例えば、図5に示すように、品詞などのカテゴリ情報や補助情報に従って、検索用のメタデータとしての重要度が決められているので、重要度に従って個々の単語や語彙の重要度が計算される。重要度により検索対象との関連性を定量的に評価することが可能である。
ステップS410において、先のステップS406で得られたデータ(「図3」、「志賀」、「温泉」)に加えて検索用メタデータを追加登録する。具体的には、ステップS409の解析により得られた、アンダーライン等の強調表現の有無または重要度の高い言語表現を検索し、「スキー客」の言語表現をキャプション206に関連付けて検索用のメタデータとして登録する。
尚、ステップS409において、例えば、キャプションと同じテキスト(表現)を一部に含む例として、「これを図3に示す。」のような表現を扱う場合等も有り得る。この場合、形態素解析やパターンマッチングで、「図3」以外に特徴となる情報が得られないことになる。このような場合には、更に、その前後のブロックも含めた検索範囲に拡張して、再度ステップS407の検索処理を繰り返すことも可能である。形態素解析解に基づいて、言語表現から重要度の高い検索用メタデータを取得することができない場合であっても、検索範囲を拡張していくことで、検索対象と関連性の高い(重要度の高い)検索用のメタデータの取得が可能になる。
実際にユーザがマルチメディア文書の検索を行う際には、ユーザの入力した検索キー、例えば、「スキー客」に対して、登録されている検索用のメタデータが検索される。検索用のメタデータ中には、「スキー客」なる言語表現がアンダーライン付きの重要度の高いメタデータとして登録されているので、このメタデータを基に、キャプション206及びこれに対応する円グラフ205を検索することが可能になる。
本実施形態に構成に拠れば、マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することが可能になる。
(第2実施形態)
第1実施形態では、構文の解析により得られたカテゴリ情報及び補助情報(図5を参照)を定量化した重要度により検索対象との関連性を評価したが、ページ内の距離(位置情報)により重要度を評価することも可能である。
図6はページ内にレイアウトされる距離(位置情報)による重要度の評価を説明する図である。601、602はテキストデータのブロックを示している。ブロック601はm1行xn1列のサイズを有しており、ブロック602はm2行xn2列のサイズを有しているものとする。ブロック601とブロック602の間はS1のスペース(空白行)があるものとする。
603は図形要素のブロックを示しており、m3行xn3列のサイズを有しており、ブロック602との間にはS2のスペース(空白行)があるものとする。
ここで第1実施形態の場合と同様に、円グラフ205が検索されたものとして、円グラフ205のキャプション(説明文)206の構文を解析する。構文の解析により、図表番号が「図3」、説明が「志賀の温泉」であり、「志賀」という地名の名詞と、「温泉」という名詞が抽出される(図4のS405)。「志賀」という地名に着目して、近傍のブロックから同じテキスト(表現)を含むデータを検索すると(図4のS407)、ブロック601、602にそれぞれ「志賀」という地名が検索される。
ここで、キャプション206から各ブロック601、602における地名表記(「志賀」)までの距離(位置情報)を求める。
キャプション206からブロック602中の地名表記(「志賀」)までの距離LL1及びブロック601中の地名表記(「志賀」)までの距離LL2は以下の(1)、(2)式により算出することが可能である。
LL1=L3+S2+m2−L2 ・・・(1)
LL2=LL1+L2+S1+m1−L1 ・・・(2)
尚、距離の算出は行数のみでなく、更に、列数の情報を組み合わせることも可能である。
また、距離の算出は、行数、列数の情報他、ページ内の物理的な寸法により算出することも可能である。
図7は、キャプション206から各ブロック601、602における地名表記(「志賀」)までの位置情報に基づく重要度の評価結果を示す図である。ブロック602内の地名表記(「志賀」)の位置情報はLL1であり、ブロック601内の地名表記(「志賀」)の位置情報はLL2である。この場合、ブロック602内の地名表記(「志賀」)の方が、ブロック601の表記よりキャプション206に近く、重要度が高いことを示している。レイアウトの位置情報により重要度を定量化して、検索対象との関連性を評価することも可能である。
尚、本実施形態において、近傍のブロックから同じテキスト(表現)を含むデータを検索しているが、この検索はブロック内の表記に限定されるものではない。例えば、ページのレイアウト解析により得られたヘッダ610やフッタ620、見出し、文書のタイトル等も検索の対象となることはいうまでもない。
また、本実施形態では、ページ内の距離(位置情報)により言語表現の重要度を評価したが、構文の階層構造の深さを評価して、重要度を判定することも可能である。図8は、テキストデータのブロック801における階層構造の例を示す図である。見出し810に対して、第1の階層802、第2の階層803、第3の階層804を有するものとする。ここで、検索用メタデータの重要度の評価として、例えば、第1の階層(802)の重要度を100、第2の階層(803)の重要度を80、第3の階層(804)の重要度を60と、階層の深さに応じて重要度を定量化することも可能である。
更に、上述の第1実施形態で説明したカテゴリ情報、補助情報(図5を参照)に基づく言語表現の定量的評価と、本実施形態における位置情報に基づく評価とを組み合わせて検索用のメタデータを定量化して検索対象と関連付けをしてもよい。
本実施形態に構成に拠れば、マルチメディア文書中から検索対象を検索するための情報を重要度の定量的な評価により関連付けて登録することで、検索対象を効率的に精度よく検索し、利用することが可能になる。
(他の実施形態)
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給することによっても、達成されることは言うまでもない。また、システムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,不揮発性のメモリカード,ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれることは言うまでもない。
本発明の実施形態にかかる情報処理装置の内部構成を概略的に説明する図である。 本発明の第1実施形態で処理の対象となるマルチメディア文書の1ページ分の構成例を例示した図である。 本発明の第1実施形態にかかるマルチメディア文書のレイアウト解析を行った結果を記述するデータ構成を示す図である。 本発明の第1実施形態にかかるマルチメディア文書内の図表要素の検索用メタデータを抽出する処理の流れを説明するフローチャートである。 本発明の第1実施形態にかかる検索用メタデータの形態素解析により得られた言語表現と重要度の関係を説明する図である。 本発明の第2実施形態にかかるページ内のレイアウト位置による重要度の評価を説明する図である。 本発明の第2実施形態にかかるキャプションから各ブロックにおける地名表記までの位置情報に基づく重要度の評価結果を示す図である。 本発明の第2実施形態にかかるテキストデータのブロック801における階層構造の例を示す図である。

Claims (12)

  1. 異なる属性のデータを含む電子文書を処理することが可能な情報処理装置であって、
    選択された第1属性のデータを検索するための第2属性のデータを検索する検索手段と、
    前記検索手段により検索された前記第2属性のデータを構成する部分データに分けて、当該部分データごとの重要度を定量化するデータ解析手段と、
    前記データ解析手段の解析結果により、閾値を超える重要度の部分データを検索用データとして登録する登録手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記電子文書に含まれるデータのレイアウトを属性単位のブロックとして解析するレイアウト解析手段を更に備え、
    前記検索手段は、前記第2属性のデータが含まれるブロック内及び当該ブロックの近傍に配置される他のブロックから、前記第2属性のデータを含むデータを検索し、
    前記データ解析手段は、前記検索手段により検索された前記第2属性のデータを含むデータを、部分データに分けて、当該部分データごとの重要度を定量化し、
    前記登録手段は、前記データ解析手段の解析結果により、前記閾値を超える重要度の部分データを前記検索用データに追加登録すること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記データ解析手段は、テキストデータからなる前記第2属性のデータの構文解析により、当該第2属性のデータを構成する部分データに分解し、当該部分データの品詞、地名、強調表現の有無により各部分データの重要度を定量化することをと特徴とする請求項1または2に記載の情報処理装置。
  4. 前記データ解析手段は、前記部分データがページ内に配置される位置または階層の深さにより各部分データの重要度を定量化することを特徴とする請求項3に記載の情報処理装置。
  5. 前記第1属性のデータには動画、静止画、図表データが含まれることを特徴とする請求項1乃至4のいずれかに記載の情報処理装置。
  6. 異なる属性のデータを含む電子文書を処理することが可能な情報処理方法であって、
    選択された第1属性のデータを検索するための第2属性のデータを検索する検索工程と、
    前記検索工程により検索された前記第2属性のデータを構成する部分データに分けて、当該部分データごとの重要度を定量化するデータ解析工程と、
    前記データ解析工程の解析結果により、閾値を超える重要度の部分データを検索用データとして登録する登録工程と、
    を備えることを特徴とする情報処理方法。
  7. 前記電子文書に含まれるデータのレイアウトを属性単位のブロックとして解析するレイアウト解析工程を更に備え、
    前記検索工程は、前記第2属性のデータが含まれるブロック内及び当該ブロックの近傍に配置される他のブロックから、前記第2属性のデータを含むデータを検索し、
    前記データ解析工程は、前記検索工程により検索された前記第2属性のデータを含むデータを、部分データに分けて、当該部分データごとの重要度を定量化し、
    前記登録工程は、前記データ解析工程の解析結果により、前記閾値を超える重要度の部分データを前記検索用データに追加登録すること
    を特徴とする請求項6に記載の情報処理方法。
  8. 前記データ解析工程は、テキストデータからなる前記第2属性のデータの構文解析により、当該第2属性のデータを構成する部分データに分解し、当該部分データの品詞、地名、強調表現の有無により各部分データの重要度を定量化することをと特徴とする請求項6または7に記載の情報処理方法。
  9. 前記データ解析工程は、前記部分データがページ内に配置される位置または階層の深さにより各部分データの重要度を定量化することをと特徴とする請求項8に記載の情報処理方法。
  10. 前記第1属性のデータには動画、静止画、図表データが含まれることを特徴とする請求項6乃至9のいずれかに記載の情報処理方法。
  11. 請求項6乃至10のいずれかに記載の情報処理方法をコンピュータに実行させることを特徴とするプログラム。
  12. 請求項11に記載のプログラムを格納したことを特徴とするコンピュータ可読の記憶媒体。
JP2006060239A 2006-03-06 2006-03-06 情報処理装置、情報処理方法、プログラム、記憶媒体 Withdrawn JP2007241473A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006060239A JP2007241473A (ja) 2006-03-06 2006-03-06 情報処理装置、情報処理方法、プログラム、記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006060239A JP2007241473A (ja) 2006-03-06 2006-03-06 情報処理装置、情報処理方法、プログラム、記憶媒体

Publications (1)

Publication Number Publication Date
JP2007241473A true JP2007241473A (ja) 2007-09-20

Family

ID=38586983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006060239A Withdrawn JP2007241473A (ja) 2006-03-06 2006-03-06 情報処理装置、情報処理方法、プログラム、記憶媒体

Country Status (1)

Country Link
JP (1) JP2007241473A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010073165A (ja) * 2008-09-22 2010-04-02 Canon Inc 情報処理装置、その制御方法、及びコンピュータプログラム
JP2011123622A (ja) * 2009-12-09 2011-06-23 Hitachi Electronics Service Co Ltd ドキュメント分類システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010073165A (ja) * 2008-09-22 2010-04-02 Canon Inc 情報処理装置、その制御方法、及びコンピュータプログラム
JP2011123622A (ja) * 2009-12-09 2011-06-23 Hitachi Electronics Service Co Ltd ドキュメント分類システム

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US7958444B2 (en) Visualizing document annotations in the context of the source document
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
US9256798B2 (en) Document alteration based on native text analysis and OCR
US9430716B2 (en) Image processing method and image processing system
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2007058605A (ja) 文書管理システム
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
JP2005135041A (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP2003288334A (ja) 文書処理装置及び文書処理方法
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
EP1304625B1 (en) Method and apparatus for forward annotating documents and for generating a summary from a document image
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP2005107931A (ja) 画像検索装置
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090512