JP2007310501A

JP2007310501A - 情報処理装置、その制御方法、及びプログラム

Info

Publication number: JP2007310501A
Application number: JP2006136963A
Authority: JP
Inventors: Tomomi Takada; 智美高田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-05-16
Filing date: 2006-05-16
Publication date: 2007-11-29

Abstract

【課題】文書中の非テキスト情報を精度よく検索するためのメタデータを抽出し得る情報処理装置、その制御方法、及びプログラムを提供する。
【解決手段】文書中の画像、図、表等の非テキスト情報の特徴情報を、これら非テキスト情報に係るキャプション情報等に基づいて抽出する。また、文書中の複数の非テキスト情報を結ぶ矢印記号等の記号が示す各非テキスト情報間の関係情報を解析する。そして、非テキスト情報の特徴情報と記号が示す関係情報に基づいて、文書中の非テキスト情報を検索するためのメタデータを該文書から抽出する。すなわち、画像、図、表等のテキスト情報の特徴やこれらの関係まで考慮してメタデータを抽出する。
【選択図】図７

Description

本発明は、文書中に含まれる画像を精度よく検出するためのメタデータを抽出するのに好適な情報処理装置、その制御方法、及びプログラムに関する。

近年、保存スペースの削減，遠隔地からの利便性から、膨大な量の電子文書が氾濫している。このため、所望の電子文書の検索に長時間を要するようになってきている。

特に、近年の電子文書には、テキスト情報だけでなく、画像、図、表、音声等の非テキスト情報も含まれている。これら非テキスト情報は、それ自体は文字情報を持たないか、持っていても断片的な文字情報であるため、所望の非テキスト情報の検索は困難である。

そこで、画像情報にメタデータ（テキスト情報）を付加し、このメタデータを用いて画像情報を検索する技術が開発されている（特許文献１参照）。
特開２００２−２０２９７５号公報

ところで、文書データ内の一部領域に含まれる画像，図，表などの非テキスト情報を検索したいという要望がある。本発明は、このような背景の下になされたもので、その目的は、文書中の画像を精度よく検索するためのメタデータを抽出し得る情報処理装置、その制御方法、及びプログラムを提供することにある。

上記目的を達成するために、本発明は、文書中の非テキスト情報に関連するメタデータを抽出し、該メタデータを用いて非テキスト情報を検索する情報処理装置において、文書中の非テキスト情報の特徴情報を抽出する抽出手段と、文書中の複数の非テキスト情報を結ぶ記号が示す各非テキスト情報間の関係情報を解析する記号解析手段と、前記非テキスト情報の特徴情報と前記記号が示す関係情報に基づいて、前記文書中の非テキスト情報を検索するためのメタデータを該文書から抽出するメタデータ抽出手段とを備えたことを特徴とする。

本発明によれば、画像や表の特徴、画像や表の関係などまで考慮してメタデータを抽出しているので、文書中の画像を精度よく検索するためのメタデータを抽出し得る情報処理装置、その制御方法、及びプログラムを提供することが可能となる。

［第１の実施の形態］
図１は、本発明の第１の実施の形態に係る情報処理装置が構築されたコンピュータの基本構成を示すブロック図である。

図１において、ＣＰＵ１０１は、本情報処理装置における各種の制御を行う。その制御内容は、後述するＲＯＭ１０２、ＲＡＭ１０３、外部記憶装置１０６等に格納されたプログラムによって指示される。また、ＣＰＵ１０１やプログラムの構成により、ＣＰＵ１０１は、複数のプログラムを並列に実行することができる。このＣＰＵ１０１は、バス１０５を介して、ＲＯＭ１０２、ＲＡＭ１０３、外部記憶装置１０６等の各種デバイスと相互に交信可能に接続されている。ＲＯＭ１０２には、ブートプログラム等のプログラム、データ等が格納されている。ＲＡＭ１０３は、ＣＰＵ１０１が実際に実行する処理を実行する際に、その処理に係るプログラムを外部記憶装置１０６等からロードして展開する等、ワークエリアとして利用される。

キーボード１０４は、アルファベットキー、ひらがなキー、カタカナキー等の文字入力キー、及びカーソル移動キー等の各種の機能キーを有している。なお、マウスのようなポインティングデバイスをキーボード１０４に搭載することもできる。

外部記装置１０６には、ＯＳ、アプリケーションプログラム等の各種のプログラム、電子文書データ等に各種のデータが格納される。この外部記憶装置１０６は、ハードディスク、光ディスク、磁気ディスク、光磁気ディスク、不揮発性の半導体メモリ等の記憶媒体などで構成されている。なお、外部記装置１０６には、図２〜図５、図１２〜図１３のフローチャートに係る処理を行なうためのアプリケーションプログラムも格納されている。

表示器１０７は、液晶ディスプレイなどで構成され、各種の入力操作の係るデータ、ＣＰＵ１０１での処理内容等を表示する。ＮＣＵ（Network Control Unit）１０８は、ネットワーク（ＬＡＮ）等を介して他のコンピュータ装置等と通信するための制御を行う。このＮＣＵ１０８による通信制御により、本実施の形態に係るプログラムやデータを他の装置と共有することが可能になる。ＮＣＵ１０８による通信は、ＲＳ２３２ＣやＵＳＢ、ＩＥＥＥ１３９４、Ｐ１２８４、ＳＣＳＩ、モデム、Ｅｔｈｅｒｎｅｔ(登録商標)などの有線通信、Ｂｌｕｅｔｏｏｔｈ、赤外線通信、ＩＥＥＥ８０２．１１ｂ等の無線通信の何れの通信方式を採ってもよい。

イメージスキャナ１０９は、原稿を光学的に読み取り、電子的な画像データを得るためのデバイスである。イメージスキャナ１０９により得られた画像データは、外部記憶装置１０６、ＲＡＭ等に格納することができる。なお、画像データは、ＮＣＵ１０８を介して外部のネットワークスキャナ、複写機等の入力機器から入力することも可能である。また、イメージスキャナ１０９により読み取られた画像データを、ＮＣＵ１０８を介して外部の装置に転送・格納することも可能である。

次に、第１の実施の形態における情報処理装置の文書登録処理を、図２のフローチャートに基づいて説明する。なお、図２の文書登録処理における各処理は、各ページの文書データについてページ単位で行なわれるものである。

ＣＰＵ１０１は、まず、文書データ（電子文書）の入力処理を行なう（ステップＳ２０１）。この入力処理は、例えば、イメージスキャナ１０９、或いはＮＣＵ１０８を介してネットワーク上の複写機等の外部の入力機器から入力された文書データを処理する。また、文書データには、テキストデータと、図、表、撮像画像等の画像データとが混在していてもよい。さらに、文書データは、複数ページであってもよい。また、文書データは、ワードプロセッサ等の編集ソフトウェアで作成された文書データや、ＨＴＭＬ等で記述された文書データ、ＰＤＦ形式の文書データでもかまわない。だだし、ＰＤＦ形式の文書データの場合は、ステップＳ３０１の入力処理において、フォーマット変換等の処理を行なう必要がある。

次に、ＣＰＵ１０１は、入力した文書データを解析する（ステップＳ２０２）。この文書データの解析処理では、ＣＰＵ１０１は、文書データを文字領域（テキスト領域）、画像、図、表等の画像領域（非テキスト領域）に分割し、さらに、矢印等の記号画像の解析、レイアウトの抽出等を行なう。この文書データの解析処理は、図３のフローチャートを用いて後で詳細に説明する。

次に、ＣＰＵ１０１は、文書データの解析結果に基づいて、文書の論理構造を解析する（ステップＳ２０３）。ここで、「論理構造」とは、ステップＳ２０２で解析された領域、レイアウト等について、「タイトル」、「見出し」等の論理的な属性を抽出して付与、或いは「矢印の始点／終点の関係」等の論理的な関係を推定して構造化したものである。この文書の論理構造解析処理は、図４のフローチャートを用いて後で詳細に説明する。

次に、ＣＰＵ１０１は、文書の論理構造解析結果に基づいて、当該文書データ中のテキスト領域から画像や表に関連する検索用メタデータを抽出する（ステップＳ２０４）。この検索用メタデータを抽出処理は、図５のフローチャートを用いて後で詳細に説明する。

次に、図２のステップＳ２０２におけるＣＰＵ１０１が実行する文書データの解析処理を図３のフローチャートに基づいて説明する。以下では複数ページのうちの１ページ分の処理に関して説明する。

ＣＰＵ１０１は、あるページの文書データについて、文字、図、表、撮像画像等の画像の種類別にその矩形領域を抽出する（ステップＳ３０１）。この場合、ＣＰＵ１０１は、それら矩形領域ごとに、画像の種類と、ページ内での位置座標や領域サイズ等の物理的な情報を検出する。

すなわち、ＣＰＵ１０１は、文字領域については、文字列の読み方向と文字サイズを検出し、その検出結果に基づいて文字又は文字列を抽出する。ここでは、文字列の方向が同じで、文字サイズと文字間値と行間値がほぼ均一である領域を１纏まりの文字領域として抽出するものとする。非文字領域（画像領域）については、枠構造や線の連続状況等に基づいて抽出する。

なお、入力された文書データがカラー画像データ等の多値データである場合は、２値データに変換することで、同様に領域抽出処理を行うことができる。この領域抽出処理は、例えば特開平６−９６２７５号公報等に開示されているので、ここでは、その詳細な説明は省略する。

図６、図７は、或るページの文書データに対する矩形領域抽出処理の処理結果を示している。図６において、６００はスキャンされたページデータであり、６０１〜６１３は抽出された矩形領域を示している。この矩形領域のうち、６０１〜６０５、６１１〜６１３は文字領域である。この領域抽出処理において、ＣＰＵ１０１は、文字列の方向が同じで、文字サイズと文字間値・行間値がほぼ均一であり、更に行方向の配置（字下げ、センタリング、揃え等）が同じ領域が１つの文字領域として抽出している。

図６の６０６〜６１０は画像領域である。また、６０６〜６０８は図または画像として、６０９と６１０は記号画像として識別されている。なお、記号画像６０９，６１０には、それぞれ「動作ＡＢ」、「動作ＢＣ」という文字列が内包されている。本実施の形態においては、予め記号画像として登録されたもの以外のものを図または画像として識別するものとする。

図７の文書データは、図６の文書データとほほ同様であるが、図７の記号画像７０９，７１０には、文字列が内包されていない点で図６と相違している。また、図７の文字領域７０４ａ，７０４ｂには、７０６〜７０８の図に関する説明文が記述されている点で、図６と相違している。

図８は、或る文書データから抽出された矩形領域に関する物理的な情報を例示している。図８に示すように、当該文書の各ページの文書データに対して、「幅２９０ｍｍ、高さ２１０ｍｍ」等のページサイズ、「３００ｄｐｉ」等の読み込み時の解像度、及び「画像データ」等のデータ種別が付与されている。

図８において、各ページに関する情報としては、抽出された各矩形領域に対して、「文字領域」、「画像領域」等の領域種別、「４０×１２．５」等の矩形領域のサイズ、「１０，１０」等のページ内での位置座標等の物理的な情報が付与されている。なお、位置座標は、矩形領域の特定の角位置、例えば左上の角位置の座標を示すものである。さらに、文字領域については、「８ポイント」等の文字サイズ、「横」、「縦」等の文字列の方向等を示す文字情報が付与されている。画像領域については、「図」、「撮像画像」、「表」、「記号」等の画像種別情報が付与されている。なお、文字領域については、「ａｂｃレポート」等の実際の文字列（テキスト）も付与されているが、この文字列は、未だ文字認識されて文字コード化されていない画像データとしての文字列である。

なお、図８の例では、ページ内での矩形領域の位置を特定するためのデータとしては、領域のサイズと特定の角位置の座標情報を抽出しているが、これに限定されることなく、例えば矩形領域の左上の角位置と右下の角位置、或いは矩形領域の右上の角位置と左下の角位置の座標を抽出するようにしてもよい。また、文字領域については、後述する文字認識を行なった後に、字体（フォント）を付与することも可能である。

ＣＰＵ１０１は、上記のような矩形領域抽出処理を行なった後、当該ページの全ての矩形領域に対して文字認識処理を行う（ステップＳ３０２）。すなわち、この文字認識処理は、図６の矢印の記号画像６０９，６１０のように画像領域（図、表、撮像画像、その他一般的な画像）に文字が含まれている場合もあるので、文字領域だけでなく画像領域に対しても行なう。

なお、図２のＳ２０１で入力された文書データが、イメージスキャナ等から入力されたものではなく、ワードプロセッサ等で処理された文字コードに係るものである場合は、ステップＳ３０２での文字認識処理は不要である。また、イメージスキャナ等がＯＣＲ機能を有しており、イメージスキャナ等からの文書データが文字列について文字コードに変換されている場合も、ステップＳ３０２での文字認識処理は不要である。

次に、ＣＰＵ１０１は、文書データから、画像、図、表等の画像領域間の関係を示す、数字、矢印、＋、罫線（⊥等の罫線を示す記号）等の記号画像の種類や記号画像に関する各種情報（矢印記号の場合は、矢印の向き等）を抽出する（ステップＳ３０３）。そして、ＣＰＵ１０１は、ステップＳ３０１で検出した当該ページ内での各矩形領域の位置座標や領域サイズ等の物理的な情報に基づいて、当該ページにおける各矩形領域の空間的な位置関係（レイアウト）を抽出する（ステップＳ３０４）。

このレイアウト抽出処理では、例えば、ページ内の２つの矩形領域に対する空間的な関係として、互いの矩形領域の上下左右方向の離間距離、大小関係などを抽出する。すなわち、レイアウト抽出処理では、図９に示したように、互いの矩形領域の上下左右方向の離間距離としては、矩形領域が重なっている、接している（図９のｔｏｕｃｈ）、近傍に在る（図９のｎｅａｒ）、含まれている等の状態を抽出している。また、重なり、接触、内包の位置関係にない場合は、隣接する２つの矩形領域間の相対的な距離を（図９のｕｐｐｅｒ，ｌｏｗｅｒ参照）、ネットワーク構造で表現している。

このように、互いの矩形領域の上下左右方向の離間距離を抽出する代わりに、ページの所定位置、例えばページの左上の角の位置（位置座標の原点）に対する各矩形領域の位置、すなわち図８に示した位置（ｘ，ｙ）、及び領域サイズに基づいて、各矩形領域の上下左右方向等の位置関係を抽出することも可能である。

以上の文書データの解析結果は、図８に示すとおり、ページ毎に木構造やネットワーク構造で表現することができる。また、ステップＳ３０１〜３０４の処理結果は、全てＲＡＭ１０３、外部記憶装置１０６等の記憶媒体に格納される。さらに、テップＳ３０１〜３０４の処理は、入力された文書データの全ページについて実行される。

次に、図２のステップＳ２０３にける文書の論理構造の解析処理例を、図４のフローチャートに基づいて説明する。

ＣＰＵ１０１は、ページ及び矩形領域の読み順を判定する（ステップＳ４０１）。この場合、ページ及び矩形領域の読み順は、各文字領域の文字列の読み方向、各文字領域の位置関係、文書中の主な文字領域（サイズの大きな領域）の文字列の読み方向から組方向を認定することによって判定することができる。例えば、日本語で横組のページでは、文字領域は、上から下の段へ、左から右の段へと読み順が付与されることになる。なお、この読み順判定処理は、必須の処理ではなく、文書の種類によっては省略してもよい。

次に、ＣＰＵ１０１は、ページや矩形領域の論理属性と矩形領域間の関係を解析する（ステップＳ４０２）。例えば、文書の先頭ページである、他のページに比べて空白が多く文字数が少ない、文字サイズが非常に大きい等、他のページと比べて特徴的な文字領域が存在するページは、文書における「表紙ページ」であることが推定できる。

また、例えば、ページの最上部や最下部に位置し、他の領域とのレイアウト上の関連性が見出せない（距離が離れている、配置や特徴に関する共通性・規則性が少ない等）領域や、文書内の他のページと同位置に同じ内容の領域が存在する場合は、ヘッダやフッタであることが推定できる。

さらに、例えば、文書内の他の文字領域と配置や文字についての共通性・規則性が低い、文字サイズが大きく文字数の少ない文字領域である等の特徴的な文字領域が、ヘッダを除いた文書の上部に在れば「タイトル」、それ以外の位置に在れば「見出し」であると推定することができる。また、撮像画像や図、表等の画像領域に対して最も近接した文字領域を、その画像領域に対する「キャプション（説明文）」と推定して、画像領域との関連付けを行うことができる。

なお、これらの論理属性や論理的な関係は、特徴的なページや矩形領域に対して推定可能であり、全てのページ、矩形領域について付与できるとは限らない。また、各ページや矩形領域について、複数の論理属性や論理的な関係を付与することも可能である。この場合には、複数の論理属性や論理的な関係について、その可能性の強さを示す数値等を付与してもよい。

次に、ＣＰＵ１０１は、記号画像が存在するか否かを判別する（ステップＳ４０３）。その結果、記号画像が存在すれば、ＣＰＵ１０１は、その記号画像の種類と記号画像に関する各種情報、及び記号画像に関連するテキスト情報に基づいて、記号画像の意味と、記号画像とその近傍の矩形領域との関係を解析する（ステップＳ４０４）。

記号画像に関連するテキスト情報としては、例えば、記号画像の中に含まれるテキスト情報、記号画像に近接する文字領域中のテキスト情報、記号画像と同じページや前後のページに含まれる周辺文字領域中の記号に関する説明部分のテキスト情報等がある。記号画像の中に含まれるテキスト情報や、記号画像に近接する文字領域中のテキスト情報は、記号画像の意味について直接的に説明している可能性が高いと考えられる。

また、記号画像の近傍の矩形領域が画像領域の場合には、その画像領域に近接する文字領域は、当該画像領域の「キャプション」である可能性が高い。その「キャプション」を利用することで、ＣＰＵ１０１は、周辺の文字領域から記号画像に関する説明部分と思われるテキスト情報を探索することができる。

これら記号画像に関連するテキスト情報を解析することによって、記号画像とその周辺の矩形領域との関係を推定することができる。例えば、記号画像が矢印である場合は、この矢印は、当該矢印の始点と終点に位置する矩形領域に対して、順序や時間・空間の推移、状態の変化、原因・結果、部分・全体等の関係、説明や注釈の付与等の関係が存在することが考えられる。すなわち、本実施の形態では、外部記憶装置１０６に記号の意味を記憶しておく。例えば、矢印記号の場合、矢印記号と、矢印の始点と終点に位置する矩形領域が上述した関係の意味が外部記憶装置１０６に予め登録される。

また、図６に示したように、矢印６０９，６１０中に当該矢印の意味を示すテキスト情報が含まれている場合もある。このような場合には、ＣＰＵ１０１は、矢印６０９が「動作ＡＢ」を意味し、矢印６０９の始点に位置する画像６０６と終点に位置する画像６０７が「動作ＡＢ」の前後の状態の関係にあると認識する。

また、図７のように、矢印画像と同ページの文字領域に当該矢印画像に関する説明テキスト情報が記述されている場合もある。このような場合、ＣＰＵ１０１は、矢印７０９の始点に位置する画像７０６に近接する文字領域７１１から文字列「図１−Ａ：ａａ」を抽出し、矢印７０９の終点に位置する画像７０７に近接する文字領域７１２から文字列「図１−Ｂ：ｂｂ」を抽出する。そして、ＣＰＵ１０１は、これら抽出した文字列は、画像領域の近接領域に存在していたので、キャプションであると見做す。そしてＣＰＵ１０１は、このキャプションが他の文字領域に存在するか否か検索する。このときの検索範囲として該当ページ内あるいは前後１ページを設定してもよい。図７の例では、７０４ａの文字領域に「図１−Ａはａａ、図１−Ｂはｂｂ、」という文字列があり、７０４ｂの文字列に「ａａに動作ＡＢを行なうとｂｂになる。」という文字列がある。従って、ＣＰＵ１０１は、外部記憶装置１０６を参照することにより、矢印７０９が「動作ＡＢ」を意味し、矢印７０９の始点に位置する画像７０６と終点に位置する画像７０７が「動作ＡＢ」の前後の状態の関係にあると推定する。

なお、画像７０６と画像７０７の関係を矢印の始点／終点の関係としておき、後述するメタデータ抽出処理を行なう際に矢印７０９に関連するテキスト情報を解析して、「動作ＡＢ」の前後の関係を抽出してもよい。

ステップＳ４０３にて、記号画像が存在しないと判別された場合、又はステップＳ４０４の処理が終了した場合は、ＣＰＵ１０１は、本文書の論理構造の解析処理を終了する。なお、ステップＳ４０１〜Ｓ４０４の処理の結果は、全てＲＡＭ１０３、又は外部記憶装置１０６に格納される。

図１０は、文書データの論理構造の解析結果を例示した図であり、ページと矩形領域の論理属性、それら矩形領域の読み順や論理的関係等を示している。図１０において、ページ１、２、…は、読み込まれた文書データの各ページデータに関する論理情報を示し、この論理情報としては各ページデータに対する読み順等が付与されている。また、領域１，２，…１１は、ページデータ１から抽出された矩形領域に関する論理情報を示している。

この矩形領域に関する論理情報としては、矩形領域の読み順や論理属性、矢印の始点／終点の関係、動作ＡＢの前後の関係、画像／キャプションの関係、キャプション／サブキャプションの関係等の矩形領域間の関係等が付与されている。なお、図１０において、ページや矩形領域を繋ぐ実線の矢印は、ページや矩形領域の読み順や論理的関係を示しており、矢印の無い点線は、包含関係を示している。例えば、ページデータ１には、矩形領域１、矩形領域２、…、矩形領域１１が含まれており、論理属性が「見出し」の矩形領域３、論理属性が「段落」の矩形領域４、論理属性が「キャプション」の矩形領域５、…の順に、各矩形領域を読むように読み順が付与されている。

また、論理属性が「キャプション」の矩形領域５と矩形領域１１は、「キャプションとサブキャプションの関係」で結ばれており、論理属性が「図」の矩形領域６と矩形領域１１は、「画像とキャプションの関係」で結ばれている。また、論理属性が「図」の矩形領域６と矩形領域７には、「”動作ＡＢ”の前／後の関係」、または「矢印の始点／終点の関係」が付与されている。

なお、論理構造の解析は、後述するメタデータ抽出処理を行なえるものであれば、図１０の例示した以外の手法や形態で行なってもよい。図１０に示す解析結果は、ＲＡＭ１０３あるいは外部記憶装置１０６に記憶される。

次に、図２のステップＳ２０４における検索用メタデータの抽出処理例を、図５のフローチャートに基づいて詳細に説明する。

ＣＰＵ１０１は、文書の論理構造の解析結果に基づいて、検索対象となる矩形領域を取得する（ステップＳ５０１）。ここでは、撮像画像、図、表等の画像領域を検索対象とするが、それ以外の矩形領域を検索対象としてもよい。

次に、ＣＰＵ１０１は、検索対象として取得した矩形領域のうち、１つの矩形領域に着目し、その着目した矩形領域を検索するための検索用メタデータとなるテキスト情報を抽出する（ステップＳ５０２）。

この抽出処理では、まず、ＣＰＵ１０１は、検索用メタデータの抽出対象となる矩形領域を取得する。ここでは、検索用メタデータの抽出対象となる矩形領域として、例えば、検索対象として着目した画像領域と論理的関係が結ばれている文字領域や、更にその文字領域と論理的関係が結ばれている文字領域を取得する。

次に、ＣＰＵ１０１は、検索用メタデータの抽出対象となる矩形領域として取得した文字領域のテキスト情報の中から、画像領域について説明しているテキスト部分を抽出する。例えば、論理属性が「キャプション」である文字領域のテキスト情報の中から画像番号を示す文字列（「図１」等）と画像名を示す文字列（「システム構成図」等）を抽出し、これら文字列を検索用メタデータとする。

なお、ＣＰＵ１０１は、検索用メタデータの抽出対象となる矩形領域として、検索対象として着目した画像領域の周辺に存在し、論理属性が「段落」である文字領域を取得する。そして、ＣＰＵ１０１は、その取得した文字領域から画像番号を示す文字列を含む文を検索用メタデータとして抽出してもよい。

また、ＣＰＵ１０１は、検索用メタデータの抽出対象となる矩形領域から、「上（の）表」等のような画像の方向を示す語と画像を示す語を含む文を抽出する。そして、ＣＰＵ１０１は、その語が示す画像の方向と、図３のステップＳ３０４で抽出されたページ内での各矩形領域の空間的な関係（レイアウト）を照合して、画像とメタデータを関連付けることも可能である。また、ＣＰＵ１０１は、「次（の）ページの図」のようなページの位置を示す語と画像を示す語を含む文を抽出し、その語が示すページ位置と文書のページ構成を照合して、画像と検索用メタデータを関連付けたりすることも可能である。

次に、ＣＰＵ１０１は、検索対象として着目している画像領域が、他の画像領域と矢印等の記号画像による関係で結ばれているか否かを判別する（ステップＳ５０３）。その結果、他の画像領域と矢印等の記号画像による関係で結ばれていると判断された場合は、ＣＰＵ１０１は、ステップＳ５０４に進む。

ＣＰＵ１０１は、ステップＳ５０４では、検索対象として着目している画像領域に対して関係があると判断された他の画像領域のキャプション中に含まれるテキスト情報を抽出する。さらに、ＣＰＵ１０１は、検索対象として着目している画像領域とその画像領域に関係があると判断された他の画像領域を結ぶ記号画像の意味する関係に類似した言語表現を含むテキスト情報を、周辺の文字領域から検索する。この検索は、記号の持つ意味と、双方の画像領域のキャプション中に含まれるテキスト情報に基づいて検索することが可能である。検索用メタデータとして抽出する。

ステップＳ５０４において、ＣＰＵ１０１は、具体的には、キャプションやサブキャプションに対し、自然言語処理技術を利用して、形態素解析や構文解析などの解析を行う。この解析処理では、まず、意味を持つ単語の集まりの最小単位である文節に文を区切る。そして、文節中の単語、その単語の品詞、語義などの情報と、文中における文節相互の関係に関する情報を取り出して、文の構造を解析する。

次に、ＣＰＵ１０１は、形態素解析、構文解析された単語、文節等が含まれるテキスト情報を、周辺の文字領域から検索用メタデータの候補として抽出する。そして、その検索用メタデータの候補に対して、自然言語処理技術を利用して形態素解析や構文解析などの解析を行う。

更に、ＣＰＵ１０１は、検索用メタデータの候補であるテキスト情報内の各単語、文節の関係と類似する構造を持つテキスト情報が、周辺の文字領域に存在するかどうかを調査する。この調査は、検索用メタデータの候補であるテキスト情報内の各単語、文節相互の関係（文構造）と、その周辺のキャプション／サブキャプションの文構造、及びこれら論理関係が付与された画像を結ぶ記号画像の関係とを比較することにより行なわれる。そして、類似性の高い文構造を持つテキスト情報がメタデータとして抽出される。

例えば、図１０の矩形領域５と矩形領域１１のキャプション／サブキャプション中に含まれる「図１」、「ａｂｃ」、「図１−Ａ」「ａａ」で周辺の文字領域を検索する。すると、図７に示した矩形領域７４ａから「図１−Ａはａａ、図１−Ｂはｂｂ、図１−Ｃはｃｃについての画像である。」という文を取得することができる。また、図７に示した矩形領域７４ｂから「ａａに動作ＡＢを行うとｂｂになる。」という文や、「ｂｂに動作ＢＣを行うとｃｃになる。」という文を取得することができる。

また、図１０では、矩形領域６と矩形領域７に対して、「”動作ＡＢ”の前／後」の関係が付与されているので、この関係と各領域のサブキャプションから、「ａａに動作ＡＢを行うとｂｂになる。」という文が、矩形領域６と矩形領域７の関係に類似した構造を持つテキスト情報であることがわかる。

ステップＳ５０３とステップＳ５０４で説明した検索用メタデータの抽出方法は例であり、他にも様々な検索用メタデータの抽出方法が考えられる。また、検索用メタデータ抽出時に、検索用メタデータとして抽出された理由を示す情報を出力してもよい。さらに、検索用メタデータの抽出対象となった矩形領域の論理属性や論理的な関係等に従って、検索対象の画像と検索用メタデータの関係の強さを示す数値を出力してもよい。また、ここでは文字領域に含まれるテキスト情報を検索用メタデータとして抽出したが、テキスト情報以外の情報を検索用メタデータとして抽出してもよい。

ＣＰＵ１０１は、上記のようにして記号画像の関係に合致した表現のテキスト情報を検索用メタデータとして抽出した後、或いはステップＳ５０３にて、記号画像による関係が無いと判別された場合は、ステップＳ５０５に進む。このステップＳ５０５では、ＣＰＵ１０１は、ステップＳ５０２、Ｓ５０４で抽出された検索用メタデータと検索対象領域を関連付けて検索用ＤＢ（データベース）に格納する。この検索用ＤＢは、外部記憶装置１０６上に構築され、記憶されている。

次に、ＣＰＵ１０１は、次の検索対象の矩形領域が存在するか否かを判別する（ステップＳ５０６）。その結果、次の検索対象の矩形領域が存在する場合は、ステップＳ５０２に戻り、次の矩形領域に着目して、ステップＳ５０２以降の処理を行なう。すなわち、ＣＰＵ１０１は、ステップＳ５０１で抽出された全ての矩形領域について、その矩形領域を検索するための検索用メタデータの抽出処理を行なう。

図１１は、検索対象である画像領域と、抽出された検索用メタデータを関連付けて外部記憶装置１０６格納した検索用ＤＢのデータ構造例を示したものである。図１１のデータ構造では、ページデータ１に含まれる矩形領域６，７等の画像データに対して、それぞれ撮像画像、図、表等の画像種別、画像データの格納位置またはファイル名、文書から抽出されたテキスト情報等が、検索用メタデータとして付与されていることを示している。

例えば、矩形領域６の画像データに対して、画像種別として「図」、画像データ名として「０１２００１．ｊｐｇ」が付与されている。また、矩形領域６を検索するための検索用メタデータとして、文字列「ａａ」、「ａｂｃの仕様概要」、「ａａに動作ＡＢを行うとｂｂになる。」等のテキスト情報が、矩形領域６の画像データ名等に対応付けて登録されている。また、各検索用メタデータには、当該検索用メタデータが抽出された理由（サブキャプションの画像名等）、当該検索用メタデータと矩形領域６との関係の強さを示す値（３等）が付与されている。

次に、文書データに含まれる画像を検索する検索処理例を、図１２のフローチャートに基づいて説明する。この検索処理は、図１１に示すような画像に関連付けられている検索用メタデータを利用して行うものである。この検索処理の概要は、入力された検索条件と、各画像に関連付けられた検索用メタデータを対比し、その検索条件と適合する検索用メタデータと関連付けられている画像をピックアップして、検索結果として表示するものである。この場合、検索条件としては、キーワード、そのキーワードのリスト、自然文などをユーザが入力する。

図１２において、ＣＰＵ１０１は、ユーザが指定した文書の文書データ、その指定文書に係る図１１のような検索用ＤＢを有する外部記憶装置１０６から読み出されたデータをＲＡＭ１０３に展開する（ステップＳ１２０１）。

この場合、文書データ、検索用ＤＢ等は、図１に示した本情報処理装置が搭載されたコンピュータと電気通信回線で接続された他のコンピュータに保有しておき、このコンピュータから図１に示したコンピュータにロードするようにしてもよい。

次に、ＣＰＵ１０１は、ユーザの操作によって入力された検索条件としての文、文節、単語（キーワード）等を検出する（ステップＳ１２０２）。すると、ＣＰＵ１０１は、その検索条件として入力された文、文節、単語等に対して、自然言語処理技術を利用して形態素解析や構文解析などの解析処理を行う（ステップＳ１２０３）。

この場合、検索条件は、本情報処理装置が搭載されたコンピュータ以外の他のコンピュータから入力することも可能である。また、上記の解析処理では、意味を持つ単語の集まりの最小単位である文節に文を区切り、文節中の単語、単語の品詞、語義などの情報と、文中における文節相互の関係（文構造）に関する情報を取り出す。

次に、ＣＰＵ１０１は、ステップＳ１２０３で得られた文構造（単語だけの場合を含む、以下同様）に合致する検索用メタデータと関連付けられた画像を検索する（ステップＳ１２０４）。そして、ＣＰＵ１０１は、検索された画像の有無を判別する（ステップＳ１２０５）。その結果、検索された画像が１つも無い場合は、ＣＰＵ１０１は、本検索処理を終了する。

ＣＰＵ１０１は、検索された画像が複数有る場合は、検索条件の文構造と、検索された各画像に係る検索用メタデータの文構造を比較する（ステップＳ１２０６）。

そして、ＣＰＵ１０１は、検索条件の文構造に類似する文構造を持つ検索用メタデータに係る画像を検索結果として出力する（ステップＳ１２０７）。なお、ステップＳ１２０６，Ｓ１２０７の処理では、文構造の類似性や検索用メタデータに付与された重要度の情報等に基づいて、検索条件と検索用メタデータとの類似度を求め、対応する画像を類似度の高い順番に並べて表示してもよい。ここで言う類似度とは、検索条件が、各画像に付与された検索用メタデータとの関係を示す表現としてどの程度適切であるかを示すものである。

次に、上記の検索処理を、具体例で説明する。例えば、「ａｂｃのａａに動作ＡＢした後」という文が検索条件が入力された場合は、この文は、「ａｂｃの」、「ａａに」「動作ＡＢ」、「した」という文節に分解され、さらに、「ａｂｃ」「の」、「ａａ」、「に」「動作」「ＡＢ」、「した」という単語に分解される。

そして、これら単語に「名詞」、「接続詞」等の品詞情報が割り当てられる。また、各文節同士は、「修飾」、「並列」といった関係を持つこと、すなわち文構造が解析される。次に、名詞等の重要な品詞の単語である「ａａ」、「動作」、「ＡＢ」等が含まれた検索用メタデータに係る画像、図１１の例では、矩形領域６と矩形領域７の画像を該当候補として取得する。

次に、ＣＰＵ１０１は、これらの該当候補の画像に係る検索用メタデータの文構造と検索条件の文構造とを比較して、検索条件の文構造と類似する文構造の検索用メタデータに係る画像を、検索結果として表示器１０７の表示画面上に表示させる。上記の検索条件では、「ａｂｃ」と「ａａ」、「ａａ」と「動作ＡＢ」、「動作ＡＢ」と「後」が修飾の関係で結ばれている。

また、図１１に示したように、矩形領域６，７のキャプションによる検索用メタデータ中には「ａｂｃ」が含まれ、サブキャプションによるメタデータ中には「ａａ」が含まれている。このように、画像がキャプション、サブキャプションを持つ場合、キャプションとサブキャプションの関係によるメタデータには修飾関係が生じると考えられる。さらに、矩形領域６，７のキャプション／サブキャプションの関係によるメタデータ中には、修飾の関係で結ばれた「ａａ」と「動作ＡＢ」が含まれている。このことより、矩形領域６の画像のメタデータに、検索条件の文構造との類似性が見出せることがわかる。

なお、上記の検索方法に限定されることなく、例えば、最初に検索条件に係る文字列と検索用メタデータとの類似性を判定し、類似性のある検索用メタデータと関連付けられた画像等を検索結果として表示することも可能である。

また、上記検索結果を利用することによって、文書に含まれる画像等を効率的に再利用することができるようになる。例えば、検索結果の一覧の中から所望の画像を選択して得た画像データを、ワープロ等の編集ソフトウェア等を用いて編集・加工したり、別の文書に挿入したりすることによって、再利用することができるようになる。

また、文書および文書中の画像や表を蓄積する場合に、上記の検索等メタデータを利用することによって、効率的に分類・整理・管理することができるようになる。例えば、検索用メタデータの文字列を分析して、関連するカテゴリで画像等を分類することができる。この場合、分類するカテゴリなどはユーザが与えてもよいし、クラスタリング等の統計的手法によって自動的に分類するようにしてもよい。また、分類時に、カテゴリと各画像のメタデータの類似度等を計算して求めて、分類に利用してもよい。

第１の実施の形態では、文書登録時に、文書データを解析して、文字、図、表等の領域とそれらのレイアウトを抽出し、それに基づいて領域の論理属性とそれらの論理的関係を構造化した論理構造を抽出した。そしてそれに基づいて検索用メタデータを抽出する構成となっている。

［第２の実施の形態］
第２の実施の形態の情報処理装置は、文書データに含まれる手書きに係る文字、記号に関する処理に適用したものである。すなわち、文字列がフォントで記載された紙文書中の画像、表や文章等に対して、手書き等で矢印等を使用して説明文を加筆し、この加筆がなされた紙文書をイメージスキャナ１０９等で読み取って電子化した文書データに適用可能な形態のものである。

以下、第２の実施の形態を、第１の実施の形態との相違点を中心に説明する。第２の実施の形態に係る情報処理装置を適用したコンピュータの基本構成は、図１に示した第１の実施の形態と同様である。

図１４は、手書きで画像やテキスト等に説明文が加筆された或るページデータに対して領域抽出処理を行った結果を例示したものである。図１４において、２０００はスキャンされたページデータであり、２００１〜２０１５は抽出されたオブジェクトの矩形領域を示している。２００１〜２００５、２０１１〜２０１４は文字領域である。この文字領域は、文字列の方向が同じで、文字サイズと文字間値・行間値がほぼ均一であり、更に行方向の配置（字下げ、センタリング、揃え等）が同じ矩形領域が１つの文字領域として抽出される。

２００６〜２０１０、２０１５は画像領域であり、２００６〜２００８は図として認識され、２００９〜２０１０、２０１５は記号画像として認識されている。また、２０１４と２０１５は、手書きで加筆された部分として認識されている。

第２の実施の形態における文書登録処理の基本的な動作は、図２を用いて説明した第１の実施の形態の場合と同様である。また、図２のステップＳ２０２での第２の実施の形態における文書データ解析処理は、図３を用いて説明した第１の実施の形態の場合とほぼ同様である。ただし、第２の実施の形態では、図３のステップＳ３０１の領域分割・抽出処理を行う際に、ＣＰＵ１０１は、図１４に示した領域２０１４には手書き文字であることを示す情報を付与し、領域２０１５には手書きの矢印であることを示す情報を付与する。

また、図２のステップＳ２０３での第２の実施の形態における論理構造解析処理は、図４を用いて説明した第１の実施の形態の場合とほぼ同様である。ただし、第２の実施の形態では、ＣＰＵ１０１は、ステップＳ４０４において、手書きの矢印記号が存在し、その近傍に手書きの文字領域や画像領域や表領域等が存在する場合には、矢印記号が手書きによる説明・注釈の付与を意味していることを推定する。

例えば、図１４の例では、手書きの矢印記号２０１５があり、その始点部分に手書きの文字領域２０１４が、終点部分に文字領域２００４ａが存在している。そこで、ＣＰＵ１０１は、矢印記号２０１５は説明・注釈の付与を意味しており、手書きの文字領域２０１４は、文字領域２００４ａの一部のテキスト部分に対する説明・注釈であることを推定する。

図１５は、第２の実施の形態における文書データの論理構造の解析結果を例示した図である。この図１５は、第１の実施の形態に係る図１０の解析結果とほぼ同様であり、ＲＡＭ１０３に記憶される。ただし、論理属性が「手書き文字領域」である領域１４と、論理属性が「段落」の領域４との間には、「手書きの説明／説明付与対象」という論理的関係が付与されている。

図１３は、図２のステップＳ２０４での第２の実施の形態における検索用メタデータ抽出処理を示すフローチャートである。この図１３は、第１の実施の形態における検索用メタデータ抽出処理を示す図５のフローチャートの処理に対して、ステップＳ１３０４〜Ｓ１３０６の処理が追加されたものである。

そこで、ここでは、追加された処理だけを説明する。次に、ステップＳ５０３にて、検索対象である画像領域が、他の画像領域と記号画像による関係で結ばれていると判別された場合は、ＣＰＵ１０１は、ステップＳ１３０４に進む。

ＣＰＵ１０１は、ステップＳ１３０４では、検索対象である画像領域が、手書きの文字領域と手書きの記号画像によって結ばれているか否かを判別する。ここで、手書きの記号画像によって結ばれていないと判別された場合には、ＣＰＵ１０１は、ステップＳ１３０５に進み、手書きの記号画像によって結ばれていると判別された場合には、ステップＳ１３０６に進む。

ＣＰＵ１０１は、ステップＳ１３０５では、検索対象である画像領域と他の画像領域のキャプション中に含まれる表現、及びこれらの画像領域を結ぶ記号画像の意味する関係に類似した言語表現を含むテキスト情報を、周辺の文字領域から探し出し、検索用メタデータとして抽出する。この抽出処理は、第１の実施の形態の場合と同様である。

ＣＰＵ１０１は、ステップＳ１３０６では、ステップＳ５０２で抽出した検索用メタデータと手書きの記号画像によって結ばれている手書きの文字領域のテキストを、検索用メタデータとして抽出する。さらに、ＣＰＵ１０１は、検索対象である画像領域と手書きの記号画像によって結ばれている手書きの文字領域のテキストを、検索用メタデータとして抽出する。

例えば、図１５では、領域１４と領域４に対して、「手書きの説明／説明付与対象」の関係が付与されている。この関係から、ＣＰＵ１０１は、領域４の「ａａに動作ＡＢを行うとｂｂになる。」を領域６の「図」の検索用メタデータとして抽出した場合には、領域１４の「ｘｘｘの状態でｙｙｙした場合」も、領域６の「図」の検索用メタデータとして抽出する（図１６参照）。

このように、第２の実施の形態では、手書きの説明も検索用メタデータとして利用して、画像、図、表を検索することができる。従って、キャプションやサブキャプションに含まれない単語がユーザ入力に係る検索条件中に含まれていた場合でも、画像、図、表を検索することが可能となる。

なお、第２の実施の形態のように、手書きの説明文が加筆された場合だけでなく、手書きの図や表等が加筆された場合にも、これら手書き部分を検索用のメタデータとして利用して、画像、図、表を検索するようにしてもよい。

以上説明したように、第１，第２の実施の形態では、画像、図、表の特徴やこれらの関係まで考慮してメタデータを抽出し、このメタデータを用いて画像、図、表を検索している。すなわち、第１，第２の実施の形態では、文書中の画像、図、表等の非テキスト情報の特徴情報を、これら非テキスト情報に係るキャプション情報等に基づいて抽出する。また、文書中の複数の非テキスト情報を結ぶ矢印記号等の記号が示す各非テキスト情報間の関係情報を解析する。そして、非テキスト情報の特徴情報と記号が示す関係情報に基づいて、文書中の非テキスト情報を検索するためのメタデータを該文書から抽出する。従って、文書中の画像を精度よく検索することが可能となる。

なお、本発明は、上記の各実施の形態に限定されることなく、例えば、ユーザが非テキスト情報を検索する文書を指定した際に、その文書に係る検索用メタデータを一覧表示し、その中から選択された検索用メタデータに関連付けられた非テキスト情報を検索結果として表示することも可能である。

また、本発明の目的は、前述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ等の光ディスク、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。

本発明の情報処理装置が構築されたコンピュータの基本構成を示すブロック図である。本発明の第１の実施の形態における文書登録処理を示すフローチャートである。図２のステップＳ２０２における文書データの解析処理例を示すフローチャートである。図２のステップＳ２０３にける文書の論理構造の解析処理例を示すフローチャートである。図２のステップＳ２０４における検索用メタデータ抽出処理例を示すフローチャートである。ページデータに対する領域抽出処理の結果を例示した図である（第１の実施の形態）。他のページデータに対する領域抽出処理の結果を例示した図である（第１の実施の形態）。ページデータや領域に関する各種物理的な情報を例示した図である（第１の実施の形態）。ページデータ中の各矩形領域の位置関係の情報を例示した図である（第１の実施の形態）。文書の論理構造の解析結果を例示した図である（第１の実施の形態）。文書中の画像と検索用メタデータを関連付けて登録した検索用ＤＢのデータ構造を例示した図である（第１の実施の形態）。文書中の画像を検索する検索処理例を示すフローチャートである（第１の実施の形態）。第２の実施の形態における文書中の画像を検索する検索処理例を示すフローチャートである。手書きで説明を加筆したページデータに対して領域抽出処理を行った結果を例示した図である。第２の実施の形態における文書の論理構造を解析した結果を例示した図である。第２の実施の形態における文書中の画像と検索用メタデータを関連付けて登録した検索用ＤＢのデータ構造を例示した図である（第１の実施の形態）。

符号の説明

１０１…ＣＰＵ、１０２…ＲＯＭ、１０３…ＲＡＭ、１０６…外部記憶装置、１０７…表記器、１０９…スキャナ

Claims

文書中の非テキスト情報に関連するメタデータを抽出し、該メタデータを用いて非テキスト情報を検索する情報処理装置において、
文書中の非テキスト情報の特徴情報を抽出する抽出手段と、
文書中の複数の非テキスト情報を結ぶ記号が示す各非テキスト情報間の関係情報を解析する記号解析手段と、
前記非テキスト情報の特徴情報と前記記号が示す関係情報に基づいて、前記文書中の非テキスト情報を検索するためのメタデータを該文書から抽出するメタデータ抽出手段と、
を備えたことを特徴とする情報処理装置。
前記記号は、矢印記号であることを特徴とする請求項１に記載の情報処理装置。
前記矢印記号は、テキスト情報を内包し、前記記号解析手段は、該テキスト情報に基づいて該矢印記号が結ぶ非テキスト情報間の関係情報を解析することを特徴とする請求項２に記載の情報処理装置。
前記矢印記号は、手書きで加筆された矢印記号であることを特徴とする請求項２に記載の情報処理装置。
前記抽出手段は、前記文書中の各非テキスト情報、各テキスト情報の領域の論理的な関係を解析する論理構造解析手段を有することを特徴とする請求項１〜４の何れかに記載の情報処理装置。
前記論理構造解析手段は、前記非テキスト情報に対するキャプション情報を認定することを特徴とする請求項５に記載の情報処理装置。
前記抽出手段は、前記非テキスト情報に対して認定されたキャプション情報を用いて該非テキスト情報の特徴情報を抽出し、前記メタデータ抽出手段は、該キャプション情報を用いて該非テキスト情報を検索するためのメタデータを該文書から抽出することを特徴とする請求項６に記載の情報処理装置。
前記メタデータ抽出手段は、前記非テキスト情報の周辺のテキスト情報の領域から該非テキスト情報を検索するためのメタデータを抽出することを特徴とする請求項５〜７の何れかに記載の情報処理装置。
前記メタデータ抽出手段は、１つの非テキスト情報に対して複数の前記メタデータを抽出した場合に、各メタデータに対して該非テキスト情報との関係の強さを示す情報を付与することを特徴とする請求項１〜８の何れかに記載の情報処理装置。
検索条件として入力された文字列と類似するメタデータを用いて非テキスト情報を検索する検索手段を備えたことを特徴とする請求項１〜９の何れかに記載の情報処理装置。
文書中の非テキスト情報に関連するメタデータを抽出し、該メタデータを用いて非テキスト情報を検索する情報処理装置の制御方法において、
文書中の非テキスト情報の特徴情報を抽出する抽出工程と、
文書中の複数の非テキスト情報を結ぶ記号が示す各非テキスト情報間の関係情報を解析する記号解析工程と、
前記非テキスト情報の特徴情報と前記記号が示す関係情報に基づいて、前記文書中の非テキスト情報を検索するためのメタデータを該文書から抽出するメタデータ抽出工程と、
を備えたことを特徴とする情報処理装置の制御方法。
請求項１１に記載の制御方法を実行するプログラム。