JP5743443B2 - 画像処理装置、画像処理方法、コンピュータプログラム - Google Patents

画像処理装置、画像処理方法、コンピュータプログラム Download PDF

Info

Publication number
JP5743443B2
JP5743443B2 JP2010156008A JP2010156008A JP5743443B2 JP 5743443 B2 JP5743443 B2 JP 5743443B2 JP 2010156008 A JP2010156008 A JP 2010156008A JP 2010156008 A JP2010156008 A JP 2010156008A JP 5743443 B2 JP5743443 B2 JP 5743443B2
Authority
JP
Japan
Prior art keywords
link
page
data
anchor expression
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010156008A
Other languages
English (en)
Other versions
JP2012018576A (ja
Inventor
亮 小坂
亮 小坂
三沢 玲司
玲司 三沢
金津 知俊
知俊 金津
英智 相馬
英智 相馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010156008A priority Critical patent/JP5743443B2/ja
Priority to US13/176,944 priority patent/US20120011429A1/en
Priority to CN201110192760.3A priority patent/CN102314484B/zh
Publication of JP2012018576A publication Critical patent/JP2012018576A/ja
Application granted granted Critical
Publication of JP5743443B2 publication Critical patent/JP5743443B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1452Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、紙文書、または電子文書データから相互リンク情報付きの電子文書データを生成する画像処理装置、画像処理方法、コンピュータプログラム、および、そのプログラムを記憶したコンピュータ読出可能な記憶媒体に関するものである。
従来、「オブジェクト」と「オブジェクトの説明文(解説文)」を含む紙文書、または電子文書が広く利用されている。例えば、学術論文、特許文献、取扱説明書、商品カタログ等が挙げられる。ここで、「オブジェクト」とは、文書に含まれる「写真」、「線画(図面)」、「表」等の領域を意味している。「オブジェクトの説明文(解説文)」とは、前述の「オブジェクト」を詳しく説明・解説する本文中の文章を意味している。それらの関係付けのために、「図1」などの表現(図番号などのオブジェクトを特定するための識別子)が使用されていることが多い。この「図1」のように、「オブジェクト」と「オブジェクトの説明文」のそれぞれを関係付けるための識別子を、本明細書では「アンカー表現」と呼ぶこととする。また、「オブジェクト」自身の近傍には、その「オブジェクト」の簡単な説明文とアンカー表現があることが多く、これらをまとめて「キャプション表現」と呼ぶ。このような文書の場合、文書の閲覧者は、アンカー表現を見ながら「オブジェクト」と「オブジェクトの説明文」の相互の対応関係を考慮し、読み進める必要がある。一般的に文書の閲覧者は、本文中に「図1は・・・」という文章を見た場合、文書内から「図1」に対応するオブジェクトを探して確認したのち、再び本文に元の位置に戻り、続きを読み始めることになる。一方、キャプション表現内に「図1」というアンカー表現があるオブジェクトを見た場合には、本文中より「図1」について説明された文章を探すことになる。そして、説明文を読んで確認した後、再び元のページに戻り続きを読み進める。複数ページ文書の場合、本文中の「図1は・・・」に対応するオブジェクトを探したり、オブジェクト「図1」に対応する本文中の説明文を探したりする場合に、ページをまたがって参照する必要が出てくるため、可読性が良くないといえる。また、本文中の説明文は探しにくい上、本文内の複数個所で書かれていることもあり、閲覧者が全てを確認するのは非常に手間がかかっていた。
特許文献1は、紙文書を光学的に読み取り、利用目的に応じた様々な形態のコンピュータ上で利用可能な文書を生成することを可能とする発明である。具体的には、図と図番号のハイパーテキスト化を行って電子文書を生成し、例えば、本文中の「図番号」をマウス等でクリックすると、「図番号」に該当する図を画面表示させることが可能となる。
特開平11−066196号公報
しかしながら、特許文献1によれば、本文中の図番号からオブジェクトへのリンクを行っているが、オブジェクトから本文中の図番号へのリンクは行っていないため、以下のような課題が残る。(1)最初に「オブジェクト」を閲覧する場合、「オブジェクトの説明文」を探す場合に手間がかかる。(2)最初に本文中の「オブジェクトの説明文」を読み、該当する「オブジェクト」を表示することは可能であるが、「オブジェクト」を閲覧した後、「オブジェクト」の画面表示を閉じて、「オブジェクトの説明文」に戻ると、どの位置(何段落、何行目)を読んでいたかがわかりづらい。(3)「オブジェクト」を画面表示させるため、「オブジェクト」の文書・ページに対する位置(何ページ目のどの位置にあるか)が把握しづらい。
さらに、「オブジェクト」に対して、本文中の複数個所で「オブジェクトの説明文」が記載されることもあるが、これに対応して図と図番号との間でハイパーリンクを生成するためには、全ページの内容を確認しないといけない。そのため、全ページ分のデータを保持しておくようにした場合、多くのワークメモリが必要となってしまう上に、処理された文書を外部装置へ出力する場合は、全てのページの処理が終わるまで出力を待たなければならない。すなわち、各ページの解析処理と並行して、処理済のページをページ単位で出力することができず、転送効率が悪化するという課題があった。
上記課題を解決するために、本発明の画像処理装置は、複数のページ画像を入力する入力手段と、前記入力されたページ画像を、属性ごとの領域に分割する領域分割手段と、前記領域分割手段で分割された領域に対して文字認識処理を実行する文字認識手段と、前記ページ画像内の本文属性の領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第1のアンカー表現を検出する第1検出手段と、前記第1検出手段で検出された第1のアンカー表現に対する第1リンク識別子を付与する第1識別子付与手段と、前記第1検出手段で検出された第1のアンカー表現を強調表示するための描画情報を含む第1グラフィックデータを生成し、当該生成された第1グラフィックデータと前記第1識別子付与手段で付与された第1リンク識別子とを関連付ける第1グラフィックデータ生成手段と、前記第1リンク識別子と前記第1のアンカー表現とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第1のアンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第1テーブル更新手段と、前記ページ画像内のオブジェクトに付随するキャプション領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第2のアンカー表現を検出する第2検出手段と、前記第2のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトに対して、第2リンク識別子を付与する第2識別子付与手段と、前記第2のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトを強調表示するための描画情報を含む第2グラフィックデータを生成し、当該生成された第2グラフィックデータと前記第2識別子付与手段で付与された第2リンク識別子とを関連付ける第2グラフィックデータ生成手段と、前記第2リンク識別子と前記第2のアンカー表現とを対応付けて、前記リンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第2のアンカー表現と同じ第1のアンカー表現が既に登録されていれば、当該同じ第1のアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第2テーブル更新手段と、前記ページ画像に関して前記第1リンク識別子と前記第1グラフィックデータと前記第2リンク識別子と前記第2グラフィックデータとを用いてフォーマット変換を実行することにより、所定のフォーマットに変換後の前記ページ画像に関するデータと前記第1リンク識別子と前記第1グラフィックデータと前記第2リンク識別子と前記第2グラフィックデータとを含む、電子文書のページデータを生成するページデータ生成手段と、前記第1テーブル更新手段と前記第2テーブル更新手段とによって更新された前記リンク構成管理テーブルに基づいて、前記電子文書に含まれる前記第1リンク識別子と前記第2リンク識別子とをリンクさせるためのリンク構成情報を生成するリンク構成情報生成手段と、前記複数のページ画像それぞれについて前記ページデータ生成手段で生成された前記電子文書のページデータと、前記リンク構成情報生成手段で生成されたリンク構成情報を、外部の装置に送信する送信手段と、を有し、前記送信手段は、前記ページデータ生成手段で生成された一部のページデータを、前記入力された複数のページ画像全てについてのページデータの生成が完了するよりも前に、前記外部の装置に送信することを特徴とする。
上記課題を解決するために、本発明の画像処理装置は、複数のページ画像からなる文書を入力する入力手段と、前記入力手段で入力されたページ画像を、属性ごとの領域に分割する領域分割手段と、前記領域分割手段で分割された領域に対して文字認識処理を実行する文字認識手段と、前記文字認識手段の文字認識結果に基づいて、特定文字列で構成されるアンカー表現を検出する検出手段と、前記検出手段で検出されたアンカー表現にリンク識別子を付与する識別子付与手段と、前記アンカー表現に基づいて定められる強調表示位置と前記リンク識別子とを関連づけたデータを生成する生成手段と、前記アンカー表現と前記リンク識別子とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該アンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新するテーブル更新手段と、前記ページ画像に関して、前記リンク識別子と前記強調表示位置とを用いて、電子文書のページデータを生成し、当該生成されたページデータを送信する第1送信手段と、前記入力手段で入力されるページ画像を1ページずつ順に処理対象として、前記領域分割手段と前記文字認識手段と前記検出手段と前記識別子付与手段と前記生成手段と前記テーブル更新手段と前記第1送信手段とによる処理を繰り返し実行するように制御する制御手段と、前記テーブル更新手段によって更新された前記リンクテーブルに基づいて、前記電子文書に含まれる関連するリンク識別子同士をリンクさせるためのリンク構成情報を生成して送信する第2送信手段と、を有することを特徴とする。
本発明によれば、複数ページの電子文書を入力として、ページ単位で「オブジェクト」と本文中の「オブジェクトの説明文」との間に相互リンクを自動的に作成し、マルチページの電子文書を生成することが可能となる。この相互リンクにより、「オブジェクト」と「オブジェクトの説明文」との参照が容易になり、可読性の向上につながる。また、複数ページの文書画像をPCへ送信する際、「オブジェクト」のあるページと、「オブジェクトの説明文」が書かれたページが異なる場合でも自動的に相互リンクを生成することが可能であり、ページ単位での処理が可能なので、全ページデータを保持しておくワークメモリが不要になる。さらに、1ページ単位で電子文書データが生成される度に送信することで、転送効率を向上させることが可能である。
本発明に係る画像処理システムを示すブロック図 MFP100を示すブロック図 データ処理部218の構成例を示すブロック図 リンク処理部304の構成例を示すブロック図 入力イメージデータ300に対して領域分割を行った結果の説明図 本発明で出力される入力イメージデータ500に対する電子文書データの例 実施例1における処理全体のフローチャート 実施例1におけるページ単位のリンク処理のフローチャート 実施例1で作成されるリンク構成管理テーブルの一例 実施例1における複数ページの画像の一例、および処理結果の説明図 実施例1における電子文書データ構成の説明図 実施例1における受信側のフローチャート 実施例1におけるアプリケーションの説明図 実施例1におけるアプリケーション側のフローチャート 実施例4における処理のフローチャート
[実施例1]
図1は本実施例の画像処理システムの構成を示すブロック図である。
図1において、オフィスA内に構築されたLAN102には、複数種類の機能(複写機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。LAN102は、プロキシサーバ103を介してネットワーク104にも接続されている。クライアントPC101はLAN102を介してMFP100からの送信データを受信したり、MFP100が有する機能を利用したりする。例えば、クライアントPC101は、印刷データをMFP100へ送信することで、その印刷データに基づく印刷物をMFP100で印刷することもできる。尚、図1の構成は一例であり、オフィスAと同様の構成要素を有する、複数のオフィスがネットワーク104上に接続されていても良い。また、ネットワーク104は、典型的にはインターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等で実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントPC101、プロキシサーバ103の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。
図2は本実施例の画像処理装置であるMFP100の詳細構成を示す図である。図2中、MFP100は、画像入力デバイスであるスキャナ部201と、画像出力デバイスであるプリンタ部202と、CPU205等で構成される制御ユニット204と、ユーザインタフェースである操作部203等を有する。制御ユニット204は、スキャナ部201、プリンタ部202、操作部203と接続し、一方では、LAN219や一般の電話回線網である公衆回線(WAN)220と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。CPU205は、制御ユニット204に含まれる各ユニットを制御する。RAM206はCPU205が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ROM210はブートROMであり、システムのブートプログラム等のプログラムが格納されている。記憶部211はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部I/F207は操作部(UI)203とのインターフェース部で、操作部203に表示するための画像データを操作部203に対して出力する。また、操作部I/F207は操作部203から本画像処理装置の使用者が入力した情報を、CPU205に伝える役割をする。ネットワークI/F208は本画像処理装置をLAN219に接続し、パケット形式の情報の入出力を行う。モデム209は本画像処理装置をWAN220に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス221上に配置される。
イメージバスI/F212はシステムバス221と画像データを高速で転送する画像バス222とを接続し、データ構造を変換するバスブリッジである。画像バス222は、例えば、PCIバスやIEEE1394で構成される。画像バス222上には以下のデバイスが配置される。ラスターイメージプロセッサ(RIP)213はPDL(ページ記述言語)コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。このビットマップイメージに展開する際には、各画素単位あるいは領域単位で、属性を判定し、判定結果の属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字(テキスト)や線(ライン)、グラフィクス、イメージ等といったオブジェクトの種類(属性)を示す属性情報が付与される。デバイスI/F214は、信号線223を介して画像入力デバイスであるスキャナ部201、信号線224を介して画像出力デバイスであるプリンタ部202、をそれぞれ制御ユニット204に接続し、画像データの同期系/非同期系の変換を行う。スキャナ画像処理部215は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部216は、プリンタ部202に出力すべきプリント出力画像データに対して、プリンタ部202に応じた補正、解像度変換等を行う。画像回転部217は入力された画像データが正立するように回転を行い出力する。データ処理部218については後述する。
次に、図3を用いて、図2に示すデータ処理部218の構成および動作について、詳細な説明を行う。データ処理部218は、領域分割部301、属性情報付加部302、文字認識部303、リンク処理部304、フォーマット変換部305から構成される。データ処理部218は、例えばスキャナ部201でスキャンしたイメージデータ300が入力されると、各処理部301〜305で処理を行うことにより、電子文書データ310を生成して出力する。
領域分割部301には、図2のスキャナ部201でスキャンされたイメージデータ、あるいは記憶部211に記憶されているイメージデータ(文書画像)が入力される。そして、領域分割部301は、入力されたイメージデータを、ページ内に配置された文字、写真、図、表等の各領域に分割する。
この際の領域抽出方法(領域分割方法)としては公知の方法を用いることができる。一例を説明すると、まず、入力画像を2値化して2値画像を生成し、2値画像を低解像度化して間引き画像(縮小画像)を作成する。例えば、1/(M×N)の間引き画像を作成する際には、2値画像をM×N画素毎に分割し、M×N画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。次に、間引き画像において黒画素が連結する部分(連結黒画素)を抽出して当該連結黒画素に外接する矩形を作成していく。文字画像サイズに近い矩形(1文字の矩形)が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形(数文字が繋がった連結黒画素の矩形)で短辺の近くに同様の矩形が並んでいる場合は、1つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、1つの文字行を表す矩形を得る。そして、1つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合して本文領域を抽出する。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図5(a)のイメージデータ500は、領域501〜506に分割されることとなる。なお、各領域の属性は、後述するように、そのサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果等に基づいて判断される。
属性情報付加部302は、領域分割部301で分割された各領域に属性を付加する。ここでは、図5(a)に示す入力イメージデータ500を例として、属性情報付加部302の処理動作を説明する。属性情報付加部302は、領域506が、そのページ内で文字数や行数がある程度あり、文字数、行数、段落等の形態を保有するように連続する文字列から構成されているため、領域506に『本文』の属性(本文属性)を付加する。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かが判断される。特に、文字画像が含まれている領域に対しては、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かを判断することができる。その結果、属性情報付加部302は、領域501、領域504、領域505に対して、文字が含まれる領域として『文字』の属性を付加する。ただし、これらの領域は、文字数、行数、段落等の形態を持たない点から、本文領域とは異なることになる。
一方、属性情報付加部302は、それ以外の領域について、領域の大きさが非常に小さければ『ノイズ』と判定する。また、属性情報付加部302は、画素密度が小さい連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいる場合は当該領域を『表』と判断し、整然と並んでいない場合は『線画(図)』と判断する。それ以外の画素密度の高い領域に対しては、絵や写真であると判断して、『写真』の属性を付加する。なお、『表』、『線画』、『写真』の属性が付加された領域は、上述の「オブジェクト」に対応し、文字以外の属性であることを特徴としている。
更に、本文でないと判断された文字領域にが、『表』、『線画』、『写真』の属性が付加された領域の近傍(例えば、当該オブジェクト領域の上または下)に存在する場合、属性情報付加部302は、当該『表』、『線画』、『写真』の領域を説明する文字領域であると判断する。そして、属性情報付加部302は、当該本文でない文字領域に『キャプション』の属性を付加する。尚、キャプション領域は、その『キャプション』領域が付随するオブジェクト領域(例えば、『表』、『線画』、『写真』のオブジェクト)を特定できるように保存する。すなわち、『キャプション』の属性が付加された領域(以下、キャプション領域)と、『キャプション』が付随するオブジェクト領域(以下、キャプション付随オブジェクト)とを関連付けて保存する。例えば、図5(b)に示すように、領域505(キャプション領域)には、「キャプションが付随する領域」の項目に『領域503』が関連付けられている。
また、属性情報付加部302は、文字サイズが本文領域の文字画像より大きく、本文領域の段組とは異なる位置に在る文字領域に対しては、『見出し』の属性を付加する。また、属性情報付加部302は、文字サイズが本文領域の文字画像より大きく、本文領域の段組の上部に存在する領域に、『小見出し』の属性を付加する。更に、属性情報付加部302は、本文領域の文字画像のサイズ以下の文字画像から構成されており、イメージデータを構成するページの下端部や上端部に存在する領域に、『ページ』(もしくは、「ページヘッダ」、「ページフッタ」)の属性を付加する。また、属性情報付加部302は、文字領域として判断したが、『本文』、『見出し』、『小見出し』、『キャプション』、『ページ』のどれにも当てはまらない領域には、『文字』の属性を付加する。
以上のような属性情報付加処理を行うと、図5(a)に示すイメージデータにおいて、領域501は『見出し』、領域502は『表』、領域503は『写真』、領域504は『文字』、領域505は『キャプション』、領域506は『本文』の属性が付加されることとなる。なお、領域505には、『キャプション』属性が付加されているため、キャプション付随オブジェクトとして領域503が関連付けられている。また、『写真』の属性が付加された領域503は、本実施例における「オブジェクト」に該当し、『本文』の属性が付加された領域506は、アンカー表現である「図1」を含んでいるため前述の「オブジェクトの説明文」に該当する。なお、属性情報付加部302による属性の付加とは、例えば、図5(b)に示すデータテーブルのように、領域分割部301により分割された領域ごとに、判別した属性を関連付けて記憶部211等に記憶させることである。
文字認識部303は、文字画像を含む領域(すなわち、属性が『文字』、『本文』、『見出し』、『小見出し』、『キャプション』の領域)について、公知の文字認識処理を実行し、その結果とを文字情報として対象領域に関連付けて記憶部211に記憶させる。例えば、図5(b)に示すように、領域501、504〜506には、「文字情報」の項目に、文字認識処理の結果である文字情報が関連付けられている。
このように、領域分割部301、属性情報付加部302、文字認識部303において抽出された領域の位置や大きさや領域属性の情報、ページの情報、文字認識結果の文字情報(文字コード情報)等は、領域ごとに関連付けられて記憶部211に記憶される。例えば、図5(b)には、図5(a)に示すイメージデータ500を例に処理した場合、記憶部211に記憶されるデータテーブルの一例が示されている。なお、図5(a)および(b)では詳細な説明を省略しているが、属性が『表』の領域における文字画像の領域に関して、『表内文字』の属性を付与して文字認識処理を行って、当該処理結果を文字情報として記憶しておくのが望ましい。領域504については、図5(b)に示すように、これが、写真や図に含まれる領域なので、『領域503の写真内』の属性が追加される。
リンク処理部304は、属性情報付加部302で検出されたキャプション付随オブジェクト(属性が『表』、『線画』、『写真』、『イラスト』等の領域)と「アンカー表現を含む本文中の説明表現」との間にリンク情報を生成する。そして、リンク処理部304は、この生成したリンク情報を記憶部211に記憶させる。リンク処理部304の詳細については後述する。
フォーマット変換部305は、入力されたイメージデータ300について、領域分割部301、属性情報付加部302、文字認識部303、リンク処理部304から得られた情報を用いて、電子文書データ310へ変換する。電子文書データ310のファイルフォーマットの例としては、SVG、XPS、PDF、OfficeOpenXML等が挙げられる。変換された電子文書データ310は、記憶部211に記憶されるか、または、LAN102を介して、クライアントPC101へ送信される。文書の利用者は、該電子文書データ310をクライアントPC101にインストールされているアプリケーション(例えば、Internet Explorer、Adobe Reader、MS Office等)で閲覧する。電子文書データ310をアプリケーションで閲覧する際の詳細については後述する。
電子文書データ310は、グラフィックス等によるページ表示情報(表示用画像等)と、文字等の意味記述による内容情報(リンク情報等)を含む。
フォーマット変換部305の処理は、大きく2つある。1つは、各画像領域に対して、平坦化やスムージング、エッジ強調、色量子化、2値化等のフィルタ処理を施し、各領域の画像データを指定されたフォーマットに変換する処理を行い、電子文書データ310に格納できるものにすることである。例えば、『文字』、『線画』及び『表』の属性の領域の画像データに対して、ベクトルパス記述のグラフィックスデータ(ベクトルデータ)や、ビットマップ記述のグラフィックスデータ(例えばJPEGデータ)にすることである。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。そして、それらに対して、記憶部211に記憶されている領域情報(位置、大きさ、属性)、領域内の文字情報、リンク情報を対応づけて、電子文書データ310へ変換する。
さらに、このフォーマット変換部305では、各領域に施すべき変換処理方法は、領域の属性によって異なる。例えば、ベクトル変換処理は文字や線画のように白黒あるいは数色で構成された図形に対しては好適であるが、写真のように階調性のある画像領域には不適である。このように、各領域の属性に従った適切な変換を行うためには、図5(c)に示す対応テーブルをあらかじめ設定しておき、当該対応テーブルに基づいて変換処理を行う。例えば、図5(c)に示す対応テーブルに従えば、『文字』、『線画』および『表』の属性の領域に対してはベクトル変換処理が、『写真』属性の領域に対しては画像切り出し処理が行われることになる。
また、図5(c)に示す対応テーブルにおいて、該当領域の画素情報をイメージデータ300から消去する処理の有無が各属性に関連付けて格納されている。例えば、図5(c)に示す対応テーブルに従って、『文字』属性の領域をベクトルパス記述データに変換する場合、消去処理ありと指示されている。そこで、イメージデータ300上において、当該変換されたベクトルパスに覆われる部分に対応する画素をその周辺色で塗りつぶす処理を行う。同様に、『写真』属性の領域を矩形の画像パーツとして切り出す際には、イメージデータ300上において、当該切り出された領域に対応する領域範囲内を、その周辺色等で塗りつぶす処理を行う。
このような消去処理を行う目的としては、各領域に対する処理が終了した後(塗りつぶし処理終了後)のイメージデータ300を『背景』の画像パーツデータとして利用できることである。この背景用の画像データ(背景画像)には、領域分割処理で分割された領域以外の部分(例えばイメージデータ300中の下地にあたるような画素)が残っている。電子文書データ310を記述する際には、フォーマット変換部305によって行われるベクトル変換処理や画像切り出し処理で得られたグラフィックスデータ(前景画像)を背景画像パーツデータ(背景画像)の上に重畳して表示するような記述を行う。これにより、背景画素(下地の色)の情報欠落がなくなり、かつ冗長性のないグラフィックスデータを構成することが可能となる。
そこで、『文字』属性の領域(文字領域)に対しては、2値による画像切り出し処理と、イメージデータ300からの画素消去処理が行われるが、それ以外の属性の領域に対しては、ベクトル化処理や画像切り出し処理は行わないようにすることも可能である。すなわち、処理対象外の画素(『写真』や『線画』や『表』属性の領域内の画素情報)は、背景画像パーツデータ内に残っており、この背景画像上に『文字』の画像パーツを重畳するように記述される。
さらに、図5(c)に示す対応テーブルを予め複数用意しておき、出力される電子文書データ310の用途(使用目的)や電子文書の内容に応じて選択できるようにしても良い。例えば、図5(c)に示す対応テーブルに基づいた出力は、オブジェクトの大半がベクトルパス記述へと変換されているため、拡大縮小時の画質に優れているので、グラフィックエディタ等の再利用用途に好適である。また、他の対応テーブルの作成例としては、文字画像を文字色ごとに個別の2値画像を生成して可逆圧縮することで、文字画像部分は高品位に再生することができ、それ以外を背景画像としてJPEG圧縮することでデータサイズの圧縮率を高くすることができる。この場合、圧縮率を高くしつつ文字画像が読みやすいデータを作成したい場合に適している。このように選択可能に使い分けることで作成する電子文書データを適切なものにすることが可能となる。
生成される電子文書データ310の例を図6に示す。図6に示す例では、図5(a)に示すイメージデータ500を処理した場合に、記憶部211に記憶されるデータテーブル(図5(b))に基づいて、SVG(Scalable Vector Graphics)形式で記述を行った場合の例を示す。尚、ここではSVG形式を例として説明するが、SVGに限定されるものではなく、PDF、XPS、Office Open XML、その他のPDL系のデータ形式等でもよい。
図6の電子文書データ記述600において、記述601〜606は、それぞれ図5(a)の領域501〜506に対するグラフィックス記述である。ここで、記述601、記述604〜606は文字コードによる文字描画記述の例であり、記述602はベクトル変換された表の枠のベクトルパス記述、記述603は切り出し処理された写真画像を貼り付ける記述の例である。なお、図5(b)と図6の例で、座標値X1、Y1等記号で記述されている部分は実際には数値が記述される。また、記述607はリンク情報についての記述例である。記述607には、記述608、609を構成とする記述である。記述608は、「キャプション付随オブジェクト」から「本文中の説明表現」へのリンク情報である。記述610は、リンク識別子であり、記述603で示されるキャプション付随オブジェクト、および記述611で示されるグラフィックデータ領域に関連付けされている。記述612は動作に関するアクション情報である。アクション情報とは、文書の閲覧者が電子文書データ310をアプリケーションで閲覧する際、記述611で示されるグラフィックデータ領域が押下(または選択)された場合のアプリケーション側の表示動作に関する情報である。記述609は、「本文中の説明表現」から「キャプション付随オブジェクト」へのリンク情報である。記述613〜記述615は、記述610〜記述612と同様である。
図4はリンク処理部304の構成例を示すブロック図である。以下、リンク処理部304の処理内容について説明する。
リンク情報付与対象選択部401は入力されたイメージデータに対して、リンク情報生成を行う対象となるオブジェクト(キャプション付随オブジェクト)を選択する。
アンカー表現抽出部402は、リンク情報付与対象選択部401で選択されたオブジェクトに付随するキャプション領域における文字情報を解析し、当該解析した文字情報の中からアンカー表現(例えば、「図1」、「Fig1」等)を抽出する。アンカー表現抽出部402は、アンカー表現が見つかった場合には、文字情報のうちの該当部分をアンカー表現、それ以外の部分をキャプション表現として抽出する。また、文字コードの特性や辞書等を用いることで、有意でない文字列(無意味な記号列等)を排除する機能も有する。これは、文書のテキスト部分の境界に現れる飾りや、分割線、画像を文字として解釈するような文字認識の誤認識等に対応するためである。また、アンカー表現を抽出するために、図番号等の多言語の文字列パターンや、それに対する文字認識の誤認識パターンを辞書に保有することで、アンカー表現の抽出精度と、アンカー表現の文字補正を行うことが可能である。また、キャプション表現に対しても、同様に処理することができる。すなわち、自然言語処理での解析や、文字認識の誤認識補正等を行うことが可能で、アンカー表現との境目や、先頭・末尾に現れる記号や文字飾り等を補正して排除したりする機能を持たせることも可能である。
本文内アンカー表現検索部403は、アンカー表現抽出部402のアンカー表現抽出処理で抽出される可能性があるアンカー表現の全特定文字列(例えば、「図」、「Fig」等)を文書の各本文領域における文字情報から検索し、オブジェクトに対応する本文中のアンカー表現の候補として検出する部分である。また、本文内アンカー表現検索部403は、アンカー表現を含み、オブジェクトの説明を行っている本文中の説明表現も、オブジェクトの説明表現候補として併せて検出する。ここでは、検索を高速化するための、検索用インデックス(インデックス作成とそれを利用した高速検索の技術は公知のインデックス作成・検索技術を用いることが可能である)を作成することが可能である。また、複数のアンカー表現の特定文字列で一括検索をすることで、高速化を実現することも可能である。また、本文中の説明表現に対しても、図番号等の多言語の文字列パターンや、それに対する文字認識の誤認識パターンを保有して、これを利用することにより、検索精度の向上、および、補正を行う機能の提供が可能である。
リンク情報生成部404は、リンク情報付与対象選択部401で選択されたキャプション付随オブジェクトと、本文内アンカー表現検索部403で検索・抽出された本文中のアンカー表現候補および説明表現候補とを関連付けるリンク情報を生成する。リンク情報には、リンク動作のトリガー、リンクアクション設定、リンク構成情報等が含まれる。これらの詳細については後述する。ここでは、「キャプション付随オブジェクト」から「本文中に記述されると思われるアンカー表現およびオブジェクトの説明表現」、もしくは前述の「本文中のアンカー表現候補および説明表現候補」から「文書内中に挿入されると思われるオブジェクト」へのリンク情報として、トリガーとリンクアクション設定を生成する。尚、最初の時点で生成されるリンク情報は、リンク先の情報が確定していない不完全なものである。
リンク構成情報生成部405は、上記リンク情報生成部404でリンク情報を生成した際に、リンク識別子や、出現累計回数、リンク先情報等のリンク構成情報を集計するための、図9に示すリンク構成管理テーブルを生成・更新する。
リンク情報生成部406は、リンク構成情報生成部405で生成されたリンク構成情報を収集し、フォーマット変換部305で受け取れるような形式に出力する。これにより、フォーマット変換部305は、電子文書データ310を生成する。
リンク処理制御部407は、リンク処理部304全体の制御を行う。主に、図2の記憶部211に記憶されている領域情報411(各領域に関連付けされている位置、大きさ、属性についての情報)、および領域内の文字情報412とともに、イメージデータ300中の各領域を、適切な処理部401〜406へ配分する。また、各処理部401〜406から出力される情報を適切な処理部へ渡す制御を行う。なお、領域情報411および文字情報412はそれぞれ、図5(b)に示すように、イメージデータ300について領域分割部301により分割された各領域に関連付けられたデータテーブルの形式で記憶部211に記憶されているものである。
リンク処理部304の各部分(図4の各処理部401〜407)の動作については、後述で実際に処理を行う例を扱うので、その中の説明で、再度取り上げて、より詳細に説明する。
次に、本実施例1の画像処理システムで実行する処理全体の概要を、図7のフローチャートを用いて説明する。
図7は、図1のスキャナ部201で入力された複数ページのイメージデータを、1ページ毎に処理を行い、複数ページからなる電子文書データに変換する処理のフローチャートである。尚、複数ページのイメージデータとして、例えば、図10(a)に示す複数のページ画像からなる文書が入力され、1ページずつ順に処理対象にするものとする。以下、図7のフローチャートの各説明を行う。
ステップS701において、データ処理部218は、オブジェクトとオブジェクトを説明する説明文との対応関係を記録しているリンク構成情報を作成するために用いるリンク構成管理テーブルを初期化する。リンク構成情報およびリンク構成管理テーブルについての説明は後述する。
ステップS702において、領域分割部301は、入力された1ページ分のイメージデータから領域を抽出する。例えば、図10(a)のイメージデータ1001(1ページ目)に対しては、領域分割処理を行うことにより、領域1006が抽出される。さらに、ステップS702において、領域分割部301は、図10(b)のデータテーブルに示すように、領域1006に関する「座標X」「座標Y」「幅W」「高さH」および「ページ」を判別して、これらの情報を領域1006と関連付けて記憶部211に記憶させる。
ステップS703において、属性情報付加部302は、ステップS702で分割された領域の種別に応じて、各領域に属性を付加する。例えば、図10(a)に示すイメージデータ1003(3ページ目)の例では、領域1009には『写真』、領域1010は『キャプション』の属性が付加される。尚、この領域1010には、キャプションの付随対象となるオブジェクトが『写真』領域1009であるという情報も付加される。即ち、領域1009は、キャプション付随オブジェクトとなる。このように、属性情報付加部302は、図10(b)に示す「属性」および「付随対象オブジェクト」の情報について、対応する各領域と関連付けて記憶部211に記憶させる。
ステップS704において、文字認識部303は、ステップS703で文字(本文、キャプション、見出し、小見出し等)の属性が付加された領域に対して文字認識処理を実行し、その結果を文字情報として当該領域に関連付けて記憶部211に記憶させる。例えば、ステップS704において図10(b)に示す「文字情報」が文字認識処理の結果として記憶部211に記憶される。
ステップS705において、リンク処理部304は、アンカー表現およびキャプション付随オブジェクトの抽出、グラフィックデータの生成、およびリンク情報の生成を行うリンク処理を実行する。ステップS705でリンク処理部304が実行する処理の詳細については、図8のフローチャートを用いて説明する。この処理が終わると、ステップS706へ進む。
図7のステップS705におけるリンク処理の詳細について、図10(a)の入力データ1001〜1005を入力例として、図8のフローチャートを用いて説明する。
[1ページ目(図10(a)のイメージデータ1001)を入力した場合のリンク処理の動作説明]
図8のステップS801において、リンク処理部304内のリンク情報付与対象選択部401は、記憶部211に保存された領域情報411より、文字領域の内、リンク情報生成処理が行われていない本文領域を一つ選出する。すなわち、未処理の本文領域があれば、当該本文領域を処理対象として選択し、ステップS802に進む。一方、本文領域が存在しないか、全て処理済みであった場合にはステップS807に進む。
イメージデータ1001の場合には、本文領域1006が含まれているため、ステップS802へ進む。
ステップS802において、本文内アンカー表現検索部403は、リンク情報付与対象選択部401によってステップS801で選択された本文領域に対応する文字情報412から、後述するアンカー表現抽出部402のアンカー表現抽出処理で抽出される可能性があるアンカー表現の全特定文字列(例えば、「図」、「Fig」、「表」と、数字との組み合わせ等)を検索する。アンカー表現候補が検出された場合には、当該検出されたアンカー表現を含みオブジェクトの説明を行っている本文中の説明表現候補も併せて検索し、ステップS803へ進む。一方、アンカー表現候補が検出されなかった場合には、リンク情報を付与する該当箇所がないと判定し、ステップS801に戻る。
イメージデータ1001の場合では、本文領域1006中よりアンカー表現候補として領域1007の「図1」が検出され、図10(b)に示す領域1006に対する「アンカー表現候補」の情報が記憶部211に保存される。また、このとき当該「図1」の単語を含む一文を説明表現候補として当該アンカー表現候補と関連付けて記憶部211に保存する。その後、ステップS803に進む。
ステップS803において、リンク情報生成部404は、リンク識別子を生成し、ステップS802で検出されたアンカー表現候補の領域に関連付ける。ここで、リンク識別子は、後述のリンク情報が付与される領域の識別に用いるための情報である。
イメージデータ1001の場合、本文領域1006内に存在する領域1007に対しては、リンク識別子「text_図1−1」を関連付ける。さらに、図10(b)のデータテーブルにおいて、領域1006に対する「リンク識別子」の情報が記憶部211に保存される。もし、「図1」と同一のアンカー表現候補が複数回(N回)本文中に記載されている場合は、リンク識別子を「text_図1−1」〜「text_図1−N」として関連付ければよい。
ステップS804では、リンク情報生成部404は、グラフィックデータを生成し、ステップS803において生成されたリンク識別子と関連付ける。ここで、グラフィックデータは、本実施例において生成される電子文書データ310をアプリケーションで閲覧する際、例えば、文書内のオブジェクトを閲覧者がマウスでクリックした時に、リンク先の注目領域(本文中のアンカー表現)の位置を強調表示して閲覧者に提供するために使用するグラフィック(例えば赤色の矩形)の描画情報である。
イメージデータ1001の場合、図10(c)の領域1017に示すように、リンク識別子「text_図1−1」は、グラフィックデータ(「座標X」、「座標Y」、「幅W」、「高さH」)=(「X17」、「Y17」、「W17」、「H17」)と関連付けされる。ここで、グラフィックデータの一例を図10(d)のグラフィックデータ1022に示す。グラフィックデータ1022は、領域1007に重なる矩形情報である。このグラフィックデータ1022は、本文中の説明表現中のアンカー表現の位置をユーザが識別できるようにグラフィックを表示する際に使用する描画情報である。すなわち、閲覧者がキャプション付随オブジェクトをクリックし、該キャプション付随オブジェクトの説明表現のあるページに移動した場合に、どの位置(何段落目、何行目)を見ればよいのかを簡単に把握するための描画情報として利用する。なお、図10(d)の1022では、アンカー表現を囲むグラフィックデータを例として示したが、これに限るものではない。ここで生成するグラフィックデータは、アンカー表現の位置ではなく、当該アンカー表現を含む本文中の説明表現の位置を示すグラフィックデータ(例えば、当該アンカー表現を含む一文を囲む矩形)を描画情報として生成してもよい。また、本実施例においてグラフィックデータを矩形として説明しているが、矩形に限ることなく閲覧者にわかりやすくするために強調表示する描画情報であれば任意の形、線等(例えば、円形や星型、矢印、下線など)でも構わない。
ステップS805において、リンク情報生成部404は、本文中のアンカー表現候補から文書に出現すると思われるオブジェクトへのリンク情報を生成する。該リンク情報は、本実施例における電子文書の閲覧者が、本文中の説明表現(主に、本文中の説明表現の中のアンカー表現)に対して何らかのアクション(以下、トリガー)を行った時の動作に関する情報(以下、リンクアクション設定)である。例えば、トリガーとして閲覧者がアンカー表現領域をマウス等でクリックした時、リンク先のオブジェクトに対応するグラフィックを強調表示させ、オブジェクトのあるページへ画面遷移を行う等である。また、リンク先のオブジェクトが存在しない場合についても同様に設定を行うことができる。図10(c)では、リンク先のオブジェクトが存在しない場合は何も動作しない(「−」と表記される)設定にしているが、リンク先が存在しないことを示すメッセージを表示させる等してもよい。このようなリンク情報は、図10(c)の「トリガー」の種類および「リンクアクション設定」情報として記載され、図2の記憶部211に保存される。
ステップS806において、リンク構成情報生成部405は、オブジェクトとオブジェクトを説明する説明表現(アンカー表現候補)との対応関係を記述するリンク構成情報を構築するためのリンク構成管理テーブルを更新する。このリンク構成管理テーブルを更新することで、最終ページ処理後に得られるリンク構成情報と、ステップS805で設定したトリガーおよびリンクアクション設定と関連付けることで、相互リンクを実現するリンク情報を完成させることができる。図9にリンク構成管理テーブルの一例を示す。リンク構成管理テーブルには、ステップS802において検出されたアンカー表現候補および出現回数、ステップS803で生成されたリンク識別子、後述のステップS808で抽出されるアンカー表現、ステップS809で生成されるリンク識別子が記憶部211に保存される。
1ページ目のイメージデータ1001が入力された場合のリンク構成管理テーブルの生成方法を、図9を用いて説明する。まず、ステップS802で検出されたアンカー文字候補「図1」が「アンカー表現」および「アンカー表現候補」の欄に存在しているかをチェックする。検出されたアンカー文字候補に一致するアンカー表現またはアンカー表現候補が既にある場合にはリンクの対象であると判定され、当該既存の欄に、当該検出されたアンカー文字候補に関するデータが追加登録(追記)される。一方、一致するものがなければリンク先が未定であると判定され、新規にデータを登録する。図10のアンカー表現候補1007を検出した時点では、一致するデータの記載がないため、新規にデータ901を作成し、アンカー表現候補欄に「図1」、出現回数欄に1回と追記する。そして、リンク識別子欄にステップS803で生成されたリンク識別子「text_図1−1」を追記する。結果として、1ページ目の処理後には、図9(a)のリンク構成管理テーブルが生成され、記憶部211に保存される。
ステップS807において、リンク情報付与対象選択部401は、記憶部211に保存された領域情報411において、キャプション付随オブジェクトの内、リンク情報生成処理が行われていない領域(オブジェクト)を一つ選出する。すなわち、未処理のキャプション付随オブジェクトがあれば、当該キャプション付随オブジェクトを処理対象として選択し、ステップS808に進む。キャプション付随オブジェクトが存在しないか、全て処理済みであった場合には処理を終了し、図7のステップS706へ進む。
1ページ目のイメージデータ1001には、キャプション付随オブジェクトが存在しないため、処理を終了し、図7のステップS706へ進むことになる。ステップS706でフォーマット変換し、S707で当該ページのデータを送信した後、ステップS708で次のページがあると判定した場合は、ステップS702に戻って、次のページのイメージ1002を処理対象にして処理を行う。
[2ページ目(図10(a)のイメージデータ1002)を入力した場合のリンク処理の動作説明]
ステップS801において、リンク情報付与対象選択部401は、イメージデータ1002より本文領域1008を選出し、ステップS802へ進む。ステップS802において、本文内アンカー表現検索部403は、イメージデータ1002中の本文領域1008より、アンカー表現候補検出処理をおこなう。ここではアンカー表現候補を検出することができなかったため、再びステップS801に戻り、未処理の文字領域があるかどうかをチェックする。そして、全本文領域を処理した後、ステップS807へ進む。ステップS807において、リンク情報付与対象選択部401は、イメージデータ1002にはキャプション付随オブジェクトが存在しないと判定して処理を終了し、図7のステップS706へ進む。
[3ページ目(図10(a)のイメージデータ1003を入力した場合のリンク処理の動作説明]
ステップS801において、リンク情報付与対象選択部401は、本文領域が存在しないと判定し、ステップS807へ進む。
ステップS807において、リンク情報付与対象選択部401は、イメージデータ1003から未処理のキャプション付随オブジェクト1009を選択し、ステップS808へ進む。
ステップS808において、アンカー表現抽出部402は、リンク情報付与対象選択部401によってS807で選択されたキャプション付随オブジェクトに付随するキャプション領域の文字情報から、アンカー表現およびキャプション表現を抽出する。アンカー表現が抽出された場合はステップS809に進み、抽出されなかった場合はステップS807に戻る。
ここで、アンカー表現とはキャプション付随オブジェクトを識別するための文字情報(文字列)であり、キャプション表現とはキャプション付随オブジェクトを簡単に説明するための文字情報(文字列)である。キャプション付随オブジェクトに付随するキャプションには、アンカー表現のみが記載される場合、キャプション表現のみが記載される場合、両方が記載される場合、さらにどちらもない場合がある。例えば、アンカー表現は「図」や「Fig」等の特定の文字列と、番号や記号との組み合わせで表現される場合が多い。そこで、それら特定の文字列を登録したアンカー文字列用辞書を予め用意しておき、キャプション表現を該辞書と比較してアンカー部分(アンカー文字列+数記号)を特定すればよい。そして、キャプション領域の文字列のうち、アンカー表現以外の文字列をキャプション表現として判断すればよい。
イメージデータ1003の場合、キャプション付随オブジェクト1009が抽出され、該オブジェクト1009に付随するキャプション領域1010中より、アンカー表現およびキャプション表現を抽出する。キャプション付随オブジェクト1009に付随するキャプション領域1010の文字情報は、「図1 AAA」である。従って、アンカー表現は「図1」、キャプション表現は「AAA」として判別される。なお、ステップS808において、図10(b)に示すように、キャプション領域1010に対する「アンカー表現」の情報が記憶部211に保存される。
ステップS809では、リンク情報生成部404は、リンク識別子を生成し、当該リンク識別子を、リンク情報付与対象選択部401によって選択されたキャプション付随オブジェクトに関連付ける。
イメージデータ1003(3ページ目)の場合、キャプション付随オブジェクト1009に対して、例えばリンク識別子「image_図1−1」を生成し、データテーブルを用いて関連付ける。このとき、図10(b)のデータテーブルのように、領域1009に対する「リンク識別子」の情報が記憶部211に保存される。
ステップS810では、リンク情報生成部404は、オブジェクトを識別するためのグラフィックデータを生成し、ステップS809において生成されたリンク識別子と関連付ける。ここで生成されるグラフィックデータは、本文中のオブジェクトのアンカー表現をクリックした際に、リンク対象であるオブジェクトを強調表示する際に用いる描画情報である。
イメージデータ1003の場合、図10(c)の領域1018に示すように、リンク識別子「image_図1−1」は、グラフィックデータ(「座標X」、「座標Y」、「幅W」、「高さH」)=(「X18」、「Y18」、「W18」、「H18」)と関連付けされる。ここで、グラフィックデータの一例を図10(d)のグラフィックデータ1023に示す。グラフィックデータ1023は、領域1009に重なる矩形情報である。なお、本実施例においてグラフィックデータを矩形として説明しているが、矩形に限ることなく閲覧者にわかりやすくするために強調表示する描画情報であれば任意の形、線等でも構わない。
ステップS811において、リンク情報生成部404は、キャプション付随オブジェクトから、本文中に出現する説明表現(アンカー表現)へのリンク情報を生成する。該リンク情報には、トリガーやリンクアクション設定が含まれる。また、入力文書によっては、リンク先が1ヶ所とは限らず、複数回出現する場合や、リンク先がない場合もある。そこで、リンク先が「ない」、「1ヶ所」、「複数」と場合分けをし、それぞれに対してリンクアクション設定を行う。例えば、リンク先がない場合には「―(処理を行わない)」、リンク先が1ヶ所の場合には「本文中の対応するアンカー表現を強調表示(赤色)+アンカー表現が書かれているページへ遷移」、リンク先が複数の場合には「対応するアンカー表現の書かれたページ一覧をリスト表示」とすればよい。それぞれのリンクアクションに関しては、これに限るものではなく、リンク先がない場合には、移動先が存在しないことを示す「メッセージ表示」や「エラー表示」を行っても構わない。また、リンク先が複数存在する場合には、移動先の選択肢が複数あることを示す「メッセージ表示」や「エラー表示」を行っても構わない。このリンク情報は図10(c)の1018の「トリガー」および「リンクアクション設定」情報に記載され、記憶部211に保存される。
ステップS812において、リンク構成情報生成部405は、オブジェクトとオブジェクトを説明する説明表現との対応関係を構築するためのリンク構成管理テーブルを更新する。
イメージデータ1003が入力された場合のリンク構成管理テーブルの更新方法を、図9を用いて説明する。まず、ステップS808で検出されたアンカー文字「図1」が「アンカー表現候補」の欄に存在しているかをチェックする。図9(a)のリンク構成管理テーブルには、データ901の「アンカー表現候補」欄に一致するデータの記載があるため、このデータに追記を行う。すなわち、データ901のアンカー表現欄に「図1」を、リンク識別子欄にステップS803で生成されたリンク識別子「text_図1−1」を追記する。結果として、図9(b)のリンク構成管理テーブルが生成され、記憶部211に保存される。
全領域に対して処理が終了した場合には、イメージデータ1003に対するリンク処理を終了し、図7のステップS706へ進む。
[4ページ目(図10(a)のイメージデータ1004を入力した場合のリンク処理の動作説明]
ステップS801において、本文内アンカー表現検索部403は、まず、本文領域1011を選出し、ステップS802へ進む。
ステップS802において、本文内アンカー表現検索部403は、本文領域1011中の文字列「図1」をアンカー表現候補1013として抽出し、ステップS803に進む。
ステップS803において、リンク情報生成部404は、「text_図1−2」というリンク識別子を生成し、ステップS802で抽出され得たアンカー表現候補領域1013と関連付けて保存する(図10(b)の1011参照)。
ステップS804において、リンク情報生成部404は、アンカー表現候補1013の強調表示の際に使用するグラフィックデータを生成し、前述のリンク識別子に関連付ける(図10(c)の1019欄参照)。
ステップS805において、リンク情報生成部404は、アンカー表現候補1013に対してリンク情報(トリガーとリンクアクション設定)を生成する(図10(c)の1019欄参照)。
ステップS806において、リンク情報生成部405は、リンク構成管理テーブルを更新する。図9に示すリンク構成管理テーブルの「アンカー表現」および「アンカー表現候補」に、ステップS802で検出されたアンカー表現候補「図1」が存在するかを確認する。データ901の「アンカー表現候補」欄に一致する記載があるため、出現回数を1回増やし、リンク識別子「text_図1−2」を新たに追記する。
次に、本文領域1012に関しても同様に、ステップS801〜S806の処理を繰り返す。4ページ目のイメージデータ1004の処理後のリンク構成管理テーブルを図9(c)に示す。
イメージデータ1004の場合、ステップS807において、リンク情報付与対象選択部401は、キャプション付随オブジェクトがイメージデータ1004中に存在しないと判定して処理を終了し、図7のステップS706へ進む。
[5ページ目(図10(a)のイメージデータ1005を入力した場合のリンク処理の動作説明]
イメージデータ1005の場合、ステップS801において、本文内アンカー表現検索部403は、本文領域1015を選出し、ステップS802へ進む。ステップS802において、本文内アンカー表現検索部403は、本文領域1015中より文字列「図2」をアンカー表現候補1016として検出し、ステップS803に進む。
ステップS803において、リンク情報生成部404は、「text_図2−1」というリンク識別子を生成し、ステップS802で抽出されたアンカー表現候補領域1016と関連付けて保存する(図10(b)の1015欄参照)。
ステップS804において、リンク情報生成部404は、アンカー表現候補1016の強調表示の際に使用するグラフィックデータを生成し、リンク識別子「text_図2−1」に関連付ける(図10(c)の1021欄参照)。
ステップS805において、リンク情報生成部404は、アンカー表現候補1016に対してリンク情報(トリガーとリンクアクション設定)を生成する(図10(c)の1021欄参照)。
ステップS806において、リンク情報生成部405は、リンク構成管理テーブルを更新する。図9に示すリンク構成管理テーブルの「アンカー表現」および「アンカー表現候補」に、ステップS802で検出されたアンカー表現候補「図2」が存在していないことを確認し、新たなリンク構成情報をデータ902に追記する。処理後は図9(d)に示すリンク構成管理テーブルが得られる。
イメージデータ1005の場合、ステップS807において、リンク情報付与対象選択部401は、キャプション付随オブジェクトがイメージデータ1005中に存在しないと判定して処理を終了し、図7のステップS706へ進む。
以上述べたように、図8のステップS801〜806は、本文領域に対する処理であり、ステップS807〜812は、キャプション付随オブジェクトに対する処理である。これらで生成されたリンク情報は、全ページ処理後に生成されるリンク構成情報(リンク構成管理テーブル)を用いる(後述するS709でリンク構成情報を送信する)ことで、「キャプション付随オブジェクト」と「本文中のアンカー表現およびオブジェクトの説明表現」との間の双方向へのリンクを完成させることができる。以上で、図8の説明を終了する。
図7の説明に戻り、ステップS706において、フォーマット変換部305は、当該処理対象となっているページのイメージデータ300および、図10(b)および図10(c)に示す記憶部211に保存された情報に基づいて、電子文書データ310への変換を行う。尚、図4で説明したように、フォーマット変換部305は、各領域に施すべき変換処理方法を記した対応テーブルに従って、イメージデータ300内の各領域に変換処理を実行する。ここでは、図5(c)の対応テーブルを用いて変換を行うものとする。すなわち、当該処理対象となっているページ画像に関して、図10(b)、(c)のデータに基づいてフォーマット変換した電子文書のページデータが生成される。生成された電子文書のページには、当該ページに関する変換後の各領域のデータ、リンク先の位置を示す描画情報(グラフィックデータ)、リンク識別子などのデータが含まれる。更に、電子文書の各ページに、図10(b)に示した文字認識結果の文字情報も格納することで、テキスト検索できるようになる。
ステップS707において、データ処理部218は、ステップS706でフォーマット変換した電子文書のページをページ単位でクライアントPC101へ送信する。
ステップS708において、データ処理部218は、ステップS702〜ステップS707の処理を全てのページに対して行ったか否かを判断する。全てのページの処理を終了していればステップS709へ進む。未処理のページがあれば、当該未処理の次のページを処理対象として、ステップS702〜S707の処理を繰り返す。このように図10(a)の5ページ分のイメージデータ1001〜1005に対して、ステップS702〜ステップS707の処理を行う。
ステップS709において、リンク情報生成部406は、ステップS705にて作成された図9(d)のリンク構成管理テーブルと図10(c)の各ページのリンク情報とを基にフォーマット変換して、電子文書全体のリンク情報データ(リンク構成情報およびトリガー、リンクアクション設定)を作成し、送信する。リンク情報データは、ステップS706にてフォーマット変換されてステップS707で送信された各ページの電子文書データと、送信先で統合されるようにする。すなわち、各ページの電子データはステップS707にて送信済みのため、リンク情報データは受信側(クライアントPC101)で電子文書データに追加されることになる。ここで、クライアントPC101へ送信する電子文書データ(1〜5ページ)、および、リンク情報の概略図を図11示す。図11の1101〜1105はそれぞれ、電信文書データ(1〜5ページ)であり、1106はリンク情報データである。リンク情報データ1106には、リンク構成情報として、アンカー表現「図1」について、オブジェクトのリンク識別子「image_図1−1」と、本文中から抽出されたアンカー表現候補のリンク識別子「text_図1−1」、「text_図1−2」、「text_図1−3」とが相互リンクされることを示している。また、オブジェクト「image_図1−1」がクリックされた場合は、複数のリンク先がリスト表示され、ユーザがその中から選択できることが指定されている。また、本文中のアンカー表現候補「text_図1−1」、「text_図1−2」、「text_図1−3」のいずれかがクリックされた場合は、相互リンクされているオブジェクトに対応するグラフィックを強調表示し、当該リンク先のオブジェクトを表示するためにページを移動することが指定されている。
以上で、図7の説明を終了する。尚、図7および図8のフローチャートは、図2のデータ処理部218(図3の各処理部301〜305)によって実行されるものとして説明を行った。本実施形態では、CPU205が記憶部211(コンピュータ読取可能な記憶媒体)に格納されたコンピュータプログラムを読み取り実行することによって、データ処理部218(図3の各処理部301〜305)として機能するものとするが、これに限るものではない。例えば、データ処理部218(図3の各処理部301〜305)を、電子回路等のハードウェアで実現するように構成してもよい。
続いて、図12の受信側の装置で実行される処理を示すフローチャートについて説明を行う。受信側であるクライアントPC101は、送信側であるMFP100から送信された電子文書データを1ページずつ受信し、最後にリンク情報データを受信する。
まず、ステップS1201では、図7のステップS707にて送信された電子文書データ(1ページ)を受信する。イメージデータ1001に関するデータから順に送信されてくる。
次に、ステップS1202では、全てのページの受信が終了したか否かを判断し、全てのページを受信していればステップS1203へ進む。受信していなければステップS1201へ戻り、続きのページに関するデータを受信する。
次に、ステップS1203では、図7のステップS709にて送信されたリンク情報データを受信する。
最後に、ステップS1204では、ステップS1201で受信した電子文書データ(1〜5ページ)とステップS1203で受信したリンク情報データとを合成し、クライアントPC101の不図示の記憶領域に保存する。本実施例では、1つのマルチページ電子文書ファイルとして保存する。
次に、アプリケーション側が本実施形態における電子文書データの記述に従って、相互リンクを実現する際の動作を図14のフローチャートを用いて説明する。ここでは、アプリケーションで電子文書データを表示しているときに、ユーザが所望のアンカー表現またはオブジェクトの部分をクリックするたびに、図14のフローチャートの処理が実行される。
ステップS1401において、アプリケーションは、クリックされたオブジェクトまたはアンカー表現について、リンク情報に一時的に移動情報が関連付けられているかを調べ、移動情報が関連付けられている場合にはステップS1402へ進む。一方、移動情報が関連付けられていない場合にはステップS1403へ進む。ここで、移動情報とは、リンク元のアンカー表現からリンク先のオブジェクトがあるページへ遷移したときに、当該リンク先のオブジェクトをクリックすると、遷移前のリンク元のアンカー表現のページに戻るために用いる情報である。例えば、閲覧者がアンカー表現の1つをクリックし、リンク情報によってリンク元のアンカー表現からリンク先のオブジェクトがあるページへの遷移が発生した場合、当該リンク先のオブジェクトに対して当該クリックされたリンク元のアンカー表現の情報を移動情報として関連付けて一時的に保持しておく。そして、閲覧者がそのリンク先のオブジェクトを閲覧した後にクリックすると、当該オブジェクトに関連づけられている移動情報を参照して、当該オブジェクトのページに遷移する前のリンク元のアンカー表現が表示されるように遷移元ページへ戻れるようにする。例えば、閲覧者が図10のイメージデータ1001(1ページ目)中のアンカー表現「図1」に対応するオブジェクトを確認したい場合、閲覧者は当該アンカー表現の領域1007をクリックする。当該クリックが為されると、アンカー表現のリンク構成情報とリンクアクション設定とに基づいて、該アンカー表現に関連付けられているイメージデータ1003(3ページ目)のオブジェクト領域1009を赤色で強調表示して当該オブジェクトがあるページへ移動する。このとき、当該クリックされたアンカー表現についての情報(リンク識別子や位置に関する情報等)が移動情報として、当該リンクされているオブジェクト1009に関連付けられて一時的に保持される。その後、閲覧者が当該オブジェクト領域1009をクリックすると、当該オブジェクト領域に関連付けられているリンク情報よりも、一時保持されている移動情報を優先して処理することで、移動前のページのアンカー表現に戻れるようにする。
ステップS1402において、アプリケーションは、移動情報に保存されていた情報を参照先情報(リンク先情報)として設定する。これにより、当該クリックされたオブジェクト(またはアンカー表現)が、ページ遷移に基づいて表示されたものであった場合は、その直前に閲覧していた場所(リンク元情報)に戻るために、参照先として設定されることになる。
ステップS1403において、アプリケーションは、図7のステップS705で生成され且つS709で送信されたリンク構成情報より、当該クリックされたオブジェクト(またはアンカー表現)に関連付けられているリンク先の情報を取得する。例えば、イメージデータ1003中のオブジェクト領域1009がクリックされた場合には、図11のリンク情報データ1106(図9(d)のリンク構成管理テーブルに基づく内容)より、当該オブジェクト領域1009からリンクしているアンカー表現候補のリンク識別子等の情報が取得できる。この場合、オブジェクト領域1009に対応する本文中のアンカー表現候補「図1」のリンク識別子を3つ(「text_図1−1」「text_図1−2」「text_図1−3」)取得できる。
ステップS1404において、アプリケーションは、リンク先がいくつ存在するかにより処理を振り分ける。リンク先が存在しない場合には、何も処理をせず終了する。またリンク先が1ヶ所であった場合には当該1つのリンク先を参照先情報(リンク先情報)として設定してステップS1408へ進む。また、リンク先が複数存在している場合にはステップS1405へ進む。
ステップS1405において、アプリケーションは、閲覧者に対して、複数のリンク先の中からユーザ所望のリンク先を選択させるための選択リストを表示する。すなわち、S1403で取得した複数のリンク先情報(「アンカー表現候補(オブジェクトの説明文)」)をリスト表示して、ユーザが選択できるようにする。
ステップS1406において、アプリケーションは、閲覧者が選択リストの中からリンク先を選択したかどうか判断する。何も選択されなかった場合には処理を終了し、選択された場合には続くステップS1407に進む。
ステップS1407において、アプリケーションは、選択リストの中から選択された項目に対応する情報(リンク識別子や位置に関する情報等)を、参照先情報(リンク先情報)として設定する。
ステップS1408において、アプリケーションは、閲覧者が閲覧している場所(クリックされたオブジェクト(またはアンカー表現))に関する情報を取得し、移動情報としてリンク先に関連付けて一時的に保持するように設定する。
ステップS1409において、アプリケーションは、S1402やS1407で設定された参照先情報と、当該クリックされたオブジェクト(またはアンカー表現)に関するリンクアクション設定の内容に従い、リンク処理を行う。例えば、リンク先が1ヶ所である場合に、リンク先のグラフィックデータを赤色で強調表示し、リンク先の強調表示された領域がすぐに見つけられるように画面遷移を行うなどである。
以上が、電子文書データをアプリケーションで閲覧する際の動作となる。なお、ここでは、図10(c)に示す、図8のS805およびステップS811で設定したリンクアクションに基づいた動作について説明を行った。もし、図10(c)とは異なるリンクアクションを設定した場合には、処理フローが少しずつ変わってくることは言うまでもない。
次に、文書の閲覧者が本実施例で生成された電子文書データをアプリケーションで閲覧する際の実行例について図13を用いて説明を行う。
図13は、リンク情報を含む電子文書データを閲覧するためのアプリケーションとして図1のクライアントPC101や、その他のクライアントPC等で実行される仮想GUIソフトウェア表示画面の一例である。このようなアプリケーションの実例としては、Adobe Reader(TM)が挙げられる。なお、アプリケーションの種類はこれに限るものではなく、MFP100の操作部203で表示動作できるアプリケーションでも構わない。尚、アプリケーションがAdobe Reader(TM)である場合、前述の図6のデータ形式は、PDFである必要がある。
図13(a)の1301は、前述の電子データを閲覧するためのアプリケーションの表示画面であり、電子文書の例として、図10(a)(本実施例におけるリンク情報生成済み)の1ページ目が表示されている様子を示している。1302は、ページスクロールボタンであり、閲覧者は、前ページ、または次ページを表示させる場合にマウス等を用いて押下する。1304は、検索キーワードを入力するためのウィンドウであり、1303は、検索するキーワードを入力した後に検索を実行するための検索実行ボタンである。1305は、現在表示されているページのページ番号を示すステータスバーである。
従来の技術では、閲覧者が電子文書データを閲覧して1306のアンカー表現「図1」が参照している図を探す場合、ページスクロールボタン1302を押下して探すか、検索キーワードで「図1」を入力して探す方法が一般的である。そして、閲覧者は、アンカー表現が参照している図を閲覧、確認した後、例えば、ページスクロールボタン1302を再度押下して1ページ目に戻って続く文章を読み進める。
一方、本実施例におけるリンク情報を含む電子文書データを閲覧する場合は、閲覧者は図13(a)のアンカー表現が含まれる領域1306の上でマウスでクリックする。クリックが実行されると、図10(c)の領域1014のリンク情報に従い、アンカー表現「図1」が参照しているオブジェクト、即ちキャプション付随領域(グラフィックデータ)を赤色で強調表示し、キャプション付随領域のあるページへ移動する。該結果を図13(b)に示す。キャプション付随領域が赤色の矩形で強調表示され、ページは3ページへ移動している様子が示されている。次に、閲覧者はキャプション付随領域を閲覧、確認した後、図13(b)のキャプション付随領域をマウスでクリックする。クリックが実行されると、アプリケーションは、図10の領域1015に関連付けられている移動情報(またはリンク情報)に従い、アンカー表現(グラフィックデータ)を赤色で強調表示し、アンカー表現のあるページへ移動する動作を行う。ここでは、図13(b)は直前にページ1からページ3に移動してきたので、移動情報が存在するため、キャプション付随オブジェクトをクリックすると、図13(c)に示すように、移動情報で指定されているページ1のアンカー表現が表示される。すなわち、図13(c)には、アンカー表現が赤色の矩形で強調表示され、ページは1ページへ移動している様子が示されている。
以上のように、本実施例では、ページ単位で、リンク情報付きの電子文書データを生成し、リンク構成管理テーブルを更新して、各ページの情報を順次送信していく。そして、全ページ処理後に、最終的に得られたリンク構成情報を用いることで、「オブジェクト」と「本文中のアンカー表現およびオブジェクトの説明表現」との間に相互リンクを生成する。この時、「オブジェクト」と「オブジェクトの説明表現」が1対1に対応していない場合でも処理できるように、リンクアクションを複数定義できるようになっている。以上により、複数ページの文書画像をPCへ送信する際、「オブジェクト」と「本文中のアンカー表現およびオブジェクトの説明表現」が異なるページに存在している場合に対しても、1ページ単位の処理で相互リンクを容易に実現することが可能となる。また、1ページ単位で電子文書データが生成される度に送信することで、全ページの電子文書データを生成してから送信するよりも、省メモリ、かつ転送効率を向上させることが可能である。例えば、図10のように5ページで構成される文書画像の場合、従来は2Mbyteのワークメモリが必要であったが、400Kbyteまでメモリ削減することが可能である。
[実施例2]
実施例1では、アンカー表現抽出部402および本文内アンカー表現検索部403は、アンカー文字(例えば「図1」や「Fig1」等)のみを対象として抽出し、リンク情報生成の対象としていた。
本実施例では、抽出される文字列はアンカー文字に限らず、本文中で多用されるような文字列や、ユーザに指定された文字列等のキーワードをリンク情報生成の対象として用いてもよい。また、リンクを構成する対象は「オブジェクト」と「オブジェクトの説明文」としていたが、「オブジェクトの説明文」同士もリンクの対象としても構わない。これにより、閲覧者はより関連のある部分だけを読めるようになるという効果が得られる。
[実施例3]
実施例1〜2では、「オブジェクト」と「オブジェクトの説明文」を含む紙文書を、スキャナ部201によりイメージデータ300として入力し、双方向リンク情報付きの電子文書データ310を生成する説明を行ったが、入力される文書は紙文書に限るものではなく電子文書でも構わない。
即ち、双方向リンク情報を含んでいないSVG,XPS、PDF、OfficeOpenXML等の電子文書を入力し、双方向リンク情報付きの電子文書データを生成することも可能である。入力される文書が電子文書の場合、図2のラスターイメージプロセッサ(RIP)213はPDL(ページ記述言語)コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字(テキスト)や線(ライン)、グラフィクス、イメージ等といったオブジェクトの種類を示す属性情報が付与される。例えば、PDLコード内のPDL記述のオブジェクトの種類に応じて、RIP213から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連付けて保存される。したがって画像データには、関連付けられた属性情報が付属している。また、文字属性が付与された領域中のおよび、表属性が付与された領域内に記述された文字列は、PDL記述中において文字コードを有しているため、関連付けて保存される。すなわち、入力される電子文書が、既に領域情報(位置、大きさ、属性)、および文字情報を有している場合は、領域分割部301、属性情報付加部302、文字認識部303の処理は不要となり、処理効率が向上する。
[実施例4]
実施例1〜3では、省メモリ、かつ転送効率を低下させることなく「オブジェクト」と「オブジェクトの説明文」との間の相互リンクを実現しながらマルチページPDFを生成する方法について説明を行った。
本実施例では、ページを保持するためのワークメモリが十分に利用できる場合は、全ページデータを処理後にリンク情報を生成し、ワークメモリが不十分な場合には、ページ毎にリンク情報を生成するように、適応的に処理を切り替えられるようにするものである。
以下、ページを保持するためのワークメモリが十分に利用できる場合と、ワークメモリが不十分な場合において処理を切り替える方法について図15のフローチャートを用いて説明を行う。尚、複数ページのイメージデータとしては、図10のイメージデータ1001〜1005が入力されるものとし、実施例1の図7と同じステップに関しては同じステップ番号を与えており、説明を省略する。
まず、ステップS1501では、ページを保持するためのワークメモリが所定値より大きいか否かを判断する。具体的には、MFP100の画像読取部110に置かれた複数枚の原稿の枚数を不図示のカウンタでカウントし、全てのページを保持するのに必要なワークメモリを算出後、当該メモリがMFP100の記憶部111にあるか否かを判断する。尚、読取枚数は、画像読取部110に含まれるオートドキュメントフィーダ(ADF)の不図示のセンサーで積載枚数としてカウントしてもよい。また、ユーザが不図示のユーザインタフェースで読取枚数を入力してもよい。
ステップS1501において、ワークメモリが所定値以下と判定された場合は、ステップS1502へ進む。以後の処理は、図7記載のフローチャートと全く同じ処理を行い、実施例2と同様の電子文書データが作成される。
ステップS1502において、ワークメモリが所定値より大きいと判定された場合は、ステップS701へ進む。その後のステップS702〜ステップS706および、ステップS708は実施例1で説明したものと同じ処理のため、説明を省略する。ただし、ステップS706において、フォーマット変換部305は、実施例1では1ページ単位でフォーマット変換を行っていたが、本実施例では全ページ分のデータをまとめて電子文書データに変換している。
ステップS1503において、リンク情報生成部404は、全ページ処理後に生成されたリンク構成管理テーブルを基に、リンク情報を更新する。具体的には、リンク先の個数に応じたリンクアクション中から不要な処理設定を削除することができる。また、リンク先がない場合には、リンク情報そのものを削除することも可能となる。このように生成されたリンク情報は必要最低限の情報のみに圧縮することができるため、生成されたファイルサイズの削減にもつながる。
ステップS1504において、データ処理部218は、フォーマット変換された電子文書データをクライアントPC101へ送信し、処理を終了する。
以上の処理により、ページを保持するためのワークメモリが十分に利用できる場合は、それぞれのリンク情報に付与されているリンクアクションを限定することで、生成される電子文書データのファイルサイズの削減を行うことができる。さらに、リンク動作時の処理が必要なもののみに限定されていることから、Viewerでの閲覧時のパフォーマンスが向上するという効果が得られる。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。その処理は、上述した実施例の機能を実現させるソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (7)

  1. 複数のページ画像を入力する入力手段と、
    前記入力されたページ画像を、属性ごとの領域に分割する領域分割手段と、
    前記領域分割手段で分割された領域に対して文字認識処理を実行する文字認識手段と、
    前記ページ画像内の本文属性の領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第1のアンカー表現を検出する第1検出手段と、
    前記第1検出手段で検出された第1のアンカー表現に対する第1リンク識別子を付与する第1識別子付与手段と、
    前記第1検出手段で検出された第1のアンカー表現を強調表示するための描画情報を含む第1グラフィックデータを生成し、当該生成された第1グラフィックデータと前記第1識別子付与手段で付与された第1リンク識別子とを関連付ける第1グラフィックデータ生成手段と、
    前記第1リンク識別子と前記第1のアンカー表現とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第1のアンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第1テーブル更新手段と、
    前記ページ画像内のオブジェクトに付随するキャプション領域に対する前記文字認識手段の文字認識結果から、特定文字列で構成される第2のアンカー表現を検出する第2検出手段と、
    前記第2のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトに対して、第2リンク識別子を付与する第2識別子付与手段と、
    前記第2のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトを強調表示するための描画情報を含む第2グラフィックデータを生成し、当該生成された第2グラフィックデータと前記第2識別子付与手段で付与された第2リンク識別子とを関連付ける第2グラフィックデータ生成手段と、
    前記第2リンク識別子と前記第2のアンカー表現とを対応付けて、前記リンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第2のアンカー表現と同じ第1のアンカー表現が既に登録されていれば、当該同じ第1のアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第2テーブル更新手段と、
    前記ページ画像に関して前記第1リンク識別子と前記第1グラフィックデータと前記第2リンク識別子と前記第2グラフィックデータとを用いてフォーマット変換を実行することにより、所定のフォーマットに変換後の前記ページ画像に関するデータと前記第1リンク識別子と前記第1グラフィックデータと前記第2リンク識別子と前記第2グラフィックデータとを含む、電子文書のページデータを生成するページデータ生成手段と、
    前記第1テーブル更新手段と前記第2テーブル更新手段とによって更新された前記リンク構成管理テーブルに基づいて、前記電子文書に含まれる前記第1リンク識別子と前記第2リンク識別子とをリンクさせるためのリンク構成情報を生成するリンク構成情報生成手段と、
    前記複数のページ画像それぞれについて前記ページデータ生成手段で生成された前記電子文書のページデータと、前記リンク構成情報生成手段で生成されたリンク構成情報を、外部の装置に送信する送信手段と、
    を有し、
    前記送信手段は、前記ページデータ生成手段で生成された一部のページデータを、前記入力された複数のページ画像全てについてのページデータの生成が完了するよりも前に、前記外部の装置に送信することを特徴とする画像処理装置。
  2. 前記送信手段は、前記ページデータ生成手段で1ページのページデータが生成されるごとに、当該生成されたページデータを前記外部の装置に送信することを特徴とする請求項1に記載の画像処理装置。
  3. 前記所定のフォーマットは、SVG、XPS、PDF、OfficeOpenXMLのいずれかであることを特徴とする請求項に記載の画像処理装置。
  4. 前記送信手段により送信された前記複数のページ画像それぞれについてのページデータおよび前記リンク構成情報は、前記外部の装置において1つの電子文書データに統合されることを特徴とする請求項1乃至の何れか1項に記載の画像処理装置。
  5. 前記特定文字列とは、「図」、「FIG」、「表」いずれかの文字列であることを特徴とする請求項に記載の画像処理装置。
  6. 複数のページ画像を入力する入力工程と、
    前記入力されたページ画像を、属性ごとの領域に分割する領域分割工程と、
    前記領域分割工程で分割された領域に対して文字認識処理を実行する文字認識工程と、
    前記ページ画像内の本文属性の領域に対する前記文字認識工程の文字認識結果から、特定文字列で構成される第1のアンカー表現を検出する第1検出工程と、
    前記第1検出工程で検出された第1のアンカー表現に対する第1リンク識別子を付与する第1識別子付与工程と、
    前記第1検出工程で検出された第1のアンカー表現を強調表示するための描画情報を含む第1グラフィックデータを生成し、当該生成された第1グラフィックデータと前記第1識別子付与工程で付与された第1リンク識別子とを関連付ける第1グラフィックデータ生成工程と、
    前記第1リンク識別子と前記第1のアンカー表現とを対応付けてリンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第1のアンカー表現と同じアンカー表現が既に登録されていれば当該同じアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第1テーブル更新工程と、
    前記ページ画像内のオブジェクトに付随するキャプション領域に対する前記文字認識工程の文字認識結果から、特定文字列で構成される第2のアンカー表現を検出する第2検出工程と、
    前記第2のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトに対して、第2リンク識別子を付与する第2識別子付与工程と、
    前記第2のアンカー表現が検出されたキャプション領域が付随している前記オブジェクトを強調表示するための描画情報を含む第2グラフィックデータを生成し、当該生成された第2グラフィックデータと前記第2識別子付与工程で付与された第2リンク識別子とを関連付ける第2グラフィックデータ生成工程と、
    前記第2リンク識別子と前記第2のアンカー表現とを対応付けて、前記リンク構成管理テーブルに登録するものであって、当該リンク構成管理テーブルに当該第2のアンカー表現と同じ第1のアンカー表現が既に登録されていれば、当該同じ第1のアンカー表現のリンク識別子同士を対応付けて前記リンク構成管理テーブルを更新する第2テーブル更新工程と、
    前記ページ画像に関して前記第1リンク識別子と前記第1グラフィックデータと前記第2リンク識別子と前記第2グラフィックデータとを用いてフォーマット変換を実行することにより、所定のフォーマットに変換後の前記ページ画像に関するデータと前記第1リンク識別子と前記第1グラフィックデータと前記第2リンク識別子と前記第2グラフィックデータとを含む、電子文書のページデータを生成するページデータ生成工程と、
    前記第1テーブル更新工程と前記第2テーブル更新工程とによって更新された前記リンク構成管理テーブルに基づいて、前記電子文書に含まれる前記第1リンク識別子と前記第2リンク識別子とをリンクさせるためのリンク構成情報を生成するリンク構成情報生成工程と、
    前記複数のページ画像それぞれについて前記ページデータ生成工程で生成された前記電子文書のページデータと、前記リンク構成情報生成工程で生成されたリンク構成情報とを、外部の装置に送信する送信工程と、
    を有し、
    前記送信工程は、
    前記ページデータ生成工程で生成された一部のページデータを、前記入力された複数のページ画像全てについてのページデータの生成が完了するよりも前に、前記外部の装置に送信することを特徴とする画像処理方法。
  7. 請求項1乃至5の何れか1項に記載の各手段としてコンピュータを機能させるためのプログラム。
JP2010156008A 2010-07-08 2010-07-08 画像処理装置、画像処理方法、コンピュータプログラム Expired - Fee Related JP5743443B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010156008A JP5743443B2 (ja) 2010-07-08 2010-07-08 画像処理装置、画像処理方法、コンピュータプログラム
US13/176,944 US20120011429A1 (en) 2010-07-08 2011-07-06 Image processing apparatus and image processing method
CN201110192760.3A CN102314484B (zh) 2010-07-08 2011-07-07 图像处理装置及图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010156008A JP5743443B2 (ja) 2010-07-08 2010-07-08 画像処理装置、画像処理方法、コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012018576A JP2012018576A (ja) 2012-01-26
JP5743443B2 true JP5743443B2 (ja) 2015-07-01

Family

ID=45427650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010156008A Expired - Fee Related JP5743443B2 (ja) 2010-07-08 2010-07-08 画像処理装置、画像処理方法、コンピュータプログラム

Country Status (3)

Country Link
US (1) US20120011429A1 (ja)
JP (1) JP5743443B2 (ja)
CN (1) CN102314484B (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5676942B2 (ja) * 2010-07-06 2015-02-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP5942640B2 (ja) 2012-07-01 2016-06-29 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
JP6031851B2 (ja) 2012-07-01 2016-11-24 ブラザー工業株式会社 画像処理装置、および、プログラム
JP5983099B2 (ja) 2012-07-01 2016-08-31 ブラザー工業株式会社 画像処理装置、および、プログラム
CN104348866B (zh) * 2013-07-31 2017-09-12 株式会社理光 云端服务器以及图像存储系统
CN104346385B (zh) * 2013-07-31 2017-07-11 株式会社理光 云端服务器以及图像存储系统
CN104036027B (zh) * 2014-06-27 2017-10-20 吴涛军 一种电子文档的位置之间建立连接和传输信息的方法及系统
JP5723472B1 (ja) * 2014-08-07 2015-05-27 廣幸 田中 データリンク生成装置、データリンク生成方法、データリンク構造および電子ファイル
WO2016190446A1 (en) * 2015-05-26 2016-12-01 Hiroyuki Tanaka Electronic file structure, non-transitory computer-readable storage medium, electronic file generation apparatus, electronic file generation method, and electronic file
JP6493328B2 (ja) * 2016-07-28 2019-04-03 京セラドキュメントソリューションズ株式会社 画像処理装置及びこれを備えた画像形成装置
US10671692B2 (en) * 2016-08-12 2020-06-02 Adobe Inc. Uniquely identifying and tracking selectable web page objects
JP6871700B2 (ja) 2016-09-16 2021-05-12 キヤノン株式会社 情報処理システム、情報処理装置及び情報処理システムの制御方法とプログラム
CN106934383B (zh) * 2017-03-23 2018-11-30 掌阅科技股份有限公司 文件中图片标注信息识别方法、装置及服务器
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
JP6659977B2 (ja) * 2018-07-12 2020-03-04 キヤノンマーケティングジャパン株式会社 情報処理システム、その制御方法、及びプログラム
JP2021009625A (ja) * 2019-07-02 2021-01-28 コニカミノルタ株式会社 情報処理装置、文字認識方法および文字認識プログラム
CN116758578B (zh) * 2023-08-18 2023-11-07 上海楷领科技有限公司 机械制图信息提取方法、装置、系统及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5553217A (en) * 1993-09-23 1996-09-03 Ricoh Company, Ltd. Document layout using tiling
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
JPH1091766A (ja) * 1996-09-12 1998-04-10 Canon Inc 電子ファイリング方法及び装置並びに記憶媒体
JP3902840B2 (ja) * 1996-10-18 2007-04-11 キヤノン株式会社 画像処理装置および画像処理方法
JPH10228473A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
JPH11306197A (ja) * 1998-04-24 1999-11-05 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
JP2000163044A (ja) * 1998-11-30 2000-06-16 Sharp Corp 画像表示装置
JP3664917B2 (ja) * 1999-08-06 2005-06-29 シャープ株式会社 ネットワーク情報の表示方法およびその方法をプログラムとして格納した記憶媒体ならびにそのプログラムを実行するコンピュータ
JP2001352418A (ja) * 2000-06-08 2001-12-21 Murata Mach Ltd ネットワークスキャナ及びこれを接続したネットワークシステム
US20030081102A1 (en) * 2001-09-05 2003-05-01 Tomas Roztocil Method of determining a number of sequentially ordered pages in an ordered media set
JP4349183B2 (ja) * 2004-04-01 2009-10-21 富士ゼロックス株式会社 画像処理装置および画像処理方法
JP2006072744A (ja) * 2004-09-02 2006-03-16 Canon Inc 文書処理装置、その制御方法、プログラム、及び記憶媒体
JP2006085234A (ja) * 2004-09-14 2006-03-30 Fuji Xerox Co Ltd 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP4386281B2 (ja) * 2005-01-31 2009-12-16 キヤノン株式会社 画像処理方法及び画像処理装置並びにプログラム
JP4789516B2 (ja) * 2005-06-14 2011-10-12 キヤノン株式会社 文書変換装置、文書変換方法並びに記憶媒体
US20070085716A1 (en) * 2005-09-30 2007-04-19 International Business Machines Corporation System and method for detecting matches of small edit distance
JP2008146602A (ja) * 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP2008242543A (ja) * 2007-03-26 2008-10-09 Canon Inc 画像検索装置、画像検索装置の画像検索方法、及び画像検索装置の制御プログラム
JP4926004B2 (ja) * 2007-11-12 2012-05-09 株式会社リコー 文書処理装置、文書処理方法及び文書処理プログラム
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
JP5111242B2 (ja) * 2008-06-04 2013-01-09 キヤノン株式会社 画像処理装置及び方法

Also Published As

Publication number Publication date
US20120011429A1 (en) 2012-01-12
JP2012018576A (ja) 2012-01-26
CN102314484B (zh) 2014-03-19
CN102314484A (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
JP5743443B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP5733907B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP5676942B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP5528121B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US8726178B2 (en) Device, method, and computer program product for information retrieval
US8112706B2 (en) Information processing apparatus and method
JP5511450B2 (ja) 画像処理装置、画像処理方法及びプログラム
US8411960B2 (en) Image processing for generating electronic document data in which an object can be searched from an input image
US8965125B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
US9710524B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
JP5249387B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
US20150363381A1 (en) Template management apparatus, non-transitory computer readable medium, and template management method
JP5500994B2 (ja) 画像処理装置、画像処理方法、プログラム
JP2013152564A (ja) 文書処理装置及び文書処理方法
US8458590B2 (en) Computer readable medium for creating data, data creating apparatus, printing apparatus and printing system
JP2004318766A (ja) 情報検索装置及びプログラム並びに記憶媒体
JP2013131942A (ja) 画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150428

R151 Written notification of patent or utility model registration

Ref document number: 5743443

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees