JP5249387B2 - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP5249387B2
JP5249387B2 JP2011129548A JP2011129548A JP5249387B2 JP 5249387 B2 JP5249387 B2 JP 5249387B2 JP 2011129548 A JP2011129548 A JP 2011129548A JP 2011129548 A JP2011129548 A JP 2011129548A JP 5249387 B2 JP5249387 B2 JP 5249387B2
Authority
JP
Japan
Prior art keywords
area
unit
information
link
character information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011129548A
Other languages
English (en)
Other versions
JP2012033151A (ja
Inventor
英智 相馬
知俊 金津
玲司 三沢
亮 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2011129548A priority Critical patent/JP5249387B2/ja
Priority to US13/172,125 priority patent/US8514462B2/en
Publication of JP2012033151A publication Critical patent/JP2012033151A/ja
Application granted granted Critical
Publication of JP5249387B2 publication Critical patent/JP5249387B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Description

本発明は、文書画像からオブジェクトを検索可能な電子文書データを生成する画像処理装置、画像処理方法、及びプログラムに関する。
従来、文書中の、「オブジェクト」(例えば、写真、図面、線画、表等)と「オブジェクトの説明文」(オブジェクトの説明や解説等を行う本文中の文章)を含む紙文書、または電子文書が広く利用されている。「オブジェクトの説明文」とは、主たる文章である本文の中で、前述の「オブジェクト」を説明/解説するものである。それらの関係付けのために、「図1」などの表現を使用することが多い。この「図1」のように、「オブジェクト」と「オブジェクトの説明文」のそれぞれを関係付けるためのものを、「アンカー表現」と呼ぶ。また、「オブジェクト」の近傍にあるキャプション領域には、「アンカー表現」と、その「オブジェクト」を説明する説明文(「キャプション表現」と呼ぶこととする)があることが多い。
一方、紙文書を光学的に読み取った場合や、電子文書などにおいて、本文中からアンカー表現のみを抽出しようとすると、本文中のすべてのテキスト情報に対して、自然言語処理などを利用するなどの高度かつ処理負担が大きな解析を行い、抽出する必要がある。このような解析処理では、アンカー表現がどのように本文中に出現するか、または、使用されるかという知識を保有する必要がある。そのため、大量の本文のテキスト情報の中から、正確にアンカー表現を抽出することは難しく、非常に処理負担が大きなものとなりがちである。そして、その抽出精度が、オブジェクトのリンク機能で、正しくオブジェクトと、オブジェクトの説明文を対応させられるかという精度に大きな影響を与えるため、この抽出精度は非常に重要である。
これに対し、オブジェクトのキャプション内に記載されている文字数は本文に比べて少ないので、該キャプションを解析してアンカー表現を得る方が、本文を解析してアンカー表現を得る方法よりも相対的に容易である。そこで、先に、文書の解析を行う際に、先にオブジェクトのキャプションからアンカー表現を抽出し、本文中に該当するアンカー表現がある部分を文書中から探す方法を使用する方法が考えられる。また、電子文書を作成するために、解析した全ページの情報を保持しようとすると、大量の記憶容量が必要となる。そこで、各ページの処理時に、そのページについて電子文書の中に記載する内容だけを蓄積し、それ以外は破棄するような処理形態を用いることが考えられる。
このようなページ単位の処理を中心とした処理形態では、オブジェクトからアンカー表現を抽出した後に文書内のテキストに対して検索を行うことで、オブジェクトとオブジェクトの説明文を関係付ける処理は、全ページの処理後に行われる。そのために、各ページの処理で、電子文書に記載する内容として、そのページ内のオブジェクトに関する情報と、テキスト情報を抽出して蓄積しておく必要がある。この蓄積された情報をもとに、全ページ処理後、アンカー表現の抽出と、それに対する文書中のテキスト検索を行い、オブジェクトとオブジェクトの説明文を関係付ける処理を行う(特許文献1参照)。
特開平11−25113号公報
上記前提で、前述した「オブジェクト」と「オブジェクトの説明文」の間を容易に参照できるように、オブジェクトのリンク機能を実現しようとした場合を考える。このリンク機能の付加対象となる「オブジェクト」と「オブジェクトの説明文」の部分にこのリンク機能の操作部品を配置し、容易に参照できる機能を付加する。アンカー表現によって、「オブジェクト」と「オブジェクトの説明文」の対応関係が分かるのは、文書中の全ページの解析が終了した後であり、その結果を用いて、オブジェクトとのリンクを作成すれば良い。
しかし、そのリンク機能の付加対象となる本文中のテキストにおけるアンカー表現の正確な位置を認識できない場合には、その操作部品が配置できない。また本文中の説明文内のアンカー表現は、本文に対するアンカー表現の検索が終わるまで、本文中のテキストのどの文字部分が該当しているか不明である。そのために、各ページ処理後のテキスト情報は、その中の各文字の位置や大きさなどの情報も蓄積する必要が生じる。図1を用いて課題を説明する。図1(a)にて示した、文書データ101、102において、文書の本文111、文書中の説明文に含まれるアンカー表現112がある。また、文書中の図であるオブジェクト113、そのオブジェクトのキャプション114には、キャプション中のアンカー表現115がある。これに対し、図1(b)において、図1(a)の本文111の先頭の一部を示したものが本文131であり、ページ単位の処理後、この中の各文字に対する文字の位置や大きさなどの情報が蓄積される。これに伴い、文書中の全文字の位置や大きさなどの情報を全部蓄積するとなれば、かなり大きな記憶容量(ワークメモリ)が必要となってしまう。
上記内容をふまえ、本発明は、リンク機能を有する電子文書データを自動的に作成すると共に、作成に必要な資源の削減を実現する。
上記課題を解決するために、本発明は以下の構成を有する。すなわち、画像処理装置であって、複数ページからなる文書画像のうちの処理対象ページの文書画像を、本文領域と、キャプション領域と、該キャプション領域が付随するオブジェクト領域とに分割する領域分割手段と、前記領域分割手段により分割された前記本文領域と前記キャプション領域とのそれぞれに含まれる文字情報を取得する文字情報取得手段と、前記本文領域から取得した文字情報を、所定の集合単位で分割し、当該分割した集合単位の文字情報と位置情報とをメモリに蓄積する蓄積手段と、前記処理対象ページの文書画像のページ描画データを生成して出力するページ描画データ生成手段と、前記複数ページからなる文書画像をページ毎に順番に前記処理対象ページとして、前記領域分割手段と前記文字情報取得手段と前記蓄積手段と前記ページ描画データ生成手段とによる処理を繰り返し実行する繰り返し手段と、前記繰り返し手段によって前記領域分割手段と前記文字情報取得手段と前記蓄積手段と前記ページ描画データ生成手段とによる処理が前記複数ページからなる文書画像全てに対して繰り返し実行された後、前記キャプション領域から取得した文字情報からアンカー表現を抽出するアンカー表現抽出手段と、前記メモリに前記集合単位で蓄積されている文字情報に基づいて、前記アンカー表現抽出手段で抽出されたアンカー表現を含む集合単位を検索するアンカー表現検索手段と、前記アンカー表現検索手段で検索された集合単位と、当該アンカー表現を含むキャプション領域が付随するオブジェクト領域とを関連づけたリンク生成用情報を生成するリンク情報生成手段と、前記リンク生成用情報に基づいて、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間リンク機能を表現する記述を生成させるためのプログラムコードと、前記ページ描画データ生成手段で出力されたページ描画データとを含む電子文書データを生成する電子文書データ生成手段とを有し、前記電子文書データに含まれるプログラムコードは、該電子文書データが利用される際に動作することにより、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間のリンク機能を表現する記述を動的に生成する。
本発明によれば、ページ単位で「オブジェクト」と「オブジェクトの説明文」との間に相互リンクを自動的に作成し、マルチページの電子文書を生成することが可能となる。これにより参照が容易になり、ユーザの可読性の向上につながる。
また、電子文書データ内の文字の位置をすべて保持する必要がなく、電子文書データ生成の処理効率も向上する。これにより、電子文書データ生成のために必要な資源の削減を実現する。更に、複雑な処理を電子文書データ作成時に行い、処理の分割を行うことで、電子文書データ利用時に速度遅延などが生じない。
背景技術および課題を説明するための図。 画像処理システムを示すブロック図。 MFPの構成を示すブロック図。 データ処理部の構成例を示すブロック図。 リンク処理部の構成例を示すブロック図。 入力データに対する領域分割および文字認識の結果を示す図。 入力データに対する電子文書データの記述例を示す図。 処理の概要を説明するフローチャートの図。 入力データに対する領域分割および文字認識の結果を示す図。 処理の詳細なフローチャートの図。 抽出処理により蓄積される情報を説明する図。 辞書、抽出結果等の情報の内容を示す図。 生成されるプログラム・モジュールの例を示す図。 プログラム・モジュールの処理を示す図。 追加されるリンク機能に対応する記述例を示す図。 表示される文書データの内容を説明する図。 第二の実施形態に係る処理のフローチャートの図。
<第一の実施形態>
[システム構成]
以下、本発明を実施するための形態について図面を用いて説明する。図2は本実施形態の画像処理システムの構成を示すブロック図である。図2において、オフィスA内に構築されたLAN202には、複数種類の機能(複写機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)200が接続されている。LAN202は、プロキシサーバ203を介して外部のネットワーク204にも接続されている。情報処理装置であるクライアントPC201はLAN202を介してMFP200からの送信データを受信したり、MFP200が有する機能を利用したりする。例えば、クライアントPC201は、印刷データをMFP200へ送信することで、その印刷データに基づく印刷物をMFP200で印刷することもできる。尚、図2の構成は一例であり、オフィスAと同様の構成要素を有する、複数のオフィスがネットワーク204上に接続されていても良い。
ネットワーク204は、典型的にはインターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等で実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントPC201、プロキシサーバ203の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。
[MFPの詳細構成]
図3は本実施形態の画像処理装置であるMFP200の詳細構成を示す図である。図3において、MFP200は、画像入力デバイスであるスキャナ部301と、画像出力デバイスであるプリンタ部302と、CPU305等で構成される制御ユニット304と、ユーザインタフェースである操作部303等を有する。制御ユニット304は、スキャナ部301、プリンタ部302、操作部303と接続し、一方では、LAN319や一般の電話回線網である公衆回線(WAN)320と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。
CPU305は、制御ユニット304に含まれる各ユニットを制御する。RAM306は、CPU305が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ROM310は、ブートROMであり、システムのブートプログラム等のプログラムが格納されている。記憶部311は、ハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部I/F307は、操作部(UI)303とのインターフェース部であり、操作部303に表示するための画像データを操作部303に対して出力する。また、操作部I/F307は、操作部303から本画像処理装置の使用者が入力した情報を、CPU305に伝える役割を有する。ネットワークI/F308は、本画像処理装置をLAN319に接続し、パケット形式の情報の入出力を行う。モデム309は、本画像処理装置をWAN320に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス321上に配置される。
イメージバスI/F312は、システムバス321と画像データを高速で転送する画像バス322と接続し、データ構造を変換するバスブリッジである。画像バス322は、例えば、PCIバスやIEEE1394で構成される。画像バス322上には以下のデバイスが配置される。ラスターイメージプロセッサ(RIP)313は、PDL(ページ記述言語)コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字(テキスト)や線(ライン)、グラフィクス、イメージ等といったオブジェクト種類を示す属性情報が付与される。
例えば、PDLコード内におけるPDL記述のオブジェクトの種類に応じてRIP313から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連づけて保存される。したがって画像データには、関連づけられた属性情報が付属している。デバイスI/F314は、信号線323を介して画像入力デバイスであるスキャナ部301を、信号線324を介して画像出力デバイスであるプリンタ部302をそれぞれ制御ユニット304に接続し、画像データの同期系/非同期系の変換を行う。スキャナ画像処理部315は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部316は、プリンタ部302に出力すべきプリント出力画像データに対して、プリンタ部302に応じた補正、解像度変換等を行う。画像回転部317は、入力された画像データが正立するように回転を行い出力する。データ処理部318については後述する。
[データ処理部の詳細構成]
次に、図4を用いて、図3のデータ処理部318の詳細説明を行う。データ処理部318は、領域分割部401、属性情報付加部402、文字認識部403、リンク処理部404、フォーマット変換部405から構成される。データ処理部318は、スキャナ部301でスキャンしたイメージデータ400が入力されてくると、各処理部401〜405で処理を行うことにより、電子文書データ410を生成して出力する。
領域分割部401には、図3のスキャナ部301でスキャンされたイメージデータ、あるいは記憶部311に保存されているイメージデータ(文書画像データ)が入力される。そして、文字、写真、図、表等ページ内に配置されたオブジェクトの領域(オブジェクト領域)を抽出するために、データ中の画素の抽出・グループ化等の処理を行う。
この際の領域抽出方法(領域分割方法)としては公知の方法を用いればよい。一例を説明すると、まず、入力画像を2値化して2値画像を生成し、2値画像を低解像度化して間引き画像(縮小画像)を作成する。例えば、1/(M×N)の間引き画像を作成する際には、2値画像をM×N画素毎に分割し、M×N画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。
次に、間引き画像において黒画素が連結する部分(連結黒画素)を抽出して当該連結黒画素に外接する矩形を作成していく。文字画像サイズに近い矩形(1文字の矩形)が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形(数文字が繋がった連結黒画素の矩形)で短辺の近くに同様の矩形が並んでいる場合は、1つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、1つの文字行を表す矩形を得る。そして、1つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので、更に結合した領域を抽出する。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。
属性情報付加部402は、領域分割部401で分割された領域毎に属性を付加する。図6(a)を入力イメージデータの例として処理動作を説明すると、領域606は、そのページ内で文字数や行数を複数含み、文字数、行数、段落等の形態を保有する点から、総合的に判定して、『本文』の属性を付加する(本文領域)。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かを判定する。特に、文字画像が含まれている領域は、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かを判定することができる。その結果、領域601、領域604、領域605は文字が含まれる領域として『文字領域』の属性を付加する。ただし、これらの領域は、文字数、行数、段落等の形態を持たない点から、『本文』の属性は付加されないことになる。
一方、それ以外の領域については、領域の大きさが非常に小さければ『ノイズ』と判定する。また、画素密度が小さい連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいる場合は当該領域を『表』と判断し、整然と並んでいない場合は『図』(線画など)と判断する。それ以外の画素密度の高いものは絵や写真であるとして『写真』の属性を付加する。なお、上述した属性の分類方法は一例であって、これに限るものではない。
更に、本文でない(『本文』の属性が付与されていない)と判断された文字領域(『文字領域』の属性を有する領域)については、『表』、『図』、『写真』が付加されたオブジェクト領域の近傍(領域の上または下)に存在するか否かを判定する。『表』、『図』、『写真』が付加された領域の近傍(領域の上または下)に存在する場合、当該『表』、『図』、『写真』の領域を説明するための文字領域であると判断し、『キャプション』の属性を付加する。つまり、『文字領域』と『表』、『図』、『写真』等の領域との予め定義された位置関係に基づいて、『キャプション』の属性を有する領域を判定する。尚、『キャプション』の属性を付加する領域は、その『キャプション』が付随する領域(『表』、『図』、『写真』)を特定できるように、キャプション領域と、当該キャプション領域が付随するオブジェクト領域とを関連付けて保存する。
また、『文字領域』と判定された領域のうち、『本文』属性の領域の文字画像より大きく、『本文』属性の領域の段組とは異なる位置にあれば『見出し』の属性を付加する。また、『本文』属性の領域の文字画像より大きく、『本文』属性の領域の段組の上部に存在すれば、属性を『小見出し』とする。更に、『本文』属性の領域における文字画像のサイズ以下の文字画像で、原稿の下端部や上端部に存在すれば『ページ』(もしくは、「ページヘッダ」、「ページフッタ」)の属性を付加する。また、『文字領域』として判断されたが、その後の判定で『本文』、『見出し』、『小見出し』、『キャプション』、『ページ』のどれにも当てはまらなかった場合、『文字』の属性を付加する。『文字領域』属性を有する領域に対して、更に詳細な属性を付与する判定は、上記に限定されるものではない。例えば、『文字領域』の属性を有する領域において、アンカー表現を有する領域を『キャプション』と判定しても良い。また、属性を判定する順序を変更しても良いし、付与する属性の優先順位を定義しても良い。
以上のような属性情報付加部402による属性情報付加処理を行うと、図6(a)に示した例では、領域601は『見出し』、領域602は『表』、領域603は『写真』、領域604は『文字』、領域605は領域603に付随する『キャプション』、領域606は『本文』の属性が付加される。
文字認識部403は、文字画像を含む領域(『文字』、『本文』、『見出し』、『小見出し』、『キャプション』の属性を有する領域)について、公知の文字認識処理を実行する。そして、その結果の文字コード列を文字情報として格納するとともに、対象領域に関連付けを行う。これにより、文字情報取得手段を実現する。
このように、領域分割部401、属性情報付加部402、文字認識部403において抽出された、領域の位置や大きさや領域属性の情報、ページの情報、文字認識結果の文字情報(文字コード情報)等は、図3に示した記憶部311に保存される。図6(b)は、図6(a)の入力イメージデータ例を処理した場合に、図3の記憶部311に保存される情報(領域情報)の例を示す。領域604については、『写真』や『図』の属性を有する領域である領域603に含まれる『文字』の領域であるため、『603内』の情報が追加されている。これは図6(b)のオブジェクトID604にて示されているとおりである。
リンク処理部404は、属性情報付加部402で検出された『キャプション』属性を有する領域が付随するオブジェクト(例えば、『表』、『図』、『写真』:以下、キャプション付随オブジェクト)と「本文中の説明表現」との間にリンクを作成するために必要な情報を生成し、記憶部311に保存する。リンク処理部404の詳細については後述する。
フォーマット変換部405は、入力されたイメージデータ400、領域分割部401、属性情報付加部402、文字認識部403、リンク処理部404から得られた情報(例えば、ページ情報、領域の位置や大きさ、属性、文字情報、メタデータ)を用いる。そして、これらから出力用の所定の電子文書フォーマット(例えば、PDF、SVG、XPS、OfficeOpenXML等)からなる電子文書データ410を生成する。これにより、電子文書データ生成手段を実現する。フォーマット変換部405で生成される電子文書データは、グラフィックス等によるページ表示情報(表示用画像等)と、文字等の意味記述による内容情報(メタデータ等)を含むことになる。
フォーマット変換部405の処理は、大きく2つある。1つは、画像領域(『表』、『図』、『写真』の属性を有する領域)に対して、平坦化やスムージング、エッジ強調、色量子化、2値化等のフィルタ処理を施す。そして、画像データ(例えば、『図』属性が付与された領域に対応する部分の画像)を所定の電子文書フォーマットからなる電子文書データに格納できる形式にすることである。実際には、画像データを、ベクトルパス記述のグラフィックスデータ(ベクトルデータ)や、ビットマップ記述のグラフィックスデータ(例えばJPEGデータ)にする。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。また、オブジェクト検索時に、検索結果を特定・強調する際に表示される枠などのグラフィックス記述(ベクトルパス記述)を生成することも可能である。そして、それらに対して、記憶部311に保管されている領域情報(位置、大きさ、属性)、領域内の文字情報から、所定の電子文書フォーマットからなる電子文書データを作成する。
特に、『文字』領域部分に対しては、2値による画像切り出し処理と、イメージデータ400からの画素消去処理などを行い、文字認識の結果である文字コードと、その位置情報が抽出されることになる。図6(c)および図6(d)は、図6(a)の領域606で得られる情報(文字情報)を示している。領域611における「図」という文字について、その文字コード(C611)、左上のXYの各座標値、右下のXYの各座標値が得られる。同様に領域612における「1」という文字についても同様の情報が取得できる。そして、相互リンクの機能を持たせるために、このようなオブジェクトを特定するテキスト表現(アンカー表現)部分に、そのテキスト表現が示すオブジェクトへ直接遷移する操作を利用者が選べるようにする。
そのため、その操作を選択するための表示を当該テキスト表現部分に付与するため、正確にこの文字列「図1」の外接矩形を求める必要がある。そのため、通常は、この各文字の位置情報を蓄積するが、本発明では、その蓄積方法などを独自の方法を用いる。本蓄積方法については、後述する。
[生成される電子文書データの構成例]
ここで生成される電子文書データ410の例を図7に示す。図7の例では、図6(a)のイメージデータ600の例を処理した場合に、図3の記憶部311に保存された図6(b)のようなデータ(領域情報)に基づいて、SVG(Scalable Vector Graphics)フォーマットで記述を行った場合の例を示す。図7の記述701〜706は、それぞれ図6(a)の領域601〜606に対するグラフィックス記述である。ここで、記述701、704、705、および706は文字コードによる文字描画記述の例である。記述702は、領域602に対するベクトル変換された表の枠のベクトルパス記述(本説明では重要でないので省略表現になっている)、記述703は切り出し処理された写真画像を貼り付ける記述の例である。記述701〜707は1ページ内の記述であり、記述711と記述712で、個々のページに分けて記述を行う。また、この電子文書全体に対する記述が記述713から記述717まで続くが、こちらは、グラフィックスの記述ではない。
本発明に係る電子文書では、簡単な関数型のプログラミング言語における、操作機能などの追加ができるようになっており、記述714や記述716が、その記述例となっている。詳細は後述するが、記述716では、この電子文書を利用する際に、「init」という名前のプログラム・モジュール(関数)が呼び出されて処理されることが示されている。更に、記述716内において、その「init」の中で行われる処理が前述の関数型プログラミング言語で記述されている(ここでは、具体的な記述については省略表現されている)。これらの具体的な記述については、後で詳しく述べるので、ここではその詳細説明は割愛する。
なお、ここではSVGを例として説明したが、出力フォーマットはSVGに限定されるものではなく、PDF、XPS、Office Open XML、その他のPDL系のデータ形式等に変換してもよい。
[リンク処理部]
図5はリンク処理部404の構成例を示すブロック図である。以下、リンク処理部404に含まれる各構成要素の処理内容について説明する。リンク情報付与対象選択部501は入力されたイメージデータに対して、リンク情報生成を行う対象として、キャプション付随オブジェクト(図や写真などの領域)と、当該キャプション付随オブジェクトに対応付けされた『キャプション』領域の文字情報とを選択する。
アンカー表現抽出部502は、リンク情報付与対象選択部501で選択されたキャプション付随オブジェクトに対応付けされた『キャプション』領域の文字情報を解析し、アンカー表現を抽出する。つまり、ここで『キャプション』領域内に含まれる文字情報を解析し、その中からアンカー表現(例えば、「Figure 1」、「Fig1」等)を検索する。解析した文字情報の中からアンカー表現が見つかった場合には、その該当部分を“アンカー表現”、それ以外の部分を“キャプション表現”として抽出する。
また、文字コードの特性や辞書等を含むことで、有意でない文字列(例えば、無意味な記号列等)を排除する機能も有する。これにより、文書のテキスト部分の境界に現れる飾りや、分割線、画像を文字として解釈するような文字認識の誤認識等に対応する。また、アンカー表現を抽出するために、図番号等の多言語の文字列パターンや、それに対する文字認識の誤認識パターンを保有することで、アンカー表現の抽出精度と、アンカー表現の文字補正を行うことが可能である。また、キャプション表現に対しても、同様である。すなわち、自然言語処理での解析や文字認識の誤認識補正等を行うことが可能で、アンカー表現との境目や先頭・末尾に現れる記号や文字飾り等を補正して排除したりする機能を持たせることも可能である。
本文内アンカー表現検索部503は、アンカー表現抽出部502によるアンカー表現抽出処理で抽出されたアンカー表現(例えば、「Figure 1」、「Fig1」等)を文書データの『本文』領域内から検索する。そして、キャプション付随オブジェクトに対応する『本文』領域内のアンカー表現として抽出する。これによりアンカー表現を含みキャプション付随オブジェクトの説明を行っている『本文』領域中の説明表現をキャプション付随オブジェクトの説明表現候補として抽出する。ここでは、検索を高速化するための検索用インデックスを作成することが可能である。なお、インデックス作成とそれを利用した高速検索の技術は公知のインデックス作成・検索技術を用いることが可能であり、検索用のインデックスの構成は用いる公知技術に依存する。また、複数のアンカー表現の特定文字列で一括検索をすることで、高速化を実現することも可能であり、こちらの方がより効果的である。また、『本文』領域中の説明表現に対しても、図番号等の多言語の文字列パターン、図番号等の表記ゆれの文字パターン、もしくはそれらに対する文字認識の誤認識パターンを保有することができる。そして、これらを用いた曖昧検索を行うことにより、検索精度の向上、および補正を行う機能の提供が可能である。アンカー表現抽出部502と本文内アンカー表現検索部503とにより、アンカー抽出手段を実現する。
リンク情報生成部504は、リンク情報付与対象選択部501で選択されたキャプション付随オブジェクト(図や写真などのオブジェクト)と、本文内アンカー表現検索部503で検索・抽出された『本文』領域中のアンカー表現との間にリンクを生成するために必要な情報(以下、リンク情報)を作成する。リンク情報を生成するためには、リンクを付与する文書画像上の位置とそれらの関係等を示す情報が必要になる。本発明では、アンカー表現の位置情報を得る際に文字それぞれの位置情報をそのまま格納せず、段落などの所定の集合単位でまとめて(すなわち、複数の文字の外接矩形をもとめて)、その位置情報を蓄積する。
リンク生成処理生成部505は、実際にリンクを生成する処理をコンピュータに実行させるためのプログラム・モジュールを生成し、その後、リンク情報生成部504で蓄積した位置情報やその他の情報と併せて電子文書データに付与する。これにより、プログラム作成手段を実現する。そして、電子文書データ410の利用時に、このプログラミング言語で記述された各処理が、格納されている各情報をもとに、リンクを動的に生成し、そのリンク機能が利用者に利用可能となる。これらの詳細については後述する。ここでは、図や写真と本文中に記述されているアンカー表現との間のリンク作成のための情報を生成する。なお本実施形態において、これ以降の表現として便宜上、プログラム・モジュール等の情報を付与される前の電子文書データを、“ページ描画データ”と記載する。これに対し、フォーマット変換部405にてプログラム・モジュール等の情報を付与された以降のデータを“電子文書データ(もしくは、電子文書データ410)”と記載する。
リンク生成処理生成部505は、リンク情報生成部504で蓄積されたリンク情報を用いて、リンク処理用のプログラムの記述やリンク生成に必要な情報などを、電子文書データ410の記述フォーマットやプログラミング言語の仕様に応じて生成する。更に、リンク処理用のプログラミング言語の記述やリンク生成に必要な情報は、予め決められたリンクのトリガーやリンクアクション設定に基づいて生成される。最終的には、リンク生成処理生成部505で生成されたものが、図4のフォーマット変換部405に渡され、ページ描画データに付与される。
なお、リンク処理部404の各部分(図5の各処理部501〜505)の動作については、更に詳細に実際の処理を用いて後述する。また、以降に述べるフローチャートの各処理において、記憶部311には、イメージデータ500、領域情報511、文字情報512、リンク情報513などが格納される。
[処理フロー(全体概要)]
次に、本実施形態の画像処理システムで実行する処理全体の概要を、図8のフローチャートを用いて説明する。図8及び図10に示すフローチャートは、図3のデータ処理部318(図4の各処理部401〜405)によって実行される。なお、本実施形態では、図3のCPU305が記憶部311(コンピュータ読取可能な記憶媒体)に格納されたコンピュータプログラムを読み取り実行することにより、データ処理部318(図4の各処理部401〜405)として機能するものとする。しかし、これに限るものではない。例えば、図3のデータ処理部318(図4の各処理部401〜405)を、電子回路等のハードウェアで実現するように構成してもよい。
図8は、図2に示したMFP200において入力された複数ページのイメージデータ400を、複数ページからなる電子文書データ410に変換する処理のフローチャートである。尚、複数ページのイメージデータとしては、例えば、図9(a)に示された3ページからなるイメージデータが入力されるものとする。以下、図8のフローチャートの各説明を行う。
本処理が開始されると、S801において、以降の処理のための初期化処理と、図4のフォーマット変換部405が電子文書データ410の作成を行うための準備の処理を行う。S802において、領域分割部401は、入力された1ページ分のイメージデータからその中に含まれる領域を抽出する。例えば、図9(a)のイメージデータ901(1ページ目)〜イメージデータ903(3ページ目)に対しては、図9(b)に示す情報が抽出される。これは、図6(a)および図6(b)を用いて説明した構成と同様になっている。
S803において、属性情報付加部402は、S801で分割された各領域に属性を付加する。図9(a)の2ページ目(イメージデータ902)の例では、領域913には『写真』、領域914は『キャプション』の属性を付加する。さらに、この領域914には、当該領域が領域913に付随しているという情報も付加する。S804において、文字認識部403は、S802で『文字領域』の属性(『本文』、『キャプション』、『見出し』、『小見出し』等の属性)を付加した領域に対して文字認識処理を実行し、その結果を文字情報として対象領域に関連付けて保持する。この結果は、図9(b)における項目“文字情報”の部分に示されている。また、文字それぞれの情報が文字単位で、図6(d)と同様に抽出される。これを図9(c)に示す。
S805において、リンク処理部404は、リンクの生成に必要となる情報を抽出し、蓄積する。S805でリンク処理部404が実行する処理の詳細については、図10(a)のフローチャートを用いて後述する。この処理が終わると、S806へ進む。
S806において、フォーマット変換部405は、イメージデータ400および、S805にて生成された図11(b)に示す記憶部311に保存された情報に基づいて、グラフィックデータ生成などを行い、所定の電子文書フォーマットの形式におけるページ描画データをページ単位に生成する。これにより、ページ描画データ生成手段を実現する。S807において、データ処理部318は、S801〜S806の情報抽出処理を全てのページに対して行った否かを判定する。全てのページを処理していれば(S807にてYES)、S808へ進む。未処理のページがあれば(S807にてNO)、S802以降の処理を繰り返す。
S808において、図4のリンク処理部404は、アンカー表現の抽出、およびリンク生成用情報の抽出を行い、所定のプログラミング言語で記述されたリンク作成処理のためのデータと併せて、フォーマット変換部405に渡す。そして、フォーマット変換部405はページ描画データの中に受け取った情報を付与する。S808でリンク処理部404が実行する処理の詳細については、図10(b)のフローチャートを用いて後述する。この処理が終わると、S809へ進む。S809において、終了処理を行う。具体的には、フォーマット変換部405が電子文書データ410生成における終端のための情報を作成する。そして、本処理フローが終了する。
図9(a)にて示した、3ページ分のイメージデータ901〜903に対し、S801〜S809の処理を行った結果として、抽出される領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報などの例を図9(b)に示す。これらの情報は記憶部311に保存されている。
以上、本実施形態における処理の全体概要を説明した。しかし、ここで述べた処理は、あくまで、一般的な文書画像に対する処理である。従って、その順序や処理の詳細については、本発明のオブジェクトのリンク機能を実現するために、行うものであれば、変更しても構わない。例えば、自然言語処理や辞書の応用で、文字認識の誤り訂正を有する文字認識を行ってもよく、特定の表現を利用して情報を抽出・利用するものであってもよい。また、文書のスタイルや文書の内容の分類などで、各解析方法を最適化しても良い。また、オブジェクトは画像認識などの技術を用いて、その内容などの情報を抽出しても良い。また、入力となる文書画像は、ページ記述言語などで記載されていても良い。このように、様々なものが考えられるが、本発明のオブジェクトのリンク機能を実現するために本文のテキストと、オブジェクトのキャプション表現やアンカー表現を利用するものであれば、どのようなものでも構わない。
[リンク処理部における処理フロー(オブジェクト情報の蓄積)]
次に、図8におけるS805の処理の詳細について、図10(a)を用いて説明する。本処理は、リンク処理部404内の各部分において行われる処理であり、リンクの生成のために必要なアンカー表現と当該アンカー表現に対応するオブジェクトとの対応関係の情報を抽出できるように、蓄積する。この処理の中で、図8のS802からS804処理で得られた解析結果を、記憶容量を節約しながら蓄積を行っている。これが、本発明の特徴(ポイント)の1つとなっている。
S1001において、リンク処理部404内のリンク情報付与対象選択部501は、記憶部311に保存された領域情報511から、『図』や『写真』の属性を有する領域の内、『キャプション』の属性を有する領域が付随する領域(キャプション付随オブジェクトに相当)を抽出する。例えば図9(a)の例の場合、図9(b)にて示す“キャプションが付随するオブジェクトID”の項目を参照して、オブジェクトID913(『写真』属性)が抽出される。S1002において、リンク処理制御部506は、S1001で抽出した領域があったか否かを調べて、その結果に基づいて条件分岐を行う。キャプションが付随するオブジェクトの領域がなかった場合(S1002にてTRUE)には、この図10(a)の処理は終了となる。キャプションが付随するオブジェクトの領域があった場合(S1002にてFALSE)には、S1003に進む。
S1003において、リンク情報付与対象選択部501は、S1001で抽出したキャプション付随オブジェクトの情報をリンク情報513として記憶部311に蓄積する。この際に、文字情報512に格納されている当該キャプション付随オブジェクトに付随する『キャプション』領域の文字と文字の座標の情報も併せて、蓄積する。なお、これらは以降の処理で使用しやすい形式で蓄積する。
S1003の処理について、図9(a)の例を用いて具体的に説明する。図11(a)は、『キャプション』属性を有する領域が付随する『図』や『写真』の属性を有するオブジェクト領域に対し、S1003の処理を適用した後の情報を示している。例えば、図11(a)における図ID1101は、図9(a)における領域913の写真部分のことを意味し、管理番号として蓄積用の図IDが振り直されている。図の座標、幅および高さの情報は、図9(b)の領域913の情報を基にした値になっている。なお、これらの値は、後でリンク用の操作部分の位置および大きさとして利用されるため、図9(b)における領域913よりも少し大きくなるように値を再設定し、格納されている。ここで再設定するための値はオブジェクトの大きさに合わせて定義しても良いし、特定の値に固定しても良い。また、その図ID1101(領域913)のキャプションである図9(a)における領域914の文字情報が、図ID1101の“文字情報”の項目に格納されている。以上の例で述べたように、S1003において、リンク情報付与対象選択部501は、図11(a)に示したように『図』や『写真』の属性を有する領域の情報を蓄積用に処理した情報をリンク情報513として蓄積する。
S1004において、リンク情報付与対象選択部501は、記憶部311に保存された領域情報511より、『本文』属性を有する領域の情報を抽出する。図9(a)の例の場合、オブジェクトIDが911と916の本文の文字情報が選択されることとなる。S1005において、リンク処理制御部506は、S1004において『本文』属性を有する領域の情報が抽出された否かを判定し、その結果で条件分岐を行う。本文属性を有する領域が抽出されなかった場合(S1005にてTRUE)には、この図10(a)の処理は終了となる。本文属性を有する領域が抽出された場合(S1005にてFALSE)には、S1006へ進む。
S1006において、リンク情報付与対象選択部501は、S1004で抽出された本文の文字情報を段落単位に分割して抽出する。S1007において、リンク情報付与対象選択部501は、S1006で抽出した段落単位の文字情報をリンク情報513として記憶部(メモリ)311に蓄積する。この際、分割された段落ごとに位置情報も併せて蓄積する。なお、これらは、以降の処理で使用しやすい形式で蓄積する。
このS1006とS1007について、図9(a)に示したイメージデータの例を用いて具体的に説明する。図11(b)は、アンカー表現の検索時に使用される文字情報を有する領域の位置情報である。一方、文字認識部403は、S804において、図6(c)(d)で示すように、1文字単位で当該文字の位置情報を抽出している。例えば、図9(a)の画像の場合、文字認識部で抽出された文字それぞれの位置情報に基づいて、図9(b)における『本文』属性を有する領域、すなわち図9(b)の領域911と領域916に対する位置情報を蓄積する。そして、S1006では、文字それぞれの位置情報に基づき、例えばその文字の並び具合などから、段落単位にそれらの文字を分割する。そして、S1007において、当該分割された段落単位で位置情報の記録を行う。図6(d)や図9(c)のように、文字単位の位置情報で格納/蓄積を行うと、そのための記憶容量(ワークスペースメモリ)が大量に必要になるので、ここでは、記憶容量を節約するため、図11(b)のように、所定の集合単位にて格納/蓄積を行う。
これらの情報を記憶する記憶領域は、図3に示したRAM306や記憶部311などに存在している。リンクの操作部分を作成する際に、該当するアンカー表現の位置を正確に得る必要がある。このアンカー表現の、正確な位置の取得処理は、後述するように電子文書データの内容を表示するための機構(レンダラ)に行わせることとする。すなわち、レンダラにアンカー文字列の検索と、該当部分の正確な位置情報の抽出を行わせる。これにより、文字単位の座標情報を格納せず、段落単位の位置情報として、記憶容量の節約を行っている。ただし、ここで格納する単位(この例では段落単位)内の文字数を大きくすると、アンカー文字列の検索を前述のレンダラでの検索処理に時間がかかり、電子文書データの利用時の処理負担が増大することになる。
これに対して、格納する単位内の文字数を小さくすると、その分だけ、位置情報を蓄積する量が拡大してしまうので、電子文書データの生成時に使用する記憶容量の節約効果が小さくなってしまう。この例では、段落を格納単位としているが、他にも、行単位や文単位などのいろいろな単位が考えられる。ここではあくまでも例として、段落単位にしているのであって、そのいずれの単位でも本発明は適用可能である。
以上の例で述べたように、S1006において、リンク情報付与対象選択部501は、図11(b)に示したアンカー表現(アンカー文字列)の検索時に使用される所定の集合単位の位置情報の抽出処理を行う。そして、S1007において、リンク情報513として蓄積する。以上で、図10(a)の処理の説明を終了する。
[リンク処理部における処理フロー(リンク情報の作成)]
次に、図8におけるS808の処理の詳細について、図10(b)を用いて説明する。ここでの処理は、リンク処理部404内の各部分において行われる処理である。リンクの生成に必要となるリンク情報を抽出して、リンクを生成するためのプログラム・モジュールの作成と、プログラム・モジュールにて利用される情報の作成とを行う。この処理の中で、図8のS805における記憶容量を削減しながら蓄積された情報は、ここでの処理が容易な構成になっている。この蓄積された情報を利用しながら全ページに対する処理を一括して効率よく行う点が、本発明の特徴(ポイント)の1つである。電子文書データの利用時にコンピュータが実行するプログラム・モジュールにおける処理効率を考慮し、文字認識の曖昧検索などの、比較的処理負担の大きな処理を、S808にて行う点が特徴である。
S1011において、S805(図10(a))で蓄積された情報を用いて、アンカー表現抽出部502がアンカー表現抽出処理を開始する。ここでは、その蓄積された情報のうち、『図』や『写真』の属性を有するオブジェクト領域に付随するキャプション領域の情報(S805の処理により生成された各『図』や『写真』属性の領域の近傍に位置する『キャプション』属性の領域内における文字情報)を利用する。つまり、オブジェクト領域に付随している『キャプション』領域に含まれる文字情報からアンカー表現を抽出する。アンカー表現とは、元の文書中においてキャプションが付随する図や写真などのオブジェクト領域を識別するための文字情報(文字列)である。また、キャプション表現とは、図や写真などのオブジェクト領域を説明するための文字情報(文字列)である。図領域や写真領域に付随するキャプションには、アンカー表現のみが記載される場合、キャプション表現のみが記載される場合、両方が記載される場合、さらにどちらでもない場合がある。
例えば、アンカー表現は「図」や「Fig」等、特定の文字列と番号や記号との組み合わせで表現される場合が多い。本実施形態では、それらアンカー表現として利用される可能性のある特定の文字列をアンカー文字列用辞書として予め用意しておき、キャプション内の文字列を該アンカー文字列用辞書と比較してアンカー部分(アンカー文字列+数記号)を特定する。そして、『キャプション』属性を有する領域の文字列のうち、アンカー表現以外の文字列をキャプション表現として判定する。例えば、「図1 AAA」という『キャプション』属性を有する領域の場合には、「図1」がアンカー文字列にあたり、「AAA」がキャプション表現となる。キャプション表現の文字数が極端に少ない場合や有意な文字列とは思えないものの場合(例えば、記号列“― ― ― ― ―”などの場合)がある。このような場合には、文書の区切りなどの印が文字列として認識されていたり、文字ではないものが文字認識されている可能性がある。よって、この場合には、当該領域はキャプションではないと判定し、アンカー文字列の抽出は行わない。
さらに、アンカー表現が、文字認識の誤りなどで文字が誤っている場合があるので、抽出したアンカー表現に対して類似する表記情報として、文字認識の誤り訂正用のパターン辞書を保有し、これを用いて補正を行う。例えば、数字の「1」とアルファベットの小文字の「l」などである(これは、人間にとっても誤りやすい)。図11(a)の例で説明すると、そのキャプションが文字情報のところに格納されており、ここから「Fig.1」が得られる。
S1012において、リンク処理制御部506は、アンカー表現が抽出できたか否かを判定し、条件分岐する。もし、アンカー表現がS1011で抽出されていなければ(S1012にてTRUE)、この図10(b)の処理は終了する。アンカー表現が抽出された場合(S1012にてFALSE)は、S1013に進む。S1013において、本文内アンカー表現検索部503は、S1011で得られたアンカー表現に対してその表現だけでなく、曖昧パターンも検索キーに加える。ここでの曖昧パターンとは、図番号等の多言語の文字列パターン、図番号等の表記ゆれの文字パターン、及びそれらに対する文字認識の誤認識パターンなどが挙げられる。そして、これらに基づいて曖昧検索用のアンカー表現辞書を作成する。
例えば、図12(a)は、S1013にて作成された曖昧検索用のアンカー表現辞書の例である。ここまでの処理により、図11(a)の例から「Fig.1」が得られているので、これを“オリジナル文字パターン”としてアンカー表現辞書を作成している。数字の「1」に対する文字認識の誤りパターンと、「Figure」の省略表現が「Fig」であることから、その表記ゆれパターンを追加し、曖昧検索用の文字パターンを生成し、アンカー表現辞書としている。
S1014において、本文内アンカー表現検索部503は、S1013で作成した曖昧検索用のアンカー表現辞書を利用して、S805において段落単位で蓄積した本文領域の文字情報に対して、一括検索を行う。そして、検索結果として、当該アンカー表現を含む段落(集合単位)のリストが生成される。図11(b)の例で説明すると、図11(b)で示された検索対象の文字情報に対して、図12(a)の曖昧検索用のアンカー表現辞書で一括検索を行うと、図12(b)のリストが得られる。例えば、文字パターンの「Fig.1」と「Figure.1」がそれぞれ、図11(b)におけるテキストID1111とID1113中に見つかったことが分かる。また、同一段落の文字情報内に、曖昧検索用のアンカー表現辞書内の同一の文字パターンが複数ある場合もあるので、当該段落(集合単位)のテキスト(文字情報)内の位置の情報が“テキスト内の位置”の項目として付与されている。これにより、特定オブジェクト情報抽出部を実現する。
S1015において、リンク処理制御部506は、本文属性の領域内にアンカー表現が検索できたか否か(『本文』の属性を有する領域のリストが生成されたか否か)を判定し、条件分岐する。もし、S1014で検索結果としてのリストがなければ(S1015にてTRUE)、この図10(b)の処理は終了する。検索結果としてのリストがある場合(S1015にてFALSE)には、S1016に進む。
S1016において、リンク情報生成部504は、S1014での検索結果のリストとS1003で蓄積したオブジェクト領域の情報とS1007で蓄積した段落単位の本文領域の情報とに基づいて、『図』や『写真』の属性を有するオブジェクト領域と『本文』属性を有する段落中のアンカー表現とのリンクを作成するために必要なリンク生成用情報を作成する。リンクを作成するのに必要なリンク生成用情報として必要な、図や写真などの座標や大きさなどの位置情報、段落の座標や大きさなどの位置情報、及びそれらの関係(組み合わせ)が計算され、抽出される。
図11(a)、(b)の例で説明すると、図12(b)に示したアンカー表現の検索結果から、図12(c)のリンク生成用情報が抽出される。ここで項目“タイプ”には、当該リンク情報が『図』の属性を有する領域を示す“図”、もしくは『本文』属性の領域内から抽出されたアンカー表現を含む段落であることを示す“本文中アンカー表現”の情報が格納される。図12(c)の例に示すように、“本文中アンカー表現”の座標、幅および高さの値は、当該アンカー表現を含む所定の集合単位(ここでは段落単位)の座標、幅、高さの値になっている。すなわち、図11(b)にて示した値と同一である。また、項目“リンク先ID”により、『図』や『写真』の属性を有するオブジェクト領域と、対応するアンカー表現を含む本文の段落との対応が取れるようになっている。また、同一の『本文』属性の段落領域内に、曖昧検索用のアンカー表現辞書内の文字パターンに一致するアンカー表現が複数ある場合もある。そのため、当該『本文』属性の領域内におけるアンカー表現を出現順番に並べ、それを当該アンカー表現の順番として“順番”の項目に格納されている。また、『本文』属性の領域中におけるアンカー表現の正確な位置は、電子文書データの利用時に、その内容を表示するための機構(レンダラ)を利用して検索および計算される。
S1017において、リンク生成処理生成部505は、S1016で得られたリンク生成用情報をもとに、『図』や『写真』の属性を有する領域と『本文』属性を有する領域中のアンカー表現との間にリンクを生成するためのプログラム・モジュールを生成する。このプログラム・モジュールは所定のプログラム言語にて記述され、併せて当該プログラム・モジュールにて使用される情報も作成される。また、予め決められたリンクのトリガーやリンクアクション設定も踏まえて生成される。このプログラム・モジュールは、ページ描画データに付与され、電子文書データ内に格納されることになる。すなわち、S809で最終的に生成される電子文書データは、S806で出力された各ページのページ描画データと、S1017で追加されたプログラム・モジュールとで構成されることになる。なお、プログラム・モジュールは、リンク機能を実現するための構成として予め1つのモジュールとして定義されていても良い。もしくは、いくつかのプログラム・モジュールを構成する部分に分けられ、電子文書データの内容に応じて組み合わせられることによって生成されても良い。
このプログラム・モジュールが実際に動作するのは、この電子文書データ利用時である。すなわち、電子文書データ利用時の利用機器やソフトウェアなどで内容の表示を行うため、この電子文書データ410を読み込んで、電子文書データの内容を表示するための機構(レンダラ)が動作する初期化時に、動作することになる。ここで電子文書データの内容を表示するソフトウェア等は、電子文書データが記述されたフォーマットやプログラムを解釈可能なものであれば、どのようなものでも良く、特に限定はしない。このプログラム・モジュールは、リンクを描画するためのデータを生成するリンク描画データとしての役割を有し、その動作により、リンク機能を表現する記述が生成される。
ここで生成されるプログラム・モジュールの例を図13に示す。これは関数型のプログラミング言語を利用して記述した場合の例である。また、その中に記述されている処理の流れの一例を図14(a)に示す。また、これらは、図12(c)で示した情報がリンク情報テーブルとして格納してあることを前提としている。これらについては、後述する。このS1017が終わると、本処理フローは終了する。その後、図8にて示したS809へ進む。以上で、図10(b)の説明を終了する。
[プログラム・モジュールを実行したときの処理]
次に、図14(a)に示された処理フローを、図13に示した具体的なプログラム・モジュールと併せて説明する。図13は、図10(b)で示した処理の中で生成されて電子文書データに格納されるプログラム・モジュールの例である。また、図12(c)に示すリンク生成用情報をリンク情報テーブルとして、電子文書データに格納してあることを前提とする。なお、図14(a)の処理は、生成された電子文書データを読み込み、表示させる際の動作であり、電子文書表示装置のCPU305が該プログラム・モジュールを読み出し、実行することにより実現される。S1401(記述1301が該当)において、図12(c)のリンク情報テーブルを読み込み、これを利用可能とする。S1402において、そのリンク情報テーブル内の行数を数えて(記述1302が該当)、S1403の条件分岐とループ処理構造で、その全行に対して以下の処理を行うようにしている(記述1303が該当)。全行に対して処理が完了した場合(S1403にてNO)、この図14(a)の処理は終了となる。
S1404(記述1303、記述1305が該当)において、リンク情報が有するタイプで条件分岐する。リンク情報のタイプが「図」の場合には、S1405へ進み、「本文中のアンカー表現」の場合には、S1406へ進む。オブジェクトのタイプが、「図」でも「本文中アンカー表現」でもない場合には、次の未処理の行に処理対象を移すため、S1403へ戻る。なお、ここでは、タイプが「図」、「本文中アンカー表現」もしくはそれ以外として条件分岐しているが、例えばタイプを「表」や「写真」等、更に詳細に定義し、それらに基づいてより詳細に条件分岐しても良い。
S1405(記述1304が該当)において、オブジェクトのタイプが「図」の場合の処理を行う。図12(c)内に記述された情報には操作機能を提供するリンクの作成指示が含まれており、例えば記述1304のmakeLinkは、電子文書データを利用する機器やソフトウェアに指示する命令である。したがって、そのリンク機能は、当該電子文書データ内のプログラム・モジュールを実行した機器やソフトウェアにより提供される。この作成指示の中身(記述1311が該当)は、識別用のリンクID、表示用のページ、座標XY、幅および高さ、操作機能を示すアイコンなどの画像、内容の簡易表示などに使用するオリジナル文字パターン、操作された場合に表示部分を移動させる先となるリンク先IDである。移動させる先のリンクIDは、本文中にアンカー表現が複数ある場合に対応して、リスト構造で指示される。S1405の処理の後、次の行へ処理対象を移行するため、S1403へ戻る。
S1406(記述1306が該当)において、リンク情報のタイプが「本文中アンカー表現」の場合の処理を行う。図12(c)内に記述された情報から、まずは、当該アンカー表現の位置を探し、その位置情報を取得する。そして記述1312で、そのアンカー表現が格納されているページ、座標XY、幅および高さ、文字パターンを求める。そして、座標XY、幅、および高さの値を格納する変数「anchorArea」に、取得したアンカー文字の座標XY、幅、および高さを格納させる。この記述1306の「searchText」は電子文書データを利用する機器やソフトウェアが実行する命令である。その機能は、機器やソフトウェアが提供し、指定された領域内において指定された文字列を探し、その表示位置(座標XY、幅、および高さ)を返す。
上記アンカー表現の指定において、図12(c)の項目“オリジナル文字パターン”ではなく、項目“文字パターン”の情報を使用するのは、文字認識において誤認識があった場合、電子文書データに対するレンダラが誤認識した文字列になっているためである。これは、予め、図10(b)の処理でアンカー文字列検索を行っており、そこで文字認識の誤認識や表記のゆれなどに対応する曖昧検索を行っているためである。この電子文書データのページ単位処理で出力された文字列は、もし、誤認識や単語の表記ゆれがあった場合、その誤認識や表記ゆれの状態の文字列になっている。
そこで、図10(b)の処理で曖昧検索により正しい文字列パターンを保持しているが、その際の誤認識や表記ゆれの状態の文字列パターンを併せて保持しておき、電子文書データに対するレンダラでは、これを使って検索する。具体的には、図12(c)における項目“文字パターン”として保持している。よって、ここでの検索は、高速で簡易な文字列検索機能だけを行えば良い。すなわち、処理負担が大きい曖昧検索は、前述したように、電子文書データの作成時(さらには、その中の全ページの解析が終わった時点)に行っておく。そして、レンダラは、その結果を利用することにより、電子文書データ利用時の処理負担が非常に軽い単純な検索だけを行う。これは、レンダラでの処理負担が大きいと、電子文書データが利用しづらくなるため、このように処理を分散する。
図12(c)に示した例に対して、S1406の処理を行った結果が、図14(b)となり、この処理の結果が記述1306に定義された変数「anchorArea」に格納される。S1407の処理(記述1307が該当)において、リンク情報のタイプが「本文中アンカー表現」に対する操作を提供するリンク機能の作成指示が定義されている。これは、S1405と同様であるが、指定している座標XY、幅、および高さは、S1406で得られたものを用いている。S1407の処理の後、処理対象をリンク情報テーブルにおける次の行に移行するため、S1403へ戻る。以上で、図13、図14(a)の処理の説明を終了する。
[処理結果]
図15は、図13及び図14(a)を用いて説明した処理を適用することにより生成されたデータの一部である。図15(a)は、イメージデータ902に対して作成されたリンクの記述例であり、図15(b)は、イメージデータ901に対して作成されたリンクの記述例である。また、図15(c)、(d)は上記処理により新たにページ描画データの記述に追加される関数である。
また、図16は、図15で示した部分が追加されたことによって、生じる操作機能の表示を説明するものである。この図16は、図9(a)に示したイメージデータ(901〜903)から作成された電子文書データを、表示している時の表示内容を示している。図16のイメージデータ901乃至903と領域913は、図9の同番号と同じものである。図14(a)の処理が、図12(c)の情報に基づいて実行された場合、図13における記述1304内の「makeLink」指示により、図15(a)の記述1501のように図領域に対するリンクが生成される。記述1501には、追加されたリンク操作機能が実行される位置を示す座標XY、幅および高さ、追加された機能である図15(c)に示した関数の呼出し、その関数呼出し時の移動先のリンク先IDが示されている。
図16において、イメージデータ902を利用している時に、イメージデータ902には領域913の領域に対する枠表示と、操作ボタン1613、1614が表示に現れる。操作ボタン1613(x:field_id=1221)をクリックすると、記述1501内の「onclick」に割り当てられた「onClickAtFigure(1221)」関数が呼び出され、図15(c)に定義された関数の処理が実行される。これにより表示がイメージデータ901に直接遷移し、対応するアンカー表現の枠表示1611の箇所が強調表示されることになる。
同様に、図14(a)の処理が、図12(c)の情報に基づいて実行された場合、図13における記述1307内の「makeLink」指示により、図15(b)の記述1502のように、本文領域内のアンカー表現に対するリンクが作成される。記述1502には、追加されたリンク操作機能が実行される位置を示す座標XY、幅および高さ、追加された機能である図15(d)に示した関数の呼出し、その関数呼出し時の移動先のリンク先IDが示されている。なお、追加された操作機能の座標XY、幅および高さは、S1406において記述1306を実行することによって得られ、その結果が図15(b)に示されている。イメージデータ901を利用者が利用している時に、記述1502に基づいて、イメージデータ901にはそのアンカー表現の場所に、枠表示1611と操作ボタン1612が表示される。そして、操作ボタン1612をユーザがクリックすると、記述1502内の「onclick」に割り当てられた「onClickAtAnchortext(1222)」関数が呼び出され、図15(d)に定義された処理が実行される。これにより表示位置が、イメージデータ902に移動し、関連付けられている図の領域913(x:field_id=1222)が強調表示されるようになる。
以上で述べたように、利用者が文書内の図とその図の説明部分と移動できる相互リンク機能を有する電子文書データを作成する場合に、ページ単位で解析処理を行い、そのページの処理に必要な記憶容量の削減を行った。すなわち、1文字ごとに座標位置を保持するのではなく、所定の単位(例えば段落単位)で位置情報を保持することによって、必要となる記憶容量の削減を行う。また、図番号などのアンカー表現の正確な位置に関しては、電子文書データ利用時に検索させることで、リンクの正確な配置を可能とした。
また、処理負担の大きいOCRや表記ゆれなどによる曖昧検索を、電子文書データの生成時に行うことにより、電子文書データの利用時において実行するアンカー表現を探してリンク位置を決定する処理の負荷は小さくなるようにした。これにより、本実施形態において、効率の良い相互リンクの実現が可能である。
<第二の実施形態>
第一の実施形態における動作説明は、ページ単位における処理時の文字の位置情報に対し、所定の集合単位として段落単位とした。これにより、情報を削減し記憶容量の削減を行っていた。また、段落以外に、行や文単位での削減が示されていた。
しかし、文書の内容は、その文書の内容や書き方、また、1つの文書の中でも、それが変化することにより、文書中のテキストや文字の密度は変化するのが一般的である。特に、テキストや文字が極端に少ないページにおいては、そのページ全体を1つの単位にしても構わない場合がある。そこで、本実施形態では、ページ内のテキストや文字の量に応じて、文字の位置情報を保持する集合単位を動的に変化させる方式を示す。
図17は、この処理を説明する図であり、図10(a)に処理を追加したものである。図17のS1701からS1705は、図10(a)のS1001からS1005と同じであるため、ここでの説明は省略する。S1711において、リンク処理制御部506は、S1704で抽出した本文属性領域に含まれる文字の量が多いか否かを判定し、その結果で条件分岐を行う。文字の量が多い場合(S1711にてYES)は、S1706に進み、図10(a)のS1016、S1017と同様の処理を行う。文字の量が少ない場合(S1711にてNO)には、S1712に進み、所定の集合単位を段落単位ではなく、当該本文属性領域内の文字情報をそのまま1つの集合単位とする。そして、当該本文領域内の文字情報と位置情報とを蓄積する。なお、S1711で用いる判断基準は閾値として予め定義されておくことが考えられる。この閾値は実験的に決められても良いし、処理を行う装置のメモリ資源の空き状況に応じて変更しても良い。
このようにして、利用者が文書内の図とその図の説明部分と移動できる相互リンク機能を有する電子文書データを作成する場合に、ページ単位で解析処理を行い、そのページの処理に必要な記憶容量の削減を行った。すなわち、1文字ごとに座標位置を保持するのではなく、ある集合単位(例えば段落単位)で位置情報を保持することによって、必要となる記憶容量の削減を行う。第二の実施形態では、文書内に記載されている文字の量に応じて、集合単位を動的に変更することにより、効率的に記憶容量の削減を行うことができる。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (6)

  1. 複数ページからなる文書画像のうちの処理対象ページの文書画像を、本文領域と、キャプション領域と、該キャプション領域が付随するオブジェクト領域とに分割する領域分割手段と、
    前記領域分割手段により分割された前記本文領域と前記キャプション領域とのそれぞれに含まれる文字情報を取得する文字情報取得手段と、
    前記本文領域から取得した文字情報を、所定の集合単位で分割し、当該分割した集合単位の文字情報と位置情報とをメモリに蓄積する蓄積手段と、
    前記処理対象ページの文書画像のページ描画データを生成して出力するページ描画データ生成手段と、
    前記複数ページからなる文書画像をページ毎に順番に前記処理対象ページとして、前記領域分割手段と前記文字情報取得手段と前記蓄積手段と前記ページ描画データ生成手段とによる処理を繰り返し実行する繰り返し手段と、
    前記繰り返し手段によって前記領域分割手段と前記文字情報取得手段と前記蓄積手段と前記ページ描画データ生成手段とによる処理が前記複数ページからなる文書画像全てに対して繰り返し実行された後、前記キャプション領域から取得した文字情報からアンカー表現を抽出するアンカー表現抽出手段と、
    前記メモリに前記集合単位で蓄積されている文字情報に基づいて、前記アンカー表現抽出手段で抽出されたアンカー表現を含む集合単位を検索するアンカー表現検索手段と、
    前記アンカー表現検索手段で検索された集合単位と、当該アンカー表現を含むキャプション領域が付随するオブジェクト領域とを関連づけたリンク生成用情報を生成するリンク情報生成手段と、
    前記リンク生成用情報に基づいて、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間リンク機能を表現する記述を生成させるためのプログラムコードと、前記ページ描画データ生成手段で出力されたページ描画データと含む電子文書データを生成する電子文書データ生成手段と
    を有し、
    前記電子文書データに含まれるプログラムコードは、該電子文書データが利用される際に動作することにより、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間のリンク機能を表現する記述を動的に生成することを特徴とする画像処理装置。
  2. 前記アンカー表現検索手段は、更に、前記アンカー表現抽出手段で抽出されたアンカー表現の曖昧パターンを含む集合単位も検索することを特徴とする請求項に記載の画像処理装置。
  3. 前記オブジェクト領域は、図、写真、表の少なくともいずれかの属性を有する領域であることを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記蓄積手段は、前記本文領域から取得した文字情報を、前記文書画像に含まれる文字の量に応じた集合単位で分割し、当該分割した集合単位の文字情報と位置情報とをメモリに蓄積することを特徴とする請求項1乃至のいずれか一項に記載の画像処理装置。
  5. 領域分割手段が、複数ページからなる文書画像のうちの処理対象ページの文書画像を、本文領域と、キャプション領域と、該キャプション領域が付随するオブジェクト領域とに分割する領域分割工程と、
    文字情報取得手段が、前記領域分割工程にて分割された前記本文領域と前記キャプション領域とのそれぞれに含まれる文字情報を取得する文字情報取得工程と、
    蓄積手段が、前記本文領域から取得した文字情報を、所定の集合単位で分割し、当該分割した集合単位の文字情報と位置情報とをメモリに蓄積する蓄積工程と、
    ページ描画データ生成手段が、前記処理対象ページの文書画像のページ描画データを生成して出力するページ描画データ生成工程と、
    繰り返し手段が、前記複数ページからなる文書画像をページ毎に順番に前記処理対象ページとして、前記領域分割工程と前記文字情報取得工程と前記蓄積工程と前記ページ描画データ生成工程とによる処理を繰り返し実行する繰り返し工程と、
    アンカー表現抽出手段が、前記繰り返し工程にて前記領域分割工程と前記文字情報取得工程と前記蓄積工程と前記ページ描画データ生成工程とによる処理が前記複数ページからなる文書画像全てに対して繰り返し実行された後、前記キャプション領域から取得した文字情報からアンカー表現を抽出するアンカー表現抽出工程と、
    アンカー表現検索手段が、前記メモリに前記集合単位で蓄積されている文字情報に基づいて、前記アンカー表現抽出工程にて抽出されたアンカー表現を含む集合単位を検索するアンカー表現検索工程と、
    リンク情報生成手段が、前記アンカー表現検索工程にて検索された集合単位と、当該アンカー表現を含むキャプション領域が付随するオブジェクト領域とを関連づけたリンク生成用情報を生成するリンク情報生成工程と、
    電子文書データ生成手段が、前記リンク生成用情報に基づいて、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間のリンク機能を表現する記述を生成させるためのプログラムコードと、前記ページ描画データ生成工程にて出力されたページ描画データと、を含む電子文書データを生成する電子文書データ生成工程と、
    を有し、
    前記電子文書データに含まれるプログラムコードは、該電子文書データが利用される際に動作することにより、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間のリンク機能を表現する記述を動的に生成することを特徴とする画像処理方法。
  6. コンピュータを、
    複数ページからなる文書画像のうちの処理対象ページの文書画像を、本文領域と、キャプション領域と、該キャプション領域が付随するオブジェクト領域とに分割する領域分割手段、
    前記領域分割手段により分割された前記本文領域と前記キャプション領域とのそれぞれに含まれる文字情報を取得する文字情報取得手段、
    前記本文領域から取得した文字情報を、所定の集合単位で分割し、当該分割した集合単位の文字情報と位置情報とをメモリに蓄積する蓄積手段、
    前記処理対象ページの文書画像のページ描画データを生成して出力するページ描画データ生成手段、
    前記複数ページからなる文書画像をページ毎に順番に前記処理対象ページとして、前記領域分割手段と前記文字情報取得手段と前記蓄積手段と前記ページ描画データ生成手段とによる処理を繰り返し実行する繰り返し手段、
    前記繰り返し手段によって前記領域分割手段と前記文字情報取得手段と前記蓄積手段と前記ページ描画データ生成手段とによる処理が前記複数ページからなる文書画像全てに対して繰り返し実行された後、前記キャプション領域から取得した文字情報からアンカー表現を抽出するアンカー表現抽出手段、
    前記メモリに前記集合単位で蓄積されている文字情報に基づいて、前記アンカー表現抽出手段で抽出されたアンカー表現を含む集合単位を検索するアンカー表現検索手段、
    前記アンカー表現検索手段により検索された集合単位と、当該アンカー表現を含むキャプション領域が付随するオブジェクト領域とを関連づけたリンク生成用情報を生成するリンク情報生成手段、
    前記リンク生成用情報に基づいて、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間リンク機能を表現する記述を生成させるためのプログラムコードと、前記ページ描画データ生成手段で出力されたページ描画データと含む電子文書データを生成する電子文書データ生成手段
    として機能させ
    前記電子文書データに含まれるプログラムコードは、該電子文書データが利用される際に動作することにより、前記オブジェクト領域と前記集合単位に含まれるアンカー表現との間のリンク機能を表現する記述を動的に生成することを特徴とするプログラム。
JP2011129548A 2010-07-06 2011-06-09 画像処理装置、画像処理方法、及びプログラム Active JP5249387B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011129548A JP5249387B2 (ja) 2010-07-06 2011-06-09 画像処理装置、画像処理方法、及びプログラム
US13/172,125 US8514462B2 (en) 2010-07-06 2011-06-29 Processing document image including caption region

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010154360 2010-07-06
JP2010154360 2010-07-06
JP2011129548A JP5249387B2 (ja) 2010-07-06 2011-06-09 画像処理装置、画像処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012033151A JP2012033151A (ja) 2012-02-16
JP5249387B2 true JP5249387B2 (ja) 2013-07-31

Family

ID=45438376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011129548A Active JP5249387B2 (ja) 2010-07-06 2011-06-09 画像処理装置、画像処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US8514462B2 (ja)
JP (1) JP5249387B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5676942B2 (ja) * 2010-07-06 2015-02-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP5285727B2 (ja) * 2011-02-22 2013-09-11 シャープ株式会社 画像形成装置、および、画像形成方法
JP5578188B2 (ja) * 2012-02-17 2014-08-27 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、および、プログラム
JP6379813B2 (ja) * 2013-08-23 2018-08-29 株式会社リコー 情報処理システム、方法、情報処理装置およびプログラム
JP5875637B2 (ja) * 2013-12-19 2016-03-02 キヤノン株式会社 画像処理装置、画像処理方法
US9965695B1 (en) * 2016-12-30 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Document image binarization method based on content type separation
US10356318B1 (en) * 2017-04-27 2019-07-16 Intuit, Inc. Long document capture on mobile devices
CN110321470A (zh) * 2019-05-23 2019-10-11 平安科技(深圳)有限公司 文档处理方法、装置、计算机设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228473A (ja) 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
JP3694149B2 (ja) 1997-07-07 2005-09-14 株式会社リコー 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
EP0908848B1 (en) * 1997-10-13 2006-07-19 Matsushita Electric Industrial Co., Ltd. A fuzzy inference method and machine
JP4235286B2 (ja) 1998-09-11 2009-03-11 キヤノン株式会社 表認識方法及び装置
EP1052593B1 (en) 1999-05-13 2015-07-15 Canon Kabushiki Kaisha Form search apparatus and method
JP4266784B2 (ja) 2003-11-14 2009-05-20 キヤノン株式会社 画像処理システム及び画像処理方法
JP2006085234A (ja) * 2004-09-14 2006-03-30 Fuji Xerox Co Ltd 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP4590433B2 (ja) 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5376795B2 (ja) 2007-12-12 2013-12-25 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
JP5111268B2 (ja) 2008-07-09 2013-01-09 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP5230525B2 (ja) 2009-05-25 2013-07-10 キヤノン株式会社 画像検索装置およびその方法
JP5290867B2 (ja) 2009-05-25 2013-09-18 キヤノン株式会社 画像検索装置およびその方法

Also Published As

Publication number Publication date
US20120008174A1 (en) 2012-01-12
JP2012033151A (ja) 2012-02-16
US8514462B2 (en) 2013-08-20

Similar Documents

Publication Publication Date Title
JP5733907B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP5249387B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP5274305B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP5528121B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP5743443B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP5511450B2 (ja) 画像処理装置、画像処理方法及びプログラム
US8548240B2 (en) Image processing apparatus, image processing method, and computer readable medium
US8965125B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
US20120082388A1 (en) Image processing apparatus, image processing method, and computer program
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2010020468A (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
US20070116363A1 (en) Image processing device, image processing method, and storage medium storing image processing program
US11146705B2 (en) Character recognition device, method of generating document file, and storage medium
US8181108B2 (en) Device for editing metadata of divided object
JP2013152564A (ja) 文書処理装置及び文書処理方法
CN112114803A (zh) 基于深度学习的ui界面的前端代码生成方法、设备及介质
JP5500994B2 (ja) 画像処理装置、画像処理方法、プログラム
JP2009140478A (ja) 画像処理装置及び画像処理方法
JP2021056796A (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
JP2017156982A (ja) 画像変換プログラム及び画像変換装置並びに画像変換方法
JP2013131942A (ja) 画像処理装置
JP2007299321A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び、情報記憶媒体
JP2007087197A (ja) 文書処理装置、文書処理方法およびプログラム
CN115131794A (zh) 信息处理装置、记录介质及信息处理方法
JP2004287992A (ja) 文書情報処理装置並びにプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3