JP4544324B2 - 文書処理装置及びプログラム - Google Patents

文書処理装置及びプログラム Download PDF

Info

Publication number
JP4544324B2
JP4544324B2 JP2008077103A JP2008077103A JP4544324B2 JP 4544324 B2 JP4544324 B2 JP 4544324B2 JP 2008077103 A JP2008077103 A JP 2008077103A JP 2008077103 A JP2008077103 A JP 2008077103A JP 4544324 B2 JP4544324 B2 JP 4544324B2
Authority
JP
Japan
Prior art keywords
area
boundary line
blank area
adjacent
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008077103A
Other languages
English (en)
Other versions
JP2009230605A (ja
Inventor
裕也 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2008077103A priority Critical patent/JP4544324B2/ja
Priority to US12/406,652 priority patent/US8090202B2/en
Publication of JP2009230605A publication Critical patent/JP2009230605A/ja
Application granted granted Critical
Publication of JP4544324B2 publication Critical patent/JP4544324B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Digital Computer Display Output (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Input (AREA)

Description

本発明は、文書処理装置及びプログラムに関する。
文書としてレイアウト構成されたものを、計算機により翻訳し出力するシステムを考えたとき、翻訳結果の表現方法には従来技術として様々な手法が用いられている。
その中で、元文書のレイアウトの領域毎に、翻訳済みの文字列(訳文)をその領域の原文と置換する方法、もしくはその領域に訳文を追加する方法がよく知られている。このような方法には以下のような先行技術が存在する。
特許文献1の方法では、スキャンした原稿画像に対し各種画像処理を実施して原稿画像情報を取得し、原稿画像情報とその対訳とを上下に並べて合成するとき、原稿画像情報の情報幅より対訳情報の情報幅が小さくなるように制御する。
特許文献2の方法では、レイアウト解析を行い、テキスト部分にOCR(光学文字認識)を実行し、認識した文字列に対して翻訳を行い、翻訳結果の文字列を元のレイアウトに挿入する(いわゆる「流し込み」)。これを印刷する際に、用紙の表には元の原稿、裏には翻訳した原稿を印刷する。
これら従来技術では、翻訳文の文字量とそれを流し込む領域の大きさとを基準に文字の大きさを決定することで、翻訳文を領域内に収めている。したがって、翻訳文の文字量が多い場合には文字が小さくなり、読みづらいものになってしまう。
そこで、文字サイズを確保するため領域を広げるということも考えられるが、無条件に広げると文字が重なる領域が出てくる。画像を解析し空白部分を周囲から探索し、領域をその空白部分へと広げることも考えられるが、文字サイズの確保のみを基準に無制限に広げてしまうと、全体のレイアウトバランスが崩れてしまう可能性がある。
特開平5−324720号公報 特許第3636490号明細書
本発明は、その文書内の各テキスト領域内のテキストの変換結果をそれぞれ各テキスト領域に挿入する(流し込む)場合に、文字の縮小を極力避けつつも、それらテキスト領域同士の配置関係を崩さないようにすることを目的とする。
本発明に係る装置は、文書画像中に含まれる複数の領域を抽出する領域抽出手段と、抽出された前記各領域内の文字列を認識する認識手段と、認識された前記各領域内の文字列に対して変換処理を施す変換手段と、互いに隣り合う領域同士の間の余白に、それら隣り合う領域同士の境界線であって、他の領域により遮られるまで延びる直線の境界線を設定する設定手段と、設定された前記境界線のうち少なくとも1つを前記複数の領域のいずれとも交わらないという拘束条件の下で平行移動させ、その平行移動に合わせて、前記各領域を、それら境界線から構成されるセルであって当該領域を内包するセルからはみ出ない範囲で拡大又は縮小する拡大縮小手段と、前記拡大縮小手段により拡大又は縮小された前記各領域に対して、前記変換手段による当該領域内の文字列の変換処理の結果を挿入する挿入手段と、を備える。
ここで、領域の拡大又は縮小は、領域の縦方向と横方向で倍率が異なっていてもよい。
本発明では、前記設定手段は、隣り合う領域同士の間に第1のしきい値以上の間隔が存在する場合に、前記間隔の部分に空白領域を更に設定するとともに、前記隣り合う領域のうちの一方と前記空白領域との間、及び前記隣り合う領域のうちの他方と前記空白領域との間に境界線を設定し、前記拡大縮小手段における前記拘束条件は、空白領域が設定されている場合、その空白領域に隣り合う境界線を前記空白領域の方向に平行移動させることを許可するものである、ことを特徴とする。
また本発明では、更なる態様では、前記拡大縮小手段における前記拘束条件は、前記空白領域に隣り合う境界線を前記空白領域の方向に平行移動させる場合に、前記空白領域に隣り合う2つの境界線同士の間隔第2のしきい値以上とするというものであり、前記第2のしきい値は0より大きい値である、ことを特徴とする。
以下、図面を参照して本発明の実施形態を説明する。
図1に、実施形態の文書処理装置の構成の一例を示す。この装置において、画像読取装置10は、紙原稿上の画像を光学的に読み取る装置であり、例えばラインセンサやエリアセンサを用いたスキャナがその典型例である。画像読取装置10は、紙原稿上の画像を表すデジタル画像を出力する。レイアウト解析部12は、画像読取装置10から出力されるデジタル画像に対し、周知のレイアウト解析処理を実行する。レイアウト解析により、デジタル画像中に含まれるテキスト領域や写真領域などの個々のコンテンツ領域が検出される。レイアウト解析の結果は、個々のコンテンツ領域ごとに、当該領域の位置やサイズの情報を含んでいる。コンテンツ領域は、典型的には、デジタル画像における画素配列の縦横の各方向に平行な辺(一般的には紙原稿の縦横各辺に平行な辺)からなる矩形の領域である。例えばテキスト領域は、テキスト文字列の組版結果に外接する矩形領域となる。コンテンツ領域が上述のような矩形の領域の場合、その領域の位置・サイズの情報は、その矩形の1つの対角線上の2つの頂点の座標の組で表される。なお、レイアウト解析の結果は、当該領域内のコンテンツの種類(例えばテキストか写真か)の情報を含んでいてもよい。
例えば、図2に模式的に示すレイアウト解析結果100は、デジタル画像中にA〜Iの9個のコンテンツ領域(以下では、紛れがないかぎり単に「領域」と呼ぶ)が含まれていることを示している。以下では、領域A〜Iはすべてテキスト領域であるとして説明する。
文字認識部14は、レイアウト解析の結果検出された各テキスト領域に対して、それぞれ周知のOCR(光学文字認識)処理を施すことで、各テキスト領域に含まれるテキスト文字列を求める。翻訳処理部16は、検出された各テキスト領域内の文字列(すなわちある言語で記述された文章)に対して、従来公知の自動翻訳処理を実行することで、その文字列を別の言語の文字列へと変換する。
配列構造解析部18は、レイアウト解析結果に含まれる領域の配列構造を解析し、その配列構造を示す情報を生成する。この例では、配列構造は、構造境界線の組合せにより表される。構造境界線は、隣り合う領域同士の間の余白を通る直線の線分である。コンテンツ領域が上述のような矩形である場合は、構造境界線は縦又は横に延びる直線分となる。構造境界線は、例えば、隣り合う領域同士の余白部分の中央を通る直線分とすればよい。
また、構造境界線は、ページ外周の余白部分にも配置される。例えば、ページ内のすべてのコンテンツ領域を内包する外接矩形の各辺をそれぞれ外側に所定幅だけ広げてできる矩形の各辺を、ページ外周の構造境界線とすればよい。
また、配列構造解析部18は、隣り合う領域同士の間隔(余白の幅)が、あらかじめ定められたしきい値を超える場合には、その間隔の部分に空白領域を配置し、それら隣り合う領域の各々とその空白領域との間に構造境界線を配置する(言い換えれば、それら隣り合う領域の各々の近傍に構造境界線を配置し、それら2つの構造境界線の間に空白領域を設定する)。
図2に、レイアウト解析結果100に対応する配列構造解析結果105を模式的に示す。この例では、縦方向の構造境界線を「v数字」の識別符号で示し、横方向の構造境界線を「h数字」の識別符号で示している。
v1,h1,v5,h10がページ外周の構造境界線である。また、h2〜h6,v2〜v4はコンテンツ領域間の構造境界線である。また、領域Aと外周の構造境界線v5との間には空白領域bs1が、領域HとIとの間には空白領域bs2が、領域Fと外周の構造境界線h10との間には空白領域bs3が、それぞれ設定されている。
v3,h7〜h9はコンテンツ領域と空白領域との構造境界線である。すなわち、領域Aとページ外周の構造境界線との間隔は所定のしきい値以上大きいので、例えば、領域Aの右端から所定の距離だけ右側に離れた位置に構造境界線v3が配置され、v3,h2,v5及びh1で囲まれた矩形領域が空白領域bs1として管理されることになる。別言すれば、領域とページ外周の構造境界線との間に別の領域がない場合、その領域とその構造境界線との間隔がその所定距離(すなわち前述のしきい値)以上離れていれば、両者の間に空白領域が設定されることになる。このように空白領域を設定するのは、1つには、領域間(或いは領域とページ外周との間)にある程度幅の広い空白がある場合、それが元の原稿における1つのレイアウト意図であるとみなし、その空白ができるだけ維持されるように管理するためである。
図2に例示した通り、構造境界線は、延伸方向がコンテンツ領域により遮られない限り、ページ外周の構造境界線に交わる点まで延びる。例えば、横方向に延びる構造境界線h2,h3は、その延伸方向を遮る領域が存在しないので、ページ外周の左右の構造境界線v1からv5まで延びている。一方、延伸方向がコンテンツ領域により遮られる場合、構造境界線は、その領域の手前にある、当該境界線に垂直な構造境界線(言い換えれば、その領域と、当該構造境界線の隣の領域との間を区切る構造境界線)に到達したところで終了する。例えば、横方向の構造境界線h6は、左右を領域F及びHで遮られており、その手前の構造境界線v2からv4まで延びた線分となっている。また、縦方向の構造境界線v2は、上方を領域Bで遮られているので、横方向の構造境界線h3からh10まで延びる線分となっている。
デジタル画像(ページ)上の各領域の位置情報が分かれば、例えば、まずページ外周の構造境界線v1,h1,v5,h10を上述のようにして画定、すなわちデジタル画像の座標系におけるそれら各構造境界線の位置を決定することができる。ここで、構造境界線の位置は、例えば、デジタル画像の横方向をx軸方向、縦方向をy軸方向として、当該境界線のx軸座標(縦方向の境界線の場合)、又はy座標(横方向の境界線の場合)と、当該境界線の両端に接する他の2つの構造境界線とにより表すことができる。例えば、構造境界線h1は、その線h1のy座標値と、その線h1の両端を規定する境界線v1,v5とにより表現できる。次に、例えば、それら外周の構造境界線を両端とする構造境界線を画定し、ここで画定した構造境界線と外周の構造境界線とを両端とする構造境界線を画定することができる。そして、更にそれら構造境界線同士を両端とする構造境界線(例えばh6)を画定すればよい。
また、配列構造解析部18は、上述のようにして求めた構造境界線と各領域との関係を表す関係情報を生成する。そのような関係情報としては、一例として、領域ごとに、その領域を取り囲む4つの構造境界線の組を示す情報を用いることができる。以下では、領域の上下左右の4つの構造境界線で取り囲まれる矩形範囲を「セル」と呼ぶ。そして、上述の関係情報としてセルとその中に含まれる領域との対応関係を示す情報を用いる。
記憶装置20は、例えば、当該文書処理装置が備えるRAM(ランダムアクセスメモリ)などの一次記憶装置、或いはハードディスクや不揮発性メモリなどの二次記憶装置である。レイアウト解析部12によるレイアウト解析結果、文字認識部14による文字認識結果、及び翻訳処理部16による翻訳結果は、記憶装置20内のコンテンツ領域情報記憶部22に記憶される。また、配列構造解析部18が解析した配列構造の情報は、その一部が境界線情報記憶部24とセル情報記憶部26に記憶される。
コンテンツ領域情報記憶部22に記憶されるコンテンツ領域情報220のデータ構造の一例を、図3に示す。この例では、コンテンツ領域情報220には、領域ごとに、その領域の識別子である領域ID222,その領域(矩形とする)の左上隅の頂点の座標224,右下隅の頂点の座標226,原文情報228及び訳文情報229を含む。領域ID222は、レイアウト解析部12が各コンテンツ領域を検出した場合に付与すればよい。矩形の領域の左上隅及び右下隅の点の座標224及び226もレイアウト解析部12の解析結果から判明する。また、配列構造解析部18が空白領域を設定した場合は、その空白領域にも領域IDを付与し、同様に管理してもよい。原文情報228は、文字認識部14による当該領域内の画像に対する文字認識結果の文字列であり、その文字列のフォントサイズ(これは文字認識の際に求めればよい)の情報を原文情報228に組み込んでおいてもよい。訳文情報229は、その文字列に対する翻訳処理部16による翻訳結果を示す文字列である。なお、空白領域については原文情報228及び訳文情報229の代わりに、その領域が空白であることを示す情報を登録しておけばよい。
図4に、境界線情報記憶部24に記憶された構造境界線情報240のデータ構造の一例を示す。この例では、構造境界線情報240は、配列構造解析部18が求めた構造境界線ごとに、その境界線の識別子である境界線ID242,その境界線が縦方向又は横方向のいずれであるかを示す縦横種別244,その境界線の位置を示す線位置246,その境界線の両端を規定する他の境界線の境界線IDを示す上(右)端境界線248及び下(左)端境界線249の項目を含む。境界線ID242は、配列構造解析部18が付与すればよい。線位置246は、上述の如く、縦方向に延びる構造境界線の場合はその線のx座標、横方向に延びる構造境界線の場合はその線のy座標で表現すればよい。項目244〜249の値は、配列構造解析部18の解析結果から求めることができる。
図5に、セル情報記憶部26に記憶されたセル情報260のデータ構造の一例を示す。この例では、セル情報260は、配列構造解析部18が求めたセルごとに、そのセルの識別子であるセルID261,そのセルの上下左右の端を規定する各構造境界線の境界線ID(上境界線262,下境界線263,右境界線264及び左境界線265),及び当該セル内に含まれる領域の領域ID(対応領域266)の各項目を含む。例えば、図2の例では、領域Aを内包するセルのセル情報260には、上境界線262,下境界線263,右境界線264及び左境界線265としてそれぞれh1,h2,v1,v3の各IDが含まれ、対応領域266としてその領域AのIDが含まれることになる。
なお、セルを構成する四辺(構造境界線)のそれぞれについて、その辺とそのセル内の領域との間の距離を求めておき、その距離をセル情報260に含めておいてもよい。
再び図1の説明に戻ると、レイアウト処理部30は、レイアウト解析部12,文字認識部14,翻訳処理部16及び配列構造解析部18が求めたコンテンツ領域情報220,構図境界線情報240及びセル情報260に基づき、コンテンツ領域ごとに原文の後に訳文が付加した画像を生成するために、レイアウトのシミュレーションを実行する。このシミュレーションは、境界線情報記憶部24に記憶された構造境界線の組を基準として行う。
そして、そのシミュレーション結果を評価部32で評価する。評価部32は、例えば、ある領域についての原文と訳文のレイアウト結果が、元のデジタル画像からはみ出たり、その領域に対応するセルからはみ出たり、そのセルの辺とレイアウト結果との間隔とがあらかじめ定められた下限値以下となったりした場合には、そのレイアウト結果が不良であると判定すればよい。また、すべての領域のレイアウト結果が元のデジタル画像の範囲からはみ出ず、かつすべての領域の原文と訳文のレイアウト結果が、対応する各セル内に収まり、かつ各レイアウト結果と対応する各セルの辺との距離がすべて下限値以上である場合は、そのレイアウト結果が良好であると判定すればよい。レイアウト結果が良好であると判定した場合、評価部32は、そのレイアウト結果を出力する。
一方、レイアウト結果が不良と判定した場合は、評価部32は、配列構造調整部34に対し、配列構造の調整を指示する。
配列構造調整部34は、構造境界線の位置を移動(すなわち平行移動)、或いは拡大又は縮小(以下、拡縮と呼ぶ)させることにより、各領域の配列構造を調整する。配列構造調整部34は、構造境界線を平行移動又は拡縮するのみであり、構造境界線の変形は認めない。ここで、構造境界線の移動(拡縮に伴う移動も含む)は、コンテンツ領域が存在しない方向についてのみ許すようにする。例えば、ページ外周の構造境界線は、ページの外側に向かっての平行移動が認められる。ただし、ページの外周に残る余白幅が所定の幅(これは予め設定しておく)以下になるような移動は認めない。また、構造境界線の隣に空白領域が存在する場合は、その空白領域の方向に構造境界線を平行移動させることが認められる。
配列構造調整部34は、移動が認められる構造境界線が複数ある場合は、例えばあらかじめ設定された移動ストラテジーにより最初に移動させるべきと判定される構造境界線を、そのストラテジーが定める距離だけ、又はそのストラテジーが定める程度だけ、移動させる。移動ストラテジーは、例えば最初の段階では構造境界線全体をページ外周の余白が下限となるまで拡大し、第2段階ではすべての空白領域の幅が半分になるまで構造境界線を移動させる、等というように、段階ごとにどの構造境界線をどのように移動させるかを規定する情報である。
この配列構造調整部34の調整結果は、記憶装置20内の構造境界線情報240に反映させる。このあと、レイアウト処理部30が、調整後の構造境界線の組を制約条件として、各セル内に、対応するコンテンツ領域の原文情報及び訳文情報を挿入(いわゆる「流し込み」)することで再度レイアウトを行う。
そして、評価部32がその再レイアウト結果を評価し、評価結果が不良の場合は再度配列構造調整部34が移動ストラテジーにしたがって第2段階の調整を行う。
そして、以上のような構造調整・再レイアウト・評価のサイクルを繰り返すことで、すべてのコンテンツ領域が対応するセルに収まり、かつページからはみ出ないレイアウトの作成を目指す。
図6は、この文書処理装置が実行する処理手順の一例である。この手順は、テキスト領域がすべて横書きの場合の例である。
この手順では、画像読取装置10から出力された読取結果のデジタル画像をレイアウト解析部12がレイアウト解析し(S10)、更に配列構造解析部18がそのレイアウト解析結果の配列構造(構造境界線情報とセル情報の組)を求める(S12)。また、レイアウト解析結果の各領域について文字認識部14が文字認識を行い、更にその文字認識結果に対して翻訳処理部16が翻訳処理を実行する(S14)。また、この手順では、配列構造解析部18は、レイアウト解析結果の各領域と、近傍の構造境界線との距離を求め、その距離を領域に対応づけて(すなわちコンテンツ領域情報か、セル情報のいずれかに)格納する(S16)。ここまでの処理により、記憶装置20内には、コンテンツ領域情報220及び構造境界線情報240及びセル情報260が蓄積される。
次にレイアウト処理部30が、それら各情報220〜260を参照して、各領域の幅は変えずに、それら各領域に対し原文情報及び訳文情報を横書きの順にレイアウトし(S18)、それら各領域のレイアウト結果をそれぞれ対応するセルに配置する(S20)。なお、各領域の幅は、当該領域に対応するコンテンツ領域情報220に含まれる左上隅224及び右下隅226の情報から求めればよい。このとき、レイアウト結果は、その上端及び左右の各端が、セルの上辺及び左右の各辺からそれぞれステップS16で記憶した距離だけ離れた位置にくるように配置する。この例では、訳文の量だけ各領域は下に延びることになる。例えば、図2の配列構造解析結果105に対し、ステップS18の処理を行うと、図7に示すレイアウト結果110が得られる。なお、ここで、このレイアウト処理結果の各領域の左上隅及び右下隅の座標により、コンテンツ領域情報220内の各領域の情報を更新してもよい。
図8の例では、レイアウト結果の各領域は、それぞれ対応するセルからはみ出ることになる。したがって、このレイアウト結果は、評価部32により不良と判定され、それに応じ配列構造調整部34が調整を行う。
このとき配列構造調整部34は、一例としてまず配列構造全体を拡縮(図7の例に対しては拡大)し(S22)、その拡縮に応じて各セル内の領域を拡縮する(S24)。例えば、図7のレイアウト結果110に対し、配列構造を縦に下方向に拡大(すなわち水平方向の構造境界線h2〜h10を下方向に平行移動)し、更に各領域を下に移動させることにより、レイアウト結果110の各領域A〜Fがそれぞれ対応するセル内に収まるようにする。これにより、配列構造調整結果115が得られる。この調整に応じて各構造境界線の線位置が変化するので、その変化に応じて境界線情報記憶部24内の各境界線の線位置246を更新する。なお、縦横種別244、上(右)端境界線248及び下(左)端境界線249は、配列構造の調整処理では変化しない。
この調整結果では、いくつかの領域がページからはみ出ているので、この例では、更に配列構造全体を拡大する。
例えば、図8の例120に示すように、ページ外周の構造境界線h1をページ上端から所定距離となるところまで上昇させ、v1をページ左端から所定距離のところまで左に、v5をページ右端から所定距離のところまで右に、それぞれ移動させる。この移動に伴って、ページ左上隅の領域Aを、v1及びh1からそれぞれS16で保存した距離となる位置に平行移動させ、更にこの移動に合わせてh2及びv3をそれぞれ領域AからS16で保存した距離まで移動させる。そして、領域Bを、v1及びh2からそれぞれS16で保存した距離となる位置に平行移動させる。以上のような、領域と構造境界線の連鎖的移動を繰り返すことで、図8右側の配列構造拡大結果125が得られる。この拡大に応じて、各構造境界線の線位置が変化するので、その変化に応じて境界線情報記憶部24内の各境界線の線位置246を更新する。
この拡大結果125に示すように、配列構造の拡大によれば、各セルは大きくなる(或いはサイズ変化無し)が、各コンテンツ領域のサイズは変化しない。例えば領域B〜Iは、セル内で領域幅を右側に延ばす余地ができる。また、構造境界線v1は右側の空白領域bs1の方へ、h7は下側のbs2の方へ、h8は上側のbs2の方へ、h9は下側のbs3の方へ、それぞれ平行移動できる。
そこで、配列構造調整部34は、例えば、領域B〜Iのうちのいずれか1以上をセルからはみ出ない範囲で右方向に拡大する(S24)。この拡大により領域の幅が増えるので、同じ文章を流し込んだ場合の行数が減る。したがって、この拡大を施した領域は縦方向については縮み、領域の上端を固定(すなわち上から順に流し込む場合)とすれば領域の下端が上に上がることになる。配列構造調整部34は、その領域幅に対してその領域内の文字列を流し込むシミュレーションを行うことで行数を求め、その行数から領域の高さを計算する。そして、この計算結果から領域下端の上昇量を求め、その上昇量だけその領域下端の下方の構造境界線を上方向に移動させる。ただし、その「下方の構造境界線」の上に別の領域が存在する場合、その構造境界線の上昇はその「別の領域」との距離がS16で記憶した値以下にはならないように制限される。
また、境界線v1,h7〜h8のいずれか1以上を空白領域の方に移動させることでセルを広げ、広がったセル内の領域を対応する空白領域の方向に拡大する(S26)。この拡大により、その領域内の文章の行数が減るので、その領域の下端が上昇する。したがって、その領域の下方にある境界線や領域を上昇させることができる。
なお、以上に説明したステップS22〜S26は、どのような順序で実行してもよい。
例えば、図9の状態130は、境界線v3を右方向に所定量だけ移動させた場合の例である。これに応じて領域Aの幅を同じ量だけ右側へ延ばす。これにより、上述と同様にして領域Aの下端が上昇する。ここで、領域A下方の境界線h2の上昇を規制する領域はAだけなので(bs1は空白)、領域Aの下端の上昇量と同じだけ境界線h2も移動させる。このときの状態が図9の状態130である。
そして、領域Bを境界線h2の上昇量と同量だけ上昇させる。領域Bは、セル内で右方向に拡大可能なので、領域Bの幅を境界線v5との距離がS16で記憶した距離になるところまで広げる。これによる行数減少により領域Bの下端が上昇し、これに応じて境界線h3を上昇させる。図9に示す状態135は、このときの状態を示す。
このあと、領域C,D,Eを境界線h3からS16で記憶した距離まで上昇させ、更にそれに連動して更に下の各領域や各境界線を上昇させる。また、領域C〜Iをセル内で拡大したり、空白領域bs2,bs3の高さを縮めたりすることで、更に全体を上方に圧縮することができる。
また、空白領域bs1が残っていれば、v3を更に右側に移動させ、上述と同様の処理を繰り返してもよい。なお、空白領域の圧縮限界の条件を定めておき、その限界以上は空白領域を圧縮できないようにしてもよい。そのような条件は、例えば空白領域の下限幅(高さ)であってもよいし、元の空白領域の幅(高さ)に対する圧縮割合であってもよい。
以上のS22〜S26の繰り返しにより、例えば図10の状態140のように、全領域がページ範囲内に収まった(言い換えれば、ページ外周の境界線がページ内に収まった)場合には(S28の判定結果がYes)、処理を終了すればよい。
以上のような処理で、ページ外周の余白及びすべての空白領域をあらかじめ定められた限界まで縮小しても、いずれかの領域(或いは構造境界線)がページの外にはみ出す場合(S28の判定結果がNo)、領域とセルの間隔を縮めることで全体を更に縮小しても良い。この場合、配列構造調整部34は、各領域と対応する各セルの構造境界線との間に余裕があるかどうか判定する(S30)。例えば、領域とそれを内包するセルを構成する構造境界線との距離が、例えば図11の状態150に示すように、あらかじめ定められたしきい値を超えていれば、「余裕がある」と判定すればよい。そして、余裕があると判定された領域と構造境界線との距離を限界まで縮小し(S32)、その縮小に応じて領域及び構造境界線の配置を再構成する(S34)。
すなわち、S28までの処理では、領域とセルの構造境界線との距離は、S16で記憶した距離、すなわち元のデジタル画像における領域と構造境界線との距離のまま維持されているが、その距離がしきい値より大きければS30で領域の幅を拡大し、領域とその直上の構造境界線までの距離を詰めることで、領域とセルの間隔をそのしきい値まで小さくするのである。領域幅の増大と領域全体の上昇により、その領域の下端が上昇するので、その領域の下方にある構造境界線やその下方の各領域及び各構造境界線を上昇させることができる。例えば、ページ最上部の領域から順に、このような処理を行うことで、ページの下端を上昇させることができる。これにより、図11の状態155に示すように全領域がページの範囲内に収まれば(S36の判定結果がYes)、処理を終了すればよい。
そうでない場合は、更に各領域内の文字サイズを、全領域がページの範囲内に収まるまで段階的に縮小していくようにしてもよい(S38)。ステップS38の文字サイズの縮小は、全文字に適用するのではなく、例えば見出し解析により求められた見出し文字だけに適用するなど、部分的に適用しても良い。
以上、図6の手順を説明したが、図6のうち点線で囲った各ステップS22〜S26,S30〜S34及びS38の実行順序は図示のものに限られず、どのような順序で実行してもよい。
以上説明したように、本実施形態では、領域間を区切る構造境界線を設定し、その構造境界線を変形させずに平行移動させ、その平行移動に応じて対応する各領域の幅や高さを、各領域が含まれるセル内で広げることで、各領域に収容可能な文字量を増やす。この方法では、各領域の移動や拡大縮小は構造境界線により規制され、構造境界線は平行移動のみで変形しないので、ページ全体としての領域の配列構造が維持される。
また、本実施形態では、配列構造調整の最初のステップとして、ページ外周の構造境界線をページの外に向かって移動させること、又は空白領域と隣接する構造境界線を、空白領域を縮める方向に移動させることのみを認め、他の構造境界線はそれら最初の構造境界線の移動に伴って移動することのみを認めることとした。このようなことにより、配列構造を維持することができる。
また、本実施形態では、隣接する領域同士の間の距離が所定のしきい値以上大きい場合に、それら両者の間に空白領域を設定し、隣接する領域の一方と空白領域の間、及び隣接する領域の他方と空白領域との間に構造境界線を設定した。そして、空白領域の両側の構造境界線はそれぞれ空白領域を縮める方向に移動可能であるが、それら両側の構造境界線同士の距離が所定値以下となることは認めないことで、空白領域を残すことができる。
以上の例では、原文と訳文を領域内に流し込む場合を例示したが、訳文のみを流し込む場合にも同様の処理が適用可能である。また翻訳以外の変換処理(例えばキーワードと判定された文字列のフォントサイズを大きくするなど)を原文に加えた変換結果を領域に流し込む場合にも、上述の処理は適用可能である。また、以上では横書きの例を示したが、縦書きの場合も、同様の処理が適用可能である。
以上に説明した図1の文書処理装置のうち、画像読取装置10を除く部分は、例えば、汎用のコンピュータに上述の各機能モジュールの処理を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、図12に示すように、CPU1000等のマイクロプロセッサ、ランダムアクセスメモリ(RAM)1002およびリードオンリメモリ(ROM)1004等のメモリ(一次記憶)、HDD(ハードディスクドライブ)1006を制御するHDDコントローラ1008、各種I/O(入出力)インタフェース1010、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース1012等が、たとえばバス1014を介して接続された回路構成を有する。また、そのバス1014に対し、例えばI/Oインタフェース1010経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ1016、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ1018、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAM1002に読み出されCPU1000等のマイクロプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。なお、それら機能モジュール群のうちの一部又は全部を、専用LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit、特定用途向け集積回路)又はFPGA(Field Programmable Gate Array)等のハードウエア回路として構成してもよい。
実施形態の文書処理装置の一例を示す機能ブロック図である。 レイアウト解析結果及び配列構造解析結果の例を示す図である。 コンテンツ領域情報のデータ構造の一例を示す図である。 構造境界線情報のデータ構造の一例を示す図である。 セル情報のデータ構造の一例を示す図である。 実施形態の文書処理装置が実行する処理手順の一例を示すフローチャートである。 元の画像から求められた配列構造に原文と訳文を流し込んだ結果コンテンツ領域がセルからはみ出た状況、及び各コンテンツ領域がセル内に収まるように各構造境界線を下方に移動させたときの状況、をそれぞれ模式的に示す図である。 構造全体の拡大を説明するための図である。 構造境界線を空白領域の方に移動させることにより配列構造を調整する流れを説明するための図である。 最終的に求められたレイアウト結果を模式的に示す図である。 領域とセルの間に余裕がある状態と、その余裕を詰めた状態とを模式的に示す図である。 コンピュータのハードウエア構成の一例を示す図である。
符号の説明
10 画像読取装置、12 レイアウト解析部、14 文字認識部、16 翻訳処理部、18 配列構造解析部、20 記憶装置、30 レイアウト処理部、32 評価部、34 配列構造調整部。

Claims (2)

  1. 文書画像中に含まれる複数の領域を抽出する領域抽出手段と、
    抽出された前記各領域内の文字列を認識する認識手段と、
    認識された前記各領域内の文字列に対して変換処理を施す変換手段と、
    互いに隣り合う領域同士の間の余白に、それら隣り合う領域同士の境界線であって、他の領域により遮られるまで延びる直線の境界線を設定する設定手段と、
    設定された前記境界線のうち少なくとも1つを前記複数の領域のいずれとも交わらないという拘束条件の下で平行移動させ、その平行移動に合わせて、前記各領域を、それら境界線から構成されるセルであって当該領域を内包するセルからはみ出ない範囲で拡大又は縮小する拡大縮小手段と、
    前記拡大縮小手段により拡大又は縮小された前記各領域に対して、前記変換手段による当該領域内の文字列の変換処理の結果を挿入する挿入手段と、
    を備え
    前記設定手段は、隣り合う領域同士の間に第1のしきい値以上の間隔が存在する場合に、前記間隔の部分に空白領域を更に設定するとともに、前記隣り合う領域のうちの一方と前記空白領域との間、及び前記隣り合う領域のうちの他方と前記空白領域との間に境界線を設定し、
    前記拡大縮小手段における前記拘束条件は、空白領域が設定されている場合、その空白領域に隣り合う境界線を前記空白領域の方向に平行移動させることを許可するものであると共に、前記空白領域に隣り合う境界線を前記空白領域の方向に平行移動させる場合に、前記空白領域に隣り合う2つの境界線同士の間隔を第2のしきい値以上とするというものであり、
    前記第2のしきい値は0より大きい値である、
    ことを特徴とする文書処理装置。
  2. コンピュータを、
    文書画像中に含まれる複数の領域を抽出する領域抽出手段、
    抽出された前記各領域内の文字列を認識する認識手段、
    認識された前記各領域内の文字列に対して変換処理を施す変換手段、
    互いに隣り合う領域同士の間の余白に、それら隣り合う領域同士の境界線であって、他の領域により遮られるまで延びる直線の境界線を設定する設定手段、
    設定された前記境界線のうち少なくとも1つを前記複数の領域のいずれとも交わらないという拘束条件の下で平行移動させ、その平行移動に合わせて、前記各領域を、それら境界線から構成されるセルであって当該領域を内包するセルからはみ出ない範囲で拡大又は縮小する拡大縮小手段、
    前記拡大縮小手段により拡大又は縮小された前記各領域に対して、前記変換手段による当該領域内の文字列の変換処理の結果を挿入する挿入手段、
    として機能させるためのプログラムであって、
    前記設定手段は、隣り合う領域同士の間に第1のしきい値以上の間隔が存在する場合に、前記間隔の部分に空白領域を更に設定するとともに、前記隣り合う領域のうちの一方と前記空白領域との間、及び前記隣り合う領域のうちの他方と前記空白領域との間に境界線を設定し、
    前記拡大縮小手段における前記拘束条件は、空白領域が設定されている場合、その空白領域に隣り合う境界線を前記空白領域の方向に平行移動させることを許可するものであると共に、前記空白領域に隣り合う境界線を前記空白領域の方向に平行移動させる場合に、前記空白領域に隣り合う2つの境界線同士の間隔を第2のしきい値以上とするというものであり、
    前記第2のしきい値は0より大きい値である、
    ことを特徴とするプログラム
JP2008077103A 2008-03-25 2008-03-25 文書処理装置及びプログラム Expired - Fee Related JP4544324B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008077103A JP4544324B2 (ja) 2008-03-25 2008-03-25 文書処理装置及びプログラム
US12/406,652 US8090202B2 (en) 2008-03-25 2009-03-18 Document processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008077103A JP4544324B2 (ja) 2008-03-25 2008-03-25 文書処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2009230605A JP2009230605A (ja) 2009-10-08
JP4544324B2 true JP4544324B2 (ja) 2010-09-15

Family

ID=41117308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008077103A Expired - Fee Related JP4544324B2 (ja) 2008-03-25 2008-03-25 文書処理装置及びプログラム

Country Status (2)

Country Link
US (1) US8090202B2 (ja)
JP (1) JP4544324B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594422B2 (en) 2010-03-11 2013-11-26 Microsoft Corporation Page layout determination of an image undergoing optical character recognition
US20120102385A1 (en) * 2010-10-25 2012-04-26 Konica Minolta Systems Laboratory Inc. Determining heights of table cells
JP5211193B2 (ja) * 2010-11-10 2013-06-12 シャープ株式会社 翻訳表示装置
JP5884560B2 (ja) * 2012-03-05 2016-03-15 オムロン株式会社 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム
CN103577314B (zh) * 2012-07-30 2016-05-18 国际商业机器公司 对计算机程序进行测试的方法和设备
JP6148976B2 (ja) * 2013-12-18 2017-06-14 株式会社ミマキエンジニアリング 境界決定方法およびメディア切断方法
US11144777B2 (en) * 2016-06-30 2021-10-12 Rakuten Group, Inc. Image processing apparatus, image processing method, and image processing program for clipping images included in a large image
US11734445B2 (en) * 2020-12-02 2023-08-22 International Business Machines Corporation Document access control based on document component layouts

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129658A (ja) * 1993-11-02 1995-05-19 Toppan Printing Co Ltd レイアウトデザイン装置
JP2005352696A (ja) * 2004-06-09 2005-12-22 Canon Inc 画像処理装置及びその制御方法、プログラム
JP2006268150A (ja) * 2005-03-22 2006-10-05 Fuji Xerox Co Ltd 翻訳を行う装置、方法、プログラムおよび該プログラムを記憶した記憶媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930009639B1 (ko) * 1989-07-09 1993-10-08 가부시끼가이샤 히다찌세이사꾸쇼 화상데이타를 이용하는 문서데이타 처리방법 및 장치
JPH05324720A (ja) 1992-05-19 1993-12-07 Ricoh Co Ltd 対訳画像形成装置
JP3636490B2 (ja) 1994-10-31 2005-04-06 キヤノン株式会社 画像処理装置および画像処理方法
JP2006268372A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム
JP4757008B2 (ja) * 2005-12-13 2011-08-24 キヤノン株式会社 文書管理方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129658A (ja) * 1993-11-02 1995-05-19 Toppan Printing Co Ltd レイアウトデザイン装置
JP2005352696A (ja) * 2004-06-09 2005-12-22 Canon Inc 画像処理装置及びその制御方法、プログラム
JP2006268150A (ja) * 2005-03-22 2006-10-05 Fuji Xerox Co Ltd 翻訳を行う装置、方法、プログラムおよび該プログラムを記憶した記憶媒体

Also Published As

Publication number Publication date
US20090245641A1 (en) 2009-10-01
US8090202B2 (en) 2012-01-03
JP2009230605A (ja) 2009-10-08

Similar Documents

Publication Publication Date Title
JP4544324B2 (ja) 文書処理装置及びプログラム
JP3302147B2 (ja) 文書画像処理方法
JP5699570B2 (ja) 画像処理装置及び画像処理プログラム
JP3278471B2 (ja) 領域分割方法
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
JP4483909B2 (ja) 翻訳装置及びプログラム
US8201084B2 (en) Image processing apparatus and computer readable medium
US11042734B2 (en) Electronic document segmentation using deep learning
US9633256B2 (en) Methods and systems for efficient automated symbol recognition using multiple clusters of symbol patterns
JP5610781B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2020191057A (ja) レイアウト解析方法、読書補助装置、回路及び媒体
CN113205095A (zh) 一种训练模型以及字符检测的方法及装置
US8600175B2 (en) Apparatus and method of processing image including character string
US20230060459A1 (en) Image object classification optimizing method, system and computer readable medium
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2005303880A (ja) 画像形成装置、画像形成方法およびプログラム
KR20090098650A (ko) 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독 가능한 기억 매체
JP2008108114A (ja) 文書処理装置および文書処理方法
CN112416340A (zh) 基于草图的网页生成方法和系统
JPH08320914A (ja) 表認識方法および装置
JP2009080727A (ja) 翻訳装置及びプログラム
JP7215176B2 (ja) 表示比較プログラム、装置、及び方法
JP4107668B2 (ja) 編集装置、編集方法、及びプログラム
JP6076128B2 (ja) 文字認識装置および文字認識方法
JP2000090194A (ja) 画像処理方法および画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100621

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4544324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140709

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees