JP2010128599A - 文書画像処理装置及びプログラム - Google Patents

文書画像処理装置及びプログラム Download PDF

Info

Publication number
JP2010128599A
JP2010128599A JP2008300001A JP2008300001A JP2010128599A JP 2010128599 A JP2010128599 A JP 2010128599A JP 2008300001 A JP2008300001 A JP 2008300001A JP 2008300001 A JP2008300001 A JP 2008300001A JP 2010128599 A JP2010128599 A JP 2010128599A
Authority
JP
Japan
Prior art keywords
character
sentence
translated
character size
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008300001A
Other languages
English (en)
Other versions
JP5126018B2 (ja
Inventor
Hironari Konno
裕也 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008300001A priority Critical patent/JP5126018B2/ja
Publication of JP2010128599A publication Critical patent/JP2010128599A/ja
Application granted granted Critical
Publication of JP5126018B2 publication Critical patent/JP5126018B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】元の文書に追記される翻訳文に原文にあった文字サイズ等の関係性を反映させる。
【解決手段】文書画像処理装置10は、文書画像を取得し、取得された文書画像のレイアウトに基づいて、それぞれ文字列を含む1又は複数の文章領域を設定し、設定される各文章領域に含まれる文字列を認識し、各文章領域の文字サイズ及び行間に基づいて、各文章領域を1又は複数の群に分類し、認識された文字列を翻訳し、分類された群毎に翻訳された翻訳文文字列の文字サイズを決定し、文章領域毎にその文章領域が分類された群について決定された文字サイズの翻訳文文字列を配置して翻訳文追記画像を生成する。
【選択図】図1

Description

本発明は、文書画像処理装置及びプログラムに関する。
紙文書を読み取り、紙文書に記載されている文章を翻訳して、その翻訳文を元の文書のレイアウトに埋め込んで出力する技術が提案されている。例えば、下記の特許文献1には、紙文書に記載された原文の文字列とその翻訳文の文字列とをそれぞれ上下に配置して出力するシステムが開示されている。
特開平05−324720号公報
本発明の目的の一つは、元の文書に翻訳文を追記するに当たり、追記される翻訳文に原文にあった文字サイズ等の関係性を反映させることができる文書画像処理装置及びプログラムを提供することにある。
上記目的を達成するために、請求項1に記載の文書画像処理装置の発明は、文書画像を取得する取得手段と、前記取得手段により取得された文書画像のレイアウトに基づいて、それぞれ文字列を含む1又は複数の文章領域を設定する設定手段と、前記設定手段により設定される各文章領域に含まれる文字列を認識する認識手段と、前記各文章領域の文字サイズ及び行間に基づいて、前記各文章領域を1又は複数の群に分類する分類手段と、前記認識手段により認識された文字列を翻訳する翻訳手段と、前記分類手段により分類された群毎に前記翻訳手段により翻訳された翻訳文字列の文字サイズを決定する決定手段と、前記文章領域毎に当該文章領域が分類された群について前記決定手段により決定された文字サイズの翻訳文字列を配置して翻訳文追記画像を生成する生成手段と、を含むことを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の文書画像処理装置において、前記文章領域毎に翻訳文字列の文字サイズを算出する文字サイズ算出手段と、前記群毎に当該群に分類された各文章領域について前記文字サイズ算出手段により算出された文字サイズに基づいて文字サイズを統一する手段と、前記群毎に統一された文字サイズの翻訳文字列を前記文書画像に配置した場合に、当該文書画像において文字列が占める領域の割合を示す文字領域占有率を算出する占有率算出手段と、前記占有率算出手段により算出された文字領域占有率に基づいて、前記翻訳文字列の文字サイズの範囲を決定する範囲決定手段と、をさらに含み、前記決定手段は、前記範囲決定手段により決定された文字サイズの範囲に基づいて前記群毎に統一された文字サイズを補正して、前記群毎の文字サイズを決定することを特徴とする。
また、請求項3に記載の発明は、請求項1又は2に記載の文書画像処理装置において、前記範囲決定手段は、前記文字領域占有率の増加に応じて、前記文字サイズの範囲の最大値を小さくすることを特徴とする。
また、請求項4に記載の発明は、請求項3に記載の文書画像処理装置において、前記範囲決定手段は、前記文字領域占有率の増加に応じて、前記文字サイズの範囲の最小値を小さくすることを特徴とする。
また、請求項5に記載の発明は、請求項4に記載の文書画像処理装置において、前記文字サイズの範囲の最小値に予め定められた下限値を設けたことを特徴とする。
また、請求項6に記載の発明は、請求項1乃至5のいずれかに記載の文書画像処理装置において、前記生成手段は、前記文章領域について決定された文字サイズが前記下限値であり、かつ、当該文字サイズの翻訳文字列を配置した場合に前記文書画像に含まれる元の文字列と重なりが生じる場合に、前記元の文字列を前記翻訳文字列により置換して前記翻訳文追記画像を生成することを特徴とする。
また、請求項7に記載のプログラムの発明は、文書画像を取得する取得手段と、前記取得手段により取得された文書画像のレイアウトに基づいて、それぞれ文字列を含む1又は複数の文章領域を設定する設定手段と、前記設定手段により設定される各文章領域に含まれる文字列を認識する認識手段と、前記各文章領域の文字サイズ及び行間に基づいて、前記各文章領域を1又は複数の群に分類する分類手段と、前記認識手段により認識された文字列を翻訳する翻訳手段と、前記分類手段により分類された群毎に前記翻訳手段により翻訳された翻訳文字列の文字サイズを決定する決定手段と、前記文章領域毎に当該文章領域が分類された群について前記決定手段により決定された文字サイズの翻訳文字列を配置して翻訳文追記画像を生成する生成手段としてコンピュータを機能させることを特徴とする。
請求項1に記載の発明によれば、文書画像に追記する翻訳文に、原文の文字サイズ及び行間に応じた関係性を反映できる。
請求項2に記載の発明によれば、文書画像に翻訳文を追記しても文書の可読性を維持することができる。
請求項3に記載の発明によれば、文書に配置する文字列が多い場合に、翻訳文の最大の文字サイズを小さくして可読性を維持することができる。
請求項4に記載の発明によれば、文書に配置する文字列が多い場合に、翻訳文の文字サイズを全体に小さくして可読性を維持することができる。
請求項5に記載の発明によれば、可読性のある範囲の文字サイズで翻訳文を追記することができる。
請求項6に記載の発明によれば、追記される翻訳文と元の文字列とが重なることを防止できる。
請求項7に記載の発明によれば、文書画像に追記する翻訳文に、原文の文字サイズ及び行間に応じた関係性を反映するようにコンピュータを機能させることができる。
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
図1には、本実施形態に係る文書画像処理装置10の機能ブロック図を示す。図1に示されるように、文書画像処理装置10は、画像取得部12、レイアウト解析部14、文字認識部16、文字サイズ・行間取得部18、グループ分類部20、翻訳部22、翻訳文文字サイズ算出部24、翻訳文文字サイズ統一部26、文字領域占有率算出部28、翻訳文文字サイズ範囲決定部30、翻訳文文字サイズ決定部32、翻訳文追記画像生成部34、及び画像形成部36を含む。上記各部の機能は、CPU等の制御手段、メモリ等の記憶手段、スキャナ、プリンタ等のデバイスとデータを送受信する入出力手段を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、文書画像処理装置10は、パーソナルコンピュータにより実現してもよいし、スキャナ、プリンタ等の機能を具備したマルチファンクションプリンタ(複合機)により実現することとしてもよい。また、プログラムは情報記憶媒体によって文書画像処理装置10に供給されることとしてもよいし、インターネット等のデータ通信ネットワークを介して供給されることとしてもよい。
画像取得部12は、文字が記載された文書画像の画像データを取得する。画像取得部12は、シリアルインターフェース等により接続されたスキャナにより読み取られた文書画像の画像データを取得することとしてもよい。また、文書画像処理装置10がスキャナを具備している場合には、当該具備しているスキャナにより文書画像を読み取ることとしてもよい。
図2Aには、画像取得部12により取得される文書画像の一例を示した。図2Aに示されるように、文書画像には、複数の文章領域A〜Eと写真等のイメージが形成された画像領域とが含まれる。
図2Bには、文書画像に含まれる文章領域A,Bの一例を示した。文章領域とは文字列を含む領域であり、以下、元の文書画像の文章領域に記載された文字のことを原文とする。本実施形態に係る文書画像処理装置10は、文書画像に記載された原文の文字列を翻訳し、その翻訳結果を文書画像に追記して出力する処理を行う。この際に、図2Bに示されるように、文章領域によって文字サイズや行間が異なることがあるが、文書画像処理装置10は、元の文書画像における各文章領域間の文字サイズや行間等の関係を、追記する翻訳文字列に反映させる処理を行うものである。本実施形態における翻訳文の追記とは、原文の上に翻訳文を追記する態様とするがこれに限られるものではなく他の態様を用いてもよい。以下、上記処理を実現する上での具体的構成を説明する。
レイアウト解析部14は、画像取得部12により取得された文書画像についてレイアウト解析を行う。レイアウト解析は、文書画像に含まれる文章領域、画像領域等の割付を解析し、各領域のサイズ及び位置のデータを取得することにより行う。なお、文章領域には表等も含むこととしてよい。
文字認識部16は、レイアウト解析部14により解析された文章領域に含まれる文字を認識して文字データを取得する。具体的には、文字認識部16は、解析された文章領域毎に、当該文章領域を二値化処理し、二値化処理により得た連結画素群のまとまりに対するパターン認識処理により文字を順次特定する。そして、文字認識部16は、順次特定された文字を連結して文章領域に含まれる文字列を生成する。
文字サイズ・行間取得部18は、文章領域毎に、文字認識部16により認識された原文文字列の文字サイズと行間とを取得する。例えば、文字サイズと行間には、文章領域における平均の値を用いることとしてよい。文字サイズ・行間取得部18は、文章領域毎に取得された文字サイズと行間とを関連づけて記憶する。
グループ分類部20は、文字サイズ・行間取得部18により取得された文章領域毎の文字サイズと行間とに基づいて文章領域を1又は複数のグループに分類する。本実施形態では、グループ分類部20は、文字サイズと行間の組が一致するものを同じグループに分類することとするがこれに限られるものではなく、文字サイズと行間との範囲の組毎にグループを設定し分類することとしてもよい。グループ分類部20は、グループ毎にそのグループに分類された文章領域を関連づけて記憶する。
図3には、図2Aに示した文書画像に含まれる各文章領域の文字サイズと、当該文字サイズに基づいてグループ分類部20により分類されるグループの一例を示した。なお、図示した例においては、各文章領域の行間は同じであるとしている。そして、図3に示されるように、文章領域Aはグループ1(G1)、文章領域B,Eはグループ2(G2)、文章領域C,Dはグループ3(G3)にそれぞれ分類される。
翻訳部22は、文字認識部16により認識された原文の文字列を予め定められた言語に翻訳する。翻訳部22は、公知の機械翻訳のアルゴリズムにより実装されたプログラムにより実現されるものとしてよい。翻訳部22は、文章領域毎に当該文章領域に含まれる文字列を翻訳し、翻訳した翻訳文字列をその文章領域に関連づけて記憶する。
翻訳文文字サイズ算出部24は、翻訳部22により翻訳された翻訳文文字列を、当該翻訳文文字列が関連づけられた文章領域に配置した場合の文字サイズを算出する。翻訳文文字サイズ算出部24は、文章領域の原文の文字サイズ、及び行間から翻訳文の文字サイズを算出する。例えば、翻訳文文字サイズ算出部24は、原文の文字サイズと同等のサイズで翻訳文を行間に配置できる場合にはそのサイズを翻訳文の文字サイズとし、上記サイズで行間に配置できない場合には、行間に収まる範囲内の文字サイズを選択してそのサイズを翻訳文の文字サイズとする。翻訳文文字サイズ算出部24は、各文章領域について翻訳文の文字サイズの算出を行い、算出された文字サイズをそれぞれの文章領域に関連づけて記憶する。
図4Aには、各文章領域について翻訳文文字サイズ算出部24により算出された翻訳文の文字サイズの一例を示す。このように、元の文書画像では同じ文字サイズ、行間の関係にあった文章領域について、翻訳文文字サイズ算出部24により算出された文字サイズは異なってしまうことがある。そこで、後述する翻訳文文字サイズ統一部26により同一グループの文字サイズの統一を行う。
翻訳文文字サイズ統一部26は、グループ分類部20により同一のグループに分類された各文章領域の翻訳文の文字サイズを統一する。具体的には、翻訳文文字サイズ統一部26は、同一グループに属する文章領域について翻訳文文字サイズ算出部24により算出された文字サイズのうち最小のものをそのグループの文字サイズとして決定する。
図4Bには、翻訳文文字サイズ統一部26により統一された各グループの文字サイズの一例を示す。図4Bに示されるように、グループ1は文章領域Aのみを含むため変化がないが、グループ2については文章領域Bの11ptが文章領域Eの13ptよりも小さいため11ptが採用され、グループ3については文章領域Cの6ptが文章領域Dの9ptよりも小さいため6ptが採用されることとなる。
文字領域占有率算出部28は、翻訳文文字サイズ統一部26により統一された各グループの文字サイズに従って翻訳文文字列を各文章領域に配置した場合に、文書画像において文字列(原文及び翻訳文)が占める領域の割合を示す文字領域占有率を算出する。文書画像において文字列が占める領域の割合とは、文書画像において文字列を配置可能な領域に対してどれだけの割合で実際に文字列が配置されているかにより算出することとしてよい。一例としては、文字領域占有率をR、文書画像の面積をA1、写真等が形成された画像領域の面積をA2、文字列の配置面積をTとした場合に、R=T/(A1−A2)して算出することとしてよい。文字列の配置面積は、文字列の配置された行につき、行の高さと長さとを乗じて算出することとしてよい。なお、文字領域占有率の算出方法は上述したものに限られず、文字列の配置面積は、文書画像の面積から画像及び背景の面積を引いて算出しても構わない。
翻訳文文字サイズ範囲決定部30は、文字領域占有率算出部28により算出された文字領域占有率に基づいて、文書画像に追記する翻訳文の文字サイズの範囲を決定する。翻訳文文字サイズ範囲決定部30は、文字領域占有率が増加するにつれて、翻訳文の文字サイズが小さくなるように文字サイズの範囲を決定する。以下、図5を参照しながら翻訳文文字サイズ範囲決定部30により決定される翻訳文の文字サイズの範囲を、具体例を用いて説明する。
図5には、追記される翻訳文の最大サイズ及び最小サイズと、文字領域占有率との関係を示した。図5に示されるように、文字領域占有率が第1の閾値TH1よりも小さい場合には、翻訳文の最大サイズSmaxと最小サイズSminはそれぞれ予め定められた値にそれぞれ固定されている。そして、文字領域占有率が第1の閾値TH1以上となると、Smaxは文字領域占有率が第2の閾値TH2に達するまで単調に減少し、また、Sminも同様に文字領域占有率が第2の閾値TH2に達するまで単調に減少する。図5に示された例では、文字領域占有率が第2の閾値TH2に達した場合に、SmaxとSminは共に同じ値Slimitとなる。Slimitは、文書画像に追記される文字サイズの下限値であり、この値は肉眼での視認し易さ、画像形成機能の解像度等を考慮して予め設定しておくこととしてよい。
翻訳文文字サイズ決定部32は、翻訳文文字サイズ範囲決定部30により決定された文字サイズの範囲内で、各グループの翻訳文の文字サイズを補正し、文書画像に最終的に追記する文字サイズを決定する。翻訳文文字サイズ決定部32は、翻訳文文字サイズ範囲決定部30により決定された文字サイズの範囲内に、各グループについて統一された文字サイズが収まっている場合には、文字サイズを補正せずにこの値を最終的な文字サイズと決定する。一方で、上記決定された文字サイズの範囲内に、各グループについて統一された文字サイズが収まっていない場合には、決定された文字サイズの範囲内で、各グループについて統一された文字サイズに応じて各文字サイズを調整する。図6を参照しながら、上記文字サイズの調整の一例を説明する。
図6(a)が各グループに関連付けられた文字サイズであるとし、図6(b)が決定された文字サイズの範囲であるとする。ここで、翻訳文文字サイズ決定部32は、図6(c)に示されるように、グループに関連付けられた文字サイズのうち最大のものをSmaxに、最小のものをSminに割り当て、最大と最小との間のものについては最大と最小との距離に応じて、文字サイズの範囲に割り当てることとしてよい。
翻訳文追記画像生成部34は、翻訳文文字サイズ決定部32により決定された文字サイズの翻訳文を各文章領域に配置して、翻訳文を文書画像に追記した翻訳文追記画像を生成する。追記される翻訳文は、原文と異なる色に着色することとしてもよい。
図7Aには、文字領域占有率に応じて文字サイズを補正しない場合の翻訳文追記画像の一例を、図7Bには、文字サイズを補正した場合の翻訳文追記画像の一例を示す。図7A及び図7Bとの比較から示されるように、文書において文字の量が多い場合(すなわち文字領域占有率が大きい場合)には文字サイズを補正しないと圧迫感が出て、可読性が下がるが、これを文字領域占有率に応じて補正することで圧迫感が消え、可読性が向上する。
画像形成部36は、翻訳文追記画像生成部34により生成された翻訳文追記画像を印刷用紙に画像形成して出力する。画像形成部36は、プリンタにより実現されることとしてよい。
次に、図8を参照しながら、文書画像処理装置10により行われる翻訳文追記画像を生成する処理の流れを説明する。
図8には翻訳文追記画像を生成する処理のフローチャートを示した。図8に示されるように、文書画像処理装置10は、文書画像をスキャンして読み取り(S101)、スキャンした文書画像のレイアウトを解析する(S102)。文書画像処理装置10は、文書画像について解析された文章領域を抽出して、OCR処理により各文章領域に含まれる文字を認識するとともに(S103)、文字サイズ及び行間を取得する(S104)。文書画像処理装置10は、各文章領域をその文字サイズ及び行間に基づいてグループに分類する(S105)。
文書画像処理装置10は、各文章領域について認識した文字を予め定められた言語に翻訳して(S106)、翻訳文文字列を生成するとともに、当該生成した翻訳文文字列を文章領域に配置する場合の文字サイズを算出する(S107)。文書画像処理装置10は、各グループについてそのグループの文字サイズを当該グループに分類された文章領域のうち最小の文字サイズに統一する(S108)。
文書画像処理装置10は、上記統一した文字サイズにより各文章領域に翻訳文文字列を配置した場合に、文書画像において文字列が配置可能な領域に対してどれだけの割合で文字列(原文及び翻訳文)が配置されているかを示す文字領域占有率を算出し(S109)、算出された文字領域占有率に応じて翻訳文の文字サイズの範囲を決定する(S110)。そして、文書画像処理装置10は、決定した文字サイズの範囲に応じて、各グループの文字サイズを補正して最終的な文字サイズを決定する(S111)。文書画像処理装置10は、決定した文字サイズの翻訳文を文書画像に追記した翻訳文追記画像を生成する(S112)。以上の処理が翻訳文追記画像の生成処理である。
本発明は、上述した実施形態に限定されるものではない。例えば、最小の文字サイズ(下限値の文字サイズ)の翻訳文を文章領域に配置した場合に、翻訳文と原文とが重なるような場合には、原文を削除し、翻訳文をそこに置き換えることとしてもよい。
図9には、重なりが生じた原文を翻訳文により置換した翻訳文追記文書の一例を示した。図9に示すように、置換した翻訳文は、置換した旨が利用者に分かり易いように他の部分とは異なる態様で形成することとしてよい。
また、翻訳文文字サイズ統一部26により統一された文字サイズにおいて、原文と翻訳文とに重なりが生じると判断されて原文が翻訳文により置換された場合には、文字領域占有率は、置換後のものについて算出することとしてよい。
本発明は上記の実施形態に限定されるものではなく、この分野の通常の知識を有する当業者によって多様な変更、変形又は置換が可能であることはもちろんである。
文書画像処理装置の機能ブロック図である。 文書画像の一例を示す図である。 文章領域の一例を示す図である。 文書画像に含まれる文章領域を分類したグループの一例を示す図である。 翻訳文の文字サイズの一例を示す図である。 統一された各グループの文字サイズの一例を示す図である。 翻訳文の最大サイズ及び最小サイズと、文字領域占有率との関係の一例を示す図である。 文字サイズの調整の一例を説明する図である。 文字領域占有率に応じて文字サイズを補正しない場合の翻訳文追記画像の一例を示す図である。 文字サイズを補正した場合の翻訳文追記画像の一例を示す図である。 翻訳文追記画像を生成する処理のフローチャートである。 翻訳文追記文書の一例を示す図である。
符号の説明
10 文書画像処理装置、12 画像取得部、14 レイアウト解析部、16 文字認識部、18 文字サイズ・行間取得部、20 グループ分類部、22 翻訳部、24 翻訳文文字サイズ算出部、26 翻訳文文字サイズ統一部、28 文字領域占有率算出部、30 翻訳文文字サイズ範囲決定部、32 翻訳文文字サイズ決定部、34 翻訳文追記画像生成部、36 画像形成部。

Claims (7)

  1. 文書画像を取得する取得手段と、
    前記取得手段により取得された文書画像のレイアウトに基づいて、それぞれ文字列を含む1又は複数の文章領域を設定する設定手段と、
    前記設定手段により設定される各文章領域に含まれる文字列を認識する認識手段と、
    前記各文章領域の文字サイズ及び行間に基づいて、前記各文章領域を1又は複数の群に分類する分類手段と、
    前記認識手段により認識された文字列を翻訳する翻訳手段と、
    前記分類手段により分類された群毎に前記翻訳手段により翻訳された翻訳文字列の文字サイズを決定する決定手段と、
    前記文章領域毎に当該文章領域が分類された群について前記決定手段により決定された文字サイズの翻訳文字列を配置して翻訳文追記画像を生成する生成手段と、を含む
    ことを特徴とする文書画像処理装置。
  2. 前記文章領域毎に翻訳文字列の文字サイズを算出する文字サイズ算出手段と、
    前記群毎に当該群に分類された各文章領域について前記文字サイズ算出手段により算出された文字サイズに基づいて文字サイズを統一する手段と、
    前記群毎に統一された文字サイズの翻訳文字列を前記文書画像に配置した場合に、当該文書画像において文字列が占める領域の割合を示す文字領域占有率を算出する占有率算出手段と、
    前記占有率算出手段により算出された文字領域占有率に基づいて、前記翻訳文字列の文字サイズの範囲を決定する範囲決定手段と、をさらに含み、
    前記決定手段は、前記範囲決定手段により決定された文字サイズの範囲に基づいて前記群毎に統一された文字サイズを補正して、前記群毎の文字サイズを決定する
    ことを特徴とする請求項1に記載の文書画像処理装置。
  3. 前記範囲決定手段は、前記文字領域占有率の増加に応じて、前記文字サイズの範囲の最大値を小さくする
    ことを特徴とする請求項1又は2に記載の文書画像処理装置。
  4. 前記範囲決定手段は、前記文字領域占有率の増加に応じて、前記文字サイズの範囲の最小値を小さくする
    ことを特徴とする請求項3に記載の文書画像処理装置。
  5. 前記文字サイズの範囲の最小値に予め定められた下限値を設けた
    ことを特徴とする請求項4に記載の文書画像処理装置。
  6. 前記生成手段は、前記文章領域について決定された文字サイズが前記下限値であり、かつ、当該文字サイズの翻訳文字列を配置した場合に前記文書画像に含まれる元の文字列と重なりが生じる場合に、前記元の文字列を前記翻訳文字列により置換して前記翻訳文追記画像を生成する
    ことを特徴とする請求項1乃至5のいずれかに記載の文書画像処理装置。
  7. 文書画像を取得する取得手段と、
    前記取得手段により取得された文書画像のレイアウトに基づいて、それぞれ文字列を含む1又は複数の文章領域を設定する設定手段と、
    前記設定手段により設定される各文章領域に含まれる文字列を認識する認識手段と、
    前記各文章領域の文字サイズ及び行間に基づいて、前記各文章領域を1又は複数の群に分類する分類手段と、
    前記認識手段により認識された文字列を翻訳する翻訳手段と、
    前記分類手段により分類された群毎に前記翻訳手段により翻訳された翻訳文字列の文字サイズを決定する決定手段と、
    前記文章領域毎に当該文章領域が分類された群について前記決定手段により決定された文字サイズの翻訳文字列を配置して翻訳文追記画像を生成する生成手段としてコンピュータを機能させることを特徴とするプログラム。
JP2008300001A 2008-11-25 2008-11-25 文書画像処理装置及びプログラム Expired - Fee Related JP5126018B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008300001A JP5126018B2 (ja) 2008-11-25 2008-11-25 文書画像処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008300001A JP5126018B2 (ja) 2008-11-25 2008-11-25 文書画像処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010128599A true JP2010128599A (ja) 2010-06-10
JP5126018B2 JP5126018B2 (ja) 2013-01-23

Family

ID=42328971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008300001A Expired - Fee Related JP5126018B2 (ja) 2008-11-25 2008-11-25 文書画像処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5126018B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089031A (ja) * 2010-10-21 2012-05-10 Sharp Corp 文書生成装置、文書生成方法、コンピュータプログラムおよび記録媒体
CN102592299A (zh) * 2010-11-10 2012-07-18 夏普株式会社 文件生成装置和文件生成方法
US20150131111A1 (en) * 2013-11-08 2015-05-14 Takeshi Shimazaki Image processing system, image processing method, and computer program product

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121539A (ja) * 1993-10-21 1995-05-12 Matsushita Electric Ind Co Ltd 機械翻訳装置
JP2006261821A (ja) * 2005-03-15 2006-09-28 Fuji Xerox Co Ltd 画像形成装置および画像読み取り装置
JP2006270589A (ja) * 2005-03-24 2006-10-05 Fuji Xerox Co Ltd 情報処理装置、情報処理方法、プログラムおよび記録媒体
JP2006268150A (ja) * 2005-03-22 2006-10-05 Fuji Xerox Co Ltd 翻訳を行う装置、方法、プログラムおよび該プログラムを記憶した記憶媒体
JP2006276905A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121539A (ja) * 1993-10-21 1995-05-12 Matsushita Electric Ind Co Ltd 機械翻訳装置
JP2006261821A (ja) * 2005-03-15 2006-09-28 Fuji Xerox Co Ltd 画像形成装置および画像読み取り装置
JP2006268150A (ja) * 2005-03-22 2006-10-05 Fuji Xerox Co Ltd 翻訳を行う装置、方法、プログラムおよび該プログラムを記憶した記憶媒体
JP2006270589A (ja) * 2005-03-24 2006-10-05 Fuji Xerox Co Ltd 情報処理装置、情報処理方法、プログラムおよび記録媒体
JP2006276905A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089031A (ja) * 2010-10-21 2012-05-10 Sharp Corp 文書生成装置、文書生成方法、コンピュータプログラムおよび記録媒体
CN102591846A (zh) * 2010-10-21 2012-07-18 夏普株式会社 文本生成装置和文本生成方法
US8595614B2 (en) 2010-10-21 2013-11-26 Sharp Kabushiki Kaisha Document generating apparatus, document generating method, computer program and recording medium
CN102592299A (zh) * 2010-11-10 2012-07-18 夏普株式会社 文件生成装置和文件生成方法
US9110871B2 (en) 2010-11-10 2015-08-18 Sharp Kabushiki Kaisha Correcting a document character size based on the average value of each character size
US20150131111A1 (en) * 2013-11-08 2015-05-14 Takeshi Shimazaki Image processing system, image processing method, and computer program product
CN104636740A (zh) * 2013-11-08 2015-05-20 株式会社理光 图像处理系统和图像处理方法
US9471265B2 (en) * 2013-11-08 2016-10-18 Ricoh Company, Ltd. Image processing system, image processing method, and computer program product

Also Published As

Publication number Publication date
JP5126018B2 (ja) 2013-01-23

Similar Documents

Publication Publication Date Title
JP4483909B2 (ja) 翻訳装置及びプログラム
US8170862B2 (en) Document image processing device and document image processing program for maintaining layout in translated documents
US20060285748A1 (en) Document processing device
US11574489B2 (en) Image processing system, image processing method, and storage medium
JP2020173808A (ja) ページ記述言語ジョブの解析によるニューラルネットワーク用光学式文字認識トレーニングデータの生成
JP6665498B2 (ja) 情報処理装置、画像処理システム及びプログラム
CN105320933A (zh) 电子文档生成系统以及电子文档生成装置
JP2006107032A (ja) 画像処理装置および方法
JP2011084039A (ja) 画像形成装置および画像形成システム
JP5126018B2 (ja) 文書画像処理装置及びプログラム
JP4943354B2 (ja) 情報識別装置、情報識別方法、プログラム及び記録媒体
JP2010218249A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5049922B2 (ja) 画像処理装置及び画像処理方法
US11496635B2 (en) Information processing system for obtaining read data of handwritten characters, training a model based on the characters, and producing a font for printing using the model
JP2009147562A (ja) 画像処理装置、方法、並びにプログラム
JP2006279107A (ja) 画像処理装置及び画像処理方法
US9215344B2 (en) Image forming apparatus, image processing apparatus, image forming method, image processing method, and non-transitory computer readable medium
US10706337B2 (en) Character recognition device, character recognition method, and recording medium
JP2010004141A (ja) 画像処理装置
CN114996219A (zh) 编码文件生成方法、装置、图像形成设备及存储介质
JP2023030811A (ja) 情報処理装置、抽出処理装置、画像処理システム、情報処理装置の制御方法、及びプログラム
JP5821994B2 (ja) 画像処理装置、画像形成装置およびプログラム
US10063728B2 (en) Information processing apparatus, image reading apparatus, information processing method, and non-transitory computer readable medium
JP2009080727A (ja) 翻訳装置及びプログラム
JP2019121870A (ja) 画像処理装置とその制御方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5126018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees