JP2011193173A - 画像処理装置、プログラム及び記録媒体 - Google Patents
画像処理装置、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2011193173A JP2011193173A JP2010056765A JP2010056765A JP2011193173A JP 2011193173 A JP2011193173 A JP 2011193173A JP 2010056765 A JP2010056765 A JP 2010056765A JP 2010056765 A JP2010056765 A JP 2010056765A JP 2011193173 A JP2011193173 A JP 2011193173A
- Authority
- JP
- Japan
- Prior art keywords
- word
- image
- processing apparatus
- image processing
- pixel value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】白地以外に印刷された原画像の再現性と訳語の判読性を両立させること
【解決手段】スキャナ101が読み取った画像情報から、文字列で構成される単語を切り出し、切り出した単語に対応する訳語を、原画像中の単語に関連づけた位置に埋め込んだ第1のファイルを生成する。第1のファイルを生成する場合は、前記訳語を埋め込まない第2のファイルを生成する場合に比べて、前記画像読取手段から出力される画像データの低濃度部の画素値を大きくすることで、ハイライト部分を暗くして訳語を見やすくする。
【選択図】図1
【解決手段】スキャナ101が読み取った画像情報から、文字列で構成される単語を切り出し、切り出した単語に対応する訳語を、原画像中の単語に関連づけた位置に埋め込んだ第1のファイルを生成する。第1のファイルを生成する場合は、前記訳語を埋め込まない第2のファイルを生成する場合に比べて、前記画像読取手段から出力される画像データの低濃度部の画素値を大きくすることで、ハイライト部分を暗くして訳語を見やすくする。
【選択図】図1
Description
本発明は、画像処理装置、プログラム及び記録媒体に関する。
MFP(多機能型プリンタ)においては、従来からスキャンした原画像を指定されたファイルフォーマットでラップし、ファイルとして出力する機能(以下、単純スキャン機能と呼ぶ)が広く用いられている。この単純スキャン機能は、原画像を忠実に再現することが望まれるため、典型的には、原画像のハイライト部からダーク部までを均一に再現するものとなっている。
ところで、最近では、スキャンした原画像に訳語を付加してからファイルフォーマットでラップし、ファイルとして出力するようなアプリケーションが考案されている。以下、これについて説明する。
外国語の文章を読む場合、ある単語の意味が分からないために読み進めることができないといったことが起こる。この場合は、辞書を引いてその単語の意味を知り、読み進めることになる。しかし、辞書を引くのは手間がかかり読み進めることは容易ではないことは誰でも経験するところである。
外国語の文章を読む場合、ある単語の意味が分からないために読み進めることができないといったことが起こる。この場合は、辞書を引いてその単語の意味を知り、読み進めることになる。しかし、辞書を引くのは手間がかかり読み進めることは容易ではないことは誰でも経験するところである。
そこで、外国語で記述された文章を自動的に翻訳して出力する対訳複写機のような装置があれば便利であるが、そのような対訳複写機の一例として、例えば、特許文献1に記載された「翻訳複写装置」が既に知られている。
この翻訳複写装置では、第1に、画像読取手段が原画像をスキャンし、第2に、識別手段が読み取った原画像を絵柄情報と文字情報として識別し、第3に、翻訳手段が文字情報について文字毎に認識し、更にその内容を他言語に翻訳して「原画像と共に」翻訳画像を出力するように構成されている。つまり、上記「翻訳複写装置」によれば、原画像の複写画像と共に文字情報に関する翻訳画像が得られるので辞書を引く手間を省くことができる。
この翻訳複写装置では、第1に、画像読取手段が原画像をスキャンし、第2に、識別手段が読み取った原画像を絵柄情報と文字情報として識別し、第3に、翻訳手段が文字情報について文字毎に認識し、更にその内容を他言語に翻訳して「原画像と共に」翻訳画像を出力するように構成されている。つまり、上記「翻訳複写装置」によれば、原画像の複写画像と共に文字情報に関する翻訳画像が得られるので辞書を引く手間を省くことができる。
ここで、上記「原画像と共に」翻訳画像を出力する場合の典型的な例は、当該単語の直下または直上に、ルビのような形で訳語を配置する態様である。また、その訳語については、原画像中の文字の判読性を損なわないように、原画像の文字よりも小さめの大きさとしかつ色も薄めとすることが一般的である。
こうした、ルビのような態様の長所は、外国語の文章の原レイアウト(挿絵も含む)を維持したまま、訳語を付加できることである。最近では、この長所を生かして、スキャンした原画像に前記訳語を付加した状態でファイルフォーマットでラップし、ファイルとして出力する機能(以下、単訳スキャン機能と呼ぶ)が考案されている。
こうした、ルビのような態様の長所は、外国語の文章の原レイアウト(挿絵も含む)を維持したまま、訳語を付加できることである。最近では、この長所を生かして、スキャンした原画像に前記訳語を付加した状態でファイルフォーマットでラップし、ファイルとして出力する機能(以下、単訳スキャン機能と呼ぶ)が考案されている。
図21は、単訳スキャン機能で生成した訳語付きファイルを表示した例であり、原画像の単語の上に訳語が表示されている。また、図22は、訳語付きファイルの内部構成を示したものであり、スキャンで生成された画像データレイヤと、単語訳を埋め込んだテキストデータのレイヤの2つのレイヤから成り立っている。
こうした、スキャン画像のレイヤに対してテキストデータのレイヤを加える例は、所謂サーチャブルPDF(Portable Document Format)として広く知られており、テキストデータのレイヤは、可視にしたり非可視にしたりすることが可能である。
こうした、スキャン画像のレイヤに対してテキストデータのレイヤを加える例は、所謂サーチャブルPDF(Portable Document Format)として広く知られており、テキストデータのレイヤは、可視にしたり非可視にしたりすることが可能である。
ところで、上記2つのスキャン機能は、ともに原画像を忠実に再現するのが基本であるが、単純スキャン機能が均一な再現を基本とするのに対し、単訳スキャン機能の場合は、均一では不都合な場合がある。例えば、最近の文書は必ずしも真っ白な地に対してプリントされている場合だけでなく、色地の上にプリントされていることがある。この場合に、原画像中の文字よりも小さめの大きさかつ薄めの色で訳語を配置すると、前記色地が邪魔になって見難くなることがある。
本発明は、上記従来の問題を回避するためなされたものであって、スキャナで読み取った原画像中の単語に対応する訳語を前記単語の位置に関連付けて印刷する際に、前記単語が、原画像が印刷された用紙の地肌の影響を受けて見難くならないようにすることである。
請求項1の発明は、画像情報を読み取る画像読取手段と、前記画像読取手段が読み取った画像情報から、文字列で構成される単語を切り出す単語切出手段と、切り出した単語に対応する訳語を、原画像中の単語に関連づけた位置に埋め込んだ状態の第1のファイルを生成する手段と、前記訳語を埋め込まない状態の第2のファイルを生成する手段とを有する画像処理装置において、第1のファイルを生成する場合に、前記第2のファイルを生成する場合に比べて、前記画像読取手段から出力される画像データの低濃度部の画素値を大きくする画素値補正手段を有することを特徴とする画像処理装置である。
請求項2の発明は、請求項1に記載された画像処理装置において、前記画素値補正手段は、埋め込む対訳語の表示色の濃度或いは彩度、或いはフォントサイズが小さいほど、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置である。
請求項3の発明は、請求項1に記載された画像処理装置において、前記埋め込む対訳語を分類し、前記分類毎に前記埋め込む対訳語の表示色の濃度あるいは彩度を変える濃度又は彩度変更手段を有し、前記画素値補正手段は、前記表示色の濃度或いは彩度の最低値に基づいて、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置である。
請求項4の発明は、請求項1に記載された画像処理装置において、前記埋め込む対訳語を分類し、前記分類毎に前記埋め込む対訳語の表示色の濃度或いは彩度を変える濃度又は彩度変更手段を有し、前記画素値補正手段は、フォントサイズの大きさの最小値に基づいて、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置である。
請求項5の発明は、請求項1ないし4のいずれかに記載された画像処理装置のコンピュータを、前記画像処理装置の前記画像読取手段以外の各手段として機能させるためのプログラムである。
請求項6の発明は、請求項5に記載されたプログラムを記録したコンピュータ読取可能な記録媒体である。
請求項2の発明は、請求項1に記載された画像処理装置において、前記画素値補正手段は、埋め込む対訳語の表示色の濃度或いは彩度、或いはフォントサイズが小さいほど、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置である。
請求項3の発明は、請求項1に記載された画像処理装置において、前記埋め込む対訳語を分類し、前記分類毎に前記埋め込む対訳語の表示色の濃度あるいは彩度を変える濃度又は彩度変更手段を有し、前記画素値補正手段は、前記表示色の濃度或いは彩度の最低値に基づいて、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置である。
請求項4の発明は、請求項1に記載された画像処理装置において、前記埋め込む対訳語を分類し、前記分類毎に前記埋め込む対訳語の表示色の濃度或いは彩度を変える濃度又は彩度変更手段を有し、前記画素値補正手段は、フォントサイズの大きさの最小値に基づいて、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置である。
請求項5の発明は、請求項1ないし4のいずれかに記載された画像処理装置のコンピュータを、前記画像処理装置の前記画像読取手段以外の各手段として機能させるためのプログラムである。
請求項6の発明は、請求項5に記載されたプログラムを記録したコンピュータ読取可能な記録媒体である。
本発明によれば、スキャナで読み取った原画像中の単語に対応する訳語を前記単語の位置に関連付けて印刷する際に、前記単語が、原画像が印刷された用紙の地肌の影響を受けることがなく、したがって見難くなることがない。
本発明の画像処理装置をその実施形態について図面を参照して説明する。
図1Aは、本発明の実施形態に係る画像処理装置の構成を概略的に示したブロック図であり、図1BはCPUの内部構造を示すブロック図である。
本画像処理装置10は、原稿画像を読み取る画像読取手段であるスキャナ101、入力画像メモリ102、出力される埋め込みテキストを記憶する出力テキストメモリ103、文字認識に使用するデータが格納されている認識辞書メモリ104、単語とその単語に対応する訳語および訳語の出力属性(出力する際の色およびサイズが規定された属性)が格納されている訳語辞書メモリ105、画像処理装置全体の制御を実行するCPU106、制御プログラムが格納されているROM107、制御プログラムが一時的に使用するRAM108、読み取った画像を記憶する入力画像メモリであるハードディスク(HDD)109、スタート、ストップ等の指示を与える操作パネル110、上記各機器間のデータのやりとりを行う内部システム・バス111等により構成されている。
図1Aは、本発明の実施形態に係る画像処理装置の構成を概略的に示したブロック図であり、図1BはCPUの内部構造を示すブロック図である。
本画像処理装置10は、原稿画像を読み取る画像読取手段であるスキャナ101、入力画像メモリ102、出力される埋め込みテキストを記憶する出力テキストメモリ103、文字認識に使用するデータが格納されている認識辞書メモリ104、単語とその単語に対応する訳語および訳語の出力属性(出力する際の色およびサイズが規定された属性)が格納されている訳語辞書メモリ105、画像処理装置全体の制御を実行するCPU106、制御プログラムが格納されているROM107、制御プログラムが一時的に使用するRAM108、読み取った画像を記憶する入力画像メモリであるハードディスク(HDD)109、スタート、ストップ等の指示を与える操作パネル110、上記各機器間のデータのやりとりを行う内部システム・バス111等により構成されている。
CPU106は、図1Bに示すようにプログラムによって実現される機能実現手段として、例えば、スキャナ101が読み取った画像情報から、文字列で構成される単語を切り出す単語切出手段106aと、単語と当該単語に対応する訳語とを記憶する単語辞書データと、原画像中の単語に関連づけた位置に訳語を埋め込んだ状態の第1のファイルを生成するファイル生成手段(1)106bと、前記訳語を埋め込まない状態の第2のファイルを生成するファイル生成手段(2)106cと、第1のファイルを生成する場合に、前記第2のファイルを生成する場合に比べて、前記画像読取手段から出力される画像データの低濃度部の画素値を大きくする画素値補正手段106dと、前記埋め込む対訳語を分類し、前記分類毎に表示色の濃度あるいは彩度を変える濃度/彩度変更手段106eを備えている。
図2は、本画像処理装置におけるファイルフォーマットの構成を示したものであり、ファイルフォーマットのバージョンを示すヘッダ120に続き、画像データレイヤ121、訳語レイヤ122が格納されている。画像データレイヤ121は、画像の符号そのもののみから成り、画像圧縮方式としては、従来周知のJPEG(Joint Photographic Experts Group)を採用している。
以上の構成において、図3は、CPU106によるスキャナ処理の手順を示すフロー図である。
単訳PDF生成のように訳語レイヤ122としてルビレイヤの生成を行う場合には、最初から埋め込み用原稿読取処理が行われ、単純なPDFを生成する場合には、最初から通常原稿読取処理が行われる。
即ち、ルビレイヤの生成を行うときは(S101、Yes)、スキャナ101でレイヤへの埋め込み用原稿を読み取り(S102)、読み取った原稿の認識処理を行う(S103)。原稿の認識処理を行った後、認識された原稿の訳語辞書検索処理を行い(S104)、次に、原稿のテキストにルビを振るためのルビレイヤ生成処理を行う(S105)。最後に原画像を指定されたファイルフォーマットでラップするファイルフォーマットラップ処理を行う(S106)。
単訳PDF生成のように訳語レイヤ122としてルビレイヤの生成を行う場合には、最初から埋め込み用原稿読取処理が行われ、単純なPDFを生成する場合には、最初から通常原稿読取処理が行われる。
即ち、ルビレイヤの生成を行うときは(S101、Yes)、スキャナ101でレイヤへの埋め込み用原稿を読み取り(S102)、読み取った原稿の認識処理を行う(S103)。原稿の認識処理を行った後、認識された原稿の訳語辞書検索処理を行い(S104)、次に、原稿のテキストにルビを振るためのルビレイヤ生成処理を行う(S105)。最後に原画像を指定されたファイルフォーマットでラップするファイルフォーマットラップ処理を行う(S106)。
ルビレイヤ生成を行わないときは(S101、No)、通常の原稿読み取りを行い(S107)、次に、原画像を指定されたファイルフォーマットでラップするファイルフォーマットラップ処理を行う(S106)。
図4は、本画像処理装置(CPU106)による通常の原稿読取処理手順を示すフロー図であり、まず、スキャナ101でスキャンを行い(S201)、その後、スキャナからの出力はA/D変換され(S202)、その後、周知のシェーディング補正(S203)が行われる。
これに対し、図5は、本画像処理装置(CPU106)による埋め込み用原稿読取処理手順を示すフロー図である。シェーディング補正までの動作(S301〜S303)は通常原稿読取処理(S201〜S203)と同じであるが、その後CPU106(画素値補正手段106d)により埋め込みファイル用γ補正(S304)が行われる。
図6は、横軸に入力画素値、縦軸に出力画素値を取って、画素値補正手段106dによる埋め込みファイル用γ補正の実施形態(第1実施形態の1)を示したものであり、RGBの各々に対して図示したγ補正がなされる。本処理は、ハイライト部をより薄く出力することで、原稿の地の影響を低減し、訳語の判読性を向上させるためである。γ補正後の画像データは、JPEG方式で圧縮される。
図7は、横軸に入力画素値、縦軸に出力画素値を取って、画素値補正手段106dによる埋め込みファイル用γ補正の別の実施形態(第1実施形態の2)を示したものである。図6に示す実施形態では、ハイライト部のみの画素値を大きく補正したが、ハイライト〜シャドー全域での階調性を考えた場合には、図7に示すようなγ補正を行うことが好ましい。即ち、画像読み取り手段から出力される画素値に関し、低濃度部から高濃度部における画素値を大きく出力するが、その大きくする程度が、高濃度部に比べ低濃度において大きいことが特徴である。
この場合も、γ補正後の画像データは、同様にJPEG方式で圧縮される。
この場合も、γ補正後の画像データは、同様にJPEG方式で圧縮される。
その後、ルビレイヤの生成を行う場合には、後述する原稿認識、訳語辞書検索、ルビレイヤ生成処理、最後に、これらのレイヤをファイルフォーマットでラップする処理が行われる。一方、ルビレイヤの生成を行わない場合には、単純にファイルフォーマットでラップする処理が行われる。
図8は、CPU106による、第2実施形態(埋め込みレイヤの文字の彩度又は濃度に応じたγ補正)、第3実施形態(フォントサイズに応じたγ補正)の処理の手順を示したフロー図である。
第2及び第3実施形態においては、最初に通常の原稿読取処理が行われる(S401)。続いて、単訳PDF生成のように、ルビレイヤの生成を行う場合には(S402、Yes)、原稿認識処理(S403)、訳語辞書検索処理(S404)を行った後、そのファイル生成手段(1)106bによりルビレイヤの生成処理を行い(S405)、画素値補正手段106dにより、生成するルビの濃度や大きさ等に応じて、通常の原稿読取処理の結果に対して埋め込みファイル用γ補正が行われ(S406)、原画像を指定されたファイルフォーマットでラップするファイルフォーマットラップ処理を行う(S407)。補正後の画像データはJPEG方式で圧縮される。
一方、単純なPDFを生成する場合には、特段のγ補正は行われずに、JPEG方式で圧縮される。
第2及び第3実施形態においては、最初に通常の原稿読取処理が行われる(S401)。続いて、単訳PDF生成のように、ルビレイヤの生成を行う場合には(S402、Yes)、原稿認識処理(S403)、訳語辞書検索処理(S404)を行った後、そのファイル生成手段(1)106bによりルビレイヤの生成処理を行い(S405)、画素値補正手段106dにより、生成するルビの濃度や大きさ等に応じて、通常の原稿読取処理の結果に対して埋め込みファイル用γ補正が行われ(S406)、原画像を指定されたファイルフォーマットでラップするファイルフォーマットラップ処理を行う(S407)。補正後の画像データはJPEG方式で圧縮される。
一方、単純なPDFを生成する場合には、特段のγ補正は行われずに、JPEG方式で圧縮される。
本画像処理装置(CPU106)の濃度/彩度変更手段106eは、前記埋め込む対訳語を分類し、前記分類毎に表示色の濃度あるいは彩度を変える機能を有しているので、この濃度/彩度変更手段106eにより変更した対訳語の表示色の濃度あるいは彩度に応じた画素値の補正について説明する。
図9は、第2実施形態の1、但し埋め込みレイヤの文字の彩度に応じたγ補正を表す入力画素値と出力画素値との関係を示す図である。
本実施形態では、埋め込みレイヤのテキストの彩度が全て閾値以上である場合には、通常の彩度であるとして、通常の原稿読取処理の結果(=画像データ)に対して破線で示したγ補正がなされ、そうでない場合には、画素値補正手段106dにより、低彩度テキスト用の実線で示したγ補正がなされる。低彩度テキスト用のγ補正の方が、通常彩度のそれよりも、ハイライト部の出力画素値を大きくしている。
図9は、第2実施形態の1、但し埋め込みレイヤの文字の彩度に応じたγ補正を表す入力画素値と出力画素値との関係を示す図である。
本実施形態では、埋め込みレイヤのテキストの彩度が全て閾値以上である場合には、通常の彩度であるとして、通常の原稿読取処理の結果(=画像データ)に対して破線で示したγ補正がなされ、そうでない場合には、画素値補正手段106dにより、低彩度テキスト用の実線で示したγ補正がなされる。低彩度テキスト用のγ補正の方が、通常彩度のそれよりも、ハイライト部の出力画素値を大きくしている。
図10は、第2実施形態の2、但し埋め込みレイヤの文字の濃度に応じたγ補正の例を示したものである。
濃度と輝度は負の相関関係にあるため、本実施形態では、濃度の代わりの輝度を用いる。図10に示す第2実施形態では、埋め込みレイヤのテキストの輝度が全て閾値以下である場合には、通常の輝度であるとして、通常の原稿読取処理の結果(=画像データ)に対して破線で示したγ補正がなされ、そうでない場合には、画素値補正手段106dにより、高輝度(=低濃度)テキスト用の実線で示したγ補正がなされる。高輝度(=低濃度)テキスト用のγ補正の方が、通常輝度のそれよりも、ハイライト部の出力画素値を大きくしている。
濃度と輝度は負の相関関係にあるため、本実施形態では、濃度の代わりの輝度を用いる。図10に示す第2実施形態では、埋め込みレイヤのテキストの輝度が全て閾値以下である場合には、通常の輝度であるとして、通常の原稿読取処理の結果(=画像データ)に対して破線で示したγ補正がなされ、そうでない場合には、画素値補正手段106dにより、高輝度(=低濃度)テキスト用の実線で示したγ補正がなされる。高輝度(=低濃度)テキスト用のγ補正の方が、通常輝度のそれよりも、ハイライト部の出力画素値を大きくしている。
図11は、第3実施形態である埋め込みレイヤの文字のサイズに応じたγ補正の例を横軸に入力画素値、縦軸に出力画素値を取って示したものである。図11の例では、埋め込みレイヤのフォントサイズが全て閾値以上(例えば8ポイント以上)である場合には、通常のフォントサイズであるとして、通常の原稿読取処理の結果(=画像データ)に対して破線で示したγ補正がなされ、そうでない場合には、画素値補正手段106dにより、小フォント用の実線で示したγ補正がなされる。小フォント用のγ補正の方が、通常フォントのそれよりも、ハイライト部の出力画素値を大きくしている。
図12は、本画像処理装置(CPU106)による原稿認識処理の手順を示すフロー図である。原稿認識処理は、まず初めに段組認識を実行する(S501)。段組認識は、主走査方向及び副走査方向共に、読取画像データの文字が存在しない部分(白領域)が一定間隔以上存在した場合を段の区切りとして認識する。
次に、段組位置認識を実行する(S502)。段組位置認識は、スキャナにより読み取られ、入力画像メモリ102に保存されている画像情報に、画素単位で座標を与え、認識された段組が画像中に占める座標を求める。例えば、図13に示した原稿中の「1.0 Introduction」で始まる段組を例に採ると、図13に示すように「1.0 Introduction」で始まる段組が完全に含まれる長方形の領域(所謂外接矩形)を求め、その領域の左上の座標(bsx、bsy)と右下の座標(bex、bey)を認識する。
次に、段組位置認識を実行する(S502)。段組位置認識は、スキャナにより読み取られ、入力画像メモリ102に保存されている画像情報に、画素単位で座標を与え、認識された段組が画像中に占める座標を求める。例えば、図13に示した原稿中の「1.0 Introduction」で始まる段組を例に採ると、図13に示すように「1.0 Introduction」で始まる段組が完全に含まれる長方形の領域(所謂外接矩形)を求め、その領域の左上の座標(bsx、bsy)と右下の座標(bex、bey)を認識する。
次に、行認識を実行する(S503)。行認識は認識された段組ごとに行い、副走査方向に、読取画像データの文字が存在しない部分(白領域)が一定間隔以上存在した場合を行の区切りとして認識する。
次に、行位置認識を実行する(S504)。行位置認識は、上記同様、入力画像メモリに保存されている画像情報に、画素単位で座標を与え、認識された行が画像中に占める座標を求める。例えば、図13に示した原稿中の「RICOH Corporation」で始まる行を例にすると、図14に示すように「RICOH Corporation」で始まる行が完全に含まれる長方形の領域(所謂外接矩形)を求め、その領域の左上の座標(lsx、lsy)と右下の座標(lex、ley)を認識する。
次に、行位置認識を実行する(S504)。行位置認識は、上記同様、入力画像メモリに保存されている画像情報に、画素単位で座標を与え、認識された行が画像中に占める座標を求める。例えば、図13に示した原稿中の「RICOH Corporation」で始まる行を例にすると、図14に示すように「RICOH Corporation」で始まる行が完全に含まれる長方形の領域(所謂外接矩形)を求め、その領域の左上の座標(lsx、lsy)と右下の座標(lex、ley)を認識する。
次に、文字認識を実行する(S505)。文字認識アルゴリズムは公知のテンプレートマッチングを利用する。認識辞書メモリには、文字認識に使用するテンプレートデータが格納されている。
次に、文字認識で認識された文字から単語抽出を実行する(S506)。単語抽出は行毎に行い、主走査方向に読取画像データの文字が存在しない部分(白領域)が一定間隔以上存在した場合、また空白文字、句読点等の区切記号が存在した場合を単語の区切りとして抽出する。
次に、文字認識で認識された文字から単語抽出を実行する(S506)。単語抽出は行毎に行い、主走査方向に読取画像データの文字が存在しない部分(白領域)が一定間隔以上存在した場合、また空白文字、句読点等の区切記号が存在した場合を単語の区切りとして抽出する。
次に、単語位置認識を実行する(S507)。単語位置認識は、上記同様、入力画像メモリに保存されている画像データに、画素単位で座標を与え、認識された単語が画像中に占める座標を求める。例えば、図14に示した原稿中の「RICOH」という単語を例にすると、図15に示すように「RICOH」が完全に含まれる長方形の領域(所謂外接矩形)を求め、その領域の左上の座標(wsx、wsy)と右下の座標(wex、wey)を認識する。
以上の原稿認識処理に続いて、図16に示す訳語辞書検索処理が行われる。訳語辞書検索は、初めに、前述の単語抽出処理により抽出され記憶されている単語を一つ読み出す認識単語読み出しを実行する(S601)。次に、語尾変化検査により読み出された単語に活用に伴う語尾変化が起きているか否かを検査する(S602)。語尾変化があった場合は(S603、Yes)、品詞特定によりその単語の品詞を特定する(S604)。例えば、語尾変化として“s”が付いている場合は、複数形になり得る品詞と判定し名詞と特定する。また、“ed”が付いていた場合は、過去形になり得る品詞と判定し動詞と特定する。語尾変化があった場合は、さらに原形取得により、その単語の原形を取得する(S605)。
次に、辞書検索を実行する(S606)。即ち、検索の対象となる訳語辞書メモリ105には、予め単語とその単語に対応する訳語がペアで登録されており、また、各単語毎に出力属性も登録されている。例えば、“play”という単語は、訳語辞書メモリ内において、次のように登録されている。
play〔動〕遊ぶ;〜する;演奏する〔名〕遊び
これは、第一優先品詞が動詞で、そのときの訳語が「遊ぶ」、「〜する」、「演奏する」を表し、第二優先品詞が名詞で、そのときの訳語が「遊び」であることを表す。本実施形態では、品詞特定で動詞と特定されれば、3つの訳語のうち最初の「遊ぶ」が読み出され、名詞と特定されれば「遊び」が読み出される。
play〔動〕遊ぶ;〜する;演奏する〔名〕遊び
これは、第一優先品詞が動詞で、そのときの訳語が「遊ぶ」、「〜する」、「演奏する」を表し、第二優先品詞が名詞で、そのときの訳語が「遊び」であることを表す。本実施形態では、品詞特定で動詞と特定されれば、3つの訳語のうち最初の「遊ぶ」が読み出され、名詞と特定されれば「遊び」が読み出される。
次に、辞書に存在するか否かを検査し(S607)、存在すれば(S607、Yes)、出力属性が参照される(S608)。ここで、出力属性は、その単語に対応する訳語を実際に出力する際の色およびサイズが規定された属性であり、本実施形態では、簡単な分類に属する単語の場合、標準の色(例えば(RGB)=(0、0、255))よりも彩度が低い色(例えば(RGB)=(0、0、200))または標準サイズよりも2ポイント小さいサイズで出力を行うという属性が規定されている。
以上の訳語辞書メモリ105内の単語と、前記認識単語読み出しにより読み出された単語を、1文字ずつ比較し、全ての文字が一致する単語が存在するか否かを判断(パターンマッチング)する。全ての文字が一致する単語が存在した場合は、目的の単語が辞書に登録されていることになる。
以上の訳語辞書メモリ105内の単語と、前記認識単語読み出しにより読み出された単語を、1文字ずつ比較し、全ての文字が一致する単語が存在するか否かを判断(パターンマッチング)する。全ての文字が一致する単語が存在した場合は、目的の単語が辞書に登録されていることになる。
このように、目的の単語が訳語辞書に存在する場合には、前記出力属性が参照され、該属性および当該単語の位置(図15の2点の座標)を付けた状態で訳語・属性・位置記憶が行われる(S609)。即ち、ステップS609の「訳語・属性・位置記憶」では、品詞特定結果に応じた単語の訳語と、当該単語の出力属性と、当該単語について認識された位置を出力テキストメモリ103に記憶する。
なお、ステップS603で、語尾変化がなければ(S603、No)、辞書に存在するか否か検査し(S607)、辞書に存在すれば(S607、Yes)既に述べたステップS608以下の処理を行い、存在しなければ(S607、No)処理を終了する。
なお、ステップS603で、語尾変化がなければ(S603、No)、辞書に存在するか否か検査し(S607)、辞書に存在すれば(S607、Yes)既に述べたステップS608以下の処理を行い、存在しなければ(S607、No)処理を終了する。
訳語辞書検索処理の後には、ルビレイヤ生成処理が行われる。ルビレイヤは、複数の訳語オブジェクトの集合からなり、1つの訳語オブジェクトは図17に示す要素から成る。
即ち、訳語オブジェクトは、訳語開始識別子と訳語終了識別子との間に挟まれた、オペランドとオペコードから構成されており、本実施形態ではオペランドにはフォントオペレータTf、色オペレータrg、配置オペレータTd、テキストオペレータTjがある。
即ち、訳語オブジェクトは、訳語開始識別子と訳語終了識別子との間に挟まれた、オペランドとオペコードから構成されており、本実施形態ではオペランドにはフォントオペレータTf、色オペレータrg、配置オペレータTd、テキストオペレータTjがある。
図18は、訳語オブジェクトの具体例であり、オペランド、フォントオペレータTfに対してはオペコード、フォント番号とフォントサイズが指定される。本実施形態では、/F1(フォント番号1番)は明朝体を指し、/F2(フォント番号2番)はゴシック体を示す。8はフォントサイズである。
色オペレータrgに対しては、訳語の色としてRGB各々の画素値を順に指定可能であり、255 0 0は赤を示す。
配置オペレータTdに対しては、720dpiに換算した場合の、訳語を配置する外接矩形の左上の座標(図15では(wsx、wsy))を指定する。座標の原点は紙の左上である。但し、本実施形態における訳語は、単語よりも上の位置(y座標が小さい位置)に配置し、具体的には図19に示す通りである。
色オペレータrgに対しては、訳語の色としてRGB各々の画素値を順に指定可能であり、255 0 0は赤を示す。
配置オペレータTdに対しては、720dpiに換算した場合の、訳語を配置する外接矩形の左上の座標(図15では(wsx、wsy))を指定する。座標の原点は紙の左上である。但し、本実施形態における訳語は、単語よりも上の位置(y座標が小さい位置)に配置し、具体的には図19に示す通りである。
テキストオペレータTjに対しては、()内に、訳語として配置するテキストを指定することが可能であり、図18の例では、要旨という訳語が指定されている。
なお、訳語オブジェクトが複数ある場合には、続く訳語オブジェクト内でフォントまたは色についてのオペランドおよびオペコードを省略することが可能である。省略された場合は、直前の訳語オブジェクトの値が適用される。
なお、訳語オブジェクトが複数ある場合には、続く訳語オブジェクト内でフォントまたは色についてのオペランドおよびオペコードを省略することが可能である。省略された場合は、直前の訳語オブジェクトの値が適用される。
また、本実施形態においては、ルビ的に配置する訳語のフォントサイズの最小値、濃度や輝度の最小値が問題となるため、図20の、ルビレイヤ生成処理時には、上記最小値が保持される。つまり、訳語・属性・位置読み出しを行い(S701)、次に図12に示す方法で配置位置を算出し(S702)、図12の形式で訳語オブジェトを生成し(S703)、読み出した属性中のフォントサイズ(または濃度または彩度)が最小であれば(S704、Yes)、その最小値を保持して(S705)、また、ステップ704で読み出した属性中のフォントサイズ(または濃度または彩度)が最小でなければそのままルビレイヤを生成し、それぞれ次の訳語・属性・位置の処理に移る(S706)。
上記のサイズや濃度、輝度の最小値については、図8におけるステップS406の「埋め込みファイル用γ補正」では、その最小値に応じて、図9〜11に示したγ補正がなされる。
図20の処理において、濃度を算出する場合には、既に述べたように濃度と輝度は負の相関関係にあるため、簡易的に輝度の値で代用することができる。
本実施形態における輝度Yの算出式は、最も簡易なY=(R+2G+B)/4、或いは、Y=0.299×R+0.587×G+0.144×B、を用いることができる。
例えば輝度が64以上の場合に、輝度が通常より高い(濃度が薄い)と判定して、図10の実線のγ補正が適用されるようにすればよい。
本実施形態における輝度Yの算出式は、最も簡易なY=(R+2G+B)/4、或いは、Y=0.299×R+0.587×G+0.144×B、を用いることができる。
例えば輝度が64以上の場合に、輝度が通常より高い(濃度が薄い)と判定して、図10の実線のγ補正が適用されるようにすればよい。
輝度同様、彩度自体の定義もいくつか存在するが、図20において彩度を算出する場合は、本実施形態においては、HSV表色系(Hue、Saturation、Value of Brightness)のS(彩度:Saturation)を用いることができる。
RGBの各画素値の最大値、最小値をmax、minとすると、本実施形態でのSはS =255*(max-min)/max、で算出され、例えばSが168以下の場合に、彩度が通常より低いと判定して、図9の実線のγ補正が適用されるようにすればよい。
あるいは、より精度の良い算出法としては、RGB値を周知のsRGB(standardRGB)値に換算し、sRGB値をXYZ値に変換し、XYZ値をL*a*b*値に変換し、最終的に √(a*2+b*2)を彩度とすればよい。
例えば、√(a*2+b*2)が40未満の場合に彩度が通常より低いと判定して、図9の実線のγ補正が適用されるようにすればよい。
RGBの各画素値の最大値、最小値をmax、minとすると、本実施形態でのSはS =255*(max-min)/max、で算出され、例えばSが168以下の場合に、彩度が通常より低いと判定して、図9の実線のγ補正が適用されるようにすればよい。
あるいは、より精度の良い算出法としては、RGB値を周知のsRGB(standardRGB)値に換算し、sRGB値をXYZ値に変換し、XYZ値をL*a*b*値に変換し、最終的に √(a*2+b*2)を彩度とすればよい。
例えば、√(a*2+b*2)が40未満の場合に彩度が通常より低いと判定して、図9の実線のγ補正が適用されるようにすればよい。
なお、輝度の代わりに明度(明度も濃度と負の相関関係にある)を用いる場合は、ここでのLの値を用いることも可能である。また、以上の例で用いた閾値は例に過ぎず、固定値としておくことも、ユーザによって指定可能にしておくことも可能である
本発明の実施形態によれば、(1)訳語の表示色を考慮して、或いは(2)訳語の表示色の濃度或いは彩度の最低値を考慮して、或いは(3)表示サイズの最小値を考慮して、それぞれ原画像の再現性と訳語の判読性を両立させることができる。
以上本発明の実施形態に係る画像処理装置について説明したが、上記画像処理装置における各機能を実施する手段、例えば、前記画像読取手段が読み取った画像情報から、文字列で構成される単語を切り出す単語切出手段、単語と該単語に対応する訳語とを記憶する単語辞書データと、原画像中の単語に関連づけた位置に訳語を埋め込んだ状態の第1のファイルを生成する手段、前記訳語を埋め込まない状態の第2のファイルを生成する手段、画像読取手段から出力される画像データの低濃度部の画素値を大きくする手段、埋め込む対訳語を分類し、前記分類毎に表示色の濃度あるいは彩度を変える手段は、画像処理装置のコンピュータにプログラムを読み取らせて実行することにより実現される。
また、上記プログラムは、周知のコンピュータ読取可能な記録媒体に記録される。
また、上記プログラムは、周知のコンピュータ読取可能な記録媒体に記録される。
10・・・画像処理装置、101・・・スキャナ、102・・・入力画像メモリ、103・・・出力テキストメモリ、104・・・認識辞書メモリ、105・・・訳語辞書メモリ、106・・・CPU、106a・・・単語切出手段、106b・・・ファイル生成手段(1)、106c・・・ファイル生成手段(2)、107・・・ROM、109・・・RAM、109・・・ハードディスク、110・・・操作パネル、111・・・内部システム・バス。
Claims (6)
- 画像情報を読み取る画像読取手段と、
前記画像読取手段が読み取った画像情報から、文字列で構成される単語を切り出す単語切出手段と、切り出した単語に対応する訳語を、原画像中の単語に関連づけた位置に埋め込んだ状態の第1のファイルを生成する手段と、前記訳語を埋め込まない状態の第2のファイルを生成する手段とを有する画像処理装置において、
第1のファイルを生成する場合に、前記第2のファイルを生成する場合に比べて、前記画像読取手段から出力される画像データの低濃度部の画素値を大きくする画素値補正手段を有することを特徴とする画像処理装置。 - 請求項1に記載された画像処理装置において、
前記画素値補正手段は、埋め込む対訳語の表示色の濃度或いは彩度、或いはフォントサイズが小さいほど、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置。 - 請求項1に記載された画像処理装置において、
前記埋め込む対訳語を分類し、前記分類毎に前記埋め込む対訳語の表示色の濃度あるいは彩度を変える濃度又は彩度変更手段を有し、
前記画素値補正手段は、前記表示色の濃度或いは彩度の最低値に基づいて、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置。 - 請求項1に記載された画像処理装置において、
前記埋め込む対訳語を分類し、前記分類毎に前記埋め込む対訳語の表示色の濃度或いは彩度を変える濃度又は彩度変更手段を有し、
前記画素値補正手段は、フォントサイズの大きさの最小値に基づいて、前記画像データの低濃度部の画素値を大きくすることを特徴とする画像処理装置。 - 請求項1ないし4のいずれかに記載された画像処理装置のコンピュータを、前記画像処理装置の前記画像読取手段以外の各手段として機能させるためのプログラム。
- 請求項5に記載されたプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010056765A JP2011193173A (ja) | 2010-03-12 | 2010-03-12 | 画像処理装置、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010056765A JP2011193173A (ja) | 2010-03-12 | 2010-03-12 | 画像処理装置、プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011193173A true JP2011193173A (ja) | 2011-09-29 |
Family
ID=44797657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010056765A Pending JP2011193173A (ja) | 2010-03-12 | 2010-03-12 | 画像処理装置、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011193173A (ja) |
-
2010
- 2010-03-12 JP JP2010056765A patent/JP2011193173A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5111268B2 (ja) | 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体 | |
JP4854491B2 (ja) | 画像処理装置及びその制御方法 | |
JP5972578B2 (ja) | 画像処理装置、画像形成装置、プログラム、記録媒体 | |
JP2006251902A (ja) | 翻訳文書画像生成装置、翻訳文書画像生成プログラム及び翻訳文書画像生成方法 | |
JP4502385B2 (ja) | 画像処理装置およびその制御方法 | |
KR100765781B1 (ko) | Xhtml 데이터 생성 방법 및 장치 | |
JP2009193356A (ja) | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 | |
US9614984B2 (en) | Electronic document generation system and recording medium | |
JP2015146122A (ja) | 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体 | |
JP2006107032A (ja) | 画像処理装置および方法 | |
US8199967B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2006252048A (ja) | 翻訳装置、翻訳プログラムおよび翻訳方法 | |
JP2008276677A (ja) | 文字認識支援装置、文字認識装置及びプログラム | |
JP5098614B2 (ja) | 文章処理装置の制御方法および文章処理装置 | |
JP2009211554A (ja) | 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体 | |
US8380685B2 (en) | Information processing apparatus, control method thereof, computer program, and storage medium | |
JP2011193173A (ja) | 画像処理装置、プログラム及び記録媒体 | |
JP6201686B2 (ja) | テキストデータの埋め込み装置、該装置を備えた画像処理装置、テキストデータの埋め込み方法及び埋め込みプログラム | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP2020099031A (ja) | 情報処理装置、及び情報処理方法 | |
US11693825B2 (en) | Information processing apparatus, control method, and recording medium storing program | |
JP2012204906A (ja) | 画像処理装置およびプログラム | |
JP4785727B2 (ja) | 地紋印刷装置 | |
JP5496277B2 (ja) | 画像処理装置及び画像処理方法、コンピュータプログラム及び記憶媒体 | |
JP2006092100A (ja) | 印刷サーバ、印刷原稿校正システム、及び印刷原稿校正方法 |