JP6904182B2

JP6904182B2 - 画像視点変換装置及び方法

Info

Publication number: JP6904182B2
Application number: JP2017174597A
Authority: JP
Inventors: リィウ・ウェイ; ファヌ・ウエイ; 俊孫
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-09-18
Filing date: 2017-09-12
Publication date: 2021-07-14
Anticipated expiration: 2037-09-12
Also published as: CN107845068A; CN107845068B; JP2018045691A; US20180082456A1

Description

本発明の実施例は、グラフィック画像処理の技術分野に関し、特に画像視点変換装置及び方法に関する。

日常生活では、人々は常に電子機器（例えば携帯電話）を使って文書画像を撮像する。撮像角度などにより、撮像された文書には常に透視変換が発生する。従来では、文書の境界などを用いて透視変換行列（Ｈ行列）を取得し、Ｈ行列に基づいて文書画像を変換して視点変換後の画像を取得する視点変換方法が提案されている。

しかし、撮像された文書が不完全であり、即ち文書の一部しか撮像されていない場合がある。

図１は携帯電話を用いて撮像された元の文書の一例を示す図である。図１に示すように、右側の欄の一部の内容が撮像されていない。従来の視点変換方法は、透視変換行列（Ｈ行列）を正確に取得できないため、画像視点変換を良好に行うことができなくなる。

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

本発明の実施例は、撮像された文書画像が不完全であっても、透視変換行列を正確に取得でき、画像視点変換をより良好に行うことができる画像視点変換装置及び方法を提供する。

本発明の実施例の第１態様では、画像視点変換装置であって、文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、抽出され、且つ分類された前記直線及び前記テキスト行から２本の垂直線及び２本の水平線を選択する線選択手段と、選択された前記２本の垂直線及び前記２本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置を提供する。

本発明の実施例の第２態様では、画像視点変換方法であって、文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、抽出され、且つ分類された前記直線及び前記テキスト行から２本の垂直線及び２本の水平線を選択するステップと、選択された前記２本の垂直線及び前記２本の水平線により形成された枠に基づいて変換行列を算出するステップと、前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法を提供する。

本発明の実施例の第３態様では、上記の画像視点変換装置を含む電子機器を提供する。

本発明の実施例の有利な効果は以下の通りである。文書画像のグレースケール画像に基づいて複数の直線を抽出し、文書画像の二値画像に基づいて複数のテキスト行を抽出し、抽出され、且つ分類された直線及びテキスト行から２本の垂直線及び２本の水平線を選択し、選択された２本の垂直線及び２本の水平線により形成された枠に基づいて変換行列を算出する。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得でき、画像視点変換をより良好に行うことができる。

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。

なお、用語「包括／含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

含まれる図面は、本発明の実施例をさらに理解するために用いられ、明細書の一部を構成し、本発明の実施形態を例示するために用いられ、文言の記載と共に本発明の原理を説明する。なお、以下に説明される図面は、単なる本発明の一部の実施例であり、当業者にとっては、これらの図面に基づいて他の図面を容易に想到できる。
携帯電話を用いて撮像された元の文書の一例を示す図である。本発明の実施例１の画像視点変換方法を示す図である。本発明の実施例１の直線の抽出を示す図である。本発明の実施例１の検出された直線を示す図である。本発明の実施例１のテキスト行の抽出を示す図である。本発明の実施例１の検出されたテキスト行を示す図である。本発明の実施例１の複数の領域を含む文書画像を示す図である。本発明の実施例１の元枠を示す図である。本発明の実施例１の変換行列の算出を示す図である。本発明の実施例１の目的枠を示す図である。本発明の実施例１の視点変換を示す図である。本発明の実施例１の視点変換後の文書画像の一例を示す図である。本発明の実施例２の画像視点変換装置を示す図である。本発明の実施例２の直線抽出部を示す図である。本発明の実施例２のテキスト行抽出部を示す図である。本発明の実施例２の行列算出部を示す図である。本発明の実施例２の画像変換部を示す図である。本発明の実施例３の電子機器を示す図である。

本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。

＜実施例１＞
本発明の実施例は画像視点変換方法を提供する。図２は本発明の実施例の画像視点変換方法を示す図である。図２に示すように、画像視点変換方法は以下のステップを含む。

ステップ２０１：文書画像のグレースケール画像に基づいて複数の直線を抽出する。

ステップ２０２：水平方向及び垂直方向に応じて該複数の直線を分類する。

ステップ２０３：該文書画像の二値画像に基づいて複数のテキスト行を抽出する。

ステップ２０４：水平方向及び垂直方向に応じて該複数のテキスト行を分類する。

ステップ２０５：抽出され、且つ分類された直線及びテキスト行から２本の垂直線及び２本の水平線を選択する。

ステップ２０６：選択された２本の垂直線及び２本の水平線により形成された枠に基づいて変換行列を算出する。

ステップ２０７：該変換行列を用いて該文書画像を変換して視点変換後の画像を取得する。

本実施例では、ステップ２０１及びステップ２０２において複数の直線を抽出し、分類することで、文書画像に含まれているテーブル線、分割線、画像エッジ輪郭直線などを取得できる。ステップ２０３及びステップ２０４において複数のテキスト行を抽出し、分類することで、水平テキスト行、及び各行の最初の文字（又は例えば最後の文字）により構成された垂直テキスト行を取得できる。

なお、直線の抽出及びテキスト行の抽出は、独立して行ってもよく、例えば並行して行ってもよいし、順次行ってもよいし（例えば直線を抽出した後にテキスト行を抽出してもよいし、テキスト行を抽出した後に直線を抽出してもよい）、交互に行ってもよいが、本発明はこれに限定されない。

本実施例では、抽出され、且つ分類された直線及びテキスト行の集合から２本の垂直線及び２本の水平線を選択し、選択された２本の垂直線及び２本の水平線により形成された枠に基づいて変換行列を算出してもよい。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得できる。

以下は、各ステップを詳細に説明する。

図３は本発明の実施例の直線の抽出を示す図である。図３に示すように、ステップ２０１において該文書画像のグレースケール画像に基づいて複数の直線を抽出するステップは、以下のステップを含んでもよい。

ステップ３０１：文書画像を変換してグレースケール画像を取得する。

ステップ３０２：該グレースケール画像における直線を検出する。

ステップ３０３：検出された直線のうち長さが所定閾値よりも小さい直線を除去する。

具体的には、まず、元の文書画像をグレースケール化して、そして、各種の線検出方法（例えば線分割検出方法、ハフ線検出方法など）を用いて候補直線を検出して、各種の条件（例えば長さが所定の閾値よりも大きい必要があることなど）を用いて、一部の候補直線を除去してもよい。

ステップ２０２において、抽出され、且つフィルタリングされた直線を水平の直線と垂直の直線とに分けて保存してもよい。各種の条件（例えば直線の傾斜角度が所定の閾値よりも小さい必要があること、直線とテキスト行との角度が所定の閾値よりも小さい必要があることなど）を用いて分類して、一部の候補直線を除去してもよい。

図４は本発明の実施例の検出された直線を示す図である。図４に示すように、文書画像内の垂直方向における直線（例えばテーブル線４０１など）、水平方向における直線（例えば分割線４０２及び画像エッジ輪郭直線４０３など）を検出してもよい。

なお、以上は文書画像の直線の抽出方法を例示的に説明しているが、本発明はこれに限定されず、例えば従来技術における直線を抽出するための任意の利用可能な方法を用いてもよい。また、候補直線のフィルタリング条件について、本発明はこれに限定されず、実際の状況に応じて具体的なフィルタリング条件を決定してもよい。

図５は本発明の実施例のテキスト行の抽出を示す図である。図５に示すように、ステップ２０３において文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、以下のステップを含んでもよい。

ステップ５０１：文書画像を変換して二値画像を取得する。

ステップ５０２：該二値画像における文字に対応する領域を拡張する。

ステップ５０３：該二値画像の連結成分（ＣＣ：ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔ）を検出する。

ステップ５０４：連結成分に基づいて水平方向のテキスト行をフィッティングする。

ここで、二値変換及び二値画像における連結成分のラベリングの方法は、従来の任意の関連方法を用いてもよいが、本発明はこれに限定されない。連結成分の方法により、複数の水平方向のテキスト行をフィッティングできる。

図５に示すように、文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、以下のステップをさらに含んでもよい。

ステップ５０５：任意の２本の水平方向のテキスト行について、該２本の水平方向のテキスト行の対応する文字（例えば最初の文字又は最後の文字）を連結する連結線を取得する。

ステップ５０６：各連結線が通過した他の水平方向のテキスト行の対応する文字（例えば最初の文字又は最後の文字）の数を算出する。

ステップ５０７：通過した他の水平方向のテキスト行の対応する該文字（例えば最初の文字又は最後の文字）の数が最も多い連結線を、垂直方向のテキスト行として決定する。

本実施例では、最初の文字及び／又は最後の文字（他の文字を含んでもよい）に上記のステップ５０５〜５０７をそれぞれ適用することで、複数の垂直方向のテキスト行を取得できる。

図６は本発明の実施例の検出されたテキスト行を示す図である。図６に示すように、連結成分の方法により、複数の水平方向のテキスト行をフィッティングでき、以下は、図６における水平テキスト行６０１、６０２及び６０３について説明する。

例えば、フィッティングすることで水平テキスト行６０１、６０２及び６０３を含む複数の水平テキスト行を取得した後に、水平テキスト行６０１及び６０２について、水平テキスト行６０１と６０２の最初文字を連結する連結線（以下はＬ１と称する）を取得し、該Ｌ１が通過した他の水平テキスト行の最初文字の数（例えば２０個）を算出してもよい。水平テキスト行６０１及び６０３について、水平テキスト行６０１と６０３の最初文字を連結する連結線（以下はＬ２と称する）を取得し、該Ｌ２が通過した他の水平テキスト行の最初文字の数（例えば１８個）を算出してもよい。水平テキスト行６０２及び６０３について、水平テキスト行６０２と６０３の最初文字を連結する連結線（以下はＬ３と称する）を取得し、該Ｌ３が通過した他の水平テキスト行の最初文字の数（例えば１２個）を算出してもよい。個数２０が最も大きいと決定した場合は、Ｌ１を垂直方向のテキスト行として決定してもよい。

これによって、複数の水平方向における直線及び垂直方向における直線、並びに複数の水平方向におけるテキスト行及び垂直方向におけるテキスト行を取得でき、直線及びテキスト行の集合を形成できる。

以上は、文書画像全体を一例にして説明している。本実施例では、文書画像を１つ又は複数の領域（例えば連結成分を用いてクラスタリング処理を行う）に分割してもよい。複数の領域に基づいてグループ分けを行って、グループごとに直線及び／又はテキスト行をそれぞれ抽出してもよく、これによって、抽出の精度をさらに向上できる。

即ち、文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得するステップ、をさらに含んでもよい。

そして、文書画像の面積における最も大きい２つの領域を選択し（２つを一例にして説明しているが、本発明はこれに限定されない）、面積が最も大きい２つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を、使用すべきテキスト行としてもよい。

図７は本発明の実施例の複数の領域を含む文書画像を示す図である。図７に示すように、文書画像を領域Ｓ１、Ｓ２等に分割し、これらの領域について直線及び／又はテキスト行の抽出をそれぞれ行ってもよい。

ステップ２０５において抽出され、且つ分類された直線及びテキスト行から２本の垂直線及び２本の水平線を選択するステップは、２本の垂直線及び２本の水平線により形成された枠の面積が最大になるように、２本の垂直線及び２本の水平線を選択するステップを含んでもよい。

本実施例では、信頼性の最も高い２本の水平線及び２本の垂直線により構成された矩形を選択してもよく、矩形が大きいほど好ましくなり、水平方向の線はテキスト行に平行することが好ましく、信頼度の最も高い垂直方向の線を選択してもよい。これによって、変換行列の精度をさらに向上できる。

図８は本発明の実施例の元（ｓｏｕｒｃｅ）枠を示す図である。図８に示すように、２本の水平線８０１及び８０２を選択し、２本の垂直線８０３及び８０４を選択してもよい。これによって、これらの直線により形成された元枠（例えば矩形）を決定できる。

図９は本発明の実施例の変換行列の算出を示す図である。図９に示すように、ステップ２０６において選択された２本の垂直線及び２本の水平線により形成された枠に基づいて変換行列を算出するステップは、以下のステップを含んでもよい。

ステップ９０１：２本の垂直線及び２本の水平線により形成された元枠に基づいて、該元枠の４つの頂点の座標を取得する。

ステップ９０２：該元枠の４つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の４つの頂点の座標を算出する。

ステップ９０３：該元枠の４つの頂点の座標及び該目的枠の４つの頂点の座標に基づいて該変換行列を決定する。

例えば、図８に示す枠では、その４つの頂点はそれぞれ（ｘ１，ｙ１）（ｘ２，ｙ２）（ｘ３，ｙ３）（ｘ４，ｙ４）であり、以下のように、その平均値を用いて目的枠の４つの頂点を算出してもよい。

ｘ１’＝（ｘ１＋ｘ４）／２
ｙ１’＝（ｙ１＋ｙ２）／２
ｘ２’＝（ｘ２＋ｘ３）／２
ｙ２’＝ｙ１’
ｘ３’＝ｘ２’
ｙ３’＝（ｙ３＋ｙ４）／２
ｘ４’＝ｘ１’
ｙ４’＝ｙ３’
図１０は本発明の実施例の目的（ｄｅｓｔｉｎａｔｉｏｎ）枠を示す図である。図１０に示すように、算出された目的枠の４つの頂点（ｘ１’，ｙ１’）（ｘ２’，ｙ２’）（ｘ３’，ｙ３’）（ｘ４’，ｙ４’）に基づいて、該目的枠を決定できる。そして、元枠及び目的枠に基づいてＨ行列を算出してもよく、Ｈ行列の具体的な内容について関連技術を参照してもよい。

なお、以上は平均値を一例にして目的枠の４つの頂点の座標の算出方法を例示的に示しているが、本発明はこれに限定されず、例えば予め取得されたアスペクト比を用いて目的枠の４つの頂点の座標を算出してもよい。アスペクト比の取得方法は、関連技術を参照してもよい。

ステップ２０７において、該変換行列（Ｈ行列）を用いて文書画像を変換して視点変換後の画像を取得してもよい。例えば、元画像の各画素について、該Ｈ行列を用いて該画素の目的画像における座標位置を決定し、元画像における該画素の画素値を用いて該目的画像における該座標位置を充填する。

図１１は本発明の実施例の視点変換を示す図である。図１１に示すように、変換行列を用いて文書画像を変換して視点変換後の画像を取得するステップは、以下のステップを含んでもよい。

ステップ１１０１：該変換行列（Ｈ行列）の逆行列（Ｈ’行列）を算出する。

ステップ１１０２：目的画像の各画素について、該逆行列を用いて該画素の、元画像である該文書画像における座標位置を決定する。

ステップ１１０３：該座標位置に対応する画素値を用いて該目的画像における該画素を充填する。

これによって、目的画像の各画素について、対応する画素値を全て取得でき、１つ又は一部の画素が漏れることを回避でき、変換後の文書画像の表示品質を向上できる。

図１２は本発明の実施例の視点変換後の文書画像の一例を示す図である。図１２に示すように、図８に示す文書画像に対して視点変換を正確に行った。本発明は、光学式文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）を良好に改善でき、Ｏｆｆｉｃｅｌｅｎｓ等に比べて局所の文書画像を補正でき、文書の境界が撮像範囲内にある必要はない。文書を拡大して撮像しても、本発明の方法を用いて視点変換を行うことができる。

なお、以上の図面は単に本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適宜調整してもよいし、他のステップを追加し、その中のステップを削除してもよい。当業者は上記の内容に基づいて変形を行うことができ、上記の図面の記載に限定されない。

上記の実施例によれば、文書画像のグレースケール画像に基づいて複数の直線を抽出し、文書画像の二値画像に基づいて複数のテキスト行を抽出し、抽出され、且つ分類された直線及びテキスト行から２本の垂直線及び２本の水平線を選択し、選択された２本の垂直線及び２本の水平線により形成された枠に基づいて変換行列を算出する。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得でき、画像視点変換をより良好に行うことができる。

＜実施例２＞
本発明の実施例は画像視点変換装置を提供し、実施例１と同様な内容について説明を省略する。

図１３は本発明の実施例の画像視点変換装置を示す図である。図１３に示すように、画像視点変換装置１３００は、直線抽出部１３０１、直線分類部１３０２、テキスト行抽出部１３０３、テキスト行分類部１３０４、線選択部１３０５、行列算出部１３０６及び画像変換部１３０７を含む。

直線抽出部１３０１は、文書画像のグレースケール画像に基づいて複数の直線を抽出する。

直線分類部１３０２は、水平方向及び垂直方向に応じて該複数の直線を分類する。

テキスト行抽出部１３０３は、該文書画像の二値画像に基づいて複数のテキスト行を抽出する。

テキスト行分類部１３０４は、水平方向及び垂直方向に応じて該複数のテキスト行を分類する。

線選択部１３０５は、抽出され、且つ分類された直線及びテキスト行から２本の垂直線及び２本の水平線を選択する。

行列算出部１３０６は、選択された２本の垂直線及び２本の水平線により形成された枠に基づいて変換行列を算出する。

画像変換部１３０７は、該変換行列を用いて該文書画像を変換して視点変換後の画像を取得する。

図１４は本発明の実施例の直線抽出部１３０１を示す図である。図１４に示すように、直線抽出部１３０１は、グレースケール変換部１４０１、直線検出部１４０２及び直線フィルタリング部１４０３を含んでもよい。

グレースケール変換部１４０１は、該文書画像を変換してグレースケール画像を取得する。

直線検出部１４０２は、該グレースケール画像における直線を検出する。

直線フィルタリング部１４０３は、検出された直線のうち長さが所定閾値よりも小さい直線を除去する。

図１５は本発明の実施例のテキスト行抽出部１３０３を示す図である。図１５に示すように、テキスト行抽出部１３０３は、二値変換部１５０１、領域拡張部１５０２、連結成分検出部１５０３及びテキスト行フィッティング部１５０４を含んでもよい。

二値変換部１５０１は、該文書画像を変換して二値画像を取得する。

領域拡張部１５０２は、該二値画像における文字に対応する領域を拡張する。

連結成分検出部１５０３は、該二値画像の連結成分を検出する。

テキスト行フィッティング部１５０４は、該連結成分に基づいて水平方向のテキスト行をフィッティングする。

図１５に示しように、テキスト行抽出部１３０３は、連結線取得部１５０５、文字数算出部１５０６及びテキスト行決定部１５０７をさらに含んでもよい。

連結線取得部１５０５は、任意の２本の水平方向のテキスト行について、該２本の水平方向のテキスト行の対応する文字を連結する連結線を取得する。

文字数算出部１５０６は、各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する。

テキスト行決定部１５０７は、通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定する。

１つの態様では、該文書画像は１つ以上の領域に分割される。

テキスト行抽出部１３０３は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得してもよい。

また、テキスト行抽出部１３０３は、該文書画像の面積が最も大きい２つの領域を選択し、該面積が最も大きい２つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行としてもよい。

１つの態様では、線選択部１３０５は、該２本の垂直線及び２本の水平線により形成された枠の面積が最大になるように、該２本の垂直線及び該２本の水平線を選択してもよい。

図１６は本発明の実施例の行列算出部１３０６を示す図である。図１６に示すように、行列算出部１３０６は、元座標取得部１６０１、目的座標算出部１６０２及び行列決定部１６０３を含んでもよい。

元座標取得部１６０１は、該２本の垂直線及び２本の水平線により形成された元枠に基づいて、該元枠の４つの頂点の座標を取得する。

目的座標算出部１６０２は、該元枠の４つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の４つの頂点の座標を算出する。

行列決定部１６０３は、該元枠の４つの頂点の座標及び該目的枠の４つの頂点の座標に基づいて該変換行列を決定する。

図１７は本発明の実施例の画像変換部１３０７を示す図である。図１７に示すように、画像変換部１３０７は、逆行列算出部１７０１、位置決定部１７０２及び画素充填部１７０３を含んでもよい。

逆行列算出部１７０１は、該変換行列（Ｈ行列）の逆行列（Ｈ’行列）を算出する。

位置決定部１７０２は、目的画像の各画素について、該逆行列を用いて該画素の、元画像である該文書画像における座標位置を決定する。

画素充填部１７０３は、該座標位置に対応する画素値を用いて該目的画像における該画素を充填する。

＜実施例３＞
本発明の実施例は電子機器をさらに提供し、該電子機器は実施例２に記載の画像視点変換装置１３００を含む。

図１８は本発明の実施例の電子機器を示す図であり、電子機器の構成を例示的に示している。図１８に示すように、電子機器１８００は、中央処理装置（ＣＰＵ）１００及び記憶装置１１０を含んでもよく、記憶装置１１０は中央処理装置１００に接続されている。ここで、記憶装置１１０は各種のデータを記憶してもよいし、情報処理のプログラムをさらに記憶してもよく、中央処理装置１００の制御により該プログラムを実行する。

１つの態様では、画像視点変換装置１３００の機能は中央処理装置１００に統合されてもよい。ここで、中央処理装置１００は、実施例１に記載の画像視点変換方法を実現するように構成されてもよい。

例えば、中央処理装置１００は、文書画像のグレースケール画像に基づいて複数の直線を抽出し、水平方向及び垂直方向に応じて該複数の直線を分類し、該文書画像の二値画像に基づいて複数のテキスト行を抽出し、水平方向及び垂直方向に応じて該複数のテキスト行を分類し、抽出され、且つ分類された該直線及び該テキスト行から２本の垂直線及び２本の水平線を選択し、選択された該２本の垂直線及び該２本の水平線により形成された枠に基づいて変換行列を算出し、該変換行列を用いて該文書画像を変換して視点変換後の画像を取得する制御を行うように構成されてもよい。

もう１つの態様では、画像視点変換装置１３００は中央処理装置１００とそれぞれ構成されてもよく、例えば画像視点変換装置１３００は中央処理装置１００に接続されたチップとされ、中央処理装置１００の制御により画像視点変換装置１３００の機能を実現してもよい。

また、電子機器１８００は、入力出力部１２０等をさらに含んでもよく、ここで、該ユニットの機能は従来技術と類似し、ここでその説明を省略する。なお、電子機器１８００は図１８に示す全てのユニットを含む必要がない。また、電子機器１８００は、図１８に示されていないユニットをさらに含んでもよく、従来技術を参照してもよい。

本発明の実施例は、電子機器においてプログラムを実行する際に、電子機器に実施例１に記載の画像視点変換方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。

本発明の実施例は、電子機器に実施例１に記載の画像視点変換方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。

本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムはロジック部により実行される時に、該ロジック部に上述した装置又は構成要件を実現させる、或いは該ロジック部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フラッシュメモリ等に関する。

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
画像視点変換方法であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、
水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、
抽出され、且つ分類された前記直線及び前記テキスト行から２本の垂直線及び２本の水平線を選択するステップと、
選択された前記２本の垂直線及び前記２本の水平線により形成された枠に基づいて変換行列を算出するステップと、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法。
（付記２）
前記文書画像のグレースケール画像に基づいて複数の直線を抽出するステップは、
前記文書画像を変換してグレースケール画像を取得するステップと、
前記グレースケール画像における直線を検出するステップと、
検出された直線のうち長さが所定閾値よりも小さい直線を除去するステップと、を含む、付記１に記載の画像視点変換方法。
（付記３）
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、
前記文書画像を変換して二値画像を取得するステップと、
前記二値画像における文字に対応する領域を拡張するステップと、
前記二値画像の連結成分を検出するステップと、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするステップと、を含む、付記１に記載の画像視点変換方法。
（付記４）
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、
任意の２本の水平方向のテキスト行について、該２本の水平方向のテキスト行の対応する文字を連結する連結線を取得するステップと、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出するステップと、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するステップと、をさらに含む、付記３に記載の画像視点変換方法。
（付記５）
前記文書画像は１つ以上の領域に分割され、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得するステップ、を含む、付記１に記載の画像視点変換方法。
（付記６）
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、前記文書画像の面積が最も大きい２つの領域を選択し、前記面積が最も大きい２つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とするステップ、を含む、付記５に記載の画像視点変換方法。
（付記７）
前記抽出され、且つ分類された前記直線及び前記テキスト行から２本の垂直線及び２本の水平線を選択するステップは、前記２本の垂直線及び２本の水平線により形成された枠の面積が最大になるように、前記２本の垂直線及び前記２本の水平線を選択するステップ、を含む、付記１に記載の画像視点変換方法。
（付記８）
前記選択された前記２本の垂直線及び前記２本の水平線により形成された枠に基づいて変換行列を算出するステップは、
前記２本の垂直線及び２本の水平線により形成された元枠に基づいて、前記元枠の４つの頂点の座標を取得するステップと、
前記元枠の４つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の４つの頂点の座標を算出するステップと、
前記元枠の４つの頂点の座標及び前記目的枠の４つの頂点の座標に基づいて前記変換行列を決定するステップと、を含む、付記１に記載の画像視点変換方法。
（付記９）
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップは、
前記変換行列（Ｈ行列）の逆行列（Ｈ’行列）を算出するステップと、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定するステップと、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素を充填するステップと、を含む、付記１に記載の画像視点変換方法。
（付記１０）
画像視点変換装置であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、
水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、
抽出され、且つ分類された前記直線及び前記テキスト行から２本の垂直線及び２本の水平線を選択する線選択手段と、
選択された前記２本の垂直線及び前記２本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置。
（付記１１）
前記直線抽出手段は、
前記文書画像を変換してグレースケール画像を取得するグレースケール変換手段と、
前記グレースケール画像における直線を検出する直線検出手段と、
検出された直線のうち長さが所定閾値よりも小さい直線を除去する直線フィルタリング手段と、を含む、付記１０に記載の画像視点変換装置。
（付記１２）
前記テキスト行抽出手段は、
前記文書画像を変換して二値画像を取得する二値変換手段と、
前記二値画像における文字に対応する領域を拡張する領域拡張手段と、
前記二値画像の連結成分を検出する連結成分検出手段と、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするテキスト行フィッティング手段と、を含む、付記１０に記載の画像視点変換装置。
（付記１３）
前記テキスト行抽出手段は、
任意の２本の水平方向のテキスト行について、該２本の水平方向のテキスト行の対応する文字を連結する連結線を取得する連結線取得手段と、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する文字数算出手段と、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するテキスト行決定手段と、をさらに含む、付記１２に記載の画像視点変換装置。
（付記１４）
前記文書画像は１つ以上の領域に分割され、
前記テキスト行抽出手段は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得する、付記１０に記載の画像視点変換装置。
（付記１５）
前記テキスト行抽出手段は、前記文書画像の面積が最も大きい２つの領域を選択し、前記面積が最も大きい２つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とする、付記１４に記載の画像視点変換装置。
（付記１６）
前記線選択手段は、前記２本の垂直線及び２本の水平線により形成された枠の面積が最大になるように、前記２本の垂直線及び前記２本の水平線を選択する、付記１０に記載の画像視点変換装置。
（付記１７）
前記行列算出手段は、
前記２本の垂直線及び２本の水平線により形成された元枠に基づいて、前記元枠の４つの頂点の座標を取得する元座標取得手段と、
前記元枠の４つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の４つの頂点の座標を算出する目的座標算出手段と、
前記元枠の４つの頂点の座標及び前記目的枠の４つの頂点の座標に基づいて前記変換行列を決定する行列決定手段と、を含む、付記１０に記載の画像視点変換装置。
（付記１８）
前記画像変換手段は、
前記変換行列（Ｈ行列）の逆行列（Ｈ’行列）を算出する逆行列算出手段と、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定する位置決定手段と、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素を充填する画素充填手段と、を含む、付記１０に記載の画像視点変換装置。
（付記１９）
付記１０に記載の画像視点変換装置を含む電子機器。

Claims

画像視点変換装置であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、
水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、
抽出され、且つ分類された前記直線及び前記テキスト行から２本の垂直線及び２本の水平線を選択する線選択手段と、
選択された前記２本の垂直線及び前記２本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置。
前記直線抽出手段は、
前記文書画像を変換してグレースケール画像を取得するグレースケール変換手段と、
前記グレースケール画像における直線を検出する直線検出手段と、
検出された直線のうち長さが所定閾値よりも小さい直線を除去する直線フィルタリング手段と、を含む、請求項１に記載の画像視点変換装置。
前記テキスト行抽出手段は、
前記文書画像を変換して二値画像を取得する二値変換手段と、
前記二値画像における文字に対応する領域を拡張する領域拡張手段と、
前記二値画像の連結成分を検出する連結成分検出手段と、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするテキスト行フィッティング手段と、を含む、請求項１に記載の画像視点変換装置。
前記テキスト行抽出手段は、
任意の２本の水平方向のテキスト行について、該２本の水平方向のテキスト行の対応する文字を連結する連結線を取得する連結線取得手段と、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する文字数算出手段と、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するテキスト行決定手段と、をさらに含む、請求項３に記載の画像視点変換装置。
前記文書画像は１つ以上の領域に分割され、
前記テキスト行抽出手段は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得する、請求項１に記載の画像視点変換装置。
前記テキスト行抽出手段は、前記文書画像の面積が最も大きい２つの領域を選択し、前記面積が最も大きい２つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とする、請求項５に記載の画像視点変換装置。
前記線選択手段は、前記２本の垂直線及び２本の水平線により形成された枠の面積が最大になるように、前記２本の垂直線及び前記２本の水平線を選択する、請求項１に記載の画像視点変換装置。
前記行列算出手段は、
前記２本の垂直線及び２本の水平線により形成された元枠に基づいて、前記元枠の４つの頂点の座標を取得する元座標取得手段と、
前記元枠の４つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の４つの頂点の座標を算出する目的座標算出手段と、
前記元枠の４つの頂点の座標及び前記目的枠の４つの頂点の座標に基づいて前記変換行列を決定する行列決定手段と、を含む、請求項１に記載の画像視点変換装置。
前記画像変換手段は、
前記変換行列の逆行列を算出する逆行列算出手段と、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定する位置決定手段と、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素の値を設定する画素設定手段と、を含む、請求項１に記載の画像視点変換装置。
画像視点変換方法であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、
水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、
抽出され、且つ分類された前記直線及び前記テキスト行から２本の垂直線及び２本の水平線を選択するステップと、
選択された前記２本の垂直線及び前記２本の水平線により形成された枠に基づいて変換行列を算出するステップと、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法。