JP6904182B2 - 画像視点変換装置及び方法 - Google Patents

画像視点変換装置及び方法 Download PDF

Info

Publication number
JP6904182B2
JP6904182B2 JP2017174597A JP2017174597A JP6904182B2 JP 6904182 B2 JP6904182 B2 JP 6904182B2 JP 2017174597 A JP2017174597 A JP 2017174597A JP 2017174597 A JP2017174597 A JP 2017174597A JP 6904182 B2 JP6904182 B2 JP 6904182B2
Authority
JP
Japan
Prior art keywords
image
lines
text
line
horizontal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017174597A
Other languages
English (en)
Other versions
JP2018045691A (ja
Inventor
リィウ・ウェイ
ファヌ・ウエイ
俊 孫
俊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018045691A publication Critical patent/JP2018045691A/ja
Application granted granted Critical
Publication of JP6904182B2 publication Critical patent/JP6904182B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T3/10
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • G06T3/608Skewing or deskewing, e.g. by two-pass or three-pass rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Description

本発明の実施例は、グラフィック画像処理の技術分野に関し、特に画像視点変換装置及び方法に関する。
日常生活では、人々は常に電子機器(例えば携帯電話)を使って文書画像を撮像する。撮像角度などにより、撮像された文書には常に透視変換が発生する。従来では、文書の境界などを用いて透視変換行列(H行列)を取得し、H行列に基づいて文書画像を変換して視点変換後の画像を取得する視点変換方法が提案されている。
しかし、撮像された文書が不完全であり、即ち文書の一部しか撮像されていない場合がある。
図1は携帯電話を用いて撮像された元の文書の一例を示す図である。図1に示すように、右側の欄の一部の内容が撮像されていない。従来の視点変換方法は、透視変換行列(H行列)を正確に取得できないため、画像視点変換を良好に行うことができなくなる。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
本発明の実施例は、撮像された文書画像が不完全であっても、透視変換行列を正確に取得でき、画像視点変換をより良好に行うことができる画像視点変換装置及び方法を提供する。
本発明の実施例の第1態様では、画像視点変換装置であって、文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択する線選択手段と、選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置を提供する。
本発明の実施例の第2態様では、画像視点変換方法であって、文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択するステップと、選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出するステップと、前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法を提供する。
本発明の実施例の第3態様では、上記の画像視点変換装置を含む電子機器を提供する。
本発明の実施例の有利な効果は以下の通りである。文書画像のグレースケール画像に基づいて複数の直線を抽出し、文書画像の二値画像に基づいて複数のテキスト行を抽出し、抽出され、且つ分類された直線及びテキスト行から2本の垂直線及び2本の水平線を選択し、選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出する。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得でき、画像視点変換をより良好に行うことができる。
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
含まれる図面は、本発明の実施例をさらに理解するために用いられ、明細書の一部を構成し、本発明の実施形態を例示するために用いられ、文言の記載と共に本発明の原理を説明する。なお、以下に説明される図面は、単なる本発明の一部の実施例であり、当業者にとっては、これらの図面に基づいて他の図面を容易に想到できる。
携帯電話を用いて撮像された元の文書の一例を示す図である。 本発明の実施例1の画像視点変換方法を示す図である。 本発明の実施例1の直線の抽出を示す図である。 本発明の実施例1の検出された直線を示す図である。 本発明の実施例1のテキスト行の抽出を示す図である。 本発明の実施例1の検出されたテキスト行を示す図である。 本発明の実施例1の複数の領域を含む文書画像を示す図である。 本発明の実施例1の元枠を示す図である。 本発明の実施例1の変換行列の算出を示す図である。 本発明の実施例1の目的枠を示す図である。 本発明の実施例1の視点変換を示す図である。 本発明の実施例1の視点変換後の文書画像の一例を示す図である。 本発明の実施例2の画像視点変換装置を示す図である。 本発明の実施例2の直線抽出部を示す図である。 本発明の実施例2のテキスト行抽出部を示す図である。 本発明の実施例2の行列算出部を示す図である。 本発明の実施例2の画像変換部を示す図である。 本発明の実施例3の電子機器を示す図である。
本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。
<実施例1>
本発明の実施例は画像視点変換方法を提供する。図2は本発明の実施例の画像視点変換方法を示す図である。図2に示すように、画像視点変換方法は以下のステップを含む。
ステップ201:文書画像のグレースケール画像に基づいて複数の直線を抽出する。
ステップ202:水平方向及び垂直方向に応じて該複数の直線を分類する。
ステップ203:該文書画像の二値画像に基づいて複数のテキスト行を抽出する。
ステップ204:水平方向及び垂直方向に応じて該複数のテキスト行を分類する。
ステップ205:抽出され、且つ分類された直線及びテキスト行から2本の垂直線及び2本の水平線を選択する。
ステップ206:選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出する。
ステップ207:該変換行列を用いて該文書画像を変換して視点変換後の画像を取得する。
本実施例では、ステップ201及びステップ202において複数の直線を抽出し、分類することで、文書画像に含まれているテーブル線、分割線、画像エッジ輪郭直線などを取得できる。ステップ203及びステップ204において複数のテキスト行を抽出し、分類することで、水平テキスト行、及び各行の最初の文字(又は例えば最後の文字)により構成された垂直テキスト行を取得できる。
なお、直線の抽出及びテキスト行の抽出は、独立して行ってもよく、例えば並行して行ってもよいし、順次行ってもよいし(例えば直線を抽出した後にテキスト行を抽出してもよいし、テキスト行を抽出した後に直線を抽出してもよい)、交互に行ってもよいが、本発明はこれに限定されない。
本実施例では、抽出され、且つ分類された直線及びテキスト行の集合から2本の垂直線及び2本の水平線を選択し、選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出してもよい。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得できる。
以下は、各ステップを詳細に説明する。
図3は本発明の実施例の直線の抽出を示す図である。図3に示すように、ステップ201において該文書画像のグレースケール画像に基づいて複数の直線を抽出するステップは、以下のステップを含んでもよい。
ステップ301:文書画像を変換してグレースケール画像を取得する。
ステップ302:該グレースケール画像における直線を検出する。
ステップ303:検出された直線のうち長さが所定閾値よりも小さい直線を除去する。
具体的には、まず、元の文書画像をグレースケール化して、そして、各種の線検出方法(例えば線分割検出方法、ハフ線検出方法など)を用いて候補直線を検出して、各種の条件(例えば長さが所定の閾値よりも大きい必要があることなど)を用いて、一部の候補直線を除去してもよい。
ステップ202において、抽出され、且つフィルタリングされた直線を水平の直線と垂直の直線とに分けて保存してもよい。各種の条件(例えば直線の傾斜角度が所定の閾値よりも小さい必要があること、直線とテキスト行との角度が所定の閾値よりも小さい必要があることなど)を用いて分類して、一部の候補直線を除去してもよい。
図4は本発明の実施例の検出された直線を示す図である。図4に示すように、文書画像内の垂直方向における直線(例えばテーブル線401など)、水平方向における直線(例えば分割線402及び画像エッジ輪郭直線403など)を検出してもよい。
なお、以上は文書画像の直線の抽出方法を例示的に説明しているが、本発明はこれに限定されず、例えば従来技術における直線を抽出するための任意の利用可能な方法を用いてもよい。また、候補直線のフィルタリング条件について、本発明はこれに限定されず、実際の状況に応じて具体的なフィルタリング条件を決定してもよい。
図5は本発明の実施例のテキスト行の抽出を示す図である。図5に示すように、ステップ203において文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、以下のステップを含んでもよい。
ステップ501:文書画像を変換して二値画像を取得する。
ステップ502:該二値画像における文字に対応する領域を拡張する。
ステップ503:該二値画像の連結成分(CC:Connected Component)を検出する。
ステップ504:連結成分に基づいて水平方向のテキスト行をフィッティングする。
ここで、二値変換及び二値画像における連結成分のラベリングの方法は、従来の任意の関連方法を用いてもよいが、本発明はこれに限定されない。連結成分の方法により、複数の水平方向のテキスト行をフィッティングできる。
図5に示すように、文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、以下のステップをさらに含んでもよい。
ステップ505:任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字(例えば最初の文字又は最後の文字)を連結する連結線を取得する。
ステップ506:各連結線が通過した他の水平方向のテキスト行の対応する文字(例えば最初の文字又は最後の文字)の数を算出する。
ステップ507:通過した他の水平方向のテキスト行の対応する該文字(例えば最初の文字又は最後の文字)の数が最も多い連結線を、垂直方向のテキスト行として決定する。
本実施例では、最初の文字及び/又は最後の文字(他の文字を含んでもよい)に上記のステップ505〜507をそれぞれ適用することで、複数の垂直方向のテキスト行を取得できる。
図6は本発明の実施例の検出されたテキスト行を示す図である。図6に示すように、連結成分の方法により、複数の水平方向のテキスト行をフィッティングでき、以下は、図6における水平テキスト行601、602及び603について説明する。
例えば、フィッティングすることで水平テキスト行601、602及び603を含む複数の水平テキスト行を取得した後に、水平テキスト行601及び602について、水平テキスト行601と602の最初文字を連結する連結線(以下はL1と称する)を取得し、該L1が通過した他の水平テキスト行の最初文字の数(例えば20個)を算出してもよい。水平テキスト行601及び603について、水平テキスト行601と603の最初文字を連結する連結線(以下はL2と称する)を取得し、該L2が通過した他の水平テキスト行の最初文字の数(例えば18個)を算出してもよい。水平テキスト行602及び603について、水平テキスト行602と603の最初文字を連結する連結線(以下はL3と称する)を取得し、該L3が通過した他の水平テキスト行の最初文字の数(例えば12個)を算出してもよい。個数20が最も大きいと決定した場合は、L1を垂直方向のテキスト行として決定してもよい。
これによって、複数の水平方向における直線及び垂直方向における直線、並びに複数の水平方向におけるテキスト行及び垂直方向におけるテキスト行を取得でき、直線及びテキスト行の集合を形成できる。
以上は、文書画像全体を一例にして説明している。本実施例では、文書画像を1つ又は複数の領域(例えば連結成分を用いてクラスタリング処理を行う)に分割してもよい。複数の領域に基づいてグループ分けを行って、グループごとに直線及び/又はテキスト行をそれぞれ抽出してもよく、これによって、抽出の精度をさらに向上できる。
即ち、文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得するステップ、をさらに含んでもよい。
そして、文書画像の面積における最も大きい2つの領域を選択し(2つを一例にして説明しているが、本発明はこれに限定されない)、面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を、使用すべきテキスト行としてもよい。
図7は本発明の実施例の複数の領域を含む文書画像を示す図である。図7に示すように、文書画像を領域S1、S2等に分割し、これらの領域について直線及び/又はテキスト行の抽出をそれぞれ行ってもよい。
ステップ205において抽出され、且つ分類された直線及びテキスト行から2本の垂直線及び2本の水平線を選択するステップは、2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、2本の垂直線及び2本の水平線を選択するステップを含んでもよい。
本実施例では、信頼性の最も高い2本の水平線及び2本の垂直線により構成された矩形を選択してもよく、矩形が大きいほど好ましくなり、水平方向の線はテキスト行に平行することが好ましく、信頼度の最も高い垂直方向の線を選択してもよい。これによって、変換行列の精度をさらに向上できる。
図8は本発明の実施例の元(source)枠を示す図である。図8に示すように、2本の水平線801及び802を選択し、2本の垂直線803及び804を選択してもよい。これによって、これらの直線により形成された元枠(例えば矩形)を決定できる。
図9は本発明の実施例の変換行列の算出を示す図である。図9に示すように、ステップ206において選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出するステップは、以下のステップを含んでもよい。
ステップ901:2本の垂直線及び2本の水平線により形成された元枠に基づいて、該元枠の4つの頂点の座標を取得する。
ステップ902:該元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出する。
ステップ903:該元枠の4つの頂点の座標及び該目的枠の4つの頂点の座標に基づいて該変換行列を決定する。
例えば、図8に示す枠では、その4つの頂点はそれぞれ(x1,y1)(x2,y2)(x3,y3)(x4,y4)であり、以下のように、その平均値を用いて目的枠の4つの頂点を算出してもよい。
x1’=(x1+x4)/2
y1’=(y1+y2)/2
x2’=(x2+x3)/2
y2’=y1’
x3’=x2’
y3’=(y3+y4)/2
x4’=x1’
y4’=y3’
図10は本発明の実施例の目的(destination)枠を示す図である。図10に示すように、算出された目的枠の4つの頂点(x1’,y1’)(x2’,y2’)(x3’,y3’)(x4’,y4’)に基づいて、該目的枠を決定できる。そして、元枠及び目的枠に基づいてH行列を算出してもよく、H行列の具体的な内容について関連技術を参照してもよい。
なお、以上は平均値を一例にして目的枠の4つの頂点の座標の算出方法を例示的に示しているが、本発明はこれに限定されず、例えば予め取得されたアスペクト比を用いて目的枠の4つの頂点の座標を算出してもよい。アスペクト比の取得方法は、関連技術を参照してもよい。
ステップ207において、該変換行列(H行列)を用いて文書画像を変換して視点変換後の画像を取得してもよい。例えば、元画像の各画素について、該H行列を用いて該画素の目的画像における座標位置を決定し、元画像における該画素の画素値を用いて該目的画像における該座標位置を充填する。
図11は本発明の実施例の視点変換を示す図である。図11に示すように、変換行列を用いて文書画像を変換して視点変換後の画像を取得するステップは、以下のステップを含んでもよい。
ステップ1101:該変換行列(H行列)の逆行列(H’行列)を算出する。
ステップ1102:目的画像の各画素について、該逆行列を用いて該画素の、元画像である該文書画像における座標位置を決定する。
ステップ1103:該座標位置に対応する画素値を用いて該目的画像における該画素を充填する。
これによって、目的画像の各画素について、対応する画素値を全て取得でき、1つ又は一部の画素が漏れることを回避でき、変換後の文書画像の表示品質を向上できる。
図12は本発明の実施例の視点変換後の文書画像の一例を示す図である。図12に示すように、図8に示す文書画像に対して視点変換を正確に行った。本発明は、光学式文字認識(OCR:Optical Character Recognition)を良好に改善でき、Office lens等に比べて局所の文書画像を補正でき、文書の境界が撮像範囲内にある必要はない。文書を拡大して撮像しても、本発明の方法を用いて視点変換を行うことができる。
なお、以上の図面は単に本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適宜調整してもよいし、他のステップを追加し、その中のステップを削除してもよい。当業者は上記の内容に基づいて変形を行うことができ、上記の図面の記載に限定されない。
上記の実施例によれば、文書画像のグレースケール画像に基づいて複数の直線を抽出し、文書画像の二値画像に基づいて複数のテキスト行を抽出し、抽出され、且つ分類された直線及びテキスト行から2本の垂直線及び2本の水平線を選択し、選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出する。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得でき、画像視点変換をより良好に行うことができる。
<実施例2>
本発明の実施例は画像視点変換装置を提供し、実施例1と同様な内容について説明を省略する。
図13は本発明の実施例の画像視点変換装置を示す図である。図13に示すように、画像視点変換装置1300は、直線抽出部1301、直線分類部1302、テキスト行抽出部1303、テキスト行分類部1304、線選択部1305、行列算出部1306及び画像変換部1307を含む。
直線抽出部1301は、文書画像のグレースケール画像に基づいて複数の直線を抽出する。
直線分類部1302は、水平方向及び垂直方向に応じて該複数の直線を分類する。
テキスト行抽出部1303は、該文書画像の二値画像に基づいて複数のテキスト行を抽出する。
テキスト行分類部1304は、水平方向及び垂直方向に応じて該複数のテキスト行を分類する。
線選択部1305は、抽出され、且つ分類された直線及びテキスト行から2本の垂直線及び2本の水平線を選択する。
行列算出部1306は、選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出する。
画像変換部1307は、該変換行列を用いて該文書画像を変換して視点変換後の画像を取得する。
本実施例では、抽出され、且つ分類された直線及びテキスト行の集合から2本の垂直線及び2本の水平線を選択し、選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出してもよい。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得できる。
図14は本発明の実施例の直線抽出部1301を示す図である。図14に示すように、直線抽出部1301は、グレースケール変換部1401、直線検出部1402及び直線フィルタリング部1403を含んでもよい。
グレースケール変換部1401は、該文書画像を変換してグレースケール画像を取得する。
直線検出部1402は、該グレースケール画像における直線を検出する。
直線フィルタリング部1403は、検出された直線のうち長さが所定閾値よりも小さい直線を除去する。
図15は本発明の実施例のテキスト行抽出部1303を示す図である。図15に示すように、テキスト行抽出部1303は、二値変換部1501、領域拡張部1502、連結成分検出部1503及びテキスト行フィッティング部1504を含んでもよい。
二値変換部1501は、該文書画像を変換して二値画像を取得する。
領域拡張部1502は、該二値画像における文字に対応する領域を拡張する。
連結成分検出部1503は、該二値画像の連結成分を検出する。
テキスト行フィッティング部1504は、該連結成分に基づいて水平方向のテキスト行をフィッティングする。
図15に示しように、テキスト行抽出部1303は、連結線取得部1505、文字数算出部1506及びテキスト行決定部1507をさらに含んでもよい。
連結線取得部1505は、任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字を連結する連結線を取得する。
文字数算出部1506は、各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する。
テキスト行決定部1507は、通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定する。
1つの態様では、該文書画像は1つ以上の領域に分割される。
テキスト行抽出部1303は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得してもよい。
また、テキスト行抽出部1303は、該文書画像の面積が最も大きい2つの領域を選択し、該面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行としてもよい。
1つの態様では、線選択部1305は、該2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、該2本の垂直線及び該2本の水平線を選択してもよい。
図16は本発明の実施例の行列算出部1306を示す図である。図16に示すように、行列算出部1306は、元座標取得部1601、目的座標算出部1602及び行列決定部1603を含んでもよい。
元座標取得部1601は、該2本の垂直線及び2本の水平線により形成された元枠に基づいて、該元枠の4つの頂点の座標を取得する。
目的座標算出部1602は、該元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出する。
行列決定部1603は、該元枠の4つの頂点の座標及び該目的枠の4つの頂点の座標に基づいて該変換行列を決定する。
図17は本発明の実施例の画像変換部1307を示す図である。図17に示すように、画像変換部1307は、逆行列算出部1701、位置決定部1702及び画素充填部1703を含んでもよい。
逆行列算出部1701は、該変換行列(H行列)の逆行列(H’行列)を算出する。
位置決定部1702は、目的画像の各画素について、該逆行列を用いて該画素の、元画像である該文書画像における座標位置を決定する。
画素充填部1703は、該座標位置に対応する画素値を用いて該目的画像における該画素を充填する。
上記の実施例によれば、文書画像のグレースケール画像に基づいて複数の直線を抽出し、文書画像の二値画像に基づいて複数のテキスト行を抽出し、抽出され、且つ分類された直線及びテキスト行から2本の垂直線及び2本の水平線を選択し、選択された2本の垂直線及び2本の水平線により形成された枠に基づいて変換行列を算出する。これによって、撮像された文書画像が不完全であっても、透視変換行列を正確に取得でき、画像視点変換をより良好に行うことができる。
<実施例3>
本発明の実施例は電子機器をさらに提供し、該電子機器は実施例2に記載の画像視点変換装置1300を含む。
図18は本発明の実施例の電子機器を示す図であり、電子機器の構成を例示的に示している。図18に示すように、電子機器1800は、中央処理装置(CPU)100及び記憶装置110を含んでもよく、記憶装置110は中央処理装置100に接続されている。ここで、記憶装置110は各種のデータを記憶してもよいし、情報処理のプログラムをさらに記憶してもよく、中央処理装置100の制御により該プログラムを実行する。
1つの態様では、画像視点変換装置1300の機能は中央処理装置100に統合されてもよい。ここで、中央処理装置100は、実施例1に記載の画像視点変換方法を実現するように構成されてもよい。
例えば、中央処理装置100は、文書画像のグレースケール画像に基づいて複数の直線を抽出し、水平方向及び垂直方向に応じて該複数の直線を分類し、該文書画像の二値画像に基づいて複数のテキスト行を抽出し、水平方向及び垂直方向に応じて該複数のテキスト行を分類し、抽出され、且つ分類された該直線及び該テキスト行から2本の垂直線及び2本の水平線を選択し、選択された該2本の垂直線及び該2本の水平線により形成された枠に基づいて変換行列を算出し、該変換行列を用いて該文書画像を変換して視点変換後の画像を取得する制御を行うように構成されてもよい。
もう1つの態様では、画像視点変換装置1300は中央処理装置100とそれぞれ構成されてもよく、例えば画像視点変換装置1300は中央処理装置100に接続されたチップとされ、中央処理装置100の制御により画像視点変換装置1300の機能を実現してもよい。
また、電子機器1800は、入力出力部120等をさらに含んでもよく、ここで、該ユニットの機能は従来技術と類似し、ここでその説明を省略する。なお、電子機器1800は図18に示す全てのユニットを含む必要がない。また、電子機器1800は、図18に示されていないユニットをさらに含んでもよく、従来技術を参照してもよい。
本発明の実施例は、電子機器においてプログラムを実行する際に、電子機器に実施例1に記載の画像視点変換方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。
本発明の実施例は、電子機器に実施例1に記載の画像視点変換方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムはロジック部により実行される時に、該ロジック部に上述した装置又は構成要件を実現させる、或いは該ロジック部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、DVD、フラッシュメモリ等に関する。
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
画像視点変換方法であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、
水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、
抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択するステップと、
選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出するステップと、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法。
(付記2)
前記文書画像のグレースケール画像に基づいて複数の直線を抽出するステップは、
前記文書画像を変換してグレースケール画像を取得するステップと、
前記グレースケール画像における直線を検出するステップと、
検出された直線のうち長さが所定閾値よりも小さい直線を除去するステップと、を含む、付記1に記載の画像視点変換方法。
(付記3)
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、
前記文書画像を変換して二値画像を取得するステップと、
前記二値画像における文字に対応する領域を拡張するステップと、
前記二値画像の連結成分を検出するステップと、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするステップと、を含む、付記1に記載の画像視点変換方法。
(付記4)
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、
任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字を連結する連結線を取得するステップと、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出するステップと、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するステップと、をさらに含む、付記3に記載の画像視点変換方法。
(付記5)
前記文書画像は1つ以上の領域に分割され、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得するステップ、を含む、付記1に記載の画像視点変換方法。
(付記6)
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、前記文書画像の面積が最も大きい2つの領域を選択し、前記面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とするステップ、を含む、付記5に記載の画像視点変換方法。
(付記7)
前記抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択するステップは、前記2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、前記2本の垂直線及び前記2本の水平線を選択するステップ、を含む、付記1に記載の画像視点変換方法。
(付記8)
前記選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出するステップは、
前記2本の垂直線及び2本の水平線により形成された元枠に基づいて、前記元枠の4つの頂点の座標を取得するステップと、
前記元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出するステップと、
前記元枠の4つの頂点の座標及び前記目的枠の4つの頂点の座標に基づいて前記変換行列を決定するステップと、を含む、付記1に記載の画像視点変換方法。
(付記9)
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップは、
前記変換行列(H行列)の逆行列(H’行列)を算出するステップと、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定するステップと、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素を充填するステップと、を含む、付記1に記載の画像視点変換方法。
(付記10)
画像視点変換装置であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、
水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、
抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択する線選択手段と、
選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置。
(付記11)
前記直線抽出手段は、
前記文書画像を変換してグレースケール画像を取得するグレースケール変換手段と、
前記グレースケール画像における直線を検出する直線検出手段と、
検出された直線のうち長さが所定閾値よりも小さい直線を除去する直線フィルタリング手段と、を含む、付記10に記載の画像視点変換装置。
(付記12)
前記テキスト行抽出手段は、
前記文書画像を変換して二値画像を取得する二値変換手段と、
前記二値画像における文字に対応する領域を拡張する領域拡張手段と、
前記二値画像の連結成分を検出する連結成分検出手段と、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするテキスト行フィッティング手段と、を含む、付記10に記載の画像視点変換装置。
(付記13)
前記テキスト行抽出手段は、
任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字を連結する連結線を取得する連結線取得手段と、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する文字数算出手段と、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するテキスト行決定手段と、をさらに含む、付記12に記載の画像視点変換装置。
(付記14)
前記文書画像は1つ以上の領域に分割され、
前記テキスト行抽出手段は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得する、付記10に記載の画像視点変換装置。
(付記15)
前記テキスト行抽出手段は、前記文書画像の面積が最も大きい2つの領域を選択し、前記面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とする、付記14に記載の画像視点変換装置。
(付記16)
前記線選択手段は、前記2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、前記2本の垂直線及び前記2本の水平線を選択する、付記10に記載の画像視点変換装置。
(付記17)
前記行列算出手段は、
前記2本の垂直線及び2本の水平線により形成された元枠に基づいて、前記元枠の4つの頂点の座標を取得する元座標取得手段と、
前記元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出する目的座標算出手段と、
前記元枠の4つの頂点の座標及び前記目的枠の4つの頂点の座標に基づいて前記変換行列を決定する行列決定手段と、を含む、付記10に記載の画像視点変換装置。
(付記18)
前記画像変換手段は、
前記変換行列(H行列)の逆行列(H’行列)を算出する逆行列算出手段と、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定する位置決定手段と、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素を充填する画素充填手段と、を含む、付記10に記載の画像視点変換装置。
(付記19)
付記10に記載の画像視点変換装置を含む電子機器。

Claims (10)

  1. 画像視点変換装置であって、
    文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、
    水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、
    前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、
    水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、
    抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択する線選択手段と、
    選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、
    前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置。
  2. 前記直線抽出手段は、
    前記文書画像を変換してグレースケール画像を取得するグレースケール変換手段と、
    前記グレースケール画像における直線を検出する直線検出手段と、
    検出された直線のうち長さが所定閾値よりも小さい直線を除去する直線フィルタリング手段と、を含む、請求項1に記載の画像視点変換装置。
  3. 前記テキスト行抽出手段は、
    前記文書画像を変換して二値画像を取得する二値変換手段と、
    前記二値画像における文字に対応する領域を拡張する領域拡張手段と、
    前記二値画像の連結成分を検出する連結成分検出手段と、
    前記連結成分に基づいて水平方向のテキスト行をフィッティングするテキスト行フィッティング手段と、を含む、請求項1に記載の画像視点変換装置。
  4. 前記テキスト行抽出手段は、
    任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字を連結する連結線を取得する連結線取得手段と、
    各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する文字数算出手段と、
    通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するテキスト行決定手段と、をさらに含む、請求項3に記載の画像視点変換装置。
  5. 前記文書画像は1つ以上の領域に分割され、
    前記テキスト行抽出手段は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得する、請求項1に記載の画像視点変換装置。
  6. 前記テキスト行抽出手段は、前記文書画像の面積が最も大きい2つの領域を選択し、前記面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とする、請求項5に記載の画像視点変換装置。
  7. 前記線選択手段は、前記2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、前記2本の垂直線及び前記2本の水平線を選択する、請求項1に記載の画像視点変換装置。
  8. 前記行列算出手段は、
    前記2本の垂直線及び2本の水平線により形成された元枠に基づいて、前記元枠の4つの頂点の座標を取得する元座標取得手段と、
    前記元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出する目的座標算出手段と、
    前記元枠の4つの頂点の座標及び前記目的枠の4つの頂点の座標に基づいて前記変換行列を決定する行列決定手段と、を含む、請求項1に記載の画像視点変換装置。
  9. 前記画像変換手段は、
    前記変換行列の逆行列を算出する逆行列算出手段と、
    目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定する位置決定手段と、
    前記座標位置に対応する画素値を用いて前記目的画像における前記画素の値を設定する画素設定手段と、を含む、請求項1に記載の画像視点変換装置。
  10. 画像視点変換方法であって、
    文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、
    水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、
    前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、
    水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、
    抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択するステップと、
    選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出するステップと、
    前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法。
JP2017174597A 2016-09-18 2017-09-12 画像視点変換装置及び方法 Active JP6904182B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610829031.7A CN107845068B (zh) 2016-09-18 2016-09-18 图像视角变换装置以及方法
CN201610829031.7 2016-09-18

Publications (2)

Publication Number Publication Date
JP2018045691A JP2018045691A (ja) 2018-03-22
JP6904182B2 true JP6904182B2 (ja) 2021-07-14

Family

ID=61620468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017174597A Active JP6904182B2 (ja) 2016-09-18 2017-09-12 画像視点変換装置及び方法

Country Status (3)

Country Link
US (1) US20180082456A1 (ja)
JP (1) JP6904182B2 (ja)
CN (1) CN107845068B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109444163B (zh) * 2018-08-24 2023-07-14 辽宁省交通规划设计院有限责任公司 获取透视畸变逆变换矩阵的系统
CN109829437B (zh) * 2019-02-01 2022-03-25 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN109941885A (zh) * 2019-03-07 2019-06-28 无锡顶视科技有限公司 一种基于伸缩臂的集装箱箱号抓拍和识别装置及其方法
US11557108B2 (en) * 2019-04-10 2023-01-17 Rakuten Group, Inc. Polygon detection device, polygon detection method, and polygon detection program
CN111405258B (zh) * 2020-04-30 2023-06-20 平安科技(深圳)有限公司 投影方法、装置、设备及计算机可读存储介质
CN112733855B (zh) * 2020-12-30 2024-04-09 科大讯飞股份有限公司 表格结构化方法、表格恢复设备及具有存储功能的装置
CN113077478A (zh) * 2021-03-23 2021-07-06 苏州华兴源创科技股份有限公司 显示面板的对位方法、补偿方法、系统及可读存储介质
CN113298709B (zh) * 2021-04-06 2023-05-02 广东省科学院智能制造研究所 一种基于几何变换原理的图像视角变换方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267493B (zh) * 2007-03-16 2011-01-19 富士通株式会社 透视变形文档图像的校正装置和校正方法
US20100158411A1 (en) * 2008-12-18 2010-06-24 Xerox Corporation Method and system for utilizing transformation matrices to process rasterized image data
CN103955960B (zh) * 2014-03-21 2017-01-11 南京大学 一种基于单幅输入图像的图像视点变换方法
CN104504387B (zh) * 2014-12-16 2018-07-20 杭州华为数字技术有限公司 文本图像的校正方法和装置
CN105844275B (zh) * 2016-03-25 2019-08-23 北京云江科技有限公司 文本图像中文本行的定位方法

Also Published As

Publication number Publication date
CN107845068A (zh) 2018-03-27
CN107845068B (zh) 2021-05-11
JP2018045691A (ja) 2018-03-22
US20180082456A1 (en) 2018-03-22

Similar Documents

Publication Publication Date Title
JP6904182B2 (ja) 画像視点変換装置及び方法
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
JP2018151748A (ja) 画像処理装置、画像処理方法、テンプレート作成装置、物体認識処理装置及びプログラム
JP5695257B1 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP5671928B2 (ja) 学習装置、学習方法、識別装置、識別方法、およびプログラム
WO2018059365A1 (zh) 图形码处理方法及装置、存储介质
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
JP6530432B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
JP6106808B2 (ja) 文書内バーコード配置特定
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
JP2014186520A (ja) 画像処理装置、画像処理方法およびプログラム
JP4990876B2 (ja) 画像処理装置
CN109074646B (zh) 图像识别装置以及图像识别程序
KR102161053B1 (ko) 영상에 포함된 표의 구조를 생성하는 방법 및 이를 위한 장치
JP2016053763A (ja) 画像処理装置、画像処理方法及びプログラム
JP6643301B2 (ja) 欠陥検査装置及び欠陥検査方法
JP5964078B2 (ja) 文字認識装置、文字認識方法およびプログラム
US10360471B2 (en) Image retrieving device, image retrieving method, and recording medium
KR101761641B1 (ko) 엣지 라인을 검출하여 분할선을 획득하는 장치 및 방법
US9524553B2 (en) Image processing apparatus, image processing method, and recording medium
JP2018074368A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP6194677B2 (ja) 画像処理装置およびプログラム
JP6922690B2 (ja) 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210607

R150 Certificate of patent or registration of utility model

Ref document number: 6904182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150