JP6904182B2 - 画像視点変換装置及び方法 - Google Patents
画像視点変換装置及び方法 Download PDFInfo
- Publication number
- JP6904182B2 JP6904182B2 JP2017174597A JP2017174597A JP6904182B2 JP 6904182 B2 JP6904182 B2 JP 6904182B2 JP 2017174597 A JP2017174597 A JP 2017174597A JP 2017174597 A JP2017174597 A JP 2017174597A JP 6904182 B2 JP6904182 B2 JP 6904182B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- lines
- text
- line
- horizontal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 110
- 238000000034 method Methods 0.000 title claims description 39
- 239000011159 matrix material Substances 0.000 claims description 92
- 230000009466 transformation Effects 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 18
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000011049 filling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G06T3/10—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/60—Rotation of a whole image or part thereof
- G06T3/608—Skewing or deskewing, e.g. by two-pass or three-pass rotation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Description
本発明の実施例は画像視点変換方法を提供する。図2は本発明の実施例の画像視点変換方法を示す図である。図2に示すように、画像視点変換方法は以下のステップを含む。
y1’=(y1+y2)/2
x2’=(x2+x3)/2
y2’=y1’
x3’=x2’
y3’=(y3+y4)/2
x4’=x1’
y4’=y3’
図10は本発明の実施例の目的(destination)枠を示す図である。図10に示すように、算出された目的枠の4つの頂点(x1’,y1’)(x2’,y2’)(x3’,y3’)(x4’,y4’)に基づいて、該目的枠を決定できる。そして、元枠及び目的枠に基づいてH行列を算出してもよく、H行列の具体的な内容について関連技術を参照してもよい。
本発明の実施例は画像視点変換装置を提供し、実施例1と同様な内容について説明を省略する。
本発明の実施例は電子機器をさらに提供し、該電子機器は実施例2に記載の画像視点変換装置1300を含む。
(付記1)
画像視点変換方法であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、
水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、
抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択するステップと、
選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出するステップと、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法。
(付記2)
前記文書画像のグレースケール画像に基づいて複数の直線を抽出するステップは、
前記文書画像を変換してグレースケール画像を取得するステップと、
前記グレースケール画像における直線を検出するステップと、
検出された直線のうち長さが所定閾値よりも小さい直線を除去するステップと、を含む、付記1に記載の画像視点変換方法。
(付記3)
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、
前記文書画像を変換して二値画像を取得するステップと、
前記二値画像における文字に対応する領域を拡張するステップと、
前記二値画像の連結成分を検出するステップと、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするステップと、を含む、付記1に記載の画像視点変換方法。
(付記4)
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、
任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字を連結する連結線を取得するステップと、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出するステップと、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するステップと、をさらに含む、付記3に記載の画像視点変換方法。
(付記5)
前記文書画像は1つ以上の領域に分割され、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得するステップ、を含む、付記1に記載の画像視点変換方法。
(付記6)
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップは、前記文書画像の面積が最も大きい2つの領域を選択し、前記面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とするステップ、を含む、付記5に記載の画像視点変換方法。
(付記7)
前記抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択するステップは、前記2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、前記2本の垂直線及び前記2本の水平線を選択するステップ、を含む、付記1に記載の画像視点変換方法。
(付記8)
前記選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出するステップは、
前記2本の垂直線及び2本の水平線により形成された元枠に基づいて、前記元枠の4つの頂点の座標を取得するステップと、
前記元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出するステップと、
前記元枠の4つの頂点の座標及び前記目的枠の4つの頂点の座標に基づいて前記変換行列を決定するステップと、を含む、付記1に記載の画像視点変換方法。
(付記9)
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップは、
前記変換行列(H行列)の逆行列(H’行列)を算出するステップと、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定するステップと、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素を充填するステップと、を含む、付記1に記載の画像視点変換方法。
(付記10)
画像視点変換装置であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、
水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、
抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択する線選択手段と、
選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置。
(付記11)
前記直線抽出手段は、
前記文書画像を変換してグレースケール画像を取得するグレースケール変換手段と、
前記グレースケール画像における直線を検出する直線検出手段と、
検出された直線のうち長さが所定閾値よりも小さい直線を除去する直線フィルタリング手段と、を含む、付記10に記載の画像視点変換装置。
(付記12)
前記テキスト行抽出手段は、
前記文書画像を変換して二値画像を取得する二値変換手段と、
前記二値画像における文字に対応する領域を拡張する領域拡張手段と、
前記二値画像の連結成分を検出する連結成分検出手段と、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするテキスト行フィッティング手段と、を含む、付記10に記載の画像視点変換装置。
(付記13)
前記テキスト行抽出手段は、
任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字を連結する連結線を取得する連結線取得手段と、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する文字数算出手段と、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するテキスト行決定手段と、をさらに含む、付記12に記載の画像視点変換装置。
(付記14)
前記文書画像は1つ以上の領域に分割され、
前記テキスト行抽出手段は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得する、付記10に記載の画像視点変換装置。
(付記15)
前記テキスト行抽出手段は、前記文書画像の面積が最も大きい2つの領域を選択し、前記面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とする、付記14に記載の画像視点変換装置。
(付記16)
前記線選択手段は、前記2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、前記2本の垂直線及び前記2本の水平線を選択する、付記10に記載の画像視点変換装置。
(付記17)
前記行列算出手段は、
前記2本の垂直線及び2本の水平線により形成された元枠に基づいて、前記元枠の4つの頂点の座標を取得する元座標取得手段と、
前記元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出する目的座標算出手段と、
前記元枠の4つの頂点の座標及び前記目的枠の4つの頂点の座標に基づいて前記変換行列を決定する行列決定手段と、を含む、付記10に記載の画像視点変換装置。
(付記18)
前記画像変換手段は、
前記変換行列(H行列)の逆行列(H’行列)を算出する逆行列算出手段と、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定する位置決定手段と、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素を充填する画素充填手段と、を含む、付記10に記載の画像視点変換装置。
(付記19)
付記10に記載の画像視点変換装置を含む電子機器。
Claims (10)
- 画像視点変換装置であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出する直線抽出手段と、
水平方向及び垂直方向に応じて前記複数の直線を分類する直線分類手段と、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するテキスト行抽出手段と、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するテキスト行分類手段と、
抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択する線選択手段と、
選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出する行列算出手段と、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得する画像変換手段と、を含む、画像視点変換装置。 - 前記直線抽出手段は、
前記文書画像を変換してグレースケール画像を取得するグレースケール変換手段と、
前記グレースケール画像における直線を検出する直線検出手段と、
検出された直線のうち長さが所定閾値よりも小さい直線を除去する直線フィルタリング手段と、を含む、請求項1に記載の画像視点変換装置。 - 前記テキスト行抽出手段は、
前記文書画像を変換して二値画像を取得する二値変換手段と、
前記二値画像における文字に対応する領域を拡張する領域拡張手段と、
前記二値画像の連結成分を検出する連結成分検出手段と、
前記連結成分に基づいて水平方向のテキスト行をフィッティングするテキスト行フィッティング手段と、を含む、請求項1に記載の画像視点変換装置。 - 前記テキスト行抽出手段は、
任意の2本の水平方向のテキスト行について、該2本の水平方向のテキスト行の対応する文字を連結する連結線を取得する連結線取得手段と、
各連結線が通過した他の水平方向のテキスト行の対応する文字の数を算出する文字数算出手段と、
通過した他の水平方向のテキスト行の対応する文字の数が最も多い連結線を、垂直方向のテキスト行として決定するテキスト行決定手段と、をさらに含む、請求項3に記載の画像視点変換装置。 - 前記文書画像は1つ以上の領域に分割され、
前記テキスト行抽出手段は、各領域の水平方向の上端テキスト行及び下端テキスト行、並びに各領域の垂直方向の左端テキスト行及び右端テキスト行をそれぞれ取得する、請求項1に記載の画像視点変換装置。 - 前記テキスト行抽出手段は、前記文書画像の面積が最も大きい2つの領域を選択し、前記面積が最も大きい2つの領域の水平方向の上端テキスト行及び下端テキスト行、並びに垂直方向の左端テキスト行及び右端テキスト行を使用すべきテキスト行とする、請求項5に記載の画像視点変換装置。
- 前記線選択手段は、前記2本の垂直線及び2本の水平線により形成された枠の面積が最大になるように、前記2本の垂直線及び前記2本の水平線を選択する、請求項1に記載の画像視点変換装置。
- 前記行列算出手段は、
前記2本の垂直線及び2本の水平線により形成された元枠に基づいて、前記元枠の4つの頂点の座標を取得する元座標取得手段と、
前記元枠の4つの頂点の座標に基づいて、平均値又はアスペクト比で目的枠の4つの頂点の座標を算出する目的座標算出手段と、
前記元枠の4つの頂点の座標及び前記目的枠の4つの頂点の座標に基づいて前記変換行列を決定する行列決定手段と、を含む、請求項1に記載の画像視点変換装置。 - 前記画像変換手段は、
前記変換行列の逆行列を算出する逆行列算出手段と、
目的画像の各画素について、前記逆行列を用いて該画素の、元画像である前記文書画像における座標位置を決定する位置決定手段と、
前記座標位置に対応する画素値を用いて前記目的画像における前記画素の値を設定する画素設定手段と、を含む、請求項1に記載の画像視点変換装置。 - 画像視点変換方法であって、
文書画像のグレースケール画像に基づいて複数の直線を抽出するステップと、
水平方向及び垂直方向に応じて前記複数の直線を分類するステップと、
前記文書画像の二値画像に基づいて複数のテキスト行を抽出するステップと、
水平方向及び垂直方向に応じて前記複数のテキスト行を分類するステップと、
抽出され、且つ分類された前記直線及び前記テキスト行から2本の垂直線及び2本の水平線を選択するステップと、
選択された前記2本の垂直線及び前記2本の水平線により形成された枠に基づいて変換行列を算出するステップと、
前記変換行列を用いて前記文書画像を変換して視点変換後の画像を取得するステップと、を含む、画像視点変換方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610829031.7A CN107845068B (zh) | 2016-09-18 | 2016-09-18 | 图像视角变换装置以及方法 |
CN201610829031.7 | 2016-09-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045691A JP2018045691A (ja) | 2018-03-22 |
JP6904182B2 true JP6904182B2 (ja) | 2021-07-14 |
Family
ID=61620468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017174597A Active JP6904182B2 (ja) | 2016-09-18 | 2017-09-12 | 画像視点変換装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180082456A1 (ja) |
JP (1) | JP6904182B2 (ja) |
CN (1) | CN107845068B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109444163B (zh) * | 2018-08-24 | 2023-07-14 | 辽宁省交通规划设计院有限责任公司 | 获取透视畸变逆变换矩阵的系统 |
CN109829437B (zh) * | 2019-02-01 | 2022-03-25 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN109941885A (zh) * | 2019-03-07 | 2019-06-28 | 无锡顶视科技有限公司 | 一种基于伸缩臂的集装箱箱号抓拍和识别装置及其方法 |
US11557108B2 (en) * | 2019-04-10 | 2023-01-17 | Rakuten Group, Inc. | Polygon detection device, polygon detection method, and polygon detection program |
CN111405258B (zh) * | 2020-04-30 | 2023-06-20 | 平安科技(深圳)有限公司 | 投影方法、装置、设备及计算机可读存储介质 |
CN112733855B (zh) * | 2020-12-30 | 2024-04-09 | 科大讯飞股份有限公司 | 表格结构化方法、表格恢复设备及具有存储功能的装置 |
CN113077478A (zh) * | 2021-03-23 | 2021-07-06 | 苏州华兴源创科技股份有限公司 | 显示面板的对位方法、补偿方法、系统及可读存储介质 |
CN113298709B (zh) * | 2021-04-06 | 2023-05-02 | 广东省科学院智能制造研究所 | 一种基于几何变换原理的图像视角变换方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101267493B (zh) * | 2007-03-16 | 2011-01-19 | 富士通株式会社 | 透视变形文档图像的校正装置和校正方法 |
US20100158411A1 (en) * | 2008-12-18 | 2010-06-24 | Xerox Corporation | Method and system for utilizing transformation matrices to process rasterized image data |
CN103955960B (zh) * | 2014-03-21 | 2017-01-11 | 南京大学 | 一种基于单幅输入图像的图像视点变换方法 |
CN104504387B (zh) * | 2014-12-16 | 2018-07-20 | 杭州华为数字技术有限公司 | 文本图像的校正方法和装置 |
CN105844275B (zh) * | 2016-03-25 | 2019-08-23 | 北京云江科技有限公司 | 文本图像中文本行的定位方法 |
-
2016
- 2016-09-18 CN CN201610829031.7A patent/CN107845068B/zh active Active
-
2017
- 2017-09-07 US US15/697,823 patent/US20180082456A1/en not_active Abandoned
- 2017-09-12 JP JP2017174597A patent/JP6904182B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN107845068A (zh) | 2018-03-27 |
CN107845068B (zh) | 2021-05-11 |
JP2018045691A (ja) | 2018-03-22 |
US20180082456A1 (en) | 2018-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6904182B2 (ja) | 画像視点変換装置及び方法 | |
KR101617681B1 (ko) | 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출 | |
JP2018151748A (ja) | 画像処理装置、画像処理方法、テンプレート作成装置、物体認識処理装置及びプログラム | |
JP5695257B1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP5671928B2 (ja) | 学習装置、学習方法、識別装置、識別方法、およびプログラム | |
WO2018059365A1 (zh) | 图形码处理方法及装置、存储介质 | |
US10455163B2 (en) | Image processing apparatus that generates a combined image, control method, and storage medium | |
JP5656768B2 (ja) | 画像特徴量抽出装置およびそのプログラム | |
JP6530432B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP6542230B2 (ja) | 投影ひずみを補正するための方法及びシステム | |
JP6106808B2 (ja) | 文書内バーコード配置特定 | |
US10452943B2 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
JP2014186520A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP4990876B2 (ja) | 画像処理装置 | |
CN109074646B (zh) | 图像识别装置以及图像识别程序 | |
KR102161053B1 (ko) | 영상에 포함된 표의 구조를 생성하는 방법 및 이를 위한 장치 | |
JP2016053763A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP6643301B2 (ja) | 欠陥検査装置及び欠陥検査方法 | |
JP5964078B2 (ja) | 文字認識装置、文字認識方法およびプログラム | |
US10360471B2 (en) | Image retrieving device, image retrieving method, and recording medium | |
KR101761641B1 (ko) | 엣지 라인을 검출하여 분할선을 획득하는 장치 및 방법 | |
US9524553B2 (en) | Image processing apparatus, image processing method, and recording medium | |
JP2018074368A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP6194677B2 (ja) | 画像処理装置およびプログラム | |
JP6922690B2 (ja) | 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6904182 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |