JP7242331B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7242331B2
JP7242331B2 JP2019026390A JP2019026390A JP7242331B2 JP 7242331 B2 JP7242331 B2 JP 7242331B2 JP 2019026390 A JP2019026390 A JP 2019026390A JP 2019026390 A JP2019026390 A JP 2019026390A JP 7242331 B2 JP7242331 B2 JP 7242331B2
Authority
JP
Japan
Prior art keywords
region
processor
score
equal
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019026390A
Other languages
English (en)
Other versions
JP2020135272A (ja
Inventor
泰弘 大川
倫行 浜村
俊二 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Infrastructure Systems and Solutions Corp filed Critical Toshiba Corp
Priority to JP2019026390A priority Critical patent/JP7242331B2/ja
Publication of JP2020135272A publication Critical patent/JP2020135272A/ja
Application granted granted Critical
Publication of JP7242331B2 publication Critical patent/JP7242331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本発明の実施形態は、情報処理装置及びプログラムに関する。
情報処理装置には、文字列の画像から文字を認識するものがある。そのような情報処理装置は、画像から行ごとに文字列を含む領域(対象領域)を特定し、対象領域ごとに文字認識処理を行う。
しかしながら、情報処理装置は、行が曲がっている又は傾いている場合などに、対象領域の特定に失敗することがある。
特開平8-044819号公報
上記の課題を解決するため、効果的に画像から対象領域を特定することができる情報処理装置及びプログラムを提供する。
実施形態によれば、情報処理装置は、インターフェースと、プロセッサと、を備える。インターフェースは、画像を取得する。プロセッサは、前記画像を構成する画素が対象領域の第1の端領域であることに関連する第1の端領域スコアを算出し、前記画素が前記対象領域の第2の端領域であることに関連する第2の端領域スコアを算出し、前記対象領域の中腹領域を特定し、前記中腹領域及び前記第1の端領域スコアに基づいて前記第1の端領域の第1の境界を特定し、前記中腹領域及び前記第2の端領域スコアに基づいて前記第2の端領域の第2の境界を特定し、前記第1の境界及び前記第2の境界に基づいて前記対象領域を特定する。前記プロセッサは、前記中腹領域から第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定し、前記中腹領域から前記第1の方向と異なる第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定する。
図1は、実施形態に係る情報処理装置の構成例を示すブロック図である。 図2は、実施形態に係る中腹領域などの例を示す図である。 図3は、実施形態に係る上端領域の例を示す図である。 図4は、実施形態に係る下端領域の例を示す図である。 図5は、実施形態に係る中腹領域の例を示す図である。 図6は、実施形態に係る中腹領域の他の例を示す図である。 図7は、実施形態に係る情報処理装置の動作例を示す図である。 図8は、実施形態に係る情報処理装置の動作例を示す図である。 図9は、実施形態に係る情報処理装置が特定した文字行領域の例を示す図である。 図10は、実施形態に係る情報処理装置の動作例を示すフローチャートである。 図11は、実施形態に係る情報処理装置の動作例を示すフローチャートである。 図12は、実施形態に係る情報処理装置の動作例を示すフローチャートである。 図13は、実施形態に係る対象領域の例を示す図である。 図14は、実施形態に係る情報処理装置の動作の変形例を示す図である。 図15は、実施形態に係る情報処理装置が特定した領域の例を示す図である。
以下、実施形態について、図面を参照して説明する。
実施形態に係る情報処理装置は、画像から行ごとに文字列を含む領域を特定する。即ち、情報処理装置は、1行の文字列(文字行)を含む領域(文字行領域(対象領域))を特定する。たとえば、情報処理装置は、画像から文字を認識するために用いられる。また、情報処理装置は、文字行領域から文字を認識するものであってもよい。
図1は、実施形態に係る情報処理装置10の構成例を示す。図1は、情報処理装置10の構成例を示すブロック図である。図1が示すように、情報処理装置10は、プロセッサ11、ROM12、RAM13、NVM14、インターフェース15、操作部16及び表示部17などを備える。
プロセッサ11と、ROM12、RAM13、NVM14、インターフェース15、操作部16及び表示部17と、は、データバスなどを介して互いに接続する。
なお、情報処理装置10は、図1が示すような構成の他に必要に応じた構成を具備したり、情報処理装置10から特定の構成が除外されたりしてもよい。
プロセッサ11は、情報処理装置10全体の動作を制御する機能を有する。プロセッサ11は、内部キャッシュ及び各種のインターフェースなどを備えてもよい。プロセッサ11は、内部メモリ、ROM12又はNVM14が予め記憶するプログラムを実行することにより種々の処理を実現する。
なお、プロセッサ11がプログラムを実行することにより実現する各種の機能のうちの一部は、ハードウエア回路により実現されるものであってもよい。この場合、プロセッサ11は、ハードウエア回路により実行される機能を制御する。
ROM12は、制御プログラム及び制御データなどが予め記憶された不揮発性のメモリである。ROM12に記憶される制御プログラム及び制御データは、情報処理装置10の仕様に応じて予め組み込まれる。
RAM13は、揮発性のメモリである。RAM13は、プロセッサ11の処理中のデータなどを一時的に格納する。RAM13は、プロセッサ11からの命令に基づき種々のアプリケーションプログラムを格納する。また、RAM13は、アプリケーションプログラムの実行に必要なデータ及びアプリケーションプログラムの実行結果などを格納してもよい。
NVM14は、データの書き込み及び書き換えが可能な不揮発性のメモリである。NVM14は、たとえば、HDD(Hard Disk Drive)、SSD(Solid State Drive)又はフラッシュメモリなどから構成される。NVM14は、情報処理装置10の運用用途に応じて制御プログラム、アプリケーション及び種々のデータなどを格納する。
インターフェース15は、文字行の画像を取得するためのインターフェースである。インターフェース15は、外部装置とデータを送受信する。たとえば、インターフェース15は、スキャナと接続する。また、インターフェース15は、文字列の画像を格納するメモリと接続するものであってもよい。また、インターフェース15は、ネットワークを通じて画像を取得するものであってもよい。たとえば、インターフェース15は、USB(Universal Serial Bus)接続又はLAN(Local Area Network)接続をサポートする。
操作部16は、オペレータから種々の操作の入力を受け付ける。操作部16は、入力された操作を示す信号をプロセッサ11へ送信する。操作部16は、タッチパネルから構成されてもよい。
表示部17は、プロセッサ11からの画像データを表示する。たとえば、表示部17は、液晶モニタから構成される。操作部16がタッチパネルから構成される場合、表示部17は、操作部16と一体的に形成されてもよい。
次に、情報処理装置10が実現する機能について説明する。情報処理装置10が実現する機能は、プロセッサ11がROM12又はNVM14などに格納されるプログラムを実行することで実現される。
まず、情報処理装置10のプロセッサ11は、文字列を含む画像を取得する機能を有する。
プロセッサ11は、インターフェース15を通じて、文字列を含む画像を取得する。たとえば、インターフェース15がスキャナと接続する場合、プロセッサ11は、スキャナに画像をスキャンさせる信号を送信して、スキャナから画像を取得する。
また、インターフェース15がメモリに接続する場合、プロセッサ11は、メモリが格納する画像を取得する。
また、インターフェース15がネットワークに接続する場合、プロセッサ11は、ネットワークを通じて外部装置に画像を要求するリクエストを送信して、外部装置から画像を取得する。
プロセッサ11が文字列を含む画像を取得する方法は、特定の方法に限定されるものではない。
また、プロセッサ11は、取得した画像の各画素について中腹領域スコアを算出する機能を有する。
中腹領域スコアは、画素が中腹領域であることに関連するスコアである。たとえば、中腹領域スコアは、画素が中腹領域であることの尤度である。
中腹領域は、文字行領域の中腹に形成される領域である。
図2は、中腹領域について説明するための図である。
図2は、文字行20、中心線21及び中腹領域22を示す。ここでは、文字行20は、一行の文字列である。
文字行20の高さHは、たとえば、文字行20の平均的な高さである。
中心線21は、文字行20の中心に引かれる線である。中心線21は、文字行20が記載される方向(記載方向)(図2では、左右方向)に延びる。即ち、中心線21は、記載方向に直交する方向(直交方向)において、文字行20の中心に形成される。
中腹領域22は、文字行20(文字行20の文字行領域)の中腹に形成される領域である。中腹領域22は、直交方向において、文字行20の中腹に形成される。即ち、中腹領域22は、直交方向において、文字行20の上端及び下端から離れた位置に形成される。ここでは、中腹領域22は、中心線21を中心に形成される。即ち、中腹領域22は、中心線21から直交方向の一方に所定の距離離れた線と逆方向に所定の距離離れた線との間に形成される領域である。
また、中腹領域22は、記載方向において文字行20の一端から他端に掛けて形成される。
中腹領域22は、文字行20の高さHの1/N倍の高さに形成される。即ち、中腹領域22は、直交方向において、Hの1/N倍の幅に形成される。ここでは、Nは、3である。なお、Nの値は、1以上の任意の値でよい。また、中腹領域22の高さは、高さHに関係なく所定の値、たとえば3や5、でもよい。
たとえば、プロセッサ11は、人工知能を用いて中腹領域スコアを算出する。プロセッサ11は、既知の中腹領域の画像を教師データとして深層学習して得られた学習モデル(たとえば、ネットワーク)などを用いて中腹領域スコアを算出する。
また、プロセッサ11は、取得した画像の各画素について上端領域スコア(第1の端領域スコア)を算出する機能を有する。
上端領域スコアは、画素が上端領域(第1の端領域)であることに関連するスコアである。たとえば、上端領域スコアは、画素が上端領域であることの尤度である。ここでは、上端領域スコアは、数値が高いほど画素が上端領域である蓋然性が大きいことを示す。
上端領域は、文字行領域の上端に形成される領域である。即ち、上端領域は、文字行領域において上方向(第1の方向)に形成される領域である。
図3は、上端領域について説明するための図である。
図3は、文字行20、中心線21及び上端領域23を示す。文字行20及び中心線21は、前述の通りである。
上端領域23は、直交方向において、文字行20(文字行20の文字行領域)の上端の領域である。ここでは、上端領域23は、中心線21よりも直交方向において上部に形成される。
たとえば、プロセッサ11は、人工知能を用いて上端領域スコアを算出する。プロセッサ11は、既知の上端領域の画像を教師データとして深層学習して得られた学習モデル(たとえば、ネットワーク)などを用いて上端領域スコアを算出する。
また、プロセッサ11は、取得した画像の各画素について下端領域スコア(第2の端領域スコア)を算出する機能を有する。
下端領域スコアは、画素が下端領域(第2の端領域)であることに関連するスコアである。たとえば、下端領域スコアは、画素が下端領域であることの尤度である。下端領域スコアは、数値が高いほど画素が下端領域である蓋然性が大きいことを示す。
下端領域は、文字行領域の上端に形成される領域である。即ち、下端領域は、文字行領域において上方向に対向する下方向(第2の方向)に形成される領域である。
図4は、下端領域について説明するための図である。
図4は、文字行20、中心線21及び下端領域24を示す。文字行20及び中心線21は、前述の通りである。
下端領域24は、直交方向において、文字行20(文字行20の文字行領域)の下端の領域である。ここでは、下端領域24は、中心線21よりも直交方向において下部に形成される。
たとえば、プロセッサ11は、人工知能を用いて下端領域スコアを算出する。プロセッサ11は、既知の下端領域の画像を教師データとして深層学習して得られた学習モデル(たとえば、ネットワーク)などを用いて下端領域スコアを算出する。
なお、中腹領域スコア、上端領域スコア及び下端領域スコアの学習モデルは、Fully Convolutional Networkにsigmoid_cross_entropyをロスとして用いることで実現できる。また、学習モデルは、U-net等のモデル又はSVM、Logistic Regression等の機械学習モデルでもよく、画素ごとに中腹領域スコア、上端領域スコア及び下端領域スコアを出力できるものであればよい。
また、プロセッサ11は、中腹領域スコアに基づいて画像から中腹領域を特定する機能を有する。
たとえば、プロセッサ11は、中腹領域スコアを所定の閾値で二値化した画像を生成する。プロセッサ11は、生成した画像に対してラベリング処理を行うことで、文字行領域ごとに中腹領域を特定する。
なお、プロセッサ11が中腹領域を特定する方法は、特定の方法に限定されるものではない。
図5は、プロセッサ11が特定した中腹領域の例を示す。ここでは、プロセッサ11は、文字列30及び文字列40が記載された画像を取得するものとする。
図5が示すように、プロセッサ11は、文字列30内に中腹領域32を特定する。また、プロセッサ11は、文字列40内に中腹領域42を特定する。文字列30と文字列40とは、一部重複するが、プロセッサ11は、中腹領域32と中腹領域42とを異なる中腹領域として特定する。
また、図6は、プロセッサ11が特定した中腹領域の他の例を示す。ここでは、プロセッサ11は、文字列50が記載された画像を取得するものとする。
図6が示すように、プロセッサ11は、文字列50内に中腹領域52を特定する。文字列50は、所定の角度で傾いている。また、文字列50は、途中で折れ曲がる。しかしながら、プロセッサ11は、文字列50の傾き及び折れ曲がりに沿って中腹領域52を特定する。
また、プロセッサ11は、特定した中腹領域及び算出した上端領域スコアに基づいて、上端領域の上端(第1の境界)を探索する機能を有する。
即ち、プロセッサ11は、文字行領域の上端を形成する線(上端線)を探索する。
図7は、プロセッサ11が上端線65を探索する動作例を説明するための図である。
ここでは、取得した画像の横軸をX軸とし、縦軸をY軸とする。また、X軸において、左側から右側に掛けてX座標の値が上昇するものとする。また、Y軸において、上側から下側に掛けてY座標の値が上昇するものとする。また、プロセッサ11は、中腹領域62を特定したものとする。
たとえば、プロセッサ11は、中腹領域62の左端のX座標を取得する。左端のX座標を取得すると、プロセッサ11は、左端のX座標における中腹領域62の上端(第1の方向の端)のY座標を取得する。プロセッサ11は、中腹領域62の上端のY座標から上部に進み、上端線の座標を探索する。
プロセッサ11は、中腹領域62の上端のY座標から上部に進みながら、各座標における上端領域スコアを取得する。プロセッサ11は、上端領域スコアが所定の閾値以下になるまで上部に進む。即ち、プロセッサ11は、中腹領域62の上端のY座標から上方向に沿って画素ごとに上端領域スコアが所定の閾値以下となるか否かを順に判定する。プロセッサ11は、上端領域スコアが所定の閾値以下になると探索を終了する。プロセッサ11は、上端領域スコアが所定の閾値以下になる座標を上端座標リストに格納する。
ここで、上端座標リストは、上端線の座標を格納するリストである。
プロセッサ11は、中腹領域62の左端のX座標から右端のX座標まで上記の動作を繰り返して、上端線を探索する。
また、プロセッサ11は、特定した中腹領域及び算出した下端領域スコアに基づいて、下端領域の下端(第2の境界)を探索する機能を有する。
即ち、プロセッサ11は、文字行領域の下端を形成する線(下端線)を探索する。
図8は、プロセッサ11が下端線66を探索する動作例を説明するための図である。
たとえば、プロセッサ11は、中腹領域62の左端のX座標を取得する。左端のX座標を取得すると、プロセッサ11は、左端のX座標における中腹領域62の下端(第2の方向の端)のY座標を取得する。プロセッサ11は、中腹領域62の下端のY座標から下部に進み、下端線の座標を探索する。
プロセッサ11は、中腹領域62の下端のY座標から下部に進みながら、各座標における下端領域スコアを取得する。プロセッサ11は、下端領域スコアが所定の閾値以下になるまで下部に進む。即ち、プロセッサ11は、中腹領域62の下端のY座標から下方向に沿って画素ごとに下端領域スコアが所定の閾値以下となるか否かを順に判定する。プロセッサ11は、下端領域スコアが所定の閾値以下になると探索を終了する。プロセッサ11は、下端領域スコアが所定の閾値以下になる座標を下端座標リストに格納する。
ここで、下端座標リストは、下端線の座標を格納するリストである。
プロセッサ11は、中腹領域62の左端のX座標から右端のX座標まで上記の動作を繰り返して、下端線を探索する。
また、プロセッサ11は、上端線及び下端線に基づいて文字行領域を特定する機能を有する。
プロセッサ11は、上端線と下端線との間の領域を文字行領域として特定する。
図9は、プロセッサ11が特定した文字行領域67の例を示す。図9が示すように、プロセッサ11は、上端線65と下端線66との間の領域を文字行領域67として特定する。即ち、プロセッサ11は、上端線65と下端線66と中腹領域62の左端のX座標においてY軸方向に延びる直線と右端のX座標においてY軸方向に延びる直線とに囲まれた領域を文字行領域67として特定する。
プロセッサ11は、文字行領域67を特定すると、文字行リストに文字行領域67を格納する。文字行リストは、取得された画像における各文字行領域を格納する。
次に、情報処理装置10の動作例について説明する。図10は、情報処理装置10の動作例について説明するためのフローチャートである。
まず、情報処理装置10のプロセッサ11は、インターフェース15を通じて画像を取得する(S11)。画像を取得すると、プロセッサ11は、画像の各画素について中腹領域スコアを算出する(S12)。
各画素について中腹領域スコアを算出すると、プロセッサ11は、各画素について上端領域スコアを算出する(S13)。各画素について上端領域スコアを算出すると、プロセッサ11は、各画素について下端領域スコアを算出する(S14)。
各画素について下端領域スコアを算出すると、プロセッサ11は、各画素の中腹領域スコアに基づいて画像から中腹領域を特定する(S15)。中腹領域を特定すると、プロセッサ11は、文字行領域の特定を完了したか判定する(S16)。たとえば、プロセッサ11は、特定した各中腹領域について文字行領域を特定したか判定する。
文字行領域の特定を完了していないと判定すると(S16、NO)、プロセッサ11は、中腹領域及び上端領域スコアなどに基づいて上端線を探索する(S17)。上端線を探索すると、プロセッサ11は、中腹領域及び下端領域スコアなどに基づいて下端線を探索する(S18)。
下端線を探索すると、プロセッサ11は、上端線及び下端線に基づいて文字行領域を特定する(S19)。文字行領域を特定すると、プロセッサ11は、文字行リストに文字行領域を格納する(S20)。文字行リストに文字行領域を格納すると、プロセッサ11は、S16に戻る。
文字行領域の特定を完了したと判定すると(S16、YES)、プロセッサ11は、文字行リストを出力する(S21)。文字行リストを出力すると、プロセッサ11は、動作を終了する。
次に、プロセッサ11が上端線を探索する動作例(S17)について説明する。図11は、プロセッサ11が上端線を探索する動作例(S17)について説明するためのフローチャートである。
まず、プロセッサ11は、中腹領域を取得する(S31)。中腹領域を取得すると、プロセッサ11は、Xに中腹領域の左端のX座標(Left)を代入する(S32)。XにLeftを代入すると、プロセッサ11は、Xが中腹領域の右端のX座標(Right)よりも大きいか判定する(S33)。
XがRight以下であると判定すると(S33、NO)、プロセッサ11は、座標Xにおける中腹領域の上端の座標(Yu)をYに代入する(S34)。YuをYに代入すると、プロセッサ11は、座標(X,Y)における上端領域スコアが所定の閾値以下であるか判定する(S35)。
座標(X,Y)における上端領域スコアが所定の閾値以下でないと判定すると(S35、NO)、プロセッサ11は、YにY-1を代入する(S36)。YにY-1を代入すると、プロセッサ11は、S35に戻る。
座標(X,Y)における上端領域スコアが所定の閾値以下であると判定すると(S35、YES)、プロセッサ11は、上端座標リストに座標(X,Y)を格納する(S37)。上端座標リストに座標(X,Y)を格納すると、プロセッサ11は、XにX+1を代入する(S38)。
XにX+1を代入すると、プロセッサ11は、S33に戻る。
Xが中腹領域の右端のX座標(Right)よりも大きいと判定すると(S33、YES)、プロセッサ11は、動作を終了する。
次に、プロセッサ11が下端線を探索する動作例(S18)について説明する。図12は、プロセッサ11が下端線を探索する動作例(S18)について説明するためのフローチャートである。
まず、プロセッサ11は、中腹領域を取得する(S41)。中腹領域を取得すると、プロセッサ11は、Xに中腹領域の左端のX座標(Left)を代入する(S42)。XにLeftを代入すると、プロセッサ11は、Xが中腹領域の右端のX座標(Right)よりも大きいか判定する(S43)。
XがRight以下であると判定すると(S43、NO)、プロセッサ11は、座標Xにおける中腹領域の下端の座標(Yd)をYに代入する(S44)。YdをYに代入すると、プロセッサ11は、座標(X,Y)における下端領域スコアが所定の閾値以下であるか判定する(S45)。
座標(X,Y)における下端領域スコアが所定の閾値以下でないと判定すると(S45、NO)、プロセッサ11は、YにY+1を代入する(S46)。YにY+1を代入すると、プロセッサ11は、S45に戻る。
座標(X,Y)における下端領域スコアが所定の閾値以下であると判定すると(S45、YES)、プロセッサ11は、下端座標リストに座標(X,Y)を格納する(S47)。下端座標リストに座標(X,Y)を格納すると、プロセッサ11は、XにX+1を代入する(S48)。
XにX+1を代入すると、プロセッサ11は、S43に戻る。
Xが中腹領域の右端のX座標(Right)よりも大きいと判定すると(S43、YES)、プロセッサ11は、動作を終了する。
なお、プロセッサ11は、文字行リストが格納する文字行領域に基づいて文字の認識処理を行ってもよい。また、プロセッサ11は、文字行リストを外部装置に送信してもよい。
また、プロセッサ11は、さらに下端領域スコアに基づいて上端線を探索してもよい。たとえば、プロセッサ11は、座標を上部に進めながら、下端領域スコアが上端領域スコアを上回る座標を上端線の座標として特定してもよい。また、プロセッサ11は、座標を上部に進めながら、上端領域スコアが所定の閾値以下となる場合又は下端領域スコアが上端領域スコアを上回る場合、座標を上端線の座標として特定してもよい。
また、プロセッサ11は、さらに上端領域スコアに基づいて下端線を探索してもよい。たとえば、プロセッサ11は、座標を下部に進めながら、上端領域スコアが下端領域スコアを上回る座標を下端線の座標として特定してもよい。また、プロセッサ11は、座標を下部に進めながら、下端領域スコアが所定の閾値以下となる場合又は上端領域スコアが下端領域スコアを上回る場合、座標を下端線の座標として特定してもよい。
また、プロセッサ11は、上端線を探索する際に、座標を上部に進めながら各座標の上端領域スコアを算出してもよい。
また、プロセッサ11は、下端線を探索する際に、座標を下部に進めながら各座標の下端領域スコアを算出してもよい。
また、プロセッサ11は、中心線の座標から上端線を探索してもよい。たとえば、プロセッサ11は、中心線のY座標から上部に座標を進めて、上端線を探索する。
また、プロセッサ11は、中心線の座標から下端線を探索してもよい。たとえば、プロセッサ11は、中心線のY座標から下部に座標を進めて、下端線を探索する。
また、プロセッサ11は、文字行領域以外の領域を特定するものであってもよい。プロセッサ11が特定する対象は、特定の構成に限定されるものではない。
次に、情報処理装置10の変形例について説明する。
情報処理装置10は、中腹領域から3以上の方向に境界を探索する。
図13は、情報処理装置10のプロセッサ11が取得する撮影画像の例を示す。図13が示すように、撮影画像は、認識する対象として対象領域71を含む。
対象領域71は、所定の対象物が表示される領域である。たとえば、対象領域71は、所定の人、動物又は物品が表示される領域である。対象領域71は、任意の形状を有する。対象領域71に表示される対象物及び対象領域71の形状は、特定の構成に限定されるものではない。
次に、プロセッサ11の動作例について説明する。
図14は、プロセッサ11の動作例を説明するための図である。図14が示すように、プロセッサ11は、中腹領域72から8方向に境界を探索する。
まず、プロセッサ11は、各画素において中腹領域スコアを算出する。ここでは、中腹領域は、対象領域の内部に形成され対象領域の境界に接しない領域である。たとえば、中腹領域は、対象領域の中心部に所定の半径で形成される円型の領域である。
また、プロセッサ11は、各画素において、各方向の端領域スコアを算出する。端領域は、対象領域内において所定の方向に形成される領域である。端領域スコアは、画素が端領域であることに関連するスコアである。
ここでは、プロセッサ11は、各画素において、0度方向、45度方向、90度方向、135度方向、180度方向、225度方向、270度方向及び315度方向の端領域スコアを算出する。
また、プロセッサ11は、中腹領域スコアに基づいて中腹領域を特定する。プロセッサ11が中腹領域を特定する方法は、前述の通りである。
図14が示す例では、プロセッサ11は、中腹領域72を特定する。
また、プロセッサ11は、中腹領域72及び各端領域スコアに基づいて、各方向の端領域の境界を探索する。
プロセッサ11は、所定の方向における中腹領域72の端から当該方向に向って当該方向の端領域の境界を探索する。たとえば、プロセッサ11は、当該方向の端領域スコアが所定の閾値以下となる点を端領域の境界の一点(境界点)として特定する。同様に、プロセッサ11は、各方向において、境界点を探索する。
図15は、プロセッサ11が探索した境界点を示す。図15が示すように、プロセッサ11は、境界点81乃至境界点88を探索する。
境界点81乃至境界点88は、プロセッサ11が0度方向、45度方向、90度方向、135度方向、180度方向、225度方向、270度方向及び315度方向にそれぞれ探索して得られた境界点である。
プロセッサ11は、探索した境界点に基づいて対象物が表示される対象領域を特定する。たとえば、プロセッサ11は、探索した境界点を線(たとえば、直線)で結んで形成される領域を検出対象が表示される対象領域として特定する。
図15が示す例では、プロセッサ11は、検出対象が表示される対象領域として、領域73を特定する。
領域73は、境界点81乃至境界点88を直線で結んで形成される。
なお、プロセッサ11は、境界点81乃至境界点88を曲線で結んで形成される領域を検出対象が表示される対象領域として特定してもよい。プロセッサ11が境界点から検出対象が表示される対象領域を特定する方法は、特定の方法に限定されるものではない。
また、プロセッサ11は、所定の方向の境界点として複数の境界点を探索してもよい。たとえば、プロセッサ11は、所定の幅で所定の方向に探索を行い複数の境界点を探索してもよい。
また、プロセッサ11は、3D空間において所定の領域を特定するものであってもよい。たとえば、プロセッサ11は、3D空間において中腹領域を特定し中腹領域から複数の方向に境界線(又は、境界点)を探索してもよい。
以上のように構成された情報処理装置は、1行の文字列から構成される文字行の中腹領域を特定する。情報処理装置は、中腹領域に基づいて上端領域の上端を探索する。また、情報処理装置は、中腹領域に基づいて上端領域の下端を探索する。情報処理装置は、探索した上端及び下端に基づいて文字行の領域を特定する。その結果、情報処理装置は、文字行が傾いている又は曲がっている場合などにおいても適切に文字行の領域を特定することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
画像を取得するインターフェースと、
対象領域の中腹領域を特定し、
前記画像を構成する画素が前記対象領域の第1の端領域であることに関連する第1の端領域スコアを算出し、
前記画素が前記対象領域の第2の端領域であることに関連する第2の端領域スコアを算出し、
前記中腹領域及び前記第1の端領域スコアに基づいて前記第1の端領域の第1の境界を特定し、
前記中腹領域及び前記第2の端領域スコアに基づいて前記第2の端領域の第2の境界を特定し、
前記第1の境界及び前記第2の境界に基づいて前記対象領域を特定する、
プロセッサと、
を備える情報処理装置。
[C2]
前記プロセッサは、
前記中腹領域から第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定し、
前記中腹領域から前記第1の方向と異なる第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定する、
C1に記載の情報処理装置。
[C3]
前記プロセッサは、
前記中腹領域における前記第1の方向の端から前記第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定し、
前記中腹領域における前記第2の方向の端から前記第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定する、
C2に記載の情報処理装置。
[C4]
前記プロセッサは、
前記中腹領域における中心線から前記第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定し、
前記中心線から前記第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定する、
C2に記載の情報処理装置。
[C5]
前記第2の方向は、前記第1の方向と逆方向である、
C2乃至4の何れか1項に記載の情報処理装置。
[C6]
前記第1の端領域は、前記中心線よりも上部に形成される上端領域であり、
前記第2の端領域は、前記中心線よりも下部に形成される下端領域である、
C4に記載の情報処理装置。
[C7]
前記対象領域は、1行の文字列から構成される文字行を表示する領域である、
C1乃至6の何れか1項に記載の情報処理装置。
[C8]
前記プロセッサは、
前記画素が前記中腹領域であることに関連する中腹領域スコアを算出し、
前記中腹領域スコアに基づいて前記中腹領域を特定する、
C1乃至7の何れか1項に記載の情報処理装置。
[C9]
前記プロセッサは、深層学習によって得られたモデルに基づいて前記第1の端領域スコア及び前記第2の端領域スコアを算出する、
C1乃至8の何れか1項に記載の情報処理装置。
[C10]
プロセッサによって実行されるプログラムであって、
前記プロセッサに、
画像を取得させ、
対象領域の中腹領域を特定させ、
前記画像を構成する画素が前記対象領域の第1の端領域であることに関連する第1の端領域スコアを算出させ、
前記画素が前記対象領域の第2の端領域であることに関連する第2の端領域スコアを算出させ、
前記中腹領域及び前記第1の端領域スコアに基づいて前記第1の端領域の第1の境界を特定させ、
前記中腹領域及び前記第2の端領域スコアに基づいて前記第2の端領域の第2の境界を特定させ、
前記第1の境界及び前記第2の境界に基づいて前記対象領域を特定させる、
プログラム。
10…情報処理装置、11…プロセッサ、12…ROM、13…RAM、14…NVM、15…インターフェース、16…操作部、17…表示部、20…文字行、21…中心線、22…中腹領域、23…上端領域、24…下端領域、30…文字列、32…中腹領域、40…文字列、42…中腹領域、50…文字列、52…中腹領域、62…中腹領域、65…上端線、66…下端線、67…文字行領域、71…対象領域、72…中腹領域、73…領域、81乃至88…境界点。

Claims (9)

  1. 画像を取得するインターフェースと、
    対象領域の中腹領域を特定し、
    前記画像を構成する画素が前記対象領域の第1の端領域であることに関連する第1の端領域スコアを算出し、
    前記画素が前記対象領域の第2の端領域であることに関連する第2の端領域スコアを算出し、
    前記中腹領域及び前記第1の端領域スコアに基づいて前記第1の端領域の第1の境界を特定し、
    前記中腹領域及び前記第2の端領域スコアに基づいて前記第2の端領域の第2の境界を特定し、
    前記第1の境界及び前記第2の境界に基づいて前記対象領域を特定する、
    プロセッサと、
    を備え
    前記プロセッサは、
    前記中腹領域から第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定し、
    前記中腹領域から前記第1の方向と異なる第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定する、
    情報処理装置。
  2. 前記プロセッサは、
    前記中腹領域における前記第1の方向の端から前記第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定し、
    前記中腹領域における前記第2の方向の端から前記第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定する、
    請求項に記載の情報処理装置。
  3. 前記プロセッサは、
    前記中腹領域における中心線から前記第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定し、
    前記中心線から前記第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定する、
    請求項に記載の情報処理装置。
  4. 前記第2の方向は、前記第1の方向と逆方向である、
    請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記第1の端領域は、前記中心線よりも上部に形成される上端領域であり、
    前記第2の端領域は、前記中心線よりも下部に形成される下端領域である、
    請求項に記載の情報処理装置。
  6. 前記対象領域は、1行の文字列から構成される文字行を表示する領域である、
    請求項1乃至の何れか1項に記載の情報処理装置。
  7. 前記プロセッサは、
    前記画素が前記中腹領域であることに関連する中腹領域スコアを算出し、
    前記中腹領域スコアに基づいて前記中腹領域を特定する、
    請求項1乃至の何れか1項に記載の情報処理装置。
  8. 前記プロセッサは、深層学習によって得られたモデルに基づいて前記第1の端領域スコア及び前記第2の端領域スコアを算出する、
    請求項1乃至の何れか1項に記載の情報処理装置。
  9. プロセッサによって実行されるプログラムであって、
    前記プロセッサに、
    画像を取得させ、
    対象領域の中腹領域を特定させ、
    前記画像を構成する画素が前記対象領域の第1の端領域であることに関連する第1の端領域スコアを算出させ、
    前記画素が前記対象領域の第2の端領域であることに関連する第2の端領域スコアを算出させ、
    前記中腹領域及び前記第1の端領域スコアに基づいて前記第1の端領域の第1の境界を特定させ、
    前記中腹領域及び前記第2の端領域スコアに基づいて前記第2の端領域の第2の境界を特定させ、
    前記第1の境界及び前記第2の境界に基づいて前記対象領域を特定させ
    前記第1の境界を特定することは、前記中腹領域から第1の方向に沿って画素ごとに前記第1の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第1の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第1の境界を特定することであり、
    前記第2の境界を特定することは、前記中腹領域から前記第1の方向と異なる第2の方向に沿って画素ごとに前記第2の端領域スコアが所定の閾値以下であるか否かを順に判定し、前記第2の端領域スコアが所定の閾値以下である画素の座標に基づいて前記第2の境界を特定することである、
    プログラム。
JP2019026390A 2019-02-18 2019-02-18 情報処理装置及びプログラム Active JP7242331B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019026390A JP7242331B2 (ja) 2019-02-18 2019-02-18 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019026390A JP7242331B2 (ja) 2019-02-18 2019-02-18 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020135272A JP2020135272A (ja) 2020-08-31
JP7242331B2 true JP7242331B2 (ja) 2023-03-20

Family

ID=72263117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019026390A Active JP7242331B2 (ja) 2019-02-18 2019-02-18 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7242331B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01245375A (ja) * 1988-03-26 1989-09-29 Toshiba Corp 文字認識装置
JP3576570B2 (ja) * 1991-11-19 2004-10-13 ゼロックス コーポレイション 比較方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes,Computer Vision and Pattern Recognition,2018年07月04日, [検索日 2022.09.29],インターネット: <https://arxiv.org/pdf/1807.01544v1.pdf>

Also Published As

Publication number Publication date
JP2020135272A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
CN109409398B (zh) 图像处理装置、图像处理方法以及存储介质
JP5713790B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US11783610B2 (en) Document structure identification using post-processing error correction
US20200167993A1 (en) Map constructing apparatus and map constructing method
JP2019041150A5 (ja)
JP2020061158A (ja) 画像処理装置、表示制御装置、画像処理方法、および、記録媒体
JP2001273091A (ja) 多重解像度画像解析による指示位置検出
KR101631015B1 (ko) 제스처 인식 장치 및 제스처 인식 장치의 제어 방법
JP6895563B2 (ja) ロボットシステム、モデル生成方法、及びモデル生成プログラム
JP2020523668A5 (ja)
US11164318B2 (en) Image recognition apparatus, method, and program for enabling recognition of objects with high precision
KR20220126709A (ko) 자율주행 차량을 위한 로드 네트워크 데이터 생성 방법, 장치 및 컴퓨터프로그램
JP7242331B2 (ja) 情報処理装置及びプログラム
JP6229554B2 (ja) 検出装置および検出方法
JP2013229011A (ja) 帳票識別装置および帳票識別方法
JP6694638B2 (ja) プログラム、情報記憶媒体及び認識装置
US9244892B2 (en) Information display apparatus and computer readable medium
US9229608B2 (en) Character display apparatus, character display method, and computer readable medium
JP2019169182A (ja) 情報処理装置、制御方法、プログラム
JP2018088223A (ja) 情報処理装置、情報処理方法、プログラム
CN111291756A (zh) 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
US20200125883A1 (en) Article recognition apparatus
JP7017114B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2021005234A (ja) 帳票認識装置、帳票認識方法、及び帳票認識システム
US11132496B2 (en) Electronic book display device, electronic book display method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221118

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150