JP2022522425A - 文字認識装置及び文字認識装置による文字認識方法 - Google Patents

文字認識装置及び文字認識装置による文字認識方法 Download PDF

Info

Publication number
JP2022522425A
JP2022522425A JP2021549641A JP2021549641A JP2022522425A JP 2022522425 A JP2022522425 A JP 2022522425A JP 2021549641 A JP2021549641 A JP 2021549641A JP 2021549641 A JP2021549641 A JP 2021549641A JP 2022522425 A JP2022522425 A JP 2022522425A
Authority
JP
Japan
Prior art keywords
character
character recognition
data
stage
score map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021549641A
Other languages
English (en)
Other versions
JP7297910B2 (ja
Inventor
ベク,ヨンミン
イ,ファルソク
シン,スン
リイ,ヨンムー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022522425A publication Critical patent/JP2022522425A/ja
Application granted granted Critical
Publication of JP7297910B2 publication Critical patent/JP7297910B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】【解決手段】文字認識装置による入力データ内において、文字を認識する方法において、入力データを、文字検出モデルに入力する段階と、文字検出モデルから出力される出力データに基づき、入力データ内における単語領域の位置情報を獲得する段階と、獲得した位置情報に対応する部分データを、入力データから抽出する段階と、部分データを、文字認識モデルに入力し、部分データ内において、文字を認識する段階と、を含むことを特徴とする文字認識方法が開示される。【選択図】図2

Description

本発明は、データ処理分野に係り、さらに具体的には、イメージのようなデータから、文字を認識する文字認識装置及びその方法に関する。
フィンテック(fintech)技術の発展により、携帯電話などにカード情報を保存しておき、簡便に決済することができるようにするサービスが提供されている。クレジットカード、チェックカードのような実物カードイメージにおいて、カード番号及び有効期間のような情報を認識及び保存する技術であるならば、簡便決済サービスのための核心になる技術のうち一つである。
しかしながら、カードイメージからの文字認識において、カード内に陽刻で印刷された文字が多数存在し、カード背景が多様であるので、カード番号及び有効期間を正確に認識することに技術障壁が存在する。
一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、イメージなどのデータから、文字を正確且つ迅速に認識することを技術的課題にする。
また、一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、実物カードのイメージ内において文字を正確に認識し、フィンテック産業発展に寄与することを技術的課題にする。
一実施形態による文字認識方法は、入力データを、文字検出モデルに入力する段階と、文字検出モデルから出力される出力データに基づき、入力データ内における単語領域の位置情報を獲得する段階と、獲得した位置情報に対応する部分データを、入力データから抽出する段階と、部分データを、文字認識モデルに入力し、部分データ内において、文字を認識する段階と、を含んでもよい。
一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、イメージのようなデータから、文字を正確且つ迅速に認識することができる。
また、一実施形態による文字認識装置、及び文字認識装置による文字認識方法は、実物カードのイメージ内から文字を正確に認識し、フィンテック産業発展に寄与することができる。
ただし、一実施形態による文字認識装置、及び文字認識装置による文字認識方法が達成することができる効果は、以上で言及したところに制限されるものではなく、言及されていない他の効果は、以下の記載から、本開示が属する技術分野において当業者であるならば、明確に理解することができるであろう。
一実施形態による文字認識装置を図示する図面である。 一実施形態による文字認識方法について説明するためのフローチャートである。 一実施形態による文字認識装置を介して文字が認識される過程について説明するための図面である。 文字検出モデルによって出力される出力データを図示する例示的な図面である。 文字検出モデルから出力された出力データに基づき、入力データ内における単語領域の位置情報を獲得する方法について説明するための図面である。 図5に図示された二進化過程及び併合過程について説明するための図面である。 図5に図示された単語ボックス決定過程について説明するための図面である。 一実施形態による特徴抽出モデルの構造について説明するための図面である。 一実施形態による文字認識モデルの構造について説明するための図面である。 一実施形態による文字検出モデルの訓練方法について説明するためのフローチャートである。 第1GTスコアマップを生成する方法について説明するための図面である。 第2GTスコアマップを生成する方法について説明するための図面である。 互いに隣接した文字ボックス間において、連結ボックスを決定する方法について説明するための図面である。 一実施形態による文字認識装置の構成を図示するブロック図である。 一実施形態による文字認識装置が適用されうるサーバ装置及びクライアント装置を図示する図面である。
一実施形態による文字認識方法は、入力データを、文字検出モデルに入力する段階と、文字検出モデルから出力される出力データに基づき、入力データ内における単語領域の位置情報を獲得する段階と、獲得した位置情報に対応する部分データを、入力データから抽出する段階と、部分データを、文字認識モデルに入力し、部分データ内において、文字を認識する段階と、を含んでもよい。
他の実施形態による文字認識装置は、プロセッサと、少なくとも1つのインストラクションを保存するメモリと、を含むが、プロセッサは、少なくとも1つのインストラクションにより、入力データを、文字検出モデルに入力し、文字検出モデルから出力される出力データに基づき、入力データ内における単語領域の位置情報を獲得し、獲得した位置情報に対応する部分データを、入力データから抽出し、部分データを、文字認識モデルに入力し、部分データ内において、文字を認識することができる。
本開示は、多様な変更を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、それについて、詳細な説明を介して説明する。しかしながら、それは、本開示を特定の実施形態について限定するものではなく、本開示の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むと理解されなければならない。
本実施形態についての説明において、関連公知技術に係わる具体的な説明が、要旨を必要以上に不明確にしうると判断される場合、その詳細な説明を省略する。また、本実施形態の説明過程で利用される数(例えば、第1、第2など)は、1つの構成要素を、他の構成要素と区分するための識別記号に過ぎない。
また、本明細書において、一構成要素が他の構成要素と「連結される」とか「接続される」とか言及されたときには、前記一構成要素が、前記他の構成要素と直接連結されるか、あるいは直接接続されるかともされるが、特に反対となる記載が存在しない以上、中間に、他の構成要素を媒介させ、連結されたり接続されたりもすると理解されなければならないのである。
また、本明細書において、「~部(ユニット)」、「モジュール」などと表現される構成要素は、2個以上の構成要素が1つの構成要素に合されるか、あるいは1つの構成要素がさらに細分化された機能別に、2個以上に分化されもする。また、以下で説明する構成要素それぞれは、自体が担当する主機能以外にも、他の構成要素が担当する機能のうち一部または全部の機能を追加して遂行することもでき、該構成要素それぞれが担当する主機能のうち一部機能が、他の構成要素によって専用担当されても遂行されるということは、言うまでもない。
また、本明細書において「文字」は、は単語や文章を構成する基本文字単位を意味しうる、例えば、英語の場合には、それぞれのアルファベットが文字にも該当し、数字の場合には、「0」ないし「9」の数字それぞれが文字にも該当し、韓国語の場合であるならば、子音と母音とが結合された文字(例えば、「(外1)
Figure 2022522425000002
」)、子音、母音及び子音が結合された文字(例えば、「(外2)

Figure 2022522425000003
」)、単独で記載された子音(例えば、「(外3)

Figure 2022522425000004
」)、単独で記載された母音(例えば、「(外4)

Figure 2022522425000005
」)が文字に該当しうる。また、文字は、記号(例えば、「/」、「-」など)を含んでもよい。
また、本明細書において「単語」は、少なくとも1つの文字を含む文字単位を意味しうる。「単語」を構成する文字は、互いに所定間隔以上離隔されていない。「単語」は、1つの文字からもなる。例えば、英語の不定詞「a」は、1つの文字からなっているが、周辺文字と所定距離以上離隔されている場合、「単語」に該当しうる。
また、本明細書において「文字グループ」は、後述するいずれか1つの部分データから認識された少なくとも1つの文字を意味しうる。
以下、本開示の技術的思想による実施形態について、順に詳細に説明する。
図1は、一実施形態による文字認識装置100を図示する図面である。
一実施形態による文字認識装置100は、入力データ10を獲得し、入力データ10内から文字50を認識する。入力データ10は、チェックカード、クレジットカードのような実物カードを撮影したイメージを含んでもよく、または後述するように、実物カードなどを撮影したイメージに基づき、特徴抽出モデル800から出力された特徴マップ(feature map)を含んでもよい。
文字認識装置100は、入力データ10から、カード番号、有効期間のようなカード情報を、認識及び保存することができる。文字認識装置100によって認識及び保存されたカード情報は、物品などの購入のための代金支払いにも利用される。
以下においては、図2及び図3を参照し、文字認識装置100の動作について説明する。
図2は、一実施形態による文字認識方法について説明するためのフローチャートであり、図3は、一実施形態による文字認識装置100を介して文字が認識される過程について説明するための図面である。
S210段階において、文字認識装置100は、入力データ10を、文字検出モデル410に入力する。文字認識装置100は、文字検出モデル410を事前に保存することができる。文字検出モデル410は、学習用データに基づいても訓練される。
S220段階において、文字認識装置100は、文字検出モデル410から出力される出力データ30に基づき、入力データ10内における単語領域の位置情報を獲得する。
文字検出モデル410から出力される出力データ30は、入力データ10内において、文字が存在すると予想される地点の位置を示す。文字認識装置100は、出力データ30に基づき、入力データ10内において、少なくとも1つの文字を含む単語領域の位置情報を獲得する。
S230段階において、文字認識装置100は、単語領域の位置情報に対応する部分データ40を、入力データ10から抽出する。一実施形態において、単語領域の位置情報が複数個で獲得された場合、各位置情報に対応する複数の部分データ40が、入力データ10からも抽出される。
S240段階において、文字認識装置100は、部分データ40を、文字認識モデル420に入力し、部分データ40に含まれた文字50を認識する。部分データ40が複数個である場合、文字認識装置100は、複数の部分データ40それぞれを、文字認識モデル420に入力し、複数の部分データ40それぞれに含まれた文字50を認識することができる。
一実施形態において、文字認識装置100は、文字検出モデル410の出力データ30を、部分データ40と共に、文字認識モデル420に入力することもできる。文字検出モデル410の出力データ30は、入力データ10内における個別文字の位置情報を含んでもよいので、文字認識モデル420の文字認識の正確度がさらに向上されうる。
文字認識装置100は、認識された文字を保存するか、あるいはネットワークを介し、外部装置に伝送することができる。
図4は、文字検出モデル410によって出力される出力データ30の一例を図示する例示的な図面である。
出力データ30は、入力データ10内において文字が存在する確率を、入力データ10に対応するデータ空間(例えば、イメージ空間)上に示す第1スコアマップ31、及び入力データ10内における文字間の連結性(connectivity)を、入力データ10に対応するデータ空間上に示す第2スコアマップ33を含んでもよい。
第1スコアマップ31内の各位置に保存された値(例えば、ピクセル値)は、当該位置に対応する入力データ10に文字が存在する確率を示すことができる。また、第2スコアマップ33内の各位置に保存された値(例えば、ピクセル値)は、当該位置に対応する入力データ10内において、複数の文字が互いに隣接する確率を示すことができる。
位置対応関係に係わる計算を容易にするために、第1スコアマップ31及び第2スコアマップ33の大きさは、入力データ10と同一にもなる。
後述するように、文字検出モデル410は、学習用データに対応して生成された第1GT(ground truth)スコアマップ及び第2GT(ground truth)スコアマップと類似した第1スコアマップ31及び第2スコアマップ33が出力されるようにも訓練される。
文字認識装置100は、第1スコアマップ31及び第2スコアマップ33に基づき、入力データ10内における単語領域の位置情報を決定することができるが、それについては、図5ないし図7を参照して説明する。
図5は、文字検出モデル410から出力された出力データ30に基づき、入力データ10内における単語領域の位置情報を獲得する方法について説明するための図面であり、図6は、図5に図示された二進化過程及び併合過程について説明するための図面であり、図7は、図5に図示された単語ボックス決定過程について説明するための図面である。
S510段階及びS520段階において、文字認識装置100は、第1スコアマップ31内のデータ値を臨界値と比較し、第1スコアマップ31を二進化(binarization)し、第2スコアマップ33内のデータ値を臨界値と比較し、第2スコアマップ33を二進化する。一例において、文字認識装置100は、第1スコアマップ31内及び第2スコアマップ33内のデータ値のうち、臨界値以上のデータ値を、第1値に変更し、臨界値未満のデータ値を、第2値に変更することができる。
図6に図示されているように、第1スコアマップ31及び第2スコアマップ33において、臨界値以上の値を有するデータは、二進化された第1スコアマップ601、及び二進化された第2スコアマップ603において、第1値を有するようにも変更され、第1スコアマップ31及び第2スコアマップ33において、臨界値未満の値を有するデータは、二進化された第1スコアマップ601及び二進化された第2スコアマップ603において、第2値を有するようにも変更される。
第1スコアマップ31の二進化のための臨界値と、第2スコアマップ33の二進化のための臨界値は、互いに同一であってもよく、異なっていてもよい。
S530段階において、文字認識装置100は、二進化された第1スコアマップ601と、二進化された第2スコアマップ603とを併合(merge)する。例えば、文字認識装置100は、二進化された第1スコアマップ601内と、二進化された第2スコアマップ603内とのデータ値を加えるか、あるいはOR演算を行い、併合マップ605を生成することができる。例えば、図6に図示されているように、二進化された第1スコアマップ601内、及び二進化された第2スコアマップ603内の第1値を有するデータが、併合マップ605に共に含まれてもよい。そのような方法で併合マップ605は、入力データ10内において、文字が存在する可能性が高い領域606と、そうではない領域とに区分されうる。
S540段階において、文字認識装置100は、併合マップ605を利用し、文字が含まれた領域を示す単語ボックス610を決定することになる。
例えば、併合マップ605内において、同一(または、同一範囲)値を有し、互いに隣接するように連結された領域606の少なくとも一部を単語領域と決定し、決定された単語領域を含む単語ボックス610を決定することができる。一実施形態において、文字認識装置100は、併合マップ605内における単語領域区分のために、単語領域それぞれにつき、ラベリング(labeling)を行うこともできる。
一実施形態において、文字認識装置100は、併合マップ605を利用して認識された領域606それぞれが、実際単語を含むか否かということを検証するために、追加確認を行うことができる。具体的には、例えば、併合マップ605内において、同一(または、同一範囲)値を有し、互いに隣接するように連結された領域606を、単語候補領域として置き、単語候補領域内の各データに対応する第1スコアマップ601の値内に、定められた臨界値より大きいものが1以上存在すれば、当該単語候補領域を単語領域に決定することができる。すなわち、各単語候補領域に対応する第1スコアマップ601の値のうち最大値と臨界値とを比較し、各単語候補領域が単語領域に該当するか否かということを検証することができる。
そのようにすれば、文字と類似した背景があり、単語候補領域と決定された場合をフィルタリングすることができるのである。
一実施形態において、文字認識装置100は、単語領域に該当すると検証されたデータの領域を含む最小サイズの単語ボックス610を決定することができる。
文字認識装置100は、決定された単語ボックス610の位置情報(例えば、入力データ10上または併合マップ605上における単語ボックス610のコーナー位置値)を、単語領域の位置情報として決定することができる。
単語領域の位置情報が決定されれば、文字認識装置100は、当該位置情報に対応する部分データ40を、入力データ10から抽出し、抽出された部分データ40を、文字認識モデル420に入力し、部分データ40内において、文字を認識することができる。
前述のように、文字検出モデル410に入力される入力データ10は、原本イメージに基づき、特徴検出モデル800から出力される特徴マップを含むことにもなる。図8は、特徴検出モデル800の構造について説明するための図面である。
原本イメージ20は、特徴検出モデル800にも入力される。ここで、原本イメージ20は、特徴検出モデル800に入力されるイメージを意味するものであり、最初カードなどを撮影したイメージをコピーしたイメージまたは変形したイメージではないということを意味するものではない。
原本イメージ20は、第1コンボリューション層805、第2コンボリューション層810、第3コンボリューション層815、第4コンボリューション層820、第5コンボリューション層825及び第6コンボリューション層830において、コンボリューション処理がなされる。第6コンボリューション層830の出力と、第5コンボリューション層825の出力とが連接(concatenation)演算され、第1アップコンボリューション層835に入力され、第1アップコンボリューション層835に入力された値は、コンボリューション処理836)、配置正規化(normalization)837、コンボリューション処理838及び配置正規化839を介し、第1アップサンプリング層840に入力される。第1アップサンプリング層840の出力は、第4コンボリューション層820の出力と連接演算され、第2アップコンボリューション層845及び第2アップサンプリング層850で処理される。第2アップサンプリング層850の出力は、第3コンボリューション層815の出力と連接演算され、第3アップコンボリューション層855と第3アップサンプリング層860とで処理され、該処理結果は、第2コンボリューション層810の出力と連接演算され、第4アップコンボリューション層865に入力される。そして、第4アップコンボリューション層865から出力された結果を、入力データ10として使用することができる。
一実施形態において、入力データ10の横サイズ及び縦サイズは、原本イメージ20の横サイズ及び縦サイズの1/2日でもあるが、それに限定されるものではない。
図8に図示された特徴検出モデル800の構造は、1つの例示であるのみ、コンボリューション層、アップコンボリューション層、アップサンプリング層の層数及び処理順序は、多様にも変形される。
図9は、一実施形態による文字認識モデル420の構造について説明するための図面である。
文字認識モデル420は、入力データ10から抽出された部分データ40を入力され、部分データ40内における文字50を認識する。文字認識モデル420は、コンボリューションネットワーク(convolution network)421、回帰型ニューラルネットワーク(RNN:recurrent neural network)423及びデコーダ(decoder)425を含んでもよい。
コンボリューションネットワーク421は、少なくとも1層のコンボリューション層を含み、部分データ40をコンボリューション処理し、特徴マップを抽出する。一例示において、コンボリューションネットワーク421は、よく知られているVGG、ResNetなどを含んでもよいが、一実施形態において文字認識モデル420は、原本イメージ20の特徴マップ(すなわち、入力データ)から抽出された部分データ40を入力されうるので、必要とされるコンボリューション層の層数は、少ない。
RNN 423は、部分データ40に対応する特徴マップから、特徴ベクトルのシーケンスを抽出する。RNN 423は、bi-LSTM(bidirectional long-short-term memory)を介し、連続する特徴ベクトルのコンテクスト(context)関係を把握することができる。
デコーダ425は、特徴ベクトルのシーケンス情報から文字を抽出する。デコーダ425は、アテンション(attention)段階及び生成(generation)段階を遂行することができるが、該アテンション段階においてデコーダ425は、どのシーケンスから情報を取り出すかということを示す加重値を計算し、生成段階において、該加重値をシーケンスに適用し、LSTM(long-short-term memory)を介し、個別文字を抽出することができる。
一方、一実施形態において、文字認識装置100は、さまざまな部分データ40それぞれで認識された文字グループを、所定基準によって分類することができる。一例において、文字認識装置100は、ある部分データ40で認識された文字グループに、所定記号(例えば、「/」)が含まれていれば、当該文字グループを、第1種類の情報と決定することができる。カード内有効期間には、年度と月とを区分するための所定記号が含まれていることが一般的であるので、文字認識装置100は、ある部分データ40で認識された文字グループに所定記号が含まれていれば、当該文字グループを、有効期間情報と決定することができるのである。
もし所定記号が含まれている文字グループの個数が複数個である場合、文字認識装置100は、年度に該当する数字(例えば、記号を基準に、右側に位置する数字)が大きい文字グループを、有効期間情報と決定することができる。カードに有効期間と発給日とが含まれている場合、有効期間に含まれた年度が、発給日に含まれた年度より大きいので、文字認識装置100は、年度に該当する数字が大きい文字グループを、有効期間情報と決定することができるのである。
また、一実施形態において、文字認識装置100は、複数の部分データ40それぞれで認識された文字グループにおいて、所定記号を含んでいない文字グループを、第2種類の情報と決定することができる。第2種類の情報は、例えば、カード番号情報を含んでもよい。
また、一実施形態において、文字認識装置100は、複数の部分データ40それぞれで認識された文字グループを、入力データ10内における複数の部分データ40の位置によって整列することができる。一例として、文字認識装置100は、入力データ10内の左上端を基準に、Zスキャン方式で文字グループを整列することができる。
文字認識装置100は、整列された文字グループにおいて、連続して整列された所定個数の文字グループに含まれた文字の個数に基づき、文字再認識が必要であるか否かということを決定することができる。一例として、文字認識装置100は、整列された文字グループにおいて、所定個数の数字をそれぞれ含みながら、連続して整列された所定個数の文字グループが存在する場合、文字認識が正確に行われ、文字再認識が必要ではないと決定することができる。一般的に、カード番号は、16個の数字を含むが、4個の数字同士1つの文字グループをなすという面において、文字認識装置100は、整列された文字グループにおいて、4個の数字を含む4個の文字グループが連続して整列されている場合、文字再認識が必要ではないと決定することができる。
また、一実施形態において、文字認識装置100は、さまざまな部分データ40において認識された文字グループに、所定記号が存在しなければ、文字再認識が必要であると決定することができる。
文字再認識が必要でる場合、文字認識装置100は、イメージ再撮影が必要であるという情報を、スピーカ、モニタなどを介して出力するか、あるいはネットワークを介し、外部装置に知らせることができる。一実施形態において、文字認識装置100が、カメラのプレビューイメージから文字を認識している最中、文字再認識が必要であると決定された場合、カメラを介して連続して撮影されているプレビューイメージから、文字を再認識することもできる。
以下においては、図10ないし図13を参照し、文字検出モデル410を訓練させる方法について説明する。
図10は、一実施形態による文字検出モデル410の訓練方法について説明するためのフローチャートである。
S1010段階において、文字認識装置100は、学習用データ60内において、文字が存在する確率をデータ空間上に示す第1GTスコアマップ71、及び学習用データ60内における文字間の連結性をデータ空間上に示す第2GTスコアマップ73を獲得する。学習用データ60の横サイズ及び縦サイズは、入力データ10の横サイズ及び縦大きさと同一でもある。また、学習用データ60の横サイズ及び縦サイズは、第1GTスコアマップ71の横サイズ及び縦大きさと同一でもあり、第2GTスコアマップ73の横サイズ及び縦大きさとも同一でもある。
一実施形態において、学習用データ60は、前述の原本イメージ20と同様に、カードのような対象体を撮影したイメージ、または当該イメージに基づいて抽出された特徴マップを含んでもよい。
文字認識装置100は、学習用データ60から、第1GTスコアマップ71及び第2GTスコアマップ73のうち少なくとも一つを直接生成することもでき、あるいはネットワークや外部管理者を介し、第1GTスコアマップ71及び第2GTスコアマップ73のうち少なくとも一つを受信することもできる。
第1GTスコアマップ71内の値は、当該地点において、学習用データ60に文字が位置する確率を示すことができる。また、第2GTスコアマップ73内の値は、当該地点において、複数の文字が互いに隣接する確率を示すことができる。
S1020段階において、文字認識装置100は、学習用データ60を、文字検出モデル410に入力する。
S1030段階において、学習用データ60に対応し、文字検出モデル410から出力される第1スコアマップ及び第2スコアマップそれぞれと、第1GTスコアマップ71及び第2GTスコアマップ73との比較結果により、文字検出モデル410の内部加重値が更新されうる。
第1スコアマップ及び第2スコアマップそれぞれと、第1GTスコアマップ71及び第2GTスコアマップ73との比較結果により、ロス(loss)値が算出されうる。該ロス値は、例えば、L2 Loss値にも該当する。該ロス値は、その以外にも、L1 loss、smooth L1 lossのような多様な方法を利用することができる。算出されたロス値は、文字検出モデル410に入力され、文字検出モデル410は、ロス値により、内部加重値を更新することができる。
図11は、第1GTスコアマップ71を生成する方法について説明するための図面であり、図12は、第2GTスコアマップ73を生成する方法について説明するための図面である。また、図13は、互いに隣接した文字ボックス62a,62b間において、連結ボックス63aを決定する方法について説明するための図面である。
図11を参照すれば、学習用データ60内において、少なくとも1つの文字を含む単語領域につき、単語ボックス61a,61b,61c,61d,61eが決定される。そして、単語ボックス61a,61b,61c,61d,61e内に含まれた文字の個数により、単語ボックス61a,61b,61c,61d,61eが、少なくとも1つの文字ボックス62a,62b,62c,62dに分割される。例えば、いずれか1つの単語ボックス内に、4個の文字が含まれている場合、当該単語ボックスは、総4個の文字ボックスにも分割される。文字ボックス62a,62b,62c,62dそれぞれに、所定のイメージ1100、例えば、2Dガウシアンイメージが合成され、第1GTスコアマップ71が生成されうる。
図12及び図13を参照すれば、複数の文字ボックス62a,62b,62c,62dのうち、互いに隣接した文字ボックス間の境目L上に位置する連結ボックス63a,63b,63cが決定され、連結ボックス63a,63b,63cに、所定イメージ1100、例えば、2Dガウシアンイメージが合成され、第2GTスコアマップ73が生成されうる。
連結ボックス63a,63b,63cは、互いに隣接した文字ボックスの内部空間に設定された複数の地点を連結することによっても決定される。具体的には、図13に図示されているように、互いに隣接した文字ボックス62a,62bのうち、左側文字ボックス62a内の2個地点、及び右側文字ボックス62b内の2個地点を連結した連結ボックス63aが決定されうる。
一例において、互いに隣接した左側文字ボックス62a及び右側文字ボックス62bのコーナーのうち、左側下端コーナーと右側上端コーナーとを連結し、左側上端コーナーと右側下端コーナーとを連結し、上部及び下部の三角形を決定し、当該三角形の中心点を連結することにより、連結ボックス63aが決定されうる。
図14は、一実施形態による文字認識装置100の構成を図示するブロック図である。
図14を参照すれば、文字認識装置100は、メモリ1410、通信モジュール1430及びプロセッサ1450を含んでもよい。メモリ1410には、少なくとも1つのインストラクションが保存され、プロセッサ1450は、少なくとも1つのインストラクションにより、文字検出及び文字検出モデル410の訓練を制御することができる。
図14は、1つのメモリ1410、及び1つのプロセッサ1450のみを図示しているが、文字認識装置100は、複数のメモリ及び/または複数のプロセッサを含んでもよい。
メモリ1410は、文字検出モデル410及び文字認識モデル420を保存することができる。また、メモリ1410は、特徴抽出モデル800をさらに保存することができる。
プロセッサ1450は、文字検出モデル410に入力データ10を入力し、文字検出モデル410から出力される出力データに基づき、入力データ10内における単語領域の位置情報を獲得することができる。そして、プロセッサ1450は、獲得した位置情報に対応する部分データを、文字認識モデル420に入力し、文字認識モデル420から出力された文字情報を、メモリ1410、またはその他保存装置に保存することができる。
一実施形態において、プロセッサ1450は、学習用データ60に基づき、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも一つを訓練させることができる。
通信モジュール1430は、ネットワークを介し、外部装置とデータを送受信する。例えば、通信モジュール1430は、外部装置とイメージを送受信したり、入力データ10内で認識された文字情報を、外部装置と送受信したりすることができる。
図15は、一実施形態による文字認識装置100が適用されうるサーバ装置1510及びクライアント装置1520を図示する図面である。
文字認識装置100は、サーバ装置1510に具現されるとかまたはクライアント装置1520に具現されることができる。
文字認識装置100がサーバ装置1510でもって具現される場合、サーバ装置1510は、クライアント装置1520からイメージを受信し、受信されたイメージ内において、文字を認識して保存することができる。一例において、サーバ装置1510は、クライアント装置1520から受信されたイメージ内において認識された文字情報を、クライアント装置1520に伝送することもできる。また、サーバ装置1510は、クライアント装置1520を含む外部装置から、学習用データを受信したり、内部に保存された学習用データを利用したりし、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも1つの訓練を制御することもできる。
文字認識装置100がクライアント装置1520でもって具現される場合、クライアント装置1520は、クライアント装置1520のカメラによって撮影されたイメージ内、またはクライアント装置1520に保存されたイメージ内において文字を認識し、保存することができる。
一実施形態において、クライアント装置1520は、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも1つの実行のためのデータをサーバ装置1510から受信することができる。クライアント装置1520は、カメラモジュールを介して撮影されたイメージ、内部メモリに保存されたイメージ、または外部装置から受信されたイメージを、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも一つに入力させ、文字を認識することができる。
クライアント装置1520は、外部装置から、学習用データを受信したり、内部に保存された学習用データを利用したりし、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも1つの訓練を制御することもできる。一具現例により、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも1つの実行のためのデータを、クライアント装置1520に提供したサーバ装置1510が、学習用データに基づき、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも1つの訓練を制御することもできる。その場合、サーバ装置1510は、訓練結果、更新された加重値情報のみを、クライアント装置1520に伝送し、クライアント装置1520は、受信された情報により、文字検出モデル410、文字認識モデル420及び特徴抽出モデル800のうち少なくとも一つを更新することができる。
図15は、クライアント装置1520として、デスクトップPC(personal computer)を図示しているが、それに限定されるものではなく、クライアント装置1520は、ノート型パソコン、スマートフォン、タブレットPC、AI(artificial intelligence)ロボット、AIスピーカ、ウェアラブル機器などを含んでもよい。
なお、前述の本開示の実施形態は、コンピュータで実行されうるプログラムに作成可能であり、該作成されたプログラムは、媒体にも保存される。
該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために、臨時保存するものでもある。また、該媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散存在するものでもある。該媒体の例示としては、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体;CD-ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM(read only memory)、RAM(random access memory)、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給ないし流通するサイト、サーバなどで管理する記録媒体また保存媒体も挙げることができる。
以上、本開示の技術的思想について、望ましい実施形態を挙げて詳細に説明したが、本開示の技術的思想は、前述の実施形態に限定されるものではなく、本開示の技術的思想の範囲内において、当分野において当業者により、さまざまな変形及び変更が可能である。

Claims (14)

  1. 文字認識装置による入力データ内における文字認識方法であって、
    入力データを、文字検出モデルに入力する段階と、
    前記文字検出モデルから出力される出力データに基づき、前記入力データ内における単語領域の位置情報を獲得する段階と、
    前記獲得した位置情報に対応する部分データを、前記入力データから抽出する段階と、
    前記部分データを、文字認識モデルに入力し、前記部分データ内において、文字を認識する段階と、を含むことを特徴とする、
    文字認識方法。
  2. 前記出力データは、
    前記入力データ内において、文字が存在する確率を、前記入力データに対応するデータ空間上に示す第1スコアマップ、及び前記入力データ内における文字間の連結性を、前記入力データに対応するデータ空間上に示す第2スコアマップを含むことを特徴とする、
    請求項1に記載の文字認識方法。
  3. 前記単語領域の位置情報を獲得する段階は、
    前記第1スコアマップ内及び前記第2スコアマップ内の値と、臨界値との比較結果により、前記第1スコアマップ及び前記第2スコアマップを二進化する段階と、
    二進化された前記第1スコアマップと二進化された前記第2スコアマップとを併合する段階と、
    併合マップ内において、所定値を有する領域を決定する段階と、
    前記決定された領域を含む単語領域の位置情報を決定する段階と、を含むことを特徴とする、
    請求項2に記載の文字認識方法。
  4. 前記単語領域の位置情報を決定する段階は、
    前記決定された領域を含む最小サイズの単語ボックスを決定する段階と、
    前記決定された単語ボックスの位置情報を、前記単語領域の位置情報と決定する段階と、を含むことを特徴とする、
    請求項3に記載の文字認識方法。
  5. 前記文字認識方法は、
    学習用データ内において、文字が存在する確率をデータ空間上に示す第1GTスコアマップ、及び前記学習用データ内における文字間の連結性をデータ空間上に示す第2GTスコアマップを獲得する段階と、
    前記学習用データを、前記文字検出モデルに入力する段階と、をさらに含むが、
    前記学習用データに対応し、前記文字検出モデルから出力される第1スコアマップ及び第2スコアマップのそれぞれと、前記第1GTスコアマップ及び前記第2GTスコアマップとの比較結果により、前記文字検出モデルの内部加重値が更新されることを特徴とする、
    請求項2に記載の文字認識方法。
  6. 前記第1GTスコアマップを獲得する段階は、
    前記学習用データ内の単語を含む単語ボックスを決定する段階と、
    前記決定された単語ボックスに含まれた文字の個数により、前記単語ボックスを複数の文字ボックスに分割する段階と、
    前記複数の文字ボックスのそれぞれに所定のイメージを合成し、前記第1GTスコアマップを生成する段階と、を含むことを特徴とする、
    請求項5に記載の文字認識方法。
  7. 前記第2GTスコアマップを生成する段階は、
    前記複数の文字ボックスにおいて、互いに隣接した文字ボックス間の境目上に位置する連結ボックスを決定する段階と、
    前記連結ボックスに所定のイメージを合成し、前記第2GTスコアマップを生成する段階と、を含むことを特徴とする、
    請求項6に記載の文字認識方法。
  8. 当該文字認識方法は、
    前記部分データ内で認識された文字グループに所定の記号が含まれている場合、前記文字グループを、第1種類の情報と決定する段階をさらに含むことを特徴とする、
    請求項1に記載の文字認識方法。
  9. 前記入力データから抽出された部分データの個数は複数個であるが、
    当該文字認識方法は、
    複数の部分データのそれぞれで認識された文字グループを、前記入力データ内における前記複数の部分データの位置によって整列する段階をさらに含むことを特徴とする、
    請求項1に記載の文字認識方法。
  10. 当該文字認識方法は、
    前記整列された文字グループにおいて、連続して整列された所定個数の文字グループに含まれた文字の個数に基づき、文字再認識が必要であるか否かということを決定する段階をさらに含むことを特徴とする、
    請求項9に記載の文字認識方法。
  11. 前記文字を認識する段階は、
    前記文字検出モデルから出力される出力データを、前記文字認識モデルとしてさらに入力させ、前記部分データ内において、文字を認識する段階を含むことを特徴とする、
    請求項1に記載の文字認識方法。
  12. 前記入力データは、
    原本イメージに対応し、特徴抽出モデルから出力された特徴マップを含むことを特徴とする、
    請求項1に記載の文字認識方法。
  13. ハードウェアと結合し、請求項1に記載の文字認識方法を実行するために、媒体に保存された、プログラム。
  14. プロセッサと、
    少なくとも1つのインストラクションを保存するメモリと、を含むが、
    前記プロセッサは、前記少なくとも1つのインストラクションにより、
    入力データを、文字検出モデルに入力し、
    前記文字検出モデルから出力される出力データに基づき、前記入力データ内における単語領域の位置情報を獲得し、
    前記獲得した位置情報に対応する部分データを、前記入力データから抽出し、
    前記部分データを、文字認識モデルに入力し、前記部分データ内において、文字を認識することを特徴とする、
    文字認識装置。
JP2021549641A 2019-02-25 2020-01-29 文字認識装置及び文字認識装置による文字認識方法 Active JP7297910B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020190022102A KR102206604B1 (ko) 2019-02-25 2019-02-25 글자 인식 장치 및 이에 의한 글자 인식 방법
KR10-2019-0022102 2019-02-25
PCT/KR2020/001333 WO2020175806A1 (ko) 2019-02-25 2020-01-29 글자 인식 장치 및 이에 의한 글자 인식 방법

Publications (2)

Publication Number Publication Date
JP2022522425A true JP2022522425A (ja) 2022-04-19
JP7297910B2 JP7297910B2 (ja) 2023-06-26

Family

ID=72240107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021549641A Active JP7297910B2 (ja) 2019-02-25 2020-01-29 文字認識装置及び文字認識装置による文字認識方法

Country Status (3)

Country Link
JP (1) JP7297910B2 (ja)
KR (1) KR102206604B1 (ja)
WO (1) WO2020175806A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024013864A1 (ja) * 2022-07-13 2024-01-18 株式会社東芝 文字認識装置、文字認識方法、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102386162B1 (ko) * 2020-11-13 2022-04-15 주식회사 와들 이미지로부터 상품 정보 데이터를 생성하기 위한 시스템 및 그에 관한 방법
KR102548826B1 (ko) * 2020-12-11 2023-06-28 엔에이치엔클라우드 주식회사 딥러닝 기반의 메뉴판 제공 방법 및 그 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005014237A (ja) * 2003-06-23 2005-01-20 Toshiba Corp 複写機における翻訳方法、プログラム及び外部翻訳機能部を有する複写機
JP2010191724A (ja) * 2009-02-18 2010-09-02 Seiko Epson Corp 画像処理装置および制御プログラム
US20120148101A1 (en) * 2010-12-14 2012-06-14 Electronics And Telecommunications Research Institute Method and apparatus for extracting text area, and automatic recognition system of number plate using the same
US20150347859A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Credit Card Auto-Fill
US20170068867A1 (en) * 2015-09-08 2017-03-09 Sk Planet Co., Ltd. System and method for recognizing credit card number and expiration date using terminal device
JP2017058950A (ja) * 2015-09-16 2017-03-23 大日本印刷株式会社 認識装置、撮像システム、撮像装置並びに認識方法及び認識用プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101295000B1 (ko) * 2013-01-22 2013-08-09 주식회사 케이지모빌리언스 카드 번호의 영역 특성을 이용하는 신용 카드의 번호 인식 시스템 및 신용 카드의 번호 인식 방법
US20150100537A1 (en) * 2013-10-03 2015-04-09 Microsoft Corporation Emoji for Text Predictions
KR101805318B1 (ko) * 2016-11-01 2017-12-06 포항공과대학교 산학협력단 텍스트 영역 식별 방법 및 장치
KR102376201B1 (ko) * 2017-04-04 2022-03-18 한국전자통신연구원 멀티미디어 지식 베이스 구축 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005014237A (ja) * 2003-06-23 2005-01-20 Toshiba Corp 複写機における翻訳方法、プログラム及び外部翻訳機能部を有する複写機
JP2010191724A (ja) * 2009-02-18 2010-09-02 Seiko Epson Corp 画像処理装置および制御プログラム
US20120148101A1 (en) * 2010-12-14 2012-06-14 Electronics And Telecommunications Research Institute Method and apparatus for extracting text area, and automatic recognition system of number plate using the same
US20150347859A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Credit Card Auto-Fill
US20170068867A1 (en) * 2015-09-08 2017-03-09 Sk Planet Co., Ltd. System and method for recognizing credit card number and expiration date using terminal device
JP2017058950A (ja) * 2015-09-16 2017-03-23 大日本印刷株式会社 認識装置、撮像システム、撮像装置並びに認識方法及び認識用プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024013864A1 (ja) * 2022-07-13 2024-01-18 株式会社東芝 文字認識装置、文字認識方法、及びプログラム

Also Published As

Publication number Publication date
KR20200106110A (ko) 2020-09-11
WO2020175806A1 (ko) 2020-09-03
KR102206604B1 (ko) 2021-01-22
JP7297910B2 (ja) 2023-06-26

Similar Documents

Publication Publication Date Title
US11443559B2 (en) Facial liveness detection with a mobile device
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
JP2022522425A (ja) 文字認識装置及び文字認識装置による文字認識方法
US20110150324A1 (en) Method and apparatus for recognizing and localizing landmarks from an image onto a map
JP7198350B2 (ja) 文字検出装置、文字検出方法及び文字検出システム
JP2011198268A (ja) 情報処理装置および方法、並びにプログラム
Anwar et al. Deep ancient Roman Republican coin classification via feature fusion and attention
JP6969663B2 (ja) ユーザの撮影装置を識別する装置及び方法
CN114465737A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN111859002B (zh) 兴趣点名称生成方法及装置、电子设备和介质
US12118787B2 (en) Localization of narrations in image data
KR102351578B1 (ko) 글자 인식 장치 및 이에 의한 글자 인식 방법
CN110351094B (zh) 字符验证方法、装置、计算机设备及存储介质
CN111738199A (zh) 图像信息验证方法、装置、计算装置和介质
KR102542174B1 (ko) 디지털 참고서 제공 시스템 및 그 방법
CN111638792A (zh) Ar效果的呈现方法、装置、计算机设备及存储介质
CN115004261A (zh) 文本行检测
JP2023021946A (ja) データ検索方法及びシステム
Li et al. A platform for creating Smartphone apps to enhance Chinese learning using augmented reality
Seegehalli et al. Deep hybrid architectures and DenseNet35 in speaker-dependent visual speech recognition
CN111325194A (zh) 一种文字识别方法、装置及设备、存储介质
Krause et al. Language-focused Deepfake Detection Using Phonemes, Mouth Movements, and Video Features
CN105279526B (zh) 分割轨迹的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230614

R150 Certificate of patent or registration of utility model

Ref document number: 7297910

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150