JP7198350B2 - 文字検出装置、文字検出方法及び文字検出システム - Google Patents

文字検出装置、文字検出方法及び文字検出システム Download PDF

Info

Publication number
JP7198350B2
JP7198350B2 JP2021515507A JP2021515507A JP7198350B2 JP 7198350 B2 JP7198350 B2 JP 7198350B2 JP 2021515507 A JP2021515507 A JP 2021515507A JP 2021515507 A JP2021515507 A JP 2021515507A JP 7198350 B2 JP7198350 B2 JP 7198350B2
Authority
JP
Japan
Prior art keywords
image
character
character detection
word
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021515507A
Other languages
English (en)
Other versions
JP2022501719A (ja
Inventor
ユンミン バク,
ファルスク イ,
バド イ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022501719A publication Critical patent/JP2022501719A/ja
Application granted granted Critical
Publication of JP7198350B2 publication Critical patent/JP7198350B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/1607Correcting image deformation, e.g. trapezoidal deformation caused by perspective
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

本発明は、イメージ処理分野に係り、さらに具体的には、マシンラーニングモデルを利用し、イメージに含まれた文字の位置を検出する装置、その方法及びそのシステムに関する。
イメージ内文字がどこにあるかということの検出は、HCI(human computer interaction)において重要な要素である。文字イメージからの文字検出は、比較的簡単であるが、看板、表示板、メニューのように、実生活で撮影されたイメージに含まれた文字は、さまざまなデザイン的要素だけではなく、映像変換、光反射などの影響により、検出に困難さが存在する。
イメージ内において、さまざまな文字からなる単語の検出方法は、提案されているが、個別文字ではなく、単語中心に文字を検出する場合、曲線に配置された文字や、視点による歪曲が生じた文字の検出正確度が低くなる問題点がある。
一実施形態による文字検出装置、その方法及びそのシステムは、さまざまな文字からなる単語ではないそれぞれの文字を高い正確度で検出することを技術的課題とする。
また、一実施形態による文字検出装置、その方法及びそのシステムは、少ない量のGT(ground truth)を増大させることを技術的課題とする。
また、一実施形態による文字検出装置、その方法及びそのシステムは、指導(教師あり)(supervision)学習過程及び弱指導(弱い教師あり)(weakly supervision)学習過程を介し、文字検出モデルを効率的に訓練させることを技術的課題とする。
一実施形態による文字検出方法は、入力イメージを獲得する段階と、神経網を含む文字検出モデルに、前記入力イメージを入力して処理する段階と、前記文字検出モデルから、少なくとも1以上の出力イメージを獲得する段階と、を含み、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
一実施形態による文字検出装置、その方法及びそのシステムは、さまざまな文字からなる単語ではないそれぞれの文字を検出することにより、曲線に配置された文字や、視点による歪曲が生じた文字も、高い正確度で検出することができる。
また、一実施形態による文字検出装置、その方法及びそのシステムは、単語領域の位置がアノテーションされた(annotated)学習用イメージを用いて、文字領域の位置情報を提供するGTを生成することができる。
また、一実施形態による文字検出装置、その方法及びそのシステムは、指導学習過程及び弱指導学習過程を介し、文字検出モデルを効率的に訓練させることができる。
しかしながら、一実施形態による文字検出装置、その方法及びそのシステムが達成することができる効果は、以上で言及したところに制限されるものではなく、言及されていないさらに他の効果は、以下の記載から、本開示が属する技術分野で当業者に明確に理解されるであろう。
本明細書で引用される図面をさらに十分に理解するために、各図面の簡単な説明が提供される。
一実施形態による文字検出装置を図示する図面である。 一実施形態による文字検出方法について説明するためのフローチャートである。 文字検出モデルに入力されたイメージと、文字検出モデルから出力されたイメージとを図示する図面である。 一実施形態による文字検出モデルの神経網構造を図示する図面である。 文字領域の位置値がアノテーションされた学習用イメージでもって、文字検出モデルを訓練させる方法について説明するためのフローチャートである。 学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。 学習用イメージから、GTイメージを生成する過程について説明するための図面である。 単語領域の位置値がアノテーションされた学習用イメージを用いて、文字検出モデルを訓練させる方法について説明するための図面である。 学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。 単語領域の位置値がアノテーションされた学習用イメージにおいて、文字領域の位置値を決定する方法について説明するための図面である。 単語領域イメージを文字検出モデルに入力したとき、出力される中間出力イメージをエポック(epoch)別に図示する図面である。 単語領域イメージから文字領域を検出する他の方法について説明するための図面である。 一実施形態による文字検出装置の構成を図示するブロック図である。 一実施形態による文字検出装置の機能ブロック図である。 一実施形態による文字検出装置が適用されるサーバ装置及びクライアント装置を図示する図面である。 学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。
一実施形態による文字検出方法は、入力イメージを獲得する段階と、神経網を含む文字検出モデルに、前記入力イメージを入力して処理する段階と、前記文字検出モデルから、少なくとも1以上の出力イメージを獲得する段階と、を含み、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
一実施形態による文字検出装置は、プロセッサと、少なくとも1つのインストラクションを保存するメモリを含むものの、前記プロセッサは、前記少なくとも1つのインストラクションによって入力イメージを獲得し、神経網を含む文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも1つの出力イメージを獲得し、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
一実施形態による文字検出システムは、学習用イメージを利用し、神経網を含む文字検出モデルを訓練させるサーバ装置と、前記サーバ装置から、前記文字検出モデルの実行のためのデータを受信し、入力イメージが獲得されれば、前記文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも1つの出力イメージを獲得するクライアント装置を含むものの、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
本開示は、多様な変更を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、それらについて詳細な説明を介して説明する。しかし、それらは、本開示を特定の実施形態について限定するのではなく、本開示の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むものであると理解されなければならない。
本実施形態についての説明におき、関連公知技術に係わる具体的な説明が、要旨を必要以上に不明確にし得ると判断される場合、その詳細な説明を省略する。また、本実施形態の説明過程で利用される数字(例えば、第1、第2など)は、1つの構成要素を、他の構成要素と区分するための識別記号に過ぎない。
また、本明細書において、一構成要素が他の構成要素と「連結される」としたり、「接続される」としたりして言及されたときには、前述の一構成要素が、前述の他の構成要素と直接連結されたり、直接接続されたりもするが、特別に反対となる記載が存在しない以上、中間に他の構成要素を媒介し、連結されたり接続されたりもすると理解されなければならないのである。
また、本明細書において、「~部(ユニット)」、「モジュール」などと表現される構成要素は、2個以上の構成要素が1つの構成要素に合わされるか、あるいは1つの構成要素がさらに細分化された、機能別に2個以上に分化されもする。また、以下で説明される構成要素それぞれは、自体が担当する主機能以外にも、他の構成要素が担当する機能のうち、一部または全部の機能を追加して遂行することもでき、構成要素それぞれが担当する主機能のうち、一部機能が他の構成要素によって専担されて遂行されうるということは、言うまでもない。
また、本明細書において「文字」は、単語や文章を構成する基本文字単位を意味しうる。例えば、英語の場合には、それぞれのアルファベットが文字に該当し、数字の場合には、「0」ないし「9」の数字それぞれが文字に該当し、韓国語の場合には、子音と母音とが結合された文字(例えば、(外1)
Figure 0007198350000001
)、子音、母音及び子音が結合された文字(例えば、(外2)
Figure 0007198350000002
)、単独で記載された子音(例
えば、(外3)
Figure 0007198350000003
)、単独で記載された母音(例えば、(外4)
Figure 0007198350000004
)が文字に該当しうる。
また、本明細書において「単語」は、少なくとも1つの文字を含む文字単位を意味しうる。「単語」は、少なくとも1つの文字を含み、言語的意味を有する文字単位とも参照される。また、「単語」を構成する文字は、互いに離隔されていないのである。ところで、「単語」は、1文字からもなる。例えば、英語の不定詞「a」は、1つの文字からなっているが、周辺文字と離隔されている場合、「単語」に該当しうる。
以下、本開示の技術的思想による実施形態につき、順に詳細に説明する。
図1は、一実施形態による文字検出装置100を図示する図面である。
一実施形態による文字検出装置100は、文字検出モデルを含む。文字検出装置100は、該文字検出モデルを介し、入力イメージに含まれた文字を検出する。該文字検出モデルは、神経網を含むマシンラーニングモデルを含むものである。該文字検出モデルは、入力層、隠匿層及び出力層からなる神経網を介し、入力イメージ内の文字を検出することができる。該文字検出モデルは、CNN(convolutional neural network)を含むものである。
図1を参照すれば、「Cold」を含むイメージ11に対し、従来の検出装置10は、1つの単語に該当する「Cold」を検出し、「Cold」に対応するバウンディングボックス15が表示されたイメージ11を出力することができるが、一実施形態による文字検出装置100は、「Cold」を、「C」、「o」、「l」、「d」それぞれの文字に区別して検出し、文字別にバウンディングボックス115が表示されたイメージ110を出力することができる。
一実施形態による文字検出モデルは、イメージに含まれた文字を、単語単位ではない字単位で検出することができるので、単語単位で文字を検出する方法に比べ、正確性が向上しうる。
以下においては、図2以下を参照し、一実施形態による文字検出装置100の動作について詳細に説明する。
図2は、一実施形態による文字検出方法について説明するためのフローチャートである。
S210段階において、文字検出装置100は、少なくとも1つの文字を含むイメージを獲得する。文字検出装置100は、内部に保存されたイメージを獲得するか、あるいは外部装置から受信されるイメージを獲得することができる。
S220段階において、文字検出装置100は、イメージを文字検出モデルに入力する。該文字検出モデルは、イメージに含まれた各文字の位置を検出するために訓練されるうる。
S230段階において、文字検出装置100は、該文字検出モデルから出力される出力イメージを獲得する。出力イメージと入力イメージとの大きさ及び解像度は、互いに同一でもあり、あるいは出力イメージの大きさ及び解像度が、入力イメージよりも小さい。
出力イメージは、入力イメージに含まれた文字の存在確率をイメージ空間上に示す。該出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。
該確率値イメージは、イメージ内文字の存在確率をピクセル値で示すことができる。該確率値イメージに含まれたピクセルは、各ピクセルが、文字に該当する確率に対応する値を有することができる。該確率値イメージに含まれたピクセルは、当該ピクセルの位置が、文字中心に該当する確率に対応するピクセル値を有することもできる。
リンクイメージは、イメージ内文字の連結性を示す。該リンクイメージは、文字間の隣接いかんを示す少なくとも1本のラインを含むものである。
図3を参照すれば、「p」、「e」、「a」、「c」、「e」の文字を含むイメージ310が文字検出モデルに入力されれば、該文字検出モデルは、イメージ310内文字の存在確率を空間上に示す確率値イメージ320と、イメージ310内文字の連結性を示すリンクイメージ330と、を出力することができる。
確率値イメージ320のピクセルは、イメージ310内文字の存在確率に対応するピクセル値を有することができる。または、確率値イメージ320のピクセルは、文字の中心に該当する確率に対応するピクセル値を有することもできる。一例として、確率値イメージ320において特定ピクセル値を有するピクセルは、他のピクセル値を有するピクセルに比べ、文字の中心に該当する確率が高いということを意味し得る。
確率値イメージ320のピクセル値により、イメージ310内において、文字の存在確率が高い地点、または文字中心に該当する確率が高い地点が確認され得るので、入力イメージ310に含まれた文字の位置値検出が可能になる。
また、確率値が、第1臨界値より高い地点を中心にしたとき、第1臨界値より小さい第2臨界値以上の確率値を有する隣接領域の大きさは、イメージ310に含まれた文字の大きさに比例するので、確率値イメージ320に基づき、イメージ310内文字の大きさ検出も可能である。
リンクイメージ330は、イメージ310内文字間の連結性を示す。リンクイメージ330は、ライン335,337を含むことにもなるが、ある1本のラインは、隣接文字の中心点を連結した線にも対応する。例えば、互いに隣接した「p」、「e」、「a」、「c」、「e」に対応するライン335がリンクイメージ330にも含まれる。イメージ310に含まれた「W」、「H」、「Y」は、「p」、「e」、「a」、「c」及び「e」から離隔されているので、「W」、「H」、「Y」に対応するライン337は、ライン335とは別個に、リンクイメージ330に含まれるのである。
リンクイメージ330内ラインの太さは、イメージ310に含まれた文字の大きさにも比例する。例えば、リンクイメージ330内ラインの太さは、確率値イメージ320で確認される四角形状の文字領域の対角線長の平均にも比例する。
図4は、一実施形態による文字検出モデルの神経網構造を図示する図面である。
図4を参照すれば、文字検出モデルは、入力層、コンボリューション層、アップサンプリング層、アップコンボリューション層及び出力層を含んでもよい。
入力層405にイメージが入力されれば、該イメージは、第1コンボリューション層410、第2コンボリューション層415、第3コンボリューション層420、第4コンボリューション層425、第5コンボリューション層430及び第6コンボリューション層435において、コンボリューション処理が施される。第6コンボリューション層435の出力と、第5コンボリューション層430の出力とが連接(concatenation)演算され、第1アップコンボリューション層440に入力され、第1アップコンボリューション層440に入力された値は、コンボリューション処理441、配置正規化(normalization)442、コンボリューション処理443及び配置正規化444を介し、第1アップサンプリング層445に入力される。第1アップサンプリング層445の出力は、第4コンボリューション層425の出力と連接演算され、第2アップコンボリューション層450及び第2アップサンプリング層455で処理される。第2アップサンプリング層455の出力は、第3コンボリューション層420の出力と連接演算され、第3アップコンボリューション層460と第3アップサンプリング層465とで処理され、該処理結果は、第2コンボリューション層415の出力と連接演算され、第4アップコンボリューション層470に入力される。そして、第4アップコンボリューション層470の出力と、第1コンボリューション層410の出力は、連接演算された後、さまざまなコンボリューション処理475,480,485,490を介し、出力層495から、確率値イメージ及びリンクイメージとして出力される。
図4に図示された文字検出モデルの神経網構造は、例示であるのみ、コンボリューション層の層数やデータの処理方向は、当業者に自明な範囲内において、多様に変更されうるのでる。
以下においては、図5ないし図12を参照し、文字検出モデルを訓練させる過程について詳細に述べる。
図5は、文字領域の位置値がアノテーションされた学習用イメージを用いて、文字検出モデルを訓練させる方法について説明するためのフローチャートである。図5に図示された過程は、指導(supervision)学習にも該当する。
S510段階において、文字検出装置100は、文字領域の位置値がアノテーションされた学習用イメージを獲得する。文字領域の位置値は、学習用イメージ上における文字領域の座標値にも該当する。
該学習用イメージは、少なくとも1つの文字を含むものである。文字検出装置100は、該学習用イメージ内の文字を含む各文字領域の位置値を獲得することができる。該学習用イメージ内の文字を含む文字領域が四角形状であるならば、文字検出装置100は、四角形の文字領域の各コーナーの座標値を獲得することができる。該文字領域は、四角形以外にも、三角形、五角形のような多角形、または円形の形態を有することができる。
S520段階において、文字検出装置100は、学習用イメージに対応するGT(ground truth)イメージを生成する。該GTイメージは、GT確率値イメージ及びGTリンクイメージのうち少なくとも一つを含むものである。
該GTイメージは、文字検出モデルの学習のために提供される正解データであり、該GTイメージの生成方法は、図7を参照して説明する。
S530段階において、文字検出装置100は、学習用イメージを文字検出モデルに入力する。該文字検出モデルは、学習用イメージが入力されることにより、学習用イメージに対応する出力イメージを出力する。該出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。
S540段階において、文字検出モデルは、出力イメージとGTイメージとの比較結果により、内部加重値を更新する。
該出力イメージと該GTイメージとの比較結果により、ロス(loss)値が算出されうる。該ロス値は、例えば、L2 Loss値にも該当する。該ロス値は、それ以外にも、L1 loss、smooth L1 lossのような多様な方法を利用することができる。算出されたロス値は、文字検出モデルに入力され、文字検出モデルは、ロス値により、内部加重値を更新することができる。
該文字検出モデルの学習過程を図式化させた図6を参照して説明する。
図6を参照すれば、学習用イメージ610が文字検出モデルに入力され、該文字検出モデルから、出力イメージ(確率値イメージ及びリンクイメージのうち少なくとも一つ)620が出力される。そして、学習用イメージ610内文字領域の位置値630に基づき、GTイメージ640が生成され、出力イメージ620とGTイメージ640とのロス(loss)650が算出される。算出されたロス650は、文字検出モデルに入力され、文字検出モデルの内部加重値が更新されうる。
図7は、学習用イメージ710からGTイメージを生成する過程について説明するための図面である。
学習用イメージ710に含まれた各文字領域715の位置値がアノテーションされてもいる。図7は、「2」に対応する文字領域715のみを図示しているが、全ての文字につき、文字領域が決定されてもいる。文字検出装置100は、各文字領域715の位置値により、2Dガウシアンマップ(例えば、2Dヒートマップ)720をワーピング(warping)することにより、GT確率値イメージ730を生成することができる。例えば、文字検出装置100は、四角形状の文字領域715のコーナー座標値により、2Dガウシアンマップ720をワーピングすることができる。ワーピングとは、イメージのピクセル位置値を移動させる幾何学的イメージ処理を意味する。GT確率値イメージ730の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度と同一でもあり、あるいはGT確率値イメージ730の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度よりも小さい。
また、文字検出装置100は、各文字領域715の中心をラインで連結し、GTリンクイメージ740を生成することができる。文字検出装置100は、隣接した中心と所定距離以内に位置する中心を1本のラインで連結し、隣接した中心と所定距離を超えて位置する中心を他のラインで連結し、GTリンクイメージ740を生成することができる。GTリンクイメージ740の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度と同一でもあり、あるいはGTリンクイメージ740の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度よりも小さい。
文字検出装置100は、各文字領域715の大きさに基づき、GTリンクイメージ740内ラインの太さを調節することができる。例えば、文字検出装置100は、文字領域715の対角線長の平均値に比例し、ラインの太さが決定される。例えば、ある1つの文字に対応する第1文字領域の対角線長の平均値が10であり、他の1つの文字に対応する第2文字領域の対角線長の平均値が5である場合、文字検出装置100は、第1文字領域に対応するラインの太さを、第2文字領域に対応するラインの太さの2倍に決定することができる。
なお、図5ないし図7と係わって説明された学習過程は、学習用イメージ710につき、文字領域715の位置値がアノテーションされている場合を考慮したものであるが、一般的に、文字領域の位置値がアノテーションされている学習用イメージの量は、多くないので、一実施形態においては、単語領域の位置値がアノテーションされている学習用イメージを利用し、文字検出モデルを学習させることもできる。
図8は、単語領域の位置値がアノテーションされた学習用イメージでもって、文字検出モデルを訓練させる方法について説明するための図面である。図8に図示された過程は、弱指導(weakly supervision)学習過程にも該当する。
S810段階において、文字検出装置100は、単語領域の位置値がアノテーションされた学習用イメージを獲得する。該単語領域の位置値は、学習用イメージ内における単語領域の座標値にも該当する。
前述のように、単語は、少なくとも1つの文字を含むものでもあり、該単語領域の位置値は、単語を含む多角形の位置値を意味しうる。例えば、該単語領域が四角形である場合、単語領域の位置値は、四角形コーナーの座標情報を意味しうる。該単語領域の形態は、四角形以外の多角形、または円形にも該当する。
S820段階において、文字検出装置100は、学習用イメージから、単語領域に対応する単語領域イメージを抽出する。該学習用イメージに含まれた単語領域の個数が複数である場合、文字検出装置100は、複数の単語領域それぞれに対応する複数の単語領域イメージを抽出することができる。
S830段階において、文字検出装置100は、単語領域イメージを文字検出モデルに入力する。該文字検出モデルは、単語領域イメージが入力されることにより、単語領域イメージに対応する中間出力イメージを出力する。前述のように、該文字検出モデルは、イメージ内に含まれた各文字の位置を検出するように訓練されたために、該文字検出モデルは、単語領域イメージに含まれた各文字の存在確率を示す中間出力イメージを出力することができる。該中間出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。
該単語領域イメージの個数が複数個である場合、文字検出装置100は、複数の単語領域イメージそれぞれを文字検出モデルに入力させ、複数の中間出力イメージを獲得することもできる。
S840段階において、文字検出装置100は、中間出力イメージから、単語領域イメージ内文字領域の位置値を確認する。該文字領域の位置値は、学習用イメージ上における文字領域の座標値、または単語領域イメージ上における文字領域の座標値にも該当する。
該単語領域イメージ上における文字領域の位置値が確認されれば、文字検出装置100は、確認された文字領域の位置値を、学習用イメージ上における文字領域の位置値に変更することができる。文字検出装置100は、単語領域イメージと学習用イメージとに含まれた単語領域間の座標関係を考慮し、該単語領域イメージ上における文字領域の位置値を、学習用イメージ上における文字領域の位置値に変更することができる。例えば、該単語領域イメージの左側最上端及び右側最上端の座標が確認され、学習用イメージに含まれた単語領域の左側最上端及び右側最上端の座標が確認されれば、文字検出装置100は、単語領域イメージにおける左側最上端及び右側最上端の座標値と、学習用イメージ上において、単語領域の左側最上端及び右側最上端の座標値との関係式に基づき、単語領域イメージに含まれた文字領域の座標値を、学習用イメージ上における座標値に変更することができるのである。
S850段階において、文字検出装置100は、学習用イメージ内に含まれた文字領域の位置値が確認されれば、文字領域の位置値に基づき、疑似(pseudo)GTイメージを生成する。
文字検出装置100は、図7と係わって説明されたところと同一に、学習用イメージから検出された各文字領域の位置値により、2Dガウシアンマップをワーピングさせ、疑似GT確率値イメージを生成し、各文字領域の中心を連結し、疑似GTリンクイメージを生成することができる。
一実施形態において、文字検出装置100は、中間出力イメージから文字領域を検出する過程を省略し、中間出力イメージそれ自体を疑似GTイメージとして利用することもできる。該中間出力イメージは、学習用イメージ内単語領域に対応するイメージであるので、文字検出装置100は、学習用イメージにおき、単語領域以外の領域に対応させ、特定のピクセル値を有するイメージを生成し、生成されたイメージと中間出力イメージとを結合させ、疑似GTイメージを生成することもできる。
文字検出モデルの学習過程が図式化された図9を参照して説明する。
単語領域の位置値915がアノテーションされた学習用イメージ910から、単語領域に対応する単語領域イメージ920が抽出され、抽出された単語領域イメージ920は、文字検出モデルに入力される。単語領域イメージ920の入力により、該文字検出モデルから中間出力イメージ930が出力される。また、学習用イメージ910が文字検出モデルに入力され、文字検出モデルから、学習用イメージ910に対応する出力イメージ925が出力される。
中間出力イメージ930から、学習用イメージ910内文字領域の位置値935が決定される。文字領域の位置値935に基づき、学習用イメージ910に対応する疑似GTイメージ940が生成される。
図9を参照すれば、出力イメージ925と疑似GTイメージ940とのロス(loss)値950に、補正ウェート945が適用されているが、該補正ウェート945は、中間出力イメージ930の正確度を考慮して算出される値である。該文字検出モデルの訓練が不足している場合、中間出力イメージ930の検出正確度が低くなり、それを考慮し、ロス値950に補正ウェート945を適用するのである。
補正ウェート945は、中間出力イメージ930から検出された文字の個数と、単語領域イメージ920に含まれた文字の正解個数との比較結果によっても算出される。単語領域イメージ920に含まれた文字の正解個数は、文字検出装置100が、単語領域イメージ920を分析して算出することもでき、または文字検出装置100に正解個数が入力されうる。
文字検出装置100は、中間出力イメージ930において、確率値が臨界値以上に該当する地点につき、映像分割アルゴリズム(例えば、watershedアルゴリズム)を適用し、中間出力イメージ930を、少なくとも1つの領域に区分することができ、区分された領域の個数を、中間出力イメージ930から検出された文字の個数と決定することができる。該文字検出モデルの訓練が不足している場合、中間出力イメージ930から検出された文字の個数は、実際個数より少ない確率が高いために、中間出力イメージ930から検出された文字の個数と、単語領域イメージ920に含まれた文字の正解個数とを比較し、補正ウェート945が算出されうる。
中間出力イメージ930から検出された文字の長さ(または、個数)をdetected_lengthと言い、単語領域イメージ920に含まれた文字の正解長(または、個数)をgt_lengthとするとき、エラー値は、下記数式1によって算出される。
数式1:
Figure 0007198350000005
学習用イメージ910から抽出された単語領域イメージ920の個数が複数である場合、前記detected_lengthは、複数の中間出力イメージ930から検出された全文字の長さ(または、個数)を意味し、gt_lengthは、複数の単語領域イメージ920に含まれた全文字の正解長(または、個数)を意味し得る。
該エラー値に基づき、補正ウェートは、下記数式2によって算出される。
数式2:
Figure 0007198350000006
数式2においてalphaは、既設定値であり、例えば、0.9に設定される。その場合、errが0であるならば、weightは、0.9の値を有することになり、中間出力イメージ930において、10個の文字のうち7個の文字だけが検出された場合、weight=0.9*7/10=0.63になる。
一実施形態において、weightは、errに反比例しても決定される。すなわち、errが大きい場合、weightは、小さくも決定され、errが小さい場合、weightは、大きくも決定される。weight値が大きくなるにつれ、weighted lossが大きくなるほど、文字検出モデルの学習がさらに多くなされ得るので、errの大きさと反比例し、学習強度を大きくすることができる。
中間出力イメージ930から検出された文字の個数と、単語領域イメージ920に含まれた文字の正解個数との比較結果、算出された補正ウェート945は、文字検出モデルの出力である出力イメージ925と、疑似GTイメージ950とのロス値に乗算される。乗じられた結果(weighted loss)955は、文字検出モデルに入力され、文字検出モデルの加重値が更新され得る。
図16は、前述の図6及び図9による訓練過程を図示した図面であり、図16を参照すれば、単語領域の位置値がアノテーションされた(Word annotation)イメージと、当該イメージからクロッピングされた(cropped)単語領域イメージとが文字検出モデルに入力される。そして、単語領域イメージに対応し、文字検出モデルから出力される中間出力イメージに基づき、疑似GTイメージが生成され、単語領域の位置値がアノテーションされたイメージに対応し、文字検出モデルから出力される出力イメージと、疑似GTイメージとのロス(Loss)が算出され得る。
また、文字領域の位置値がアノテーションされた(Character annotation)イメージが文字検出モデルに入力され、文字検出モデルから出力イメージが生成され、文字領域の位置値に基づいて生成されるGTイメージと、前記出力イメージとのロス(Loss)が算出され得る。
算出されたロス(Loss)は、文字検出モデルに伝播され、文字検出モデルの内部加重値が更新され得る。
図10は、単語領域1015の位置値がアノテーションされた学習用イメージ1010から、文字領域1065の位置値を決定する過程を図示している。
前述のように、単語領域1015の位置値がアノテーションされた学習用イメージ1010から、単語領域1015に該当する単語領域イメージが抽出され得る。
一実施形態において、文字検出装置100は、抽出された単語領域イメージを、所定のイメージ処理アルゴリズムによって変形することができる。所定のイメージ処理アルゴリズムは、例えば、イメージワーピングを含むものである。実際のイメージに含まれた単語領域は、視点の歪曲により、文字の配列方向や文字の大きさに、変動性が大きくなり得る。従って、一実施形態においては、文字検出の容易性のために、単語領域イメージを、例えば、長方形状の単語領域イメージに変形するのである。図10を参照すれば、学習用イメージ1010内において「cold」を含む単語領域1015は、左側コーナーに比べ、右側コーナーの高さが高いということが分かる。文字検出装置100は、学習用イメージ1010から抽出された単語領域イメージを、イメージ処理アルゴリズムを介して変形し、左側コーナーと右側コーナーとの高さが同一である、変形された単語領域イメージ1020を獲得することができる。
単語領域1015が複数個である場合には、複数個の単語領域イメージが抽出され、複数個の単語領域イメージそれぞれが、所定イメージ処理アルゴリズムによって変形され、複数個の変形された単語領域イメージ1020が獲得され得る。
文字検出装置100は、変形された単語領域イメージ1020を文字検出モデルに入力し、文字検出モデルから出力される中間出力イメージ1030を獲得する。
中間出力イメージ1030において文字領域を決定するために、領域グローイング(growing)技法が適用され得る。例えば、文字検出装置100は、中間出力イメージ1030において、第1臨界値以上の確率値に対応する地点を決定することができる。そして、文字検出装置100は、前記決定された地点を始めとし、第1臨界値より小さい第2臨界値以上の確率値を有する地点まで領域を増大させることができる。文字検出装置100は、最終的に増大された領域1045を含む多角形の領域を、文字領域1050と決定することができる。
一実施形態において、文字検出装置100は、中間出力イメージ1030に対し、映像分割アルゴリズム(例えば、watershed方法)を適用し、文字レベルマップ1040で識別された領域1045を、文字領域1050と決定することもできる。
変形単語領域イメージ1020と中間出力イメージ1030との大きさ及び解像度は、互いに対応するので、中間出力イメージ1030で決定された文字領域の位置値は、そのまま変形単語領域イメージ1020内の文字領域1050の位置値にもなる。文字検出装置100は、変形単語領域イメージ1020内の文字領域1050の位置値を、学習用イメージ1010の文字領域1065の位置値に変更することができる。
一例において、文字検出装置100は、文字領域1050の位置値が検出された変形単語領域イメージ1020を、イメージ処理アルゴリズムによって逆変形(例えば、逆ワーピング)した後、逆変形された単語領域イメージを学習用イメージ1010に整合させ、学習用イメージ1010上における文字領域1065の位置値を決定することができる。
他の例において、文字検出装置100は、変形された単語領域イメージ1020の所定地点の座標値と、学習用イメージ1010に含まれた単語領域1015の所定地点の座標値との関係を考慮し、変形された単語領域イメージ1020から検出された文字領域1050の位置値を、学習用イメージ1010の位置値に変更することもできる。
学習用イメージ1010内の文字領域1065の位置値がアノテーションされれば、文字検出装置100は、学習用イメージ1010内の文字領域1065の位置値に基づき、疑似GTイメージを生成することができる。
図11は、単語領域イメージを文字検出モデルに入力したとき、出力される中間出力イメージをエポック(epoch)別に図示する図面であり、図12は、単語領域イメージから、文字領域の位置値を検出する他の方法について説明するための図面である。図11及び図12と係わり、以下において、単語領域イメージを対象にして説明されるが、単語領域イメージの代わりに、図10と係わって説明された変形された単語領域イメージにも適用される。
前述のように、文字検出モデルの訓練が十分になされていない場合、単語領域イメージに基づいて出力される中間出力イメージの正確性が低下してしまう。図11を参照すれば、「Alice」を含む単語領域イメージが文字検出モデルに入力されたとき、出力される中間出力イメージの正確度が、エポック増大によって向上されることを確認することができる。例えば、最初エポックにおいては、1個の文字だけが検出され得る。10番目エポックにおいては、5個の文字が検出され得る。
前述のように、文字検出装置100は、中間出力イメージから検出される文字の個数と、単語領域イメージに含まれた文字の正解個数とを比較し、ロス値に適用される補正ウェートを決定することができる。しかし、該中間出力イメージから検出される文字の個数が所定個数未満である場合、文字検出装置100は、文字領域の位置値決定におき、中間出力イメージを利用しないのである。
例えば、文字検出装置100は、中間出力イメージから検出される文字の個数が、単語領域イメージに含まれた文字の正解個数の所定比率(例えば、0.5)未満である場合、中間出力イメージを利用しないのである。該中間出力イメージから検出される文字の個数が4個であり、単語領域イメージに含まれた文字の正解個数が10個である場合、文字検出装置100は、10個の0.5に該当する5個未満の文字だけが検出されたことを確認し、中間出力イメージを利用しないのである。
文字検出装置100は、中間出力イメージから文字領域を識別する代わりに、単語領域イメージを正解個数によって分割し、分割された各領域を文字領域と決定することもできる。図12を参照すれば、「Alice」は、5個の文字からなっているので、文字検出装置100は、単語領域イメージ1200を、均等に5個の領域1210,1220,1230,1240,1250に区分した後、各領域を文字領域と決定することができる。そして、文字検出装置100は、ロス値に適用される補正ウェートを、既設定値(例えば、0.5)に決定することができる。
なお、文字検出装置100は、文字を含むイメージの入力により、確率値イメージ及びリンクイメージのうち少なくとも一つを含む出力イメージが獲得されれば、出力イメージに基づき、入力イメージにバウンディングボックスを表示することもできる。該バウンディングボックスは、文字単位または単語単位にも表示される。
文字検出装置100は、出力された確率値イメージにおいて、第1臨界値以上の確率値に対応する地点を決定することができる。そして、文字検出装置100は、前記決定された地点を始めとし、第1臨界値より小さい第2臨界値以上の確率値を有する地点まで領域を増大させることができる。文字検出装置100は、最終的に増大された領域を含む多角形の領域を、文字領域と決定することができる。文字検出装置100は、確率値イメージにおいて決定された文字領域に対応するバウンディングボックスを、入力されたイメージに表示して出力することができる。
また、文字検出装置100は、確率値イメージで決定された文字領域を、リンクイメージの連結性を考慮して結合させ、該結合結果として生成された領域を単語領域と決定することもできる。例えば、文字検出装置100は、確率値イメージで決定された文字領域のうち、リンクイメージにおいて、同一ラインに対応する文字領域を結合させることができる。そして、文字検出装置100は、単語領域に対応するバウンディングボックスを、入力されたイメージに表示して出力することができる。
一実施形態において、文字検出装置100は、確率値イメージで決定された文字領域結合にあたり、確率値イメージにおいて、第1臨界値以上の確率値に対応する地点のうち、リンクイメージにおいて、第3臨界値以上の値を有する地点に対応する文字領域を結合させることもできる。
一実施形態により、文字検出装置100は、文字検出モデルに追加し、単語検出モデルをさらに含んでもよい。該文字検出モデルは、いかなるアノテーションもなされていない学習用イメージが入力されれば、単語検出モデルを介し、学習用イメージから単語領域の位置値を検出し、検出された単語領域の位置値を利用し、文字検出モデルを訓練させることもできる。
図13は、一実施形態による文字検出装置100の構成を図示する図面である。
図13を参照すれば、一実施形態による文字検出装置100は、メモリ1310及びプロセッサ1330を含んでもよい。メモリ1310には、少なくとも1つのインストラクションが保存され、プロセッサ1330は、少なくとも1つのインストラクションにより、イメージ内文字検出、及び文字検出モデルの訓練を制御することができる。
図13は、1つのメモリ1310、及び1つのプロセッサ1330だけを図示しているが、文字検出装置100は、複数のメモリ1310を含み、複数のプロセッサ1330を含んでもよい。
文字検出装置100は、サーバ装置に含まれてもよい。また、文字検出装置100は、クライアント装置に含まれてもよい。また、文字検出装置100は、スタンドアローン(standalone)装置に含まれてもよい。
図14は、一実施形態による文字検出装置100の機能ブロック図である。
図14を参照すれば、文字検出装置100は、文字検出モデル1410、データ処理部1430及びモデル訓練制御部1450を含んでもよい。
文字検出モデル1410、データ処理部1430及びモデル訓練制御部1450のうち少なくとも一つは、プロセッサ1330としても具現されし、文字検出モデル1410、データ処理部1430及びモデル訓練制御部1450のうち少なくとも1つの動作を制御するためのインストラクションが、メモリ1310にも保存される。
一実施形態において、文字検出モデル1410は、メモリ1310にも保存され、データ処理部1430及びモデル訓練制御部1450は、プロセッサ1330としても具現される。または、一実施形態において、文字検出モデル1410は、神経網プロセッサとしても具現され、データ処理部1430及びモデル訓練制御部1450は、汎用のプロセッサとしても具現される。
データ処理部1430は、文字検出を必要とするイメージを獲得し、文字検出モデル1410に入力する。また、データ処理部1430は、文字検出モデル訓練のために学習用イメージを獲得し、モデル訓練制御部1450に伝達することができる。学習用イメージは、単語領域の位置値がアノテーションされた学習用イメージ、または文字領域の位置値がアノテーションされた学習用イメージを含んでもよい。
モデル訓練制御部1450は、学習用イメージを、文字検出モデル1410に入力する。モデル訓練制御部1450は、学習用イメージを、文字検出モデル1410に入力する前に前処理を行うこともできる。モデル訓練制御部1450は、学習用イメージから、GTイメージまたは疑似GTイメージを生成することができる。
文字検出モデル1410は、モデル訓練制御部1450から、学習用イメージ及び正解イメージ(すなわち、GTイメージまたは疑似GTイメージ)を入力され、内部加重値を更新することができる。文字検出モデル1410は、学習用イメージに対応する出力イメージと正解イメージとを比較し、内部加重値を更新することができる。
文字検出モデル1410に入力されたイメージに対応し、出力イメージが出力されれば、データ処理部1430は、出力イメージに基づき、入力イメージに、バウンディングボックスを表示することもできる。該バウンディングボックスは、文字単位または単語単位にも表示される。
図示されていないが、文字検出装置100は、通信部をさらに含んでもよく、該通信部は、文字検出モデル1410から出力される出力イメージ、データ処理部1430によって処理されたイメージを外部装置で伝送することもできる。
図15は、一実施形態による文字検出装置100が適用され得るサーバ装置1510及びクライアント装置1520を図示する図面である。
前述のように、一実施形態による文字検出装置100は、サーバ装置1510としても具現される。その場合、サーバ装置1510は、クライアント装置1520から、処理を必要とするイメージを受信することができる。サーバ装置1510は、受信されたイメージを文字検出モデルに入力させ、出力イメージを獲得することができる。
サーバ装置1510は、出力イメージをクライアント装置1520で伝送することができる。また、サーバ装置1510は、クライアント装置1520から受信されたイメージ内の文字領域または単語領域に対応するバウンディングボックスをイメージに表示し、クライアント装置1520で伝送することもできる。
サーバ装置1510は、クライアント装置1520を含む外部装置から、学習用データを受信するか、あるいは内部に保存された学習用データを利用し、文字検出モデルの訓練を制御することもできる。
一実施形態による文字検出装置100は、クライアント装置1520に含まれてもよい。クライアント装置1520は、文字検出モデル実行のためのデータを、サーバ装置1510から受信することができる。クライアント装置1520は、カメラモジュールを介して撮影されたイメージ、内部メモリに保存されたイメージ、または外部装置から受信されたイメージを文字検出モデルに入力させ、イメージ内の文字を検出することができる。
クライアント装置1520は、外部装置から学習用データを受信するか、あるいは内部に保存された学習用データを利用し、文字検出モデル訓練を制御することもできる。位置具現例により、文字検出モデル実行のためのデータをクライアント装置1520に提供したサーバ装置1510が、学習用データに基づき、文字検出モデル訓練を制御することもできる。その場合、サーバ装置1510は、訓練結果として更新された加重値情報のみをクライアント装置1520に伝送し、クライアント装置1520は、受信された情報により、文字検出モデルを更新することもできる。
図15は、クライアント装置1520として、デスクトップPC(personal computer)を図示しているが、それに限定されるものではなく、クライアント装置1520は、ノート型パソコン、スマートフォン、タブレットPC、AI(artificial intelligence)ロボット、AIスピーカ、ウェアラブル機器などを含んでもよい。
一具現例により、文字検出装置100は、サーバ・クライアントモデルではなく、スタンドアローン装置に含まれてもよい。該スタンドアローン装置は、内蔵された文字検出モデルの訓練を制御し、獲得イメージを文字検出モデルに入力し、イメージ内の文字を検出することもできる。
なお、前述の本開示の実施形態は、コンピュータによっても実行されるプログラムに作成可能あり、作成されたプログラムは、媒体にも保存される。
該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために、臨時保存するものでもある。また、該媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散されて存在するものでもある。該媒体の例示としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体;CD-ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM(read only memory)、RAM(random access memory)、フラッシュメモリなどを含み、プログラム命令が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体、あるいは保存の媒体も挙げることができる。
以上、本開示の技術的思想につき、望ましい実施形態を挙げて詳細に説明されたが、本開示の技術的思想は、前述の実施形態に限定されるものではなく、本開示の技術的思想の範囲内において、当分野において当業者により、さまざまな変形及び変更が可能である。

Claims (13)

  1. 文字検出装置による文字検出方法において、
    神経網を含む文字検出モデルを訓練させる段階と、
    前記訓練された文字検出モデルに、入力イメージを入力し前記文字検出モデルから出力される1以上の出力イメージを獲得する段階と、を含み、
    前記出力イメージは、前記入力イメージ内において、文字が存在する確率を示す確率値イメージを含み、
    前記訓練させる段階は、
    少なくとも1の文字を含む単語領域の位置値が確認された第1学習用イメージから前記単語領域内の文字領域の位置値を決定する段階と、
    前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得する段階と、を含み、
    前記第1学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出方法。
  2. 前記確率値イメージは、前記入力イメージ内で文字が存在する確率を前記入力イメージと対応する位置のイメージ空間上に示すことを特徴とする請求項1に記載の文字検出方法。
  3. 前記出力イメージは、
    前記入力イメージから検出された文字の連結性を示すリンクイメージをさらに含むことを特徴とする請求項1に記載の文字検出方法。
  4. 前記リンクイメージは、前記入力イメージから検出された隣接文字の中心を連結したラインを含み、
    前記ラインの太さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする請求項に記載の文字検出方法。
  5. 前記訓練させる段階は、
    文字領域の位置値が確認された第2学習用イメージからGTイメージを獲得する段階を含み、
    前記第2学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする請求項1に記載の文字検出方法。
  6. 前記疑似GTイメージを獲得する段階は、
    前記第1学習用イメージから、前記単語領域の位置値に対応する単語領域イメージを抽出する段階と、
    前記抽出された単語領域イメージを前記文字検出モデルに入力し、前記単語領域イメージに対応する中間出力イメージを獲得する段階と、
    前記中間出力イメージから検出された各文字領域から、前記単語領域イメージ内の各文字領域の位置値を決定する段階と、
    前記単語領域イメージ内の前記文字領域の位置値を利用し、前記第1学習用イメージ内の文字領域の位置値を決定する段階と、
    前記決定された文字領域の位置値に基づき、前記第1学習用イメージに対応する疑似GTイメージを獲得する段階と、を含むことを特徴とする請求項に記載の文字検出方法。
  7. 前記訓練させる段階は、
    前記第1学習用イメージ内の前記単語領域に含まれた文字の正解個数情報を獲得する段階と、
    前記単語領域に含まれた文字の正解個数と、前記単語領域の位置値に対応する単語領域イメージに基づいて獲得された中間出力イメージから検出された文字の個数とを比較し、補正ウェート値を決定する段階と、
    前記決定された補正ウェート値を、前記文字検出モデルから出力される前記出力イメージと、前記疑似GTイメージとの比較結果に適用する段階と、をさらに含むことを特徴とする請求項に記載の文字検出方法。
  8. 前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
    前記中間出力イメージから検出された文字の個数が所定個数未満である場合、前記単語領域イメージを前記文字の正解個数によって分割する段階と、
    前記単語領域イメージから分割された各分割領域の位置値を、前記単語領域イメージ内の前記各文字領域の位置値と決定する段階と、を含むことを特徴とする請求項に記載の文字検出方法。
  9. 前記中間出力イメージを獲得する段階は、
    前記抽出された単語領域イメージをイメージ処理アルゴリズムによって変形する段階と、
    前記変形された単語領域イメージを前記文字検出モデルに入力し、前記変形された単語領域イメージに対応する中間出力イメージを獲得する段階と、を含み、
    前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
    前記変形された単語領域イメージ内の各文字領域の位置値を決定する段階を含み、
    前記第1学習用イメージ内の文字領域の位置値を決定する段階は、
    前記変形された単語領域イメージ内の前記文字領域の位置値を利用し、前記第1学習用イメージ内の前記文字領域の位置値を決定する段階を含むことを特徴とする請求項6に記載の文字検出方法。
  10. 前記文字検出方法は、
    前記確率値イメージにおいて、第1臨界値以上の確率値を有する少なくとも1つの地点を決定する段階と、
    前記決定された少なくとも1つの地点それぞれから、前記第1臨界値より小さい第2臨界値以上の確率値を有する地点までバウンディング領域を増大させる段階と、
    前記増大されたバウンディング領域に対応するバウンディングボックスを、前記入力イメージ上に表示する段階と、をさらに含むことを特徴とする請求項2に記載の文字検出方法。
  11. プロセッサと、
    少なくとも1つのインストラクションを保存するメモリと、を含み、
    前記プロセッサは、前記少なくとも1つのインストラクションにより、
    神経網を含む文字検出モデルを訓練させ、
    前記訓練された文字検出モデルに入力イメージを入力し、前記文字検出モデルから出力される1つ以上の出力イメージを獲得し、
    前記出力イメージは、前記入力イメージ内から文字が存在する確率を示す確率値イメージを含み、
    前記プロセッサは、前記文字検出モデルの訓練のために、少なくとも1つの文字を含む単語領域の位置値が確認された第1学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得し、
    前記第1学習用イメージに対応して前記文字検出モデルで出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出装置。
  12. 少なくとも1つの文字を含む単語領域の位置値が確認された第1学習用イメージを利用し、神経網を含む文字検出モデルを訓練させるサーバ装置と、
    前記サーバ装置から、前記文字検出モデルの実行のためのデータを受信し、入力イメージが獲得されれば、前記文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも1つの出力イメージを獲得するクライアント装置と、を含むが、
    前記出力イメージは、前記入力イメージ内において、文字が存在する確率を示す確率値イメージを含み、
    前記サーバ装置は、前記文字検出モデルの訓練のために、前記第1学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得し、
    前記第1学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出システム。
  13. 文字検出装置による文字検出方法において、
    神経網を含む文字検出モデルに入力イメージを入力する段階と、
    前記文字検出モデルから1以上の出力イメージを獲得する段階と、を含み、
    前記出力イメージは、前記入力イメージ内で文字が存在する確率を示す確率値イメージ、及び前記入力イメージで検出された文字の連結性を示すリンクイメージを含み、
    前記リンクイメージは、前記入力イメージで検出された隣接した文字の中心を連結したラインを含み、
    前記ラインの厚さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする文字検出方法。
JP2021515507A 2018-09-21 2019-07-17 文字検出装置、文字検出方法及び文字検出システム Active JP7198350B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0114369 2018-09-21
KR1020180114369A KR102211763B1 (ko) 2018-09-21 2018-09-21 글자 검출 장치, 방법 및 시스템
PCT/KR2019/008820 WO2020060019A1 (ko) 2018-09-21 2019-07-17 글자 검출 장치, 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2022501719A JP2022501719A (ja) 2022-01-06
JP7198350B2 true JP7198350B2 (ja) 2022-12-28

Family

ID=69887389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021515507A Active JP7198350B2 (ja) 2018-09-21 2019-07-17 文字検出装置、文字検出方法及び文字検出システム

Country Status (4)

Country Link
JP (1) JP7198350B2 (ja)
KR (1) KR102211763B1 (ja)
CN (1) CN112868021A (ja)
WO (1) WO2020060019A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639717A (zh) * 2020-06-04 2020-09-08 网易(杭州)网络有限公司 图像字符识别方法、装置、设备及存储介质
KR102270198B1 (ko) * 2020-06-08 2021-06-28 주식회사 에스아이에이 앵커-프리 rpn 기반의 물체 검출 방법
KR102436814B1 (ko) * 2020-09-29 2022-08-25 이용재 광학 문자 인식 장치 및 그 제어방법
KR102535054B1 (ko) * 2021-09-07 2023-05-26 서울대학교산학협력단 패치기반의 딥러닝 알고리즘을 통한 실내도면 이미지에서의 실내공간정보 자동추출방법 및 그 장치
KR102646607B1 (ko) * 2021-10-15 2024-03-13 한국딥러닝 주식회사 딥러닝 기반의 문자 인식 시스템
WO2024043485A1 (ko) * 2022-08-26 2024-02-29 삼성전자주식회사 텍스트를 포함하는 이미지를 처리하기 위한 전자 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574513A (zh) 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
KR101805318B1 (ko) 2016-11-01 2017-12-06 포항공과대학교 산학협력단 텍스트 영역 식별 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8674855B2 (en) * 2006-01-13 2014-03-18 Essex Pa, L.L.C. Identification of text
JP2012164051A (ja) * 2011-02-04 2012-08-30 Jvc Kenwood Corp ナンバープレート文字認識装置及びナンバープレート文字認識方法
KR20120127000A (ko) * 2011-05-13 2012-11-21 삼성전자주식회사 문자인식을 이용한 이미지 관리 장치 및 그 방법
KR101403876B1 (ko) * 2012-03-19 2014-06-09 한밭대학교 산학협력단 차량 번호판 인식 방법과 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574513A (zh) 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
KR101805318B1 (ko) 2016-11-01 2017-12-06 포항공과대학교 산학협력단 텍스트 영역 식별 방법 및 장치

Also Published As

Publication number Publication date
KR102211763B1 (ko) 2021-02-03
JP2022501719A (ja) 2022-01-06
WO2020060019A1 (ko) 2020-03-26
CN112868021A (zh) 2021-05-28
KR20200036098A (ko) 2020-04-07

Similar Documents

Publication Publication Date Title
JP7198350B2 (ja) 文字検出装置、文字検出方法及び文字検出システム
US10354168B2 (en) Systems and methods for recognizing characters in digitized documents
US11810374B2 (en) Training text recognition systems
US20210398294A1 (en) Video target tracking method and apparatus, computer device, and storage medium
WO2022148192A1 (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
WO2020192433A1 (zh) 多语言文本检测识别方法和设备
WO2018010657A1 (zh) 结构化文本检测方法和系统、计算设备
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
US8442327B2 (en) Application of classifiers to sub-sampled integral images for detecting faces in images
WO2021137946A1 (en) Forgery detection of face image
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
US20130322758A1 (en) Image processing apparatus, image processing method, and program
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
JP7297910B2 (ja) 文字認識装置及び文字認識装置による文字認識方法
KR102351578B1 (ko) 글자 인식 장치 및 이에 의한 글자 인식 방법
RU2453919C1 (ru) Способ выявления спама в растровом изображении
US20230237662A1 (en) Dual-level model for segmentation
CN114120305B (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN111753575A (zh) 文本识别方法、装置及设备
WO2021142765A1 (en) Text line detection
Pang et al. Robust eye center localization through face alignment and invariant isocentric patterns
Chang et al. Re-Attention is all you need: Memory-efficient scene text detection via re-attention on uncertain regions
US20220171959A1 (en) Method and apparatus with image processing
CN113971671A (zh) 实例分割方法、装置、电子设备及存储介质
KR20240067765A (ko) 초해상화 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210319

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221216

R150 Certificate of patent or registration of utility model

Ref document number: 7198350

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350