JP7198350B2

JP7198350B2 - 文字検出装置、文字検出方法及び文字検出システム

Info

Publication number: JP7198350B2
Application number: JP2021515507A
Authority: JP
Inventors: ユンミンバク，; ファルスクイ，; バドイ，
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2018-09-21
Filing date: 2019-07-17
Publication date: 2022-12-28
Anticipated expiration: 2039-07-17
Also published as: KR102211763B1; JP2022501719A; WO2020060019A1; CN112868021A; KR20200036098A

Description

本発明は、イメージ処理分野に係り、さらに具体的には、マシンラーニングモデルを利用し、イメージに含まれた文字の位置を検出する装置、その方法及びそのシステムに関する。

イメージ内文字がどこにあるかということの検出は、ＨＣＩ（human computer interaction）において重要な要素である。文字イメージからの文字検出は、比較的簡単であるが、看板、表示板、メニューのように、実生活で撮影されたイメージに含まれた文字は、さまざまなデザイン的要素だけではなく、映像変換、光反射などの影響により、検出に困難さが存在する。

イメージ内において、さまざまな文字からなる単語の検出方法は、提案されているが、個別文字ではなく、単語中心に文字を検出する場合、曲線に配置された文字や、視点による歪曲が生じた文字の検出正確度が低くなる問題点がある。

一実施形態による文字検出装置、その方法及びそのシステムは、さまざまな文字からなる単語ではないそれぞれの文字を高い正確度で検出することを技術的課題とする。

また、一実施形態による文字検出装置、その方法及びそのシステムは、少ない量のＧＴ（ground truth）を増大させることを技術的課題とする。

また、一実施形態による文字検出装置、その方法及びそのシステムは、指導（教師あり）（supervision）学習過程及び弱指導（弱い教師あり）（weakly supervision）学習過程を介し、文字検出モデルを効率的に訓練させることを技術的課題とする。

一実施形態による文字検出方法は、入力イメージを獲得する段階と、神経網を含む文字検出モデルに、前記入力イメージを入力して処理する段階と、前記文字検出モデルから、少なくとも１以上の出力イメージを獲得する段階と、を含み、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。

一実施形態による文字検出装置、その方法及びそのシステムは、さまざまな文字からなる単語ではないそれぞれの文字を検出することにより、曲線に配置された文字や、視点による歪曲が生じた文字も、高い正確度で検出することができる。

また、一実施形態による文字検出装置、その方法及びそのシステムは、単語領域の位置がアノテーションされた（annotated）学習用イメージを用いて、文字領域の位置情報を提供するＧＴを生成することができる。

また、一実施形態による文字検出装置、その方法及びそのシステムは、指導学習過程及び弱指導学習過程を介し、文字検出モデルを効率的に訓練させることができる。

しかしながら、一実施形態による文字検出装置、その方法及びそのシステムが達成することができる効果は、以上で言及したところに制限されるものではなく、言及されていないさらに他の効果は、以下の記載から、本開示が属する技術分野で当業者に明確に理解されるであろう。

本明細書で引用される図面をさらに十分に理解するために、各図面の簡単な説明が提供される。
一実施形態による文字検出装置を図示する図面である。一実施形態による文字検出方法について説明するためのフローチャートである。文字検出モデルに入力されたイメージと、文字検出モデルから出力されたイメージとを図示する図面である。一実施形態による文字検出モデルの神経網構造を図示する図面である。文字領域の位置値がアノテーションされた学習用イメージでもって、文字検出モデルを訓練させる方法について説明するためのフローチャートである。学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。学習用イメージから、ＧＴイメージを生成する過程について説明するための図面である。単語領域の位置値がアノテーションされた学習用イメージを用いて、文字検出モデルを訓練させる方法について説明するための図面である。学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。単語領域の位置値がアノテーションされた学習用イメージにおいて、文字領域の位置値を決定する方法について説明するための図面である。単語領域イメージを文字検出モデルに入力したとき、出力される中間出力イメージをエポック（epoch）別に図示する図面である。単語領域イメージから文字領域を検出する他の方法について説明するための図面である。一実施形態による文字検出装置の構成を図示するブロック図である。一実施形態による文字検出装置の機能ブロック図である。一実施形態による文字検出装置が適用されるサーバ装置及びクライアント装置を図示する図面である。学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。

一実施形態による文字検出装置は、プロセッサと、少なくとも１つのインストラクションを保存するメモリを含むものの、前記プロセッサは、前記少なくとも１つのインストラクションによって入力イメージを獲得し、神経網を含む文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも１つの出力イメージを獲得し、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。

一実施形態による文字検出システムは、学習用イメージを利用し、神経網を含む文字検出モデルを訓練させるサーバ装置と、前記サーバ装置から、前記文字検出モデルの実行のためのデータを受信し、入力イメージが獲得されれば、前記文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも１つの出力イメージを獲得するクライアント装置を含むものの、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。

本開示は、多様な変更を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、それらについて詳細な説明を介して説明する。しかし、それらは、本開示を特定の実施形態について限定するのではなく、本開示の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むものであると理解されなければならない。

本実施形態についての説明におき、関連公知技術に係わる具体的な説明が、要旨を必要以上に不明確にし得ると判断される場合、その詳細な説明を省略する。また、本実施形態の説明過程で利用される数字（例えば、第１、第２など）は、１つの構成要素を、他の構成要素と区分するための識別記号に過ぎない。

また、本明細書において、一構成要素が他の構成要素と「連結される」としたり、「接続される」としたりして言及されたときには、前述の一構成要素が、前述の他の構成要素と直接連結されたり、直接接続されたりもするが、特別に反対となる記載が存在しない以上、中間に他の構成要素を媒介し、連結されたり接続されたりもすると理解されなければならないのである。

また、本明細書において、「～部（ユニット）」、「モジュール」などと表現される構成要素は、２個以上の構成要素が１つの構成要素に合わされるか、あるいは１つの構成要素がさらに細分化された、機能別に２個以上に分化されもする。また、以下で説明される構成要素それぞれは、自体が担当する主機能以外にも、他の構成要素が担当する機能のうち、一部または全部の機能を追加して遂行することもでき、構成要素それぞれが担当する主機能のうち、一部機能が他の構成要素によって専担されて遂行されうるということは、言うまでもない。

また、本明細書において「文字」は、単語や文章を構成する基本文字単位を意味しうる。例えば、英語の場合には、それぞれのアルファベットが文字に該当し、数字の場合には、「０」ないし「９」の数字それぞれが文字に該当し、韓国語の場合には、子音と母音とが結合された文字（例えば、（外１）

）、子音、母音及び子音が結合された文字（例えば、（外２）

）、単独で記載された子音（例
えば、（外３）

）、単独で記載された母音（例えば、（外４）

）が文字に該当しうる。

また、本明細書において「単語」は、少なくとも１つの文字を含む文字単位を意味しうる。「単語」は、少なくとも１つの文字を含み、言語的意味を有する文字単位とも参照される。また、「単語」を構成する文字は、互いに離隔されていないのである。ところで、「単語」は、１文字からもなる。例えば、英語の不定詞「ａ」は、１つの文字からなっているが、周辺文字と離隔されている場合、「単語」に該当しうる。

以下、本開示の技術的思想による実施形態につき、順に詳細に説明する。

図１は、一実施形態による文字検出装置１００を図示する図面である。

一実施形態による文字検出装置１００は、文字検出モデルを含む。文字検出装置１００は、該文字検出モデルを介し、入力イメージに含まれた文字を検出する。該文字検出モデルは、神経網を含むマシンラーニングモデルを含むものである。該文字検出モデルは、入力層、隠匿層及び出力層からなる神経網を介し、入力イメージ内の文字を検出することができる。該文字検出モデルは、ＣＮＮ（convolutional neural network）を含むものである。

図１を参照すれば、「Ｃｏｌｄ」を含むイメージ１１に対し、従来の検出装置１０は、１つの単語に該当する「Ｃｏｌｄ」を検出し、「Ｃｏｌｄ」に対応するバウンディングボックス１５が表示されたイメージ１１を出力することができるが、一実施形態による文字検出装置１００は、「Ｃｏｌｄ」を、「Ｃ」、「ｏ」、「ｌ」、「ｄ」それぞれの文字に区別して検出し、文字別にバウンディングボックス１１５が表示されたイメージ１１０を出力することができる。

一実施形態による文字検出モデルは、イメージに含まれた文字を、単語単位ではない字単位で検出することができるので、単語単位で文字を検出する方法に比べ、正確性が向上しうる。

以下においては、図２以下を参照し、一実施形態による文字検出装置１００の動作について詳細に説明する。

図２は、一実施形態による文字検出方法について説明するためのフローチャートである。

Ｓ２１０段階において、文字検出装置１００は、少なくとも１つの文字を含むイメージを獲得する。文字検出装置１００は、内部に保存されたイメージを獲得するか、あるいは外部装置から受信されるイメージを獲得することができる。

Ｓ２２０段階において、文字検出装置１００は、イメージを文字検出モデルに入力する。該文字検出モデルは、イメージに含まれた各文字の位置を検出するために訓練されるうる。

Ｓ２３０段階において、文字検出装置１００は、該文字検出モデルから出力される出力イメージを獲得する。出力イメージと入力イメージとの大きさ及び解像度は、互いに同一でもあり、あるいは出力イメージの大きさ及び解像度が、入力イメージよりも小さい。

出力イメージは、入力イメージに含まれた文字の存在確率をイメージ空間上に示す。該出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。

該確率値イメージは、イメージ内文字の存在確率をピクセル値で示すことができる。該確率値イメージに含まれたピクセルは、各ピクセルが、文字に該当する確率に対応する値を有することができる。該確率値イメージに含まれたピクセルは、当該ピクセルの位置が、文字中心に該当する確率に対応するピクセル値を有することもできる。

リンクイメージは、イメージ内文字の連結性を示す。該リンクイメージは、文字間の隣接いかんを示す少なくとも１本のラインを含むものである。

図３を参照すれば、「ｐ」、「ｅ」、「ａ」、「ｃ」、「ｅ」の文字を含むイメージ３１０が文字検出モデルに入力されれば、該文字検出モデルは、イメージ３１０内文字の存在確率を空間上に示す確率値イメージ３２０と、イメージ３１０内文字の連結性を示すリンクイメージ３３０と、を出力することができる。

確率値イメージ３２０のピクセルは、イメージ３１０内文字の存在確率に対応するピクセル値を有することができる。または、確率値イメージ３２０のピクセルは、文字の中心に該当する確率に対応するピクセル値を有することもできる。一例として、確率値イメージ３２０において特定ピクセル値を有するピクセルは、他のピクセル値を有するピクセルに比べ、文字の中心に該当する確率が高いということを意味し得る。

確率値イメージ３２０のピクセル値により、イメージ３１０内において、文字の存在確率が高い地点、または文字中心に該当する確率が高い地点が確認され得るので、入力イメージ３１０に含まれた文字の位置値検出が可能になる。

また、確率値が、第１臨界値より高い地点を中心にしたとき、第１臨界値より小さい第２臨界値以上の確率値を有する隣接領域の大きさは、イメージ３１０に含まれた文字の大きさに比例するので、確率値イメージ３２０に基づき、イメージ３１０内文字の大きさ検出も可能である。

リンクイメージ３３０は、イメージ３１０内文字間の連結性を示す。リンクイメージ３３０は、ライン３３５，３３７を含むことにもなるが、ある１本のラインは、隣接文字の中心点を連結した線にも対応する。例えば、互いに隣接した「ｐ」、「ｅ」、「ａ」、「ｃ」、「ｅ」に対応するライン３３５がリンクイメージ３３０にも含まれる。イメージ３１０に含まれた「Ｗ」、「Ｈ」、「Ｙ」は、「ｐ」、「ｅ」、「ａ」、「ｃ」及び「ｅ」から離隔されているので、「Ｗ」、「Ｈ」、「Ｙ」に対応するライン３３７は、ライン３３５とは別個に、リンクイメージ３３０に含まれるのである。

リンクイメージ３３０内ラインの太さは、イメージ３１０に含まれた文字の大きさにも比例する。例えば、リンクイメージ３３０内ラインの太さは、確率値イメージ３２０で確認される四角形状の文字領域の対角線長の平均にも比例する。

図４は、一実施形態による文字検出モデルの神経網構造を図示する図面である。

図４を参照すれば、文字検出モデルは、入力層、コンボリューション層、アップサンプリング層、アップコンボリューション層及び出力層を含んでもよい。

入力層４０５にイメージが入力されれば、該イメージは、第１コンボリューション層４１０、第２コンボリューション層４１５、第３コンボリューション層４２０、第４コンボリューション層４２５、第５コンボリューション層４３０及び第６コンボリューション層４３５において、コンボリューション処理が施される。第６コンボリューション層４３５の出力と、第５コンボリューション層４３０の出力とが連接（concatenation）演算され、第１アップコンボリューション層４４０に入力され、第１アップコンボリューション層４４０に入力された値は、コンボリューション処理４４１、配置正規化（normalization）４４２、コンボリューション処理４４３及び配置正規化４４４を介し、第１アップサンプリング層４４５に入力される。第１アップサンプリング層４４５の出力は、第４コンボリューション層４２５の出力と連接演算され、第２アップコンボリューション層４５０及び第２アップサンプリング層４５５で処理される。第２アップサンプリング層４５５の出力は、第３コンボリューション層４２０の出力と連接演算され、第３アップコンボリューション層４６０と第３アップサンプリング層４６５とで処理され、該処理結果は、第２コンボリューション層４１５の出力と連接演算され、第４アップコンボリューション層４７０に入力される。そして、第４アップコンボリューション層４７０の出力と、第１コンボリューション層４１０の出力は、連接演算された後、さまざまなコンボリューション処理４７５，４８０，４８５，４９０を介し、出力層４９５から、確率値イメージ及びリンクイメージとして出力される。

図４に図示された文字検出モデルの神経網構造は、例示であるのみ、コンボリューション層の層数やデータの処理方向は、当業者に自明な範囲内において、多様に変更されうるのでる。

以下においては、図５ないし図１２を参照し、文字検出モデルを訓練させる過程について詳細に述べる。

図５は、文字領域の位置値がアノテーションされた学習用イメージを用いて、文字検出モデルを訓練させる方法について説明するためのフローチャートである。図５に図示された過程は、指導（supervision）学習にも該当する。

Ｓ５１０段階において、文字検出装置１００は、文字領域の位置値がアノテーションされた学習用イメージを獲得する。文字領域の位置値は、学習用イメージ上における文字領域の座標値にも該当する。

該学習用イメージは、少なくとも１つの文字を含むものである。文字検出装置１００は、該学習用イメージ内の文字を含む各文字領域の位置値を獲得することができる。該学習用イメージ内の文字を含む文字領域が四角形状であるならば、文字検出装置１００は、四角形の文字領域の各コーナーの座標値を獲得することができる。該文字領域は、四角形以外にも、三角形、五角形のような多角形、または円形の形態を有することができる。

Ｓ５２０段階において、文字検出装置１００は、学習用イメージに対応するＧＴ（ground truth）イメージを生成する。該ＧＴイメージは、ＧＴ確率値イメージ及びＧＴリンクイメージのうち少なくとも一つを含むものである。

該ＧＴイメージは、文字検出モデルの学習のために提供される正解データであり、該ＧＴイメージの生成方法は、図７を参照して説明する。

Ｓ５３０段階において、文字検出装置１００は、学習用イメージを文字検出モデルに入力する。該文字検出モデルは、学習用イメージが入力されることにより、学習用イメージに対応する出力イメージを出力する。該出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。

Ｓ５４０段階において、文字検出モデルは、出力イメージとＧＴイメージとの比較結果により、内部加重値を更新する。

該出力イメージと該ＧＴイメージとの比較結果により、ロス（loss）値が算出されうる。該ロス値は、例えば、Ｌ２ Loss値にも該当する。該ロス値は、それ以外にも、Ｌ１ loss、smooth Ｌ１ lossのような多様な方法を利用することができる。算出されたロス値は、文字検出モデルに入力され、文字検出モデルは、ロス値により、内部加重値を更新することができる。

該文字検出モデルの学習過程を図式化させた図６を参照して説明する。

図６を参照すれば、学習用イメージ６１０が文字検出モデルに入力され、該文字検出モデルから、出力イメージ（確率値イメージ及びリンクイメージのうち少なくとも一つ）６２０が出力される。そして、学習用イメージ６１０内文字領域の位置値６３０に基づき、ＧＴイメージ６４０が生成され、出力イメージ６２０とＧＴイメージ６４０とのロス（loss）６５０が算出される。算出されたロス６５０は、文字検出モデルに入力され、文字検出モデルの内部加重値が更新されうる。

図７は、学習用イメージ７１０からＧＴイメージを生成する過程について説明するための図面である。

学習用イメージ７１０に含まれた各文字領域７１５の位置値がアノテーションされてもいる。図７は、「２」に対応する文字領域７１５のみを図示しているが、全ての文字につき、文字領域が決定されてもいる。文字検出装置１００は、各文字領域７１５の位置値により、２Ｄガウシアンマップ（例えば、２Ｄヒートマップ）７２０をワーピング（warping）することにより、ＧＴ確率値イメージ７３０を生成することができる。例えば、文字検出装置１００は、四角形状の文字領域７１５のコーナー座標値により、２Ｄガウシアンマップ７２０をワーピングすることができる。ワーピングとは、イメージのピクセル位置値を移動させる幾何学的イメージ処理を意味する。ＧＴ確率値イメージ７３０の大きさ及び解像度は、学習用イメージ７１０の大きさ及び解像度と同一でもあり、あるいはＧＴ確率値イメージ７３０の大きさ及び解像度は、学習用イメージ７１０の大きさ及び解像度よりも小さい。

また、文字検出装置１００は、各文字領域７１５の中心をラインで連結し、ＧＴリンクイメージ７４０を生成することができる。文字検出装置１００は、隣接した中心と所定距離以内に位置する中心を１本のラインで連結し、隣接した中心と所定距離を超えて位置する中心を他のラインで連結し、ＧＴリンクイメージ７４０を生成することができる。ＧＴリンクイメージ７４０の大きさ及び解像度は、学習用イメージ７１０の大きさ及び解像度と同一でもあり、あるいはＧＴリンクイメージ７４０の大きさ及び解像度は、学習用イメージ７１０の大きさ及び解像度よりも小さい。

文字検出装置１００は、各文字領域７１５の大きさに基づき、ＧＴリンクイメージ７４０内ラインの太さを調節することができる。例えば、文字検出装置１００は、文字領域７１５の対角線長の平均値に比例し、ラインの太さが決定される。例えば、ある１つの文字に対応する第１文字領域の対角線長の平均値が１０であり、他の１つの文字に対応する第２文字領域の対角線長の平均値が５である場合、文字検出装置１００は、第１文字領域に対応するラインの太さを、第２文字領域に対応するラインの太さの２倍に決定することができる。

なお、図５ないし図７と係わって説明された学習過程は、学習用イメージ７１０につき、文字領域７１５の位置値がアノテーションされている場合を考慮したものであるが、一般的に、文字領域の位置値がアノテーションされている学習用イメージの量は、多くないので、一実施形態においては、単語領域の位置値がアノテーションされている学習用イメージを利用し、文字検出モデルを学習させることもできる。

図８は、単語領域の位置値がアノテーションされた学習用イメージでもって、文字検出モデルを訓練させる方法について説明するための図面である。図８に図示された過程は、弱指導（weakly supervision）学習過程にも該当する。

Ｓ８１０段階において、文字検出装置１００は、単語領域の位置値がアノテーションされた学習用イメージを獲得する。該単語領域の位置値は、学習用イメージ内における単語領域の座標値にも該当する。

前述のように、単語は、少なくとも１つの文字を含むものでもあり、該単語領域の位置値は、単語を含む多角形の位置値を意味しうる。例えば、該単語領域が四角形である場合、単語領域の位置値は、四角形コーナーの座標情報を意味しうる。該単語領域の形態は、四角形以外の多角形、または円形にも該当する。

Ｓ８２０段階において、文字検出装置１００は、学習用イメージから、単語領域に対応する単語領域イメージを抽出する。該学習用イメージに含まれた単語領域の個数が複数である場合、文字検出装置１００は、複数の単語領域それぞれに対応する複数の単語領域イメージを抽出することができる。

Ｓ８３０段階において、文字検出装置１００は、単語領域イメージを文字検出モデルに入力する。該文字検出モデルは、単語領域イメージが入力されることにより、単語領域イメージに対応する中間出力イメージを出力する。前述のように、該文字検出モデルは、イメージ内に含まれた各文字の位置を検出するように訓練されたために、該文字検出モデルは、単語領域イメージに含まれた各文字の存在確率を示す中間出力イメージを出力することができる。該中間出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。

該単語領域イメージの個数が複数個である場合、文字検出装置１００は、複数の単語領域イメージそれぞれを文字検出モデルに入力させ、複数の中間出力イメージを獲得することもできる。

Ｓ８４０段階において、文字検出装置１００は、中間出力イメージから、単語領域イメージ内文字領域の位置値を確認する。該文字領域の位置値は、学習用イメージ上における文字領域の座標値、または単語領域イメージ上における文字領域の座標値にも該当する。

該単語領域イメージ上における文字領域の位置値が確認されれば、文字検出装置１００は、確認された文字領域の位置値を、学習用イメージ上における文字領域の位置値に変更することができる。文字検出装置１００は、単語領域イメージと学習用イメージとに含まれた単語領域間の座標関係を考慮し、該単語領域イメージ上における文字領域の位置値を、学習用イメージ上における文字領域の位置値に変更することができる。例えば、該単語領域イメージの左側最上端及び右側最上端の座標が確認され、学習用イメージに含まれた単語領域の左側最上端及び右側最上端の座標が確認されれば、文字検出装置１００は、単語領域イメージにおける左側最上端及び右側最上端の座標値と、学習用イメージ上において、単語領域の左側最上端及び右側最上端の座標値との関係式に基づき、単語領域イメージに含まれた文字領域の座標値を、学習用イメージ上における座標値に変更することができるのである。

Ｓ８５０段階において、文字検出装置１００は、学習用イメージ内に含まれた文字領域の位置値が確認されれば、文字領域の位置値に基づき、疑似（pseudo）ＧＴイメージを生成する。

文字検出装置１００は、図７と係わって説明されたところと同一に、学習用イメージから検出された各文字領域の位置値により、２Ｄガウシアンマップをワーピングさせ、疑似ＧＴ確率値イメージを生成し、各文字領域の中心を連結し、疑似ＧＴリンクイメージを生成することができる。

一実施形態において、文字検出装置１００は、中間出力イメージから文字領域を検出する過程を省略し、中間出力イメージそれ自体を疑似ＧＴイメージとして利用することもできる。該中間出力イメージは、学習用イメージ内単語領域に対応するイメージであるので、文字検出装置１００は、学習用イメージにおき、単語領域以外の領域に対応させ、特定のピクセル値を有するイメージを生成し、生成されたイメージと中間出力イメージとを結合させ、疑似ＧＴイメージを生成することもできる。

文字検出モデルの学習過程が図式化された図９を参照して説明する。

単語領域の位置値９１５がアノテーションされた学習用イメージ９１０から、単語領域に対応する単語領域イメージ９２０が抽出され、抽出された単語領域イメージ９２０は、文字検出モデルに入力される。単語領域イメージ９２０の入力により、該文字検出モデルから中間出力イメージ９３０が出力される。また、学習用イメージ９１０が文字検出モデルに入力され、文字検出モデルから、学習用イメージ９１０に対応する出力イメージ９２５が出力される。

中間出力イメージ９３０から、学習用イメージ９１０内文字領域の位置値９３５が決定される。文字領域の位置値９３５に基づき、学習用イメージ９１０に対応する疑似ＧＴイメージ９４０が生成される。

図９を参照すれば、出力イメージ９２５と疑似ＧＴイメージ９４０とのロス（loss）値９５０に、補正ウェート９４５が適用されているが、該補正ウェート９４５は、中間出力イメージ９３０の正確度を考慮して算出される値である。該文字検出モデルの訓練が不足している場合、中間出力イメージ９３０の検出正確度が低くなり、それを考慮し、ロス値９５０に補正ウェート９４５を適用するのである。

補正ウェート９４５は、中間出力イメージ９３０から検出された文字の個数と、単語領域イメージ９２０に含まれた文字の正解個数との比較結果によっても算出される。単語領域イメージ９２０に含まれた文字の正解個数は、文字検出装置１００が、単語領域イメージ９２０を分析して算出することもでき、または文字検出装置１００に正解個数が入力されうる。

文字検出装置１００は、中間出力イメージ９３０において、確率値が臨界値以上に該当する地点につき、映像分割アルゴリズム（例えば、watershedアルゴリズム）を適用し、中間出力イメージ９３０を、少なくとも１つの領域に区分することができ、区分された領域の個数を、中間出力イメージ９３０から検出された文字の個数と決定することができる。該文字検出モデルの訓練が不足している場合、中間出力イメージ９３０から検出された文字の個数は、実際個数より少ない確率が高いために、中間出力イメージ９３０から検出された文字の個数と、単語領域イメージ９２０に含まれた文字の正解個数とを比較し、補正ウェート９４５が算出されうる。

中間出力イメージ９３０から検出された文字の長さ（または、個数）をdetected＿lengthと言い、単語領域イメージ９２０に含まれた文字の正解長（または、個数）をｇｔ＿lengthとするとき、エラー値は、下記数式１によって算出される。

数式１：

学習用イメージ９１０から抽出された単語領域イメージ９２０の個数が複数である場合、前記detected＿lengthは、複数の中間出力イメージ９３０から検出された全文字の長さ（または、個数）を意味し、ｇｔ＿lengthは、複数の単語領域イメージ９２０に含まれた全文字の正解長（または、個数）を意味し得る。

該エラー値に基づき、補正ウェートは、下記数式２によって算出される。

数式２：

数式２においてalphaは、既設定値であり、例えば、０．９に設定される。その場合、ｅｒｒが０であるならば、weightは、０．９の値を有することになり、中間出力イメージ９３０において、１０個の文字のうち７個の文字だけが検出された場合、weight＝０．９＊７／１０＝０．６３になる。

一実施形態において、weightは、ｅｒｒに反比例しても決定される。すなわち、ｅｒｒが大きい場合、weightは、小さくも決定され、ｅｒｒが小さい場合、weightは、大きくも決定される。weight値が大きくなるにつれ、weighted lossが大きくなるほど、文字検出モデルの学習がさらに多くなされ得るので、ｅｒｒの大きさと反比例し、学習強度を大きくすることができる。

中間出力イメージ９３０から検出された文字の個数と、単語領域イメージ９２０に含まれた文字の正解個数との比較結果、算出された補正ウェート９４５は、文字検出モデルの出力である出力イメージ９２５と、疑似ＧＴイメージ９５０とのロス値に乗算される。乗じられた結果（weighted loss）９５５は、文字検出モデルに入力され、文字検出モデルの加重値が更新され得る。

図１６は、前述の図６及び図９による訓練過程を図示した図面であり、図１６を参照すれば、単語領域の位置値がアノテーションされた（Word annotation）イメージと、当該イメージからクロッピングされた（cropped）単語領域イメージとが文字検出モデルに入力される。そして、単語領域イメージに対応し、文字検出モデルから出力される中間出力イメージに基づき、疑似ＧＴイメージが生成され、単語領域の位置値がアノテーションされたイメージに対応し、文字検出モデルから出力される出力イメージと、疑似ＧＴイメージとのロス（Loss）が算出され得る。

また、文字領域の位置値がアノテーションされた（Character annotation）イメージが文字検出モデルに入力され、文字検出モデルから出力イメージが生成され、文字領域の位置値に基づいて生成されるＧＴイメージと、前記出力イメージとのロス（Loss）が算出され得る。

算出されたロス（Loss）は、文字検出モデルに伝播され、文字検出モデルの内部加重値が更新され得る。

図１０は、単語領域１０１５の位置値がアノテーションされた学習用イメージ１０１０から、文字領域１０６５の位置値を決定する過程を図示している。

前述のように、単語領域１０１５の位置値がアノテーションされた学習用イメージ１０１０から、単語領域１０１５に該当する単語領域イメージが抽出され得る。

一実施形態において、文字検出装置１００は、抽出された単語領域イメージを、所定のイメージ処理アルゴリズムによって変形することができる。所定のイメージ処理アルゴリズムは、例えば、イメージワーピングを含むものである。実際のイメージに含まれた単語領域は、視点の歪曲により、文字の配列方向や文字の大きさに、変動性が大きくなり得る。従って、一実施形態においては、文字検出の容易性のために、単語領域イメージを、例えば、長方形状の単語領域イメージに変形するのである。図１０を参照すれば、学習用イメージ１０１０内において「cold」を含む単語領域１０１５は、左側コーナーに比べ、右側コーナーの高さが高いということが分かる。文字検出装置１００は、学習用イメージ１０１０から抽出された単語領域イメージを、イメージ処理アルゴリズムを介して変形し、左側コーナーと右側コーナーとの高さが同一である、変形された単語領域イメージ１０２０を獲得することができる。

単語領域１０１５が複数個である場合には、複数個の単語領域イメージが抽出され、複数個の単語領域イメージそれぞれが、所定イメージ処理アルゴリズムによって変形され、複数個の変形された単語領域イメージ１０２０が獲得され得る。

文字検出装置１００は、変形された単語領域イメージ１０２０を文字検出モデルに入力し、文字検出モデルから出力される中間出力イメージ１０３０を獲得する。

中間出力イメージ１０３０において文字領域を決定するために、領域グローイング（growing）技法が適用され得る。例えば、文字検出装置１００は、中間出力イメージ１０３０において、第１臨界値以上の確率値に対応する地点を決定することができる。そして、文字検出装置１００は、前記決定された地点を始めとし、第１臨界値より小さい第２臨界値以上の確率値を有する地点まで領域を増大させることができる。文字検出装置１００は、最終的に増大された領域１０４５を含む多角形の領域を、文字領域１０５０と決定することができる。

一実施形態において、文字検出装置１００は、中間出力イメージ１０３０に対し、映像分割アルゴリズム（例えば、watershed方法）を適用し、文字レベルマップ１０４０で識別された領域１０４５を、文字領域１０５０と決定することもできる。

変形単語領域イメージ１０２０と中間出力イメージ１０３０との大きさ及び解像度は、互いに対応するので、中間出力イメージ１０３０で決定された文字領域の位置値は、そのまま変形単語領域イメージ１０２０内の文字領域１０５０の位置値にもなる。文字検出装置１００は、変形単語領域イメージ１０２０内の文字領域１０５０の位置値を、学習用イメージ１０１０の文字領域１０６５の位置値に変更することができる。

一例において、文字検出装置１００は、文字領域１０５０の位置値が検出された変形単語領域イメージ１０２０を、イメージ処理アルゴリズムによって逆変形（例えば、逆ワーピング）した後、逆変形された単語領域イメージを学習用イメージ１０１０に整合させ、学習用イメージ１０１０上における文字領域１０６５の位置値を決定することができる。

他の例において、文字検出装置１００は、変形された単語領域イメージ１０２０の所定地点の座標値と、学習用イメージ１０１０に含まれた単語領域１０１５の所定地点の座標値との関係を考慮し、変形された単語領域イメージ１０２０から検出された文字領域１０５０の位置値を、学習用イメージ１０１０の位置値に変更することもできる。

学習用イメージ１０１０内の文字領域１０６５の位置値がアノテーションされれば、文字検出装置１００は、学習用イメージ１０１０内の文字領域１０６５の位置値に基づき、疑似ＧＴイメージを生成することができる。

図１１は、単語領域イメージを文字検出モデルに入力したとき、出力される中間出力イメージをエポック（epoch）別に図示する図面であり、図１２は、単語領域イメージから、文字領域の位置値を検出する他の方法について説明するための図面である。図１１及び図１２と係わり、以下において、単語領域イメージを対象にして説明されるが、単語領域イメージの代わりに、図１０と係わって説明された変形された単語領域イメージにも適用される。

前述のように、文字検出モデルの訓練が十分になされていない場合、単語領域イメージに基づいて出力される中間出力イメージの正確性が低下してしまう。図１１を参照すれば、「Alice」を含む単語領域イメージが文字検出モデルに入力されたとき、出力される中間出力イメージの正確度が、エポック増大によって向上されることを確認することができる。例えば、最初エポックにおいては、１個の文字だけが検出され得る。１０番目エポックにおいては、５個の文字が検出され得る。

前述のように、文字検出装置１００は、中間出力イメージから検出される文字の個数と、単語領域イメージに含まれた文字の正解個数とを比較し、ロス値に適用される補正ウェートを決定することができる。しかし、該中間出力イメージから検出される文字の個数が所定個数未満である場合、文字検出装置１００は、文字領域の位置値決定におき、中間出力イメージを利用しないのである。

例えば、文字検出装置１００は、中間出力イメージから検出される文字の個数が、単語領域イメージに含まれた文字の正解個数の所定比率（例えば、０．５）未満である場合、中間出力イメージを利用しないのである。該中間出力イメージから検出される文字の個数が４個であり、単語領域イメージに含まれた文字の正解個数が１０個である場合、文字検出装置１００は、１０個の０．５に該当する５個未満の文字だけが検出されたことを確認し、中間出力イメージを利用しないのである。

文字検出装置１００は、中間出力イメージから文字領域を識別する代わりに、単語領域イメージを正解個数によって分割し、分割された各領域を文字領域と決定することもできる。図１２を参照すれば、「Alice」は、５個の文字からなっているので、文字検出装置１００は、単語領域イメージ１２００を、均等に５個の領域１２１０，１２２０，１２３０，１２４０，１２５０に区分した後、各領域を文字領域と決定することができる。そして、文字検出装置１００は、ロス値に適用される補正ウェートを、既設定値（例えば、０．５）に決定することができる。

なお、文字検出装置１００は、文字を含むイメージの入力により、確率値イメージ及びリンクイメージのうち少なくとも一つを含む出力イメージが獲得されれば、出力イメージに基づき、入力イメージにバウンディングボックスを表示することもできる。該バウンディングボックスは、文字単位または単語単位にも表示される。

文字検出装置１００は、出力された確率値イメージにおいて、第１臨界値以上の確率値に対応する地点を決定することができる。そして、文字検出装置１００は、前記決定された地点を始めとし、第１臨界値より小さい第２臨界値以上の確率値を有する地点まで領域を増大させることができる。文字検出装置１００は、最終的に増大された領域を含む多角形の領域を、文字領域と決定することができる。文字検出装置１００は、確率値イメージにおいて決定された文字領域に対応するバウンディングボックスを、入力されたイメージに表示して出力することができる。

また、文字検出装置１００は、確率値イメージで決定された文字領域を、リンクイメージの連結性を考慮して結合させ、該結合結果として生成された領域を単語領域と決定することもできる。例えば、文字検出装置１００は、確率値イメージで決定された文字領域のうち、リンクイメージにおいて、同一ラインに対応する文字領域を結合させることができる。そして、文字検出装置１００は、単語領域に対応するバウンディングボックスを、入力されたイメージに表示して出力することができる。

一実施形態において、文字検出装置１００は、確率値イメージで決定された文字領域結合にあたり、確率値イメージにおいて、第１臨界値以上の確率値に対応する地点のうち、リンクイメージにおいて、第３臨界値以上の値を有する地点に対応する文字領域を結合させることもできる。

一実施形態により、文字検出装置１００は、文字検出モデルに追加し、単語検出モデルをさらに含んでもよい。該文字検出モデルは、いかなるアノテーションもなされていない学習用イメージが入力されれば、単語検出モデルを介し、学習用イメージから単語領域の位置値を検出し、検出された単語領域の位置値を利用し、文字検出モデルを訓練させることもできる。

図１３は、一実施形態による文字検出装置１００の構成を図示する図面である。

図１３を参照すれば、一実施形態による文字検出装置１００は、メモリ１３１０及びプロセッサ１３３０を含んでもよい。メモリ１３１０には、少なくとも１つのインストラクションが保存され、プロセッサ１３３０は、少なくとも１つのインストラクションにより、イメージ内文字検出、及び文字検出モデルの訓練を制御することができる。

図１３は、１つのメモリ１３１０、及び１つのプロセッサ１３３０だけを図示しているが、文字検出装置１００は、複数のメモリ１３１０を含み、複数のプロセッサ１３３０を含んでもよい。

文字検出装置１００は、サーバ装置に含まれてもよい。また、文字検出装置１００は、クライアント装置に含まれてもよい。また、文字検出装置１００は、スタンドアローン（standalone）装置に含まれてもよい。

図１４は、一実施形態による文字検出装置１００の機能ブロック図である。

図１４を参照すれば、文字検出装置１００は、文字検出モデル１４１０、データ処理部１４３０及びモデル訓練制御部１４５０を含んでもよい。

文字検出モデル１４１０、データ処理部１４３０及びモデル訓練制御部１４５０のうち少なくとも一つは、プロセッサ１３３０としても具現されし、文字検出モデル１４１０、データ処理部１４３０及びモデル訓練制御部１４５０のうち少なくとも１つの動作を制御するためのインストラクションが、メモリ１３１０にも保存される。

一実施形態において、文字検出モデル１４１０は、メモリ１３１０にも保存され、データ処理部１４３０及びモデル訓練制御部１４５０は、プロセッサ１３３０としても具現される。または、一実施形態において、文字検出モデル１４１０は、神経網プロセッサとしても具現され、データ処理部１４３０及びモデル訓練制御部１４５０は、汎用のプロセッサとしても具現される。

データ処理部１４３０は、文字検出を必要とするイメージを獲得し、文字検出モデル１４１０に入力する。また、データ処理部１４３０は、文字検出モデル訓練のために学習用イメージを獲得し、モデル訓練制御部１４５０に伝達することができる。学習用イメージは、単語領域の位置値がアノテーションされた学習用イメージ、または文字領域の位置値がアノテーションされた学習用イメージを含んでもよい。

モデル訓練制御部１４５０は、学習用イメージを、文字検出モデル１４１０に入力する。モデル訓練制御部１４５０は、学習用イメージを、文字検出モデル１４１０に入力する前に前処理を行うこともできる。モデル訓練制御部１４５０は、学習用イメージから、ＧＴイメージまたは疑似ＧＴイメージを生成することができる。

文字検出モデル１４１０は、モデル訓練制御部１４５０から、学習用イメージ及び正解イメージ（すなわち、ＧＴイメージまたは疑似ＧＴイメージ）を入力され、内部加重値を更新することができる。文字検出モデル１４１０は、学習用イメージに対応する出力イメージと正解イメージとを比較し、内部加重値を更新することができる。

文字検出モデル１４１０に入力されたイメージに対応し、出力イメージが出力されれば、データ処理部１４３０は、出力イメージに基づき、入力イメージに、バウンディングボックスを表示することもできる。該バウンディングボックスは、文字単位または単語単位にも表示される。

図示されていないが、文字検出装置１００は、通信部をさらに含んでもよく、該通信部は、文字検出モデル１４１０から出力される出力イメージ、データ処理部１４３０によって処理されたイメージを外部装置で伝送することもできる。

図１５は、一実施形態による文字検出装置１００が適用され得るサーバ装置１５１０及びクライアント装置１５２０を図示する図面である。

前述のように、一実施形態による文字検出装置１００は、サーバ装置１５１０としても具現される。その場合、サーバ装置１５１０は、クライアント装置１５２０から、処理を必要とするイメージを受信することができる。サーバ装置１５１０は、受信されたイメージを文字検出モデルに入力させ、出力イメージを獲得することができる。

サーバ装置１５１０は、出力イメージをクライアント装置１５２０で伝送することができる。また、サーバ装置１５１０は、クライアント装置１５２０から受信されたイメージ内の文字領域または単語領域に対応するバウンディングボックスをイメージに表示し、クライアント装置１５２０で伝送することもできる。

サーバ装置１５１０は、クライアント装置１５２０を含む外部装置から、学習用データを受信するか、あるいは内部に保存された学習用データを利用し、文字検出モデルの訓練を制御することもできる。

一実施形態による文字検出装置１００は、クライアント装置１５２０に含まれてもよい。クライアント装置１５２０は、文字検出モデル実行のためのデータを、サーバ装置１５１０から受信することができる。クライアント装置１５２０は、カメラモジュールを介して撮影されたイメージ、内部メモリに保存されたイメージ、または外部装置から受信されたイメージを文字検出モデルに入力させ、イメージ内の文字を検出することができる。

クライアント装置１５２０は、外部装置から学習用データを受信するか、あるいは内部に保存された学習用データを利用し、文字検出モデル訓練を制御することもできる。位置具現例により、文字検出モデル実行のためのデータをクライアント装置１５２０に提供したサーバ装置１５１０が、学習用データに基づき、文字検出モデル訓練を制御することもできる。その場合、サーバ装置１５１０は、訓練結果として更新された加重値情報のみをクライアント装置１５２０に伝送し、クライアント装置１５２０は、受信された情報により、文字検出モデルを更新することもできる。

図１５は、クライアント装置１５２０として、デスクトップＰＣ（personal computer）を図示しているが、それに限定されるものではなく、クライアント装置１５２０は、ノート型パソコン、スマートフォン、タブレットＰＣ、ＡＩ（artificial intelligence）ロボット、ＡＩスピーカ、ウェアラブル機器などを含んでもよい。

一具現例により、文字検出装置１００は、サーバ・クライアントモデルではなく、スタンドアローン装置に含まれてもよい。該スタンドアローン装置は、内蔵された文字検出モデルの訓練を制御し、獲得イメージを文字検出モデルに入力し、イメージ内の文字を検出することもできる。

なお、前述の本開示の実施形態は、コンピュータによっても実行されるプログラムに作成可能あり、作成されたプログラムは、媒体にも保存される。

該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために、臨時保存するものでもある。また、該媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散されて存在するものでもある。該媒体の例示としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体；ＣＤ－ＲＯＭ（compact disc read only memory）及びＤＶＤ（digital versatile disc）のような光記録媒体；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical medium）；及びＲＯＭ（read only memory）、ＲＡＭ（random access memory）、フラッシュメモリなどを含み、プログラム命令が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体、あるいは保存の媒体も挙げることができる。

以上、本開示の技術的思想につき、望ましい実施形態を挙げて詳細に説明されたが、本開示の技術的思想は、前述の実施形態に限定されるものではなく、本開示の技術的思想の範囲内において、当分野において当業者により、さまざまな変形及び変更が可能である。

Claims

文字検出装置による文字検出方法において、
神経網を含む文字検出モデルを訓練させる段階と、
前記訓練された文字検出モデルに、入力イメージを入力し、前記文字検出モデルから出力される１以上の出力イメージを獲得する段階と、を含み、
前記出力イメージは、前記入力イメージ内において、文字が存在する確率を示す確率値イメージを含み、
前記訓練させる段階は、
少なくとも１の文字を含む単語領域の位置値が確認された第１学習用イメージから前記単語領域内の文字領域の位置値を決定する段階と、
前記決定された文字領域の位置値に基づいて前記第１学習用イメージに対応する疑似ＧＴイメージを獲得する段階と、を含み、
前記第１学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似ＧＴイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出方法。
前記確率値イメージは、前記入力イメージ内で文字が存在する確率を前記入力イメージと対応する位置のイメージ空間上に示すことを特徴とする請求項１に記載の文字検出方法。
前記出力イメージは、
前記入力イメージから検出された文字の連結性を示すリンクイメージをさらに含むことを特徴とする請求項１に記載の文字検出方法。
前記リンクイメージは、前記入力イメージから検出された隣接文字の中心を連結したラインを含み、
前記ラインの太さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする請求項３に記載の文字検出方法。
前記訓練させる段階は、
文字領域の位置値が確認された第２学習用イメージからＧＴイメージを獲得する段階を含み、
前記第２学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記ＧＴイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする請求項１に記載の文字検出方法。
前記疑似ＧＴイメージを獲得する段階は、
前記第１学習用イメージから、前記単語領域の位置値に対応する単語領域イメージを抽出する段階と、
前記抽出された単語領域イメージを前記文字検出モデルに入力し、前記単語領域イメージに対応する中間出力イメージを獲得する段階と、
前記中間出力イメージから検出された各文字領域から、前記単語領域イメージ内の各文字領域の位置値を決定する段階と、
前記単語領域イメージ内の前記文字領域の位置値を利用し、前記第１学習用イメージ内の文字領域の位置値を決定する段階と、
前記決定された文字領域の位置値に基づき、前記第１学習用イメージに対応する疑似ＧＴイメージを獲得する段階と、を含むことを特徴とする請求項１に記載の文字検出方法。
前記訓練させる段階は、
前記第１学習用イメージ内の前記単語領域に含まれた文字の正解個数情報を獲得する段階と、
前記単語領域に含まれた文字の正解個数と、前記単語領域の位置値に対応する単語領域イメージに基づいて獲得された中間出力イメージから検出された文字の個数とを比較し、補正ウェート値を決定する段階と、
前記決定された補正ウェート値を、前記文字検出モデルから出力される前記出力イメージと、前記疑似ＧＴイメージとの比較結果に適用する段階と、をさらに含むことを特徴とする請求項１に記載の文字検出方法。
前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
前記中間出力イメージから検出された文字の個数が所定個数未満である場合、前記単語領域イメージを前記文字の正解個数によって分割する段階と、
前記単語領域イメージから分割された各分割領域の位置値を、前記単語領域イメージ内の前記各文字領域の位置値と決定する段階と、を含むことを特徴とする請求項６に記載の文字検出方法。
前記中間出力イメージを獲得する段階は、
前記抽出された単語領域イメージをイメージ処理アルゴリズムによって変形する段階と、
前記変形された単語領域イメージを前記文字検出モデルに入力し、前記変形された単語領域イメージに対応する中間出力イメージを獲得する段階と、を含み、
前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
前記変形された単語領域イメージ内の各文字領域の位置値を決定する段階を含み、
前記第１学習用イメージ内の文字領域の位置値を決定する段階は、
前記変形された単語領域イメージ内の前記文字領域の位置値を利用し、前記第１学習用イメージ内の前記文字領域の位置値を決定する段階を含むことを特徴とする請求項６に記載の文字検出方法。
前記文字検出方法は、
前記確率値イメージにおいて、第１臨界値以上の確率値を有する少なくとも１つの地点を決定する段階と、
前記決定された少なくとも１つの地点それぞれから、前記第１臨界値より小さい第２臨界値以上の確率値を有する地点までバウンディング領域を増大させる段階と、
前記増大されたバウンディング領域に対応するバウンディングボックスを、前記入力イメージ上に表示する段階と、をさらに含むことを特徴とする請求項２に記載の文字検出方法。
プロセッサと、
少なくとも１つのインストラクションを保存するメモリと、を含み、
前記プロセッサは、前記少なくとも１つのインストラクションにより、
神経網を含む文字検出モデルを訓練させ、
前記訓練された文字検出モデルに入力イメージを入力し、前記文字検出モデルから出力される１つ以上の出力イメージを獲得し、
前記出力イメージは、前記入力イメージ内から文字が存在する確率を示す確率値イメージを含み、
前記プロセッサは、前記文字検出モデルの訓練のために、少なくとも１つの文字を含む単語領域の位置値が確認された第１学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第１学習用イメージに対応する疑似ＧＴイメージを獲得し、
前記第１学習用イメージに対応して前記文字検出モデルで出力される前記出力イメージと前記疑似ＧＴイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出装置。
少なくとも１つの文字を含む単語領域の位置値が確認された第１学習用イメージを利用し、神経網を含む文字検出モデルを訓練させるサーバ装置と、
前記サーバ装置から、前記文字検出モデルの実行のためのデータを受信し、入力イメージが獲得されれば、前記文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも１つの出力イメージを獲得するクライアント装置と、を含むが、
前記出力イメージは、前記入力イメージ内において、文字が存在する確率を示す確率値イメージを含み、
前記サーバ装置は、前記文字検出モデルの訓練のために、前記第１学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第１学習用イメージに対応する疑似ＧＴイメージを獲得し、
前記第１学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似ＧＴイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出システム。
文字検出装置による文字検出方法において、
神経網を含む文字検出モデルに入力イメージを入力する段階と、
前記文字検出モデルから１以上の出力イメージを獲得する段階と、を含み、
前記出力イメージは、前記入力イメージ内で文字が存在する確率を示す確率値イメージ、及び前記入力イメージで検出された文字の連結性を示すリンクイメージを含み、
前記リンクイメージは、前記入力イメージで検出された隣接した文字の中心を連結したラインを含み、
前記ラインの厚さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする文字検出方法。