JP7396076B2

JP7396076B2 - 番号認識装置、方法及び電子機器

Info

Publication number: JP7396076B2
Application number: JP2020011823A
Authority: JP
Inventors: ジュ・シエヌタヌ; タヌ・ジミン
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-04-11
Filing date: 2020-01-28
Publication date: 2023-12-12
Anticipated expiration: 2040-01-28
Also published as: JP2020173781A; CN111814514A

Description

本発明の実施例は、画像認識の技術に関し、特に番号認識装置、方法及び電子機器に関する。

情報技術の継続的な発展に伴い、番号認識（又は番号検出）の応用も益々普及している。例えば、標識、スポーツ選手、スタッフ、受験生について、対象（検出すべき物体）における１つ又は複数の数字により構成された番号を検出する必要があり、ある場合に、各応用を行うために、これらの番号を自動的に認識する必要がある。

例えば、バスケットボールの試合では、選手のユニフォームにおける番号を検出、認識することで、認識結果に基づいて対応する選手を決定することができる。このように、試合全体のビデオにより各選手の軌跡を追跡、描画することで、より優れた技術支援を提供することができる。

従来の番号認識方法では、通常、分類器を用いて全ての可能な番号を分類する。例えば、バスケットボール選手の場合、その可能な番号は０～９９であるため、このような番号を分類する分類器のカテゴリは１００種類が必要である。即ち、各カテゴリについて大量の訓練データを収集して訓練を行う必要がある。

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

本発明の発明者の発見によると、従来の番号認識方法は、大量の訓練データを収集する必要があるため、時間及び手間がかかる。また、一部のカテゴリの訓練データの収集は困難であり、例えばあまり使用されない番号について、このような番号の訓練データを収集して分類器を訓練することは困難である。

上記の技術的問題の少なくとも１つを鑑み、本発明の実施例は、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、高い認識精度を有する番号認識装置、方法及び電子機器を提供する。

本発明の実施例の第１態様では、番号認識装置であって、訓練画像を用いて番号認識のための訓練モデルを訓練する訓練部であって、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、訓練部と、前記訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行う検出部と、前記１桁数字の検出により取得された１つ又は複数の数字を併合し、前記検出すべき画像における番号を取得する併合部と、を含む、装置を提供する。

本発明の実施例の第２態様では、番号認識方法であって、訓練画像を用いて番号認識のための訓練モデルを訓練するステップであって、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、ステップと、前記訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行うステップと、前記１桁数字の検出により取得された１つ又は複数の数字を併合し、前記検出すべき画像における番号を取得するステップと、を含む、方法を提供する。

本発明の実施例の第３態様では、上記の番号認識装置を含む電子機器を提供する。

本発明の実施例の有利な効果は以下の通りである。訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとし、訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行い、該１桁数字の検出により取得された１つ又は複数の数字を併合し、検出すべき画像における番号を取得する。これによって、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、高い認識精度を有する。

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。

なお、用語「含む／有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
本発明の実施例の番号認識方法を示す図である。本発明の実施例の検出すべき画像を示す図である。図２における検出すべき画像の所在する検出枠及び１桁数字の検出結果を示す図である。本発明の実施例の訓練画像を示す図である。本発明の実施例の該訓練画像の変換後のものを示す図である。本発明の実施例の訓練画像を示す他の図である。本発明の実施例の該訓練画像の変換後のものを示す図である。本発明の実施例の訓練画像を示す他の図である。本発明の実施例の番号認識装置を示す図である。本発明の実施例の電子機器を示す図である。

本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。

本発明の実施例では、用語「第１」、「第２」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び／又は」は列挙された用語の１つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の１つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。

本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「１つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。

本発明の実施例では、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を一例にして訓練モデルを例示的に説明する。例えば、該畳み込みニューラルネットワークは、ＦａｓｔｅｒＲ－ＣＮＮ、ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓｆｏｒｏｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）又はＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ：Ｕｎｉｆｉｅｄ，Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）などであってもよいが、本発明はこれに限定されない。訓練モデル、訓練サンプル、訓練画像などの基本的な概念及び内容は関連技術を参照してもよい。

＜実施例１＞
本発明の実施例は番号認識方法を提供する。図１は本発明の実施例の番号認識方法を示す図であり、図１に示すように、該方法は以下のステップを含む。

ステップ１０１：訓練画像を用いて番号認識のための訓練モデルを訓練する。ここで、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとする。

ステップ１０２：該訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行う。

ステップ１０３：該１桁数字の検出により取得された１つ又は複数の数字を併合し、該検出すべき画像における番号を取得する。

１つの態様では、検出すべき物体は、番号認識の必要性を有する任意の物体であってもよい。例えば、検出すべき物体は、ナンバープレート、試合中のスポーツ選手、番号を含む標識、イベントに参加するスタッフ、試験又は競技に参加する選手などである。例えば、試合に参加するバスケットボール選手又はサッカー選手の場合、可能な番号は０～９９であり、試合に参加する陸上競技選手の場合、可能な番号は００００～９９９９である。

１つの態様では、訓練画像及び検出すべき画像は、検出すべき物体を含む可能性のある画像である。例えば、検出すべき物体がバスケットボール選手である場合、訓練画像及び検出すべき画像は何れもバスケットボール試合のビデオにおける少なくとも１つの画像であってもよい。

ステップ１０１において、複数の訓練画像を用いて、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づいて訓練モデルを訓練してもよい。畳み込みニューラルネットワークの具体的な構造及び具体的な訓練方法は関連技術を参照してもよい。訓練画像の座標変換について、後述する実施例において詳細に説明する。

ステップ１０２において、検出すべき画像における番号に対して、ＣＮＮに基づく訓練モデルを用いて１桁数字の検出を１回又は複数回行い、１つ又は複数の数字を検出してもよい。畳み込みニューラルネットワークは強力なターゲット認識機能を有するため、実際の環境からの複雑な要素を簡素化し、検出効率及び検出精度をさらに向上させることができる。

なお、上記の図１は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップの実行順序を適切に調整してもよいし、他のステップを追加し、或いはその中のステップを削除してもよい。当業者は上記の内容に基づいて適切な変形を行ってもよく、上記の図１の記載に限定されない。

以下は、バスケットボール試合中の選手のユニフォームにおける番号を一例にして、本発明を例示的に説明する。

図２は本発明の実施例の検出すべき画像を示す図である。図２に示すように、該検出すべき画像は、バスケットボール試合のビデオにおける１つのフレーム画像であり、複数の検出すべき物体である選手を含む。図２に示すように、該検出すべき画像における各選手を検出し、各選手が所在する領域を取得し、該領域を各検出枠で表示してもよい。

図３は図２における検出すべき画像の所在する検出枠及び１桁数字の検出結果を示す図である。図３に示すように、検出された各選手が所在する領域は各検出枠で表され、検出枠１～７における１桁数字の検出結果は、それぞれ「結果なし」、「３」と「０」、「２」、「結果なし」、「２」と「３」、「０」、及び「８」である。

ステップ１０３において、１桁数字の検出により取得された１つ又は複数の数字を併合し、該検出すべき画像における番号を取得してもよい。例えば、図３に示すように、検出枠２の１桁数字の検出結果「３」と「０」を「３０」に併合し、検出枠５の１桁数字の検出結果「２」と「３」を「２３」に併合してもよい。

従来の番号認識方法では、試合に参加するバスケットボール選手又はサッカー選手の場合、可能な番号は０～９９であるため、分類器には１００種類のカテゴリが必要である。また、試合に参加する陸上競技選手の場合、可能な番号は００００～９９９９であるため、分類器には１００００種類のカテゴリが必要である。

本発明の実施例では、１桁数字の検出のみを行えばよいため、０～９という１０種類の訓練サンプルのみを収集すればよい。このため、０～９９の番号又は００００～９９９９の番号の場合であっても、分類器を簡単、且つ迅速に訓練することができる。

以上は数字検出方法及び番号認識方法を例示的に説明しており、以下は訓練サンプル及び訓練モデルをさらに説明する。

本発明の実施例では、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとしてもよい。これによって、訓練サンプルが少ない番号についても、分類器を簡単、且つ迅速に訓練することができ、また、１桁数字を検出、併合することであるため、高い認識精度を有する。

１つの態様では、訓練画像を所定の角度だけ回転させてもよい。ここで、該訓練画像における番号の境界枠も該角度だけ回転する。角度だけ回転した該番号の境界枠を用いて外側境界枠を取得し、該外側境界枠を調整して該座標変換後の画像を取得する。

図４は本発明の実施例の訓練画像を示す図であり、該番号は「１０」であり、その境界枠は４０１で示される。図５は本発明の実施例の該訓練画像の変換後のものを示す図である。図５に示すように、該訓練画像を所定の角度θだけ回転させてもよい。ここで、該訓練画像における番号の境界枠４０１も該角度θだけ回転する。角度だけ回転した該番号の境界枠４０１を用いて外側境界枠５０１を取得し、該外側境界枠５０１を調整して該座標変換後の画像を取得し（図５には１つの正のサンプルを示している）、その番号の境界枠は５０２で示されている。

もう１つの態様では、訓練画像における番号のサイズを拡大／縮小し、サイズが変更された該番号を取得し、該サイズが変更された該番号のために背景領域を追加して座標変換後の画像を取得してもよい。

図６は本発明の実施例の訓練画像を示す他の図であり、それに含まれる番号は「８」であり、境界枠は６０１で示される。図７は本発明の実施例の該訓練画像の変換後のものを示す図である。図７に示すように、該訓練画像における番号のサイズを拡大／縮小し、サイズが変更された該番号を取得してもよい。例えば、図７の７０１～７０３において該番号「８」を異なるレベルに縮小し、図７の７０４において該番号「８」を所定レベルに拡大している。また、該サイズが変更された番号７０１～７０４のために背景領域（例えば図７に示す黒色背景）を追加し、座標変換後の画像を取得してもよい（図７には４つの正のサンプルを示している）。

これによって、訓練画像に対して座標変換を行うことで、訓練のためのより多くの正のサンプルを取得することができるため、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、認識精度をさらに向上させることができる。

１つの態様では、非番号領域の誤認識の影響を排除するように、該訓練モデルのために訓練データの負のサンプルをさらに追加してもよい。

図８は本発明の実施例の訓練画像を示す他の図である。図８に示すように、枠８０１で示される部分は、該選手の腕であるが、傾斜状態にある番号「１」に類似する。該訓練画像を訓練データの負のサンプルとし、類似画像を検出する際に、該部分に対して番号認識を行わず、或いは該部分を番号「１」と認識しないようにしてもよい。これによって、非番号領域の誤認識の影響を排除することができ、認識精度をさらに向上させることができる。

１つの態様では、ステップ１０１の前に、事前学習済みモデル（ｐｒｅ－ｔｒａｉｎｅｄｍｏｄｅｌ）を有しない番号モデルを訓練し、訓練後の該番号モデルの畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）を番号認識のための事前学習済みモデルとしてもよい。

例えば、ＣＮＮに基づく訓練モデルの訓練を行う場合、通常、汎用のＩｍａｇｅＮｅｔデータセットを事前学習済みモデルとして用いるが、ＩｍａｇｅＮｅｔデータセットには番号に関する特定の分類が存在しないため、番号認識モデルの速い収束に不利であり、即ち番号認識に適しない。

本発明の実施例では、まず事前学習済みモデルを有しない番号モデルを訓練し、訓練後の該番号モデルの畳み込み層を番号認識のための事前学習済みモデルとしてもよい。これによって、訓練モデルはより速く収束することができ、より高い検出精度を有する。

以上はステップ１０１又はその前の訓練モデル及び訓練サンプルを説明しており、以下はステップ１０３における番号認識を説明する。

１つの態様では、ステップ１０２において１桁数字の検出を行って１つ又は複数の数字を取得した後に、検出された１つ又は複数の番号枠の面積及び信頼度に基づいて、該１つ又は複数の数字が誤認識（ｆａｌｓｅｒｅｃｏｇｎｉｔｉｏｎ）されたものであるか否かを決定してもよい。

例えば、１桁の数字の番号ｉ（０～９）について、以下の式を用いて、該番号が誤認識されたものであるか否かを決定する。

ここで、Ｃ_ｓは１桁の数字の番号の認識結果を表し、Ａは該１桁の数字の番号の枠面積（図２及び図３に示すように、１桁数字の検出処理により取得されてもよい）を表し、Ａ_ｓは面積閾値（予め設定されてもよい）を表し、Ｓ_ｉは該１桁の数字の番号の信頼度（ＣＮＮの出力により取得されてもよい）を表し、Ｓ_ｓは信頼度閾値（予め設定されてもよい）を表し、１００は背景を表す。

また、例えば、２桁の数字の番号ｉｊ（００～９９）について、以下の式を用いて、該番号が誤認識されたものであるか否かを決定する。

ここで、Ｃ_ｄは２桁の数字の番号の認識結果を表し、Ａ_ｉｊは該２桁の数字の番号の組み合わせ枠面積（図２及び図３に示すように、１桁数字の検出処理により取得されてもよい）を表し、Ａ_ｄは面積閾値（予め設定されてもよい）を表し、Ｓ_ｉ及びＳ_ｊは該２桁の数字の番号の信頼度（ＣＮＮの出力により取得されてもよい）を表し、Ｓ_ｄは信頼度閾値（予め設定されてもよい）を表し、１００は背景を表す。

なお、以上は０～９９を一例にして説明したが、本発明はこれに限定されず、例えば００００～９９９９について同様な判断を行ってもよい。例えば、１桁の数字（０～９）、２桁の数字（１０～９９）、３桁の数字（１００～９９９）、４桁の数字（１０００～９９９９）という４つの場合に分けて、それぞれについて誤認識の判断を行ってもよい。本発明はこれに限定されず、少なくとも番号枠の面積及び信頼度に基づいて誤認識を決定すればよい。

これによって、少なくとも番号枠の面積及び信頼度に基づいて番号の誤認識を決定することで、誤認識の影響をさらに排除又は低減することができ、認識精度を向上させることができる。

以上は本発明に関連する各ステップ又は処理を説明したが、本発明はこれに限定されない。番号認識方法は他のステップ又は処理をさらに含んでもよく、これらのステップ又は処理の具体的な内容について、従来技術を参照してもよい。また、以上は上記の式を一例にして本発明の実施例を例示的に説明したが、本発明はこれらの式に限定されず、これらの式に対して適切な変形を行ってもよく、これらの変形例は本発明の実施例の範囲内のものである。

上記の各実施例は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されず、上記の各実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独して用いてもよいし、上記の各実施例の１つ又は複数を組み合わせてもよい。

本実施例によれば、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとし、訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行い、該１桁数字の検出により取得された１つ又は複数の数字を併合し、検出すべき画像における番号を取得する。これによって、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、高い認識精度を有する。

＜実施例２＞
本発明の実施例は番号認識装置を提供する。実施例１と同様な内容について、説明を省略する。

図９は本発明の実施例の番号認識装置を示す図である。図９に示すように、番号認識装置９００は、訓練部９０１、検出部９０２、及び併合部９０３を含む。

訓練部９０１は、訓練画像を用いて番号認識のための訓練モデルを訓練する。ここで、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとする。

検出部９０２は、該前記訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行う。

併合部９０３は、該１桁数字の検出により取得された１つ又は複数の数字を併合し、該検出すべき画像における番号を取得する。

１つの態様では、訓練部９０１は、該訓練画像を所定の角度だけ回転させ、角度だけ回転した番号の境界枠を用いて外側境界枠を取得し、該外側境界枠を調整して前記座標変換後の画像を取得してもよい。ここで、該訓練画像における該番号の境界枠も該角度だけ回転する。

１つの態様では、訓練部９０１は、該訓練画像における番号のサイズを拡大／縮小し、サイズが変更された該番号を取得し、該サイズが変更された該番号のために背景領域を追加して前記座標変換後の画像を取得してもよい。

１つの態様では、訓練部９０１は、非番号領域の誤認識の影響を排除するように、該訓練モデルのために訓練データの負のサンプルを追加してもよい。

１つの態様では、訓練部９０１は、事前学習済みモデルを有しない番号モデルを訓練し、訓練後の該番号モデルの畳み込み層を番号認識のための事前学習済みモデルとしてもよい。

図９に示すように、番号認識装置９００は決定部９０４をさらに含んでもよい。決定部９０４は、検出された１つ又は複数の番号枠の面積及び信頼度に基づいて、該１つ又は複数の数字が誤認識されたものであるか否かを決定する。

１つの態様では、１桁の数字の番号ｉについて、決定部９０４は、以下の式を用いて、該番号が誤認識されたものであるか否かを決定してもよい。

ここで、Ｃ_ｓは１桁の数字の番号の認識結果を表し、Ａは該１桁の数字の番号の枠面積を表し、Ａ_ｓは面積閾値を表し、Ｓ_ｉは該１桁の数字の番号の信頼度を表し、Ｓ_ｓは信頼度閾値を表し、１００は背景を表す。

１つの態様では、２桁の数字の番号ｉｊについて、決定部９０４は、以下の式を用いて、該番号が誤認識されたものであるか否かを決定してもよい。

ここで、Ｃ_ｄは２桁の数字の番号の認識結果を表し、Ａ_ｉｊは該２桁の数字の番号の組み合わせ枠面積を表し、Ａ_ｄは面積閾値を表し、Ｓ_ｉ及びＳ_ｊは該２桁の数字の番号の信頼度を表し、Ｓ_ｄは信頼度閾値を表し、１００は背景を表す。

なお、以上は本発明に関連する各部材又はモジュールのみを説明し、本発明はこれに限定されない。番号認識装置９００は他の部材又はモジュールをさらに含んでもよく、これらの部材又はモジュールの詳細は関連技術を参考してもよい。

また、説明の便宜上、図９は各部材又はモジュール間の接続関係又は信号の方向のみを示し、当業者はバス接続などの各種の関連技術を採用してもよい。上記の各部材又はモジュールは例えばプロセッサ、メモリなどのハードウェア機器により実現されてもよく、本発明の実施はこれらに限定されない。

＜実施例３＞
本発明の実施例は、実施例２に記載の番号認識装置を含む電子機器をさらに提供し、ここでその内容を援用する。該電子機器は例えばコンピュータ、サーバ、ワークステーション、ラップトップコンピュータ、スマートフォンなどであってもよく、本発明の実施例はこれに限定されない。

図１０は本発明の実施例の電子機器を示す図である。図１０に示すように、電子機器１０００は、プロセッサ（例えば中央処理装置：ＣＰＵ）１０１０及びメモリ１０２０を含んでもよく、メモリ１０２０はプロセッサ１０１０に接続される。メモリ１０２０は、各種のデータ及び情報処理のプログラム１０２１を記憶してもよく、プロセッサ１０１０の制御により該プログラム１０２１を実行する。

１つの態様では、番号認識装置９００の機能はプロセッサ１０１０に統合されてもよい。ここで、プロセッサ１０１０は、実施例１に説明された番号認識方法を実現するように構成されてもよい。

もう１つの態様では、番号認識装置９００はプロセッサ１０１０とそれぞれ配置されてもよく、例えば、番号認識装置９００はプロセッサ１０１０に接続されたチップであり、プロセッサ１０１０の制御により番号認識装置９００の機能を実現するように構成されてもよい。

１つの態様では、プロセッサ１０１０は、訓練画像を用いて番号認識のための訓練モデルを訓練し、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとし、該訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行い、該１桁数字の検出により取得された１つ又は複数の数字を併合し、該検出すべき画像における番号を取得するように構成されてもよい。

１つの態様では、プロセッサ１０１０は、該訓練画像を所定の角度だけ回転させ、角度だけ回転した番号の境界枠を用いて外側境界枠を取得し、該外側境界枠を調整して該座標変換後の画像を取得し、該訓練画像における前記番号の境界枠も該角度だけ回転するように構成されてもよい。

１つの態様では、プロセッサ１０１０は、該訓練画像における番号のサイズを拡大／縮小し、サイズが変更された該番号を取得し、該サイズが変更された該番号のために背景領域を追加して該座標変換後の画像を取得するように構成されてもよい。

１つの態様では、プロセッサ１０１０は、非番号領域の誤認識の影響を排除するように、該訓練モデルのために訓練データの負のサンプルを追加するように構成されてもよい。

１つの態様では、プロセッサ１０１０は、事前学習済みモデルを有しない番号モデルを訓練し、訓練後の前記番号モデルの畳み込み層を番号認識のための事前学習済みモデルとするように構成されてもよい。

１つの態様では、プロセッサ１０１０は、検出された１つ又は複数の番号枠の面積及び信頼度に基づいて、該１つ又は複数の数字が誤認識されたものであるか否かを決定するように構成されてもよい。

例えば、１桁の数字の番号ｉについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定するように構成されてもよい。

例えば、２桁の数字の番号ｉｊについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定するように構成されてもよい。

また、図１０に示すように、電子機器１０００は、入力出力（Ｉ／Ｏ）デバイス１０３０及びディスプレイ１０４０などをさらに含んでもよい。ここで、上記各部の機能は従来技術と類似し、ここでその説明を省略する。なお、電子機器１０００は、図１０に示す全ての構成部を含まなくてもよい。また、電子機器１０００は、図１０に示していない構成部を含んでもよく、従来技術を参考してもよい。

本発明の実施例は、電子機器においてプログラムを実行する際に、コンピュータに、該電子機器において実施例１に記載の番号認識方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。

本発明の実施例は、コンピュータに、電子機器において実施例１に記載の番号認識方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。

本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フラッシュメモリ等に関する。

本発明の実施例を参照しながら説明した方法／装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における１つ若しくは複数、又は機能的ブロック図の１つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図面に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、モバイルハードディスク、ＣＤ－ＲＯＭ又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はＡＳＩＣに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器（例えば移動端末）が比較的に大きい容量のＭＥＧＡ－ＳＩＭカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該ＭＥＧＡ－ＳＩＭカード又は大容量のフラッシュメモリ装置に記憶されてもよい。

図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰ通信と組み合わせた１つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。

Claims

番号認識装置であって、
訓練画像を用いて番号認識のための訓練モデルを訓練する訓練部であって、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、訓練部と、
前記訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行う検出部と、
前記１桁数字の検出により取得された１つ又は複数の数字を併合し、前記検出すべき画像における番号を取得する併合部と、
検出された１つ又は複数の番号枠の面積及び信頼度に基づいて、前記１つ又は複数の数字が誤認識されたものであるか否かを決定する決定部と、を含む、装置。
前記訓練部は、前記訓練画像を所定の角度だけ回転させ、角度だけ回転した番号の境界枠を用いて外側境界枠を取得し、前記外側境界枠を調整して前記座標変換後の画像を取得し、
前記訓練画像における前記番号の境界枠も前記角度だけ回転する、請求項１に記載の装置。
前記訓練部は、前記訓練画像における番号のサイズを拡大／縮小し、サイズが変更された前記番号を取得し、前記サイズが変更された前記番号のために背景領域を追加して前記座標変換後の画像を取得する、請求項１又は２に記載の装置。
前記訓練部は、非番号領域の誤認識の影響を排除するように、前記訓練モデルのために訓練データの負のサンプルを追加する、請求項１乃至３の何れかに記載の装置。
前記訓練部は、事前学習済みモデルを有しない番号モデルを訓練し、訓練後の前記番号モデルの畳み込み層を番号認識のための事前学習済みモデルとする、請求項１乃至４の何れかに記載の装置。
１桁の数字の番号ｉについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定し、

Ｃ_ｓは１桁の数字の番号の認識結果を表し、Ａは前記１桁の数字の番号の枠面積を表し、Ａ_ｓは面積閾値を表し、Ｓ_ｉは前記１桁の数字の番号の信頼度を表し、Ｓ_ｓは信頼度閾値を表し、１００は背景を表す、請求項１乃至５の何れかに記載の装置。
２桁の数字の番号ｉｊについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定し、

Ｃ_ｄは２桁の数字の番号の認識結果を表し、Ａ_ｉｊは前記２桁の数字の番号の組み合わせ枠面積を表し、Ａ_ｄは面積閾値を表し、Ｓ_ｉ及びＳ_ｊは前記２桁の数字の番号の信頼度を表し、Ｓ_ｄは信頼度閾値を表し、１００は背景を表す、請求項１乃至５の何れかに記載の装置。
番号認識方法であって、
訓練画像を用いて番号認識のための訓練モデルを訓練するステップであって、訓練画像に対して座標変換を行い、１つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、ステップと、
前記訓練モデルを用いて検出すべき画像における番号に対して１桁数字の検出を行うステップと、
前記１桁数字の検出により取得された１つ又は複数の数字を併合し、前記検出すべき画像における番号を取得するステップと、
検出された１つ又は複数の番号枠の面積及び信頼度に基づいて、前記１つ又は複数の数字が誤認識されたものであるか否かを決定するステップと、を含む、方法。
請求項１乃至７の何れかに記載の装置を含む電子機器。