JP7396076B2 - 番号認識装置、方法及び電子機器 - Google Patents

番号認識装置、方法及び電子機器 Download PDF

Info

Publication number
JP7396076B2
JP7396076B2 JP2020011823A JP2020011823A JP7396076B2 JP 7396076 B2 JP7396076 B2 JP 7396076B2 JP 2020011823 A JP2020011823 A JP 2020011823A JP 2020011823 A JP2020011823 A JP 2020011823A JP 7396076 B2 JP7396076 B2 JP 7396076B2
Authority
JP
Japan
Prior art keywords
training
image
digit
detected
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020011823A
Other languages
English (en)
Other versions
JP2020173781A (ja
Inventor
ジュ・シエヌタヌ
タヌ・ジミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020173781A publication Critical patent/JP2020173781A/ja
Application granted granted Critical
Publication of JP7396076B2 publication Critical patent/JP7396076B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明の実施例は、画像認識の技術に関し、特に番号認識装置、方法及び電子機器に関する。
情報技術の継続的な発展に伴い、番号認識(又は番号検出)の応用も益々普及している。例えば、標識、スポーツ選手、スタッフ、受験生について、対象(検出すべき物体)における1つ又は複数の数字により構成された番号を検出する必要があり、ある場合に、各応用を行うために、これらの番号を自動的に認識する必要がある。
例えば、バスケットボールの試合では、選手のユニフォームにおける番号を検出、認識することで、認識結果に基づいて対応する選手を決定することができる。このように、試合全体のビデオにより各選手の軌跡を追跡、描画することで、より優れた技術支援を提供することができる。
従来の番号認識方法では、通常、分類器を用いて全ての可能な番号を分類する。例えば、バスケットボール選手の場合、その可能な番号は0~99であるため、このような番号を分類する分類器のカテゴリは100種類が必要である。即ち、各カテゴリについて大量の訓練データを収集して訓練を行う必要がある。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
本発明の発明者の発見によると、従来の番号認識方法は、大量の訓練データを収集する必要があるため、時間及び手間がかかる。また、一部のカテゴリの訓練データの収集は困難であり、例えばあまり使用されない番号について、このような番号の訓練データを収集して分類器を訓練することは困難である。
上記の技術的問題の少なくとも1つを鑑み、本発明の実施例は、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、高い認識精度を有する番号認識装置、方法及び電子機器を提供する。
本発明の実施例の第1態様では、番号認識装置であって、訓練画像を用いて番号認識のための訓練モデルを訓練する訓練部であって、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、訓練部と、前記訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行う検出部と、前記1桁数字の検出により取得された1つ又は複数の数字を併合し、前記検出すべき画像における番号を取得する併合部と、を含む、装置を提供する。
本発明の実施例の第2態様では、番号認識方法であって、訓練画像を用いて番号認識のための訓練モデルを訓練するステップであって、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、ステップと、前記訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行うステップと、前記1桁数字の検出により取得された1つ又は複数の数字を併合し、前記検出すべき画像における番号を取得するステップと、を含む、方法を提供する。
本発明の実施例の第3態様では、上記の番号認識装置を含む電子機器を提供する。
本発明の実施例の有利な効果は以下の通りである。訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとし、訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行い、該1桁数字の検出により取得された1つ又は複数の数字を併合し、検出すべき画像における番号を取得する。これによって、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、高い認識精度を有する。
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
なお、用語「含む/有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
本発明の実施例の番号認識方法を示す図である。 本発明の実施例の検出すべき画像を示す図である。 図2における検出すべき画像の所在する検出枠及び1桁数字の検出結果を示す図である。 本発明の実施例の訓練画像を示す図である。 本発明の実施例の該訓練画像の変換後のものを示す図である。 本発明の実施例の訓練画像を示す他の図である。 本発明の実施例の該訓練画像の変換後のものを示す図である。 本発明の実施例の訓練画像を示す他の図である。 本発明の実施例の番号認識装置を示す図である。 本発明の実施例の電子機器を示す図である。
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変更されたもの、及び均等なものを含む。
本発明の実施例では、用語「第1」、「第2」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び/又は」は列挙された用語の1つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「1つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。
本発明の実施例では、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を一例にして訓練モデルを例示的に説明する。例えば、該畳み込みニューラルネットワークは、Faster R-CNN、FPN(Feature Pyramid Networks for object Detection)又はYOLO(You Only Look Once:Unified, Real-Time Object Detection)などであってもよいが、本発明はこれに限定されない。訓練モデル、訓練サンプル、訓練画像などの基本的な概念及び内容は関連技術を参照してもよい。
<実施例1>
本発明の実施例は番号認識方法を提供する。図1は本発明の実施例の番号認識方法を示す図であり、図1に示すように、該方法は以下のステップを含む。
ステップ101:訓練画像を用いて番号認識のための訓練モデルを訓練する。ここで、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとする。
ステップ102:該訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行う。
ステップ103:該1桁数字の検出により取得された1つ又は複数の数字を併合し、該検出すべき画像における番号を取得する。
1つの態様では、検出すべき物体は、番号認識の必要性を有する任意の物体であってもよい。例えば、検出すべき物体は、ナンバープレート、試合中のスポーツ選手、番号を含む標識、イベントに参加するスタッフ、試験又は競技に参加する選手などである。例えば、試合に参加するバスケットボール選手又はサッカー選手の場合、可能な番号は0~99であり、試合に参加する陸上競技選手の場合、可能な番号は0000~9999である。
1つの態様では、訓練画像及び検出すべき画像は、検出すべき物体を含む可能性のある画像である。例えば、検出すべき物体がバスケットボール選手である場合、訓練画像及び検出すべき画像は何れもバスケットボール試合のビデオにおける少なくとも1つの画像であってもよい。
ステップ101において、複数の訓練画像を用いて、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)に基づいて訓練モデルを訓練してもよい。畳み込みニューラルネットワークの具体的な構造及び具体的な訓練方法は関連技術を参照してもよい。訓練画像の座標変換について、後述する実施例において詳細に説明する。
ステップ102において、検出すべき画像における番号に対して、CNNに基づく訓練モデルを用いて1桁数字の検出を1回又は複数回行い、1つ又は複数の数字を検出してもよい。畳み込みニューラルネットワークは強力なターゲット認識機能を有するため、実際の環境からの複雑な要素を簡素化し、検出効率及び検出精度をさらに向上させることができる。
なお、上記の図1は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップの実行順序を適切に調整してもよいし、他のステップを追加し、或いはその中のステップを削除してもよい。当業者は上記の内容に基づいて適切な変形を行ってもよく、上記の図1の記載に限定されない。
以下は、バスケットボール試合中の選手のユニフォームにおける番号を一例にして、本発明を例示的に説明する。
図2は本発明の実施例の検出すべき画像を示す図である。図2に示すように、該検出すべき画像は、バスケットボール試合のビデオにおける1つのフレーム画像であり、複数の検出すべき物体である選手を含む。図2に示すように、該検出すべき画像における各選手を検出し、各選手が所在する領域を取得し、該領域を各検出枠で表示してもよい。
図3は図2における検出すべき画像の所在する検出枠及び1桁数字の検出結果を示す図である。図3に示すように、検出された各選手が所在する領域は各検出枠で表され、検出枠1~7における1桁数字の検出結果は、それぞれ「結果なし」、「3」と「0」、「2」、「結果なし」、「2」と「3」、「0」、及び「8」である。
ステップ103において、1桁数字の検出により取得された1つ又は複数の数字を併合し、該検出すべき画像における番号を取得してもよい。例えば、図3に示すように、検出枠2の1桁数字の検出結果「3」と「0」を「30」に併合し、検出枠5の1桁数字の検出結果「2」と「3」を「23」に併合してもよい。
従来の番号認識方法では、試合に参加するバスケットボール選手又はサッカー選手の場合、可能な番号は0~99であるため、分類器には100種類のカテゴリが必要である。また、試合に参加する陸上競技選手の場合、可能な番号は0000~9999であるため、分類器には10000種類のカテゴリが必要である。
本発明の実施例では、1桁数字の検出のみを行えばよいため、0~9という10種類の訓練サンプルのみを収集すればよい。このため、0~99の番号又は0000~9999の番号の場合であっても、分類器を簡単、且つ迅速に訓練することができる。
以上は数字検出方法及び番号認識方法を例示的に説明しており、以下は訓練サンプル及び訓練モデルをさらに説明する。
本発明の実施例では、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとしてもよい。これによって、訓練サンプルが少ない番号についても、分類器を簡単、且つ迅速に訓練することができ、また、1桁数字を検出、併合することであるため、高い認識精度を有する。
1つの態様では、訓練画像を所定の角度だけ回転させてもよい。ここで、該訓練画像における番号の境界枠も該角度だけ回転する。角度だけ回転した該番号の境界枠を用いて外側境界枠を取得し、該外側境界枠を調整して該座標変換後の画像を取得する。
図4は本発明の実施例の訓練画像を示す図であり、該番号は「10」であり、その境界枠は401で示される。図5は本発明の実施例の該訓練画像の変換後のものを示す図である。図5に示すように、該訓練画像を所定の角度θだけ回転させてもよい。ここで、該訓練画像における番号の境界枠401も該角度θだけ回転する。角度だけ回転した該番号の境界枠401を用いて外側境界枠501を取得し、該外側境界枠501を調整して該座標変換後の画像を取得し(図5には1つの正のサンプルを示している)、その番号の境界枠は502で示されている。
もう1つの態様では、訓練画像における番号のサイズを拡大/縮小し、サイズが変更された該番号を取得し、該サイズが変更された該番号のために背景領域を追加して座標変換後の画像を取得してもよい。
図6は本発明の実施例の訓練画像を示す他の図であり、それに含まれる番号は「8」であり、境界枠は601で示される。図7は本発明の実施例の該訓練画像の変換後のものを示す図である。図7に示すように、該訓練画像における番号のサイズを拡大/縮小し、サイズが変更された該番号を取得してもよい。例えば、図7の701~703において該番号「8」を異なるレベルに縮小し、図7の704において該番号「8」を所定レベルに拡大している。また、該サイズが変更された番号701~704のために背景領域(例えば図7に示す黒色背景)を追加し、座標変換後の画像を取得してもよい(図7には4つの正のサンプルを示している)。
これによって、訓練画像に対して座標変換を行うことで、訓練のためのより多くの正のサンプルを取得することができるため、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、認識精度をさらに向上させることができる。
1つの態様では、非番号領域の誤認識の影響を排除するように、該訓練モデルのために訓練データの負のサンプルをさらに追加してもよい。
図8は本発明の実施例の訓練画像を示す他の図である。図8に示すように、枠801で示される部分は、該選手の腕であるが、傾斜状態にある番号「1」に類似する。該訓練画像を訓練データの負のサンプルとし、類似画像を検出する際に、該部分に対して番号認識を行わず、或いは該部分を番号「1」と認識しないようにしてもよい。これによって、非番号領域の誤認識の影響を排除することができ、認識精度をさらに向上させることができる。
1つの態様では、ステップ101の前に、事前学習済みモデル(pre-trained model)を有しない番号モデルを訓練し、訓練後の該番号モデルの畳み込み層(convolution layer)を番号認識のための事前学習済みモデルとしてもよい。
例えば、CNNに基づく訓練モデルの訓練を行う場合、通常、汎用のImageNetデータセットを事前学習済みモデルとして用いるが、ImageNetデータセットには番号に関する特定の分類が存在しないため、番号認識モデルの速い収束に不利であり、即ち番号認識に適しない。
本発明の実施例では、まず事前学習済みモデルを有しない番号モデルを訓練し、訓練後の該番号モデルの畳み込み層を番号認識のための事前学習済みモデルとしてもよい。これによって、訓練モデルはより速く収束することができ、より高い検出精度を有する。
以上はステップ101又はその前の訓練モデル及び訓練サンプルを説明しており、以下はステップ103における番号認識を説明する。
1つの態様では、ステップ102において1桁数字の検出を行って1つ又は複数の数字を取得した後に、検出された1つ又は複数の番号枠の面積及び信頼度に基づいて、該1つ又は複数の数字が誤認識(false recognition)されたものであるか否かを決定してもよい。
例えば、1桁の数字の番号i(0~9)について、以下の式を用いて、該番号が誤認識されたものであるか否かを決定する。
Figure 0007396076000001
ここで、Cは1桁の数字の番号の認識結果を表し、Aは該1桁の数字の番号の枠面積(図2及び図3に示すように、1桁数字の検出処理により取得されてもよい)を表し、Aは面積閾値(予め設定されてもよい)を表し、Sは該1桁の数字の番号の信頼度(CNNの出力により取得されてもよい)を表し、Sは信頼度閾値(予め設定されてもよい)を表し、100は背景を表す。
また、例えば、2桁の数字の番号ij(00~99)について、以下の式を用いて、該番号が誤認識されたものであるか否かを決定する。
Figure 0007396076000002
ここで、Cは2桁の数字の番号の認識結果を表し、Aijは該2桁の数字の番号の組み合わせ枠面積(図2及び図3に示すように、1桁数字の検出処理により取得されてもよい)を表し、Aは面積閾値(予め設定されてもよい)を表し、S及びSは該2桁の数字の番号の信頼度(CNNの出力により取得されてもよい)を表し、Sは信頼度閾値(予め設定されてもよい)を表し、100は背景を表す。
なお、以上は0~99を一例にして説明したが、本発明はこれに限定されず、例えば0000~9999について同様な判断を行ってもよい。例えば、1桁の数字(0~9)、2桁の数字(10~99)、3桁の数字(100~999)、4桁の数字(1000~9999)という4つの場合に分けて、それぞれについて誤認識の判断を行ってもよい。本発明はこれに限定されず、少なくとも番号枠の面積及び信頼度に基づいて誤認識を決定すればよい。
これによって、少なくとも番号枠の面積及び信頼度に基づいて番号の誤認識を決定することで、誤認識の影響をさらに排除又は低減することができ、認識精度を向上させることができる。
以上は本発明に関連する各ステップ又は処理を説明したが、本発明はこれに限定されない。番号認識方法は他のステップ又は処理をさらに含んでもよく、これらのステップ又は処理の具体的な内容について、従来技術を参照してもよい。また、以上は上記の式を一例にして本発明の実施例を例示的に説明したが、本発明はこれらの式に限定されず、これらの式に対して適切な変形を行ってもよく、これらの変形例は本発明の実施例の範囲内のものである。
上記の各実施例は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されず、上記の各実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独して用いてもよいし、上記の各実施例の1つ又は複数を組み合わせてもよい。
本実施例によれば、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとし、訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行い、該1桁数字の検出により取得された1つ又は複数の数字を併合し、検出すべき画像における番号を取得する。これによって、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、高い認識精度を有する。
<実施例2>
本発明の実施例は番号認識装置を提供する。実施例1と同様な内容について、説明を省略する。
図9は本発明の実施例の番号認識装置を示す図である。図9に示すように、番号認識装置900は、訓練部901、検出部902、及び併合部903を含む。
訓練部901は、訓練画像を用いて番号認識のための訓練モデルを訓練する。ここで、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとする。
検出部902は、該前記訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行う。
併合部903は、該1桁数字の検出により取得された1つ又は複数の数字を併合し、該検出すべき画像における番号を取得する。
1つの態様では、訓練部901は、該訓練画像を所定の角度だけ回転させ、角度だけ回転した番号の境界枠を用いて外側境界枠を取得し、該外側境界枠を調整して前記座標変換後の画像を取得してもよい。ここで、該訓練画像における該番号の境界枠も該角度だけ回転する。
1つの態様では、訓練部901は、該訓練画像における番号のサイズを拡大/縮小し、サイズが変更された該番号を取得し、該サイズが変更された該番号のために背景領域を追加して前記座標変換後の画像を取得してもよい。
1つの態様では、訓練部901は、非番号領域の誤認識の影響を排除するように、該訓練モデルのために訓練データの負のサンプルを追加してもよい。
1つの態様では、訓練部901は、事前学習済みモデルを有しない番号モデルを訓練し、訓練後の該番号モデルの畳み込み層を番号認識のための事前学習済みモデルとしてもよい。
図9に示すように、番号認識装置900は決定部904をさらに含んでもよい。決定部904は、検出された1つ又は複数の番号枠の面積及び信頼度に基づいて、該1つ又は複数の数字が誤認識されたものであるか否かを決定する。
1つの態様では、1桁の数字の番号iについて、決定部904は、以下の式を用いて、該番号が誤認識されたものであるか否かを決定してもよい。
Figure 0007396076000003
ここで、Cは1桁の数字の番号の認識結果を表し、Aは該1桁の数字の番号の枠面積を表し、Aは面積閾値を表し、Sは該1桁の数字の番号の信頼度を表し、Sは信頼度閾値を表し、100は背景を表す。
1つの態様では、2桁の数字の番号ijについて、決定部904は、以下の式を用いて、該番号が誤認識されたものであるか否かを決定してもよい。
Figure 0007396076000004
ここで、Cは2桁の数字の番号の認識結果を表し、Aijは該2桁の数字の番号の組み合わせ枠面積を表し、Aは面積閾値を表し、S及びSは該2桁の数字の番号の信頼度を表し、Sは信頼度閾値を表し、100は背景を表す。
なお、以上は本発明に関連する各部材又はモジュールのみを説明し、本発明はこれに限定されない。番号認識装置900は他の部材又はモジュールをさらに含んでもよく、これらの部材又はモジュールの詳細は関連技術を参考してもよい。
また、説明の便宜上、図9は各部材又はモジュール間の接続関係又は信号の方向のみを示し、当業者はバス接続などの各種の関連技術を採用してもよい。上記の各部材又はモジュールは例えばプロセッサ、メモリなどのハードウェア機器により実現されてもよく、本発明の実施はこれらに限定されない。
上記の各実施例は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されず、上記の各実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独して用いてもよいし、上記の各実施例の1つ又は複数を組み合わせてもよい。
本実施例によれば、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとし、訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行い、該1桁数字の検出により取得された1つ又は複数の数字を併合し、検出すべき画像における番号を取得する。これによって、訓練サンプルが少ない場合であっても、分類器を簡単、且つ迅速に訓練することができ、高い認識精度を有する。
<実施例3>
本発明の実施例は、実施例2に記載の番号認識装置を含む電子機器をさらに提供し、ここでその内容を援用する。該電子機器は例えばコンピュータ、サーバ、ワークステーション、ラップトップコンピュータ、スマートフォンなどであってもよく、本発明の実施例はこれに限定されない。
図10は本発明の実施例の電子機器を示す図である。図10に示すように、電子機器1000は、プロセッサ(例えば中央処理装置:CPU)1010及びメモリ1020を含んでもよく、メモリ1020はプロセッサ1010に接続される。メモリ1020は、各種のデータ及び情報処理のプログラム1021を記憶してもよく、プロセッサ1010の制御により該プログラム1021を実行する。
1つの態様では、番号認識装置900の機能はプロセッサ1010に統合されてもよい。ここで、プロセッサ1010は、実施例1に説明された番号認識方法を実現するように構成されてもよい。
もう1つの態様では、番号認識装置900はプロセッサ1010とそれぞれ配置されてもよく、例えば、番号認識装置900はプロセッサ1010に接続されたチップであり、プロセッサ1010の制御により番号認識装置900の機能を実現するように構成されてもよい。
1つの態様では、プロセッサ1010は、訓練画像を用いて番号認識のための訓練モデルを訓練し、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとし、該訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行い、該1桁数字の検出により取得された1つ又は複数の数字を併合し、該検出すべき画像における番号を取得するように構成されてもよい。
1つの態様では、プロセッサ1010は、該訓練画像を所定の角度だけ回転させ、角度だけ回転した番号の境界枠を用いて外側境界枠を取得し、該外側境界枠を調整して該座標変換後の画像を取得し、該訓練画像における前記番号の境界枠も該角度だけ回転するように構成されてもよい。
1つの態様では、プロセッサ1010は、該訓練画像における番号のサイズを拡大/縮小し、サイズが変更された該番号を取得し、該サイズが変更された該番号のために背景領域を追加して該座標変換後の画像を取得するように構成されてもよい。
1つの態様では、プロセッサ1010は、非番号領域の誤認識の影響を排除するように、該訓練モデルのために訓練データの負のサンプルを追加するように構成されてもよい。
1つの態様では、プロセッサ1010は、事前学習済みモデルを有しない番号モデルを訓練し、訓練後の前記番号モデルの畳み込み層を番号認識のための事前学習済みモデルとするように構成されてもよい。
1つの態様では、プロセッサ1010は、検出された1つ又は複数の番号枠の面積及び信頼度に基づいて、該1つ又は複数の数字が誤認識されたものであるか否かを決定するように構成されてもよい。
例えば、1桁の数字の番号iについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定するように構成されてもよい。
Figure 0007396076000005
ここで、Cは1桁の数字の番号の認識結果を表し、Aは該1桁の数字の番号の枠面積を表し、Aは面積閾値を表し、Sは該1桁の数字の番号の信頼度を表し、Sは信頼度閾値を表し、100は背景を表す。
例えば、2桁の数字の番号ijについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定するように構成されてもよい。
Figure 0007396076000006
ここで、Cは2桁の数字の番号の認識結果を表し、Aijは該2桁の数字の番号の組み合わせ枠面積を表し、Aは面積閾値を表し、S及びSは該2桁の数字の番号の信頼度を表し、Sは信頼度閾値を表し、100は背景を表す。
また、図10に示すように、電子機器1000は、入力出力(I/O)デバイス1030及びディスプレイ1040などをさらに含んでもよい。ここで、上記各部の機能は従来技術と類似し、ここでその説明を省略する。なお、電子機器1000は、図10に示す全ての構成部を含まなくてもよい。また、電子機器1000は、図10に示していない構成部を含んでもよく、従来技術を参考してもよい。
本発明の実施例は、電子機器においてプログラムを実行する際に、コンピュータに、該電子機器において実施例1に記載の番号認識方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。
本発明の実施例は、コンピュータに、電子機器において実施例1に記載の番号認識方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、DVD、フラッシュメモリ等に関する。
本発明の実施例を参照しながら説明した方法/装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図面に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。

Claims (9)

  1. 番号認識装置であって、
    訓練画像を用いて番号認識のための訓練モデルを訓練する訓練部であって、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、訓練部と、
    前記訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行う検出部と、
    前記1桁数字の検出により取得された1つ又は複数の数字を併合し、前記検出すべき画像における番号を取得する併合部と、
    検出された1つ又は複数の番号枠の面積及び信頼度に基づいて、前記1つ又は複数の数字が誤認識されたものであるか否かを決定する決定部と、を含む、装置。
  2. 前記訓練部は、前記訓練画像を所定の角度だけ回転させ、角度だけ回転した番号の境界枠を用いて外側境界枠を取得し、前記外側境界枠を調整して前記座標変換後の画像を取得し、
    前記訓練画像における前記番号の境界枠も前記角度だけ回転する、請求項1に記載の装置。
  3. 前記訓練部は、前記訓練画像における番号のサイズを拡大/縮小し、サイズが変更された前記番号を取得し、前記サイズが変更された前記番号のために背景領域を追加して前記座標変換後の画像を取得する、請求項1又は2に記載の装置。
  4. 前記訓練部は、非番号領域の誤認識の影響を排除するように、前記訓練モデルのために訓練データの負のサンプルを追加する、請求項1乃至3の何れかに記載の装置。
  5. 前記訓練部は、事前学習済みモデルを有しない番号モデルを訓練し、訓練後の前記番号モデルの畳み込み層を番号認識のための事前学習済みモデルとする、請求項1乃至4の何れかに記載の装置。
  6. 1桁の数字の番号iについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定し、
    Figure 0007396076000007
    は1桁の数字の番号の認識結果を表し、Aは前記1桁の数字の番号の枠面積を表し、Aは面積閾値を表し、Sは前記1桁の数字の番号の信頼度を表し、Sは信頼度閾値を表し、100は背景を表す、請求項1乃至5の何れかに記載の装置。
  7. 2桁の数字の番号ijについて、以下の式を用いて、該番号が誤認識されたものであるか否かを決定し、
    Figure 0007396076000008
    は2桁の数字の番号の認識結果を表し、Aijは前記2桁の数字の番号の組み合わせ枠面積を表し、Aは面積閾値を表し、S及びSは前記2桁の数字の番号の信頼度を表し、Sは信頼度閾値を表し、100は背景を表す、請求項1乃至5の何れかに記載の装置。
  8. 番号認識方法であって、
    訓練画像を用いて番号認識のための訓練モデルを訓練するステップであって、訓練画像に対して座標変換を行い、1つ又は複数の座標変換後の画像を訓練データの正のサンプルとする、ステップと、
    前記訓練モデルを用いて検出すべき画像における番号に対して1桁数字の検出を行うステップと、
    前記1桁数字の検出により取得された1つ又は複数の数字を併合し、前記検出すべき画像における番号を取得するステップと、
    検出された1つ又は複数の番号枠の面積及び信頼度に基づいて、前記1つ又は複数の数字が誤認識されたものであるか否かを決定するステップと、を含む、方法。
  9. 請求項1乃至の何れかに記載の装置を含む電子機器。
JP2020011823A 2019-04-11 2020-01-28 番号認識装置、方法及び電子機器 Active JP7396076B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910288456.5A CN111814514A (zh) 2019-04-11 2019-04-11 号码识别装置、方法以及电子设备
CN201910288456.5 2019-04-11

Publications (2)

Publication Number Publication Date
JP2020173781A JP2020173781A (ja) 2020-10-22
JP7396076B2 true JP7396076B2 (ja) 2023-12-12

Family

ID=72831668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020011823A Active JP7396076B2 (ja) 2019-04-11 2020-01-28 番号認識装置、方法及び電子機器

Country Status (2)

Country Link
JP (1) JP7396076B2 (ja)
CN (1) CN111814514A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949624B (zh) * 2021-01-25 2024-02-13 西安电子科技大学 基于水尺的水位检测方法、装置、电子设备及存储介质
CN113627210A (zh) * 2021-08-19 2021-11-09 南京华捷艾米软件科技有限公司 条形码图像的生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148537A (ja) 2005-11-24 2007-06-14 Fujifilm Corp 画像処理方法および画像処理プログラムならびに画像処理装置
JP2016119059A (ja) 2014-12-22 2016-06-30 キヤノンイメージングシステムズ株式会社 画像処理装置および画像処理方法
JP2017084299A (ja) 2015-10-30 2017-05-18 株式会社シーイーシー 画像処理装置および画像処理方法
JP2018503201A (ja) 2015-10-30 2018-02-01 小米科技有限責任公司Xiaomi Inc. 領域抽出方法、モデル訓練方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2532075A (en) * 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
CN107690659B (zh) * 2016-12-27 2021-08-10 达闼机器人有限公司 一种图像识别系统及图像识别方法
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
CN109472274B (zh) * 2017-09-07 2022-06-28 富士通株式会社 深度学习分类模型的训练装置和方法
CN108376235A (zh) * 2018-01-15 2018-08-07 深圳市易成自动驾驶技术有限公司 图像检测方法、装置及计算机可读存储介质
CN109446961B (zh) * 2018-10-19 2020-10-30 北京达佳互联信息技术有限公司 姿势检测方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148537A (ja) 2005-11-24 2007-06-14 Fujifilm Corp 画像処理方法および画像処理プログラムならびに画像処理装置
JP2016119059A (ja) 2014-12-22 2016-06-30 キヤノンイメージングシステムズ株式会社 画像処理装置および画像処理方法
JP2017084299A (ja) 2015-10-30 2017-05-18 株式会社シーイーシー 画像処理装置および画像処理方法
JP2018503201A (ja) 2015-10-30 2018-02-01 小米科技有限責任公司Xiaomi Inc. 領域抽出方法、モデル訓練方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A New Convolutional Architecture for Vietnamese Car Plate Recognition,2018 10th International Conference on Knowledge and Systems Engineering (KSE),2018年11月01日,https://ieeexplore.ieee.org/document/8573375
カメラモニタリングによるガス使用量読み取りシステムの開発,システム制御情報学会論文誌 第29巻 第9号,2016年09月15日

Also Published As

Publication number Publication date
JP2020173781A (ja) 2020-10-22
CN111814514A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN106650662B (zh) 目标对象遮挡检测方法及装置
CN109934115B (zh) 人脸识别模型的构建方法、人脸识别方法及电子设备
CN110060237B (zh) 一种故障检测方法、装置、设备及系统
TW202006602A (zh) 三維臉部活體檢測方法、臉部認證識別方法及裝置
CN111476827B (zh) 目标跟踪方法、系统、电子装置及存储介质
CN108875517B (zh) 视频处理方法、装置和系统及存储介质
CN108875731B (zh) 目标识别方法、装置、系统及存储介质
TWI667621B (zh) 人臉辨識方法
TWI712980B (zh) 理賠資訊提取方法和裝置、電子設備
CN112329881B (zh) 车牌识别模型训练方法、车牌识别方法及装置
CN108875750B (zh) 物体检测方法、装置和系统及存储介质
CN111079536B (zh) 基于人体关键点时序的行为分析方法、存储介质及设备
CN110263680B (zh) 图像处理方法、装置和系统及存储介质
CN110287862B (zh) 基于深度学习的防偷拍检测方法
JP2019029002A (ja) パノラマ画像を用いる再位置決め方法、装置及び電子機器
JP7396076B2 (ja) 番号認識装置、方法及び電子機器
CN111079519B (zh) 多姿态人体检测方法、计算机存储介质及电子设备
CN109598298B (zh) 图像物体识别方法和系统
WO2018058573A1 (zh) 对象检测方法、对象检测装置以及电子设备
CN114821274A (zh) 一种用于识别分合指示牌的状态的方法和设备
CN112949516A (zh) 踢被子行为的识别方法和装置
CN112328822B (zh) 图片预标注方法、装置及终端设备
CN109389628A (zh) 图像配准方法、设备和存储介质
CN112287905A (zh) 车辆损伤识别方法、装置、设备及存储介质
CN111753796A (zh) 图像中关键点的识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231113

R150 Certificate of patent or registration of utility model

Ref document number: 7396076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150