JP2022522596A - 画像識別方法及び装置、電子機器並びに記憶媒体 - Google Patents
画像識別方法及び装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2022522596A JP2022522596A JP2021536000A JP2021536000A JP2022522596A JP 2022522596 A JP2022522596 A JP 2022522596A JP 2021536000 A JP2021536000 A JP 2021536000A JP 2021536000 A JP2021536000 A JP 2021536000A JP 2022522596 A JP2022522596 A JP 2022522596A
- Authority
- JP
- Japan
- Prior art keywords
- target
- image
- information
- area
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本開示は画像識別方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、前記領域画像情報を識別して前記目標領域の識別結果を得ることと、を含む。本開示の実施例によって目標識別の正確度を向上することができる。【選択図】図1
Description
本出願は、2020年2月12日に中国国家知識産権局に提出された、出願番号が202010089651.8で、発明の名称が「画像識別方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本出願に組み込まれる。
本開示は、コンピュータテクノロジーの分野に関し、特に画像識別方法及び装置、電子機器並びに記憶媒体に関する。
コンピュータビジョン及びインテリジェントビデオ監視などの分野では、画像における様々な目標対象物(例えば歩行者、車両など)を検出して識別する必要がある。
本開示は、画像識別の発明を提案している。
本開示の一側面によれば、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、前記領域画像情報を識別して前記目標領域の識別結果を得ることと、を含む画像識別方法が提供される。
可能な一実施形態では、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、を含む。
可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることは、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、を含む。
可能な一実施形態では、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することは、前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、を含む。
可能な一実施形態では、前記ホモグラフィ変換行列に基づき、前記目標領域の画像を補正して、前記補正領域の領域画像情報を得ることは、前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、を含む。
可能な一実施形態では、前記領域画像情報を識別して前記目標領域の識別結果を得ることは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
可能な一実施形態では、前記方法は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。
前記方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。
可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、
予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。
予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。
可能な一実施形態では、前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。
本開示の一側面によれば、処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュールと、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュールと、前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュールと、を含む画像識別装置が提供される。
可能な一実施形態では、前記キーポイント検出モジュールは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得るための特徴抽出・融合サブモジュールと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得るための検出サブモジュールと、を含む。
可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、前記補正モジュールは、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するための変換行列決定サブモジュールと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得るための補正サブモジュールと、を含む。
可能な一実施形態では、前記変換行列決定サブモジュールは、前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することとに用いられる。
可能な一実施形態では、前記補正サブモジュールは、前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることとに用いられる。
可能な一実施形態では、前記識別モジュールは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
可能な一実施形態では、前記装置は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記装置は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るための第1のトレーニングモジュールと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングするための第2のトレーニングモジュールと、をさらに含む。
前記装置は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るための第1のトレーニングモジュールと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングするための第2のトレーニングモジュールと、をさらに含む。
可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、前記第1のトレーニングモジュールは、前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることとに用いられる。
可能な一実施形態では、前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。
本開示の一側面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、上記方法を実行するように構成された電子機器が提供される。
本開示の一側面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体でって、前記コンピュータプログラム命令はプロセッサにより実行されると、前記方法を実現させるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の一側面によれば、コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器で動作すると、前記電子機器のプロセッサに前記方法を実現するための命令を実行させるコンピュータプログラムが提供される。
本開示の一側面によれば、コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器で動作すると、前記電子機器のプロセッサに前記方法を実現するための命令を実行させるコンピュータプログラムが提供される。
本開示の実施例によれば、処理対象画像における目標領域の複数の輪郭キーポイント情報を決定し、複数の輪郭キーポイント情報に基づいて目標領域を補正し、補正した領域画像情報を識別して目標領域の識別結果を得ることによって、目標識別の正確度を向上することができる。
なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものにすぎず、本開示を限定するものではない。以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び側面は明瞭になる。
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適合し、明細書と共に本開示の技術的手段の説明に用いられる。
図1は本開示の実施例に係る画像識別方法のフローチャートを示す。
図2は本開示の実施例に係るキーポイント検出手順の模式図を示す。
図3は本開示の実施例に係る画像識別手順の模式図的を示す。
図4は本開示の実施例に係る画像識別装置のブロック図を示す。
図5は本開示の実施例に係る電子機器のブロック図を示す。
図6は本開示の実施例に係る電子機器のブロック図を示す。
以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
図1は本開示の実施例に係る画像識別方法のフローチャートを示す。図1に示すように、前記方法は、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するステップS11と、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るステップS12と、
前記領域画像情報を識別して前記目標領域の識別結果を得るステップS13と、を含む。
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するステップS11と、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るステップS12と、
前記領域画像情報を識別して前記目標領域の識別結果を得るステップS13と、を含む。
可能な一実施形態では、前記画像識別方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレスフォン電話機、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、ハンドヘルドデバイス、計算装置、車載装置、ウェアラブル装置等の端末装置、又はサーバ等の電子機器によって実行されてよく、前記方法はプロセッサによってメモリに記憶されたコンピュータ読み取り可能なコマンドを呼び出す形態で実現されてよい。又は、サーバによって前記方法を実行してもよい。
例を挙げて説明すると、処理対象画像は、画像収集装置(例えばカメラ)により収集された画像またはビデオフレーム等であってもよく、処理対象画像には、例えば歩行者、車両、ナンバープレートなどの識別されるべき目標対象物を含む。
可能な一実施形態では、ステップS11において処理対象画像に対してキーポイントを行って、処理対象画像における目標対象物の存在する画像領域(目標領域と呼ばれる)の輪郭上の複数の輪郭キーポイント情報を決定することができる。目標領域が四角形である場合、目標領域の複数の輪郭キーポイントは、例えば目標領域の4つの頂点であってもよい。検出された輪郭キーポイントによって目標領域の範囲を限定することができれば、当業者は実際の状況に応じて検出される輪郭キーポイントの数を設定することができることが理解すべきである。本開示では、目標領域の具体的な形状及び輪郭キーポイントの数は限定されない。
可能な一実施形態では、処理対象画像の撮影角度による処理対象画像における目標領域の歪み、回転、変形などが発生する可能性がある。この場合に、ステップS12において、複数の輪郭キーポイント情報に基づき、処理対象画像における目標領域を補正して、例えばホモグラフィ変換により補正して、目標領域に対応する補正領域の領域画像情報を得ることができる。当該補正領域は、目標領域を正面から見た時に示される領域であり、例えば目標対象物がナンバープレートである場合、当該補正領域は、ナンバープレートを正面から見た時にナンバープレートが存在する矩形状領域である。補正領域の領域画像情報は補正領域の画像または特徴マップであってもよい。
可能な一実施形態では、領域画像情報を得た後、ステップS13において領域画像情報を識別して、目標領域の識別結果を得ることができる。例えば、ニューラルネットワークにより領域画像情報に対して特徴抽出を行い、抽出された特徴をデコードして、識別結果を得ることができる。
可能な一実施形態では、目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。つまり、識別されるべき目標対象物が車両のナンバープレートである場合、画像におけるナンバープレート領域の複数の輪郭キーポイント(例えば4つの頂点)を検出して、さらにはナンバープレート領域に対する補正及び識別を行って、ナンバープレート領域の文字の種別が得られ、例えばナンバープレート領域には9815QWという文字が含まれている。
可能な一実施形態では、識別されるべき目標対象物が広告用掲示板または店舗看板などである場合、得られた目標領域の識別結果は、広告用掲示板または店舗看板における文字及び/又は数字であり、識別されるべき目標対象物が交通標識である場合、得られた目標領域の識別結果は、交通標識の種別である。本開示では、これが限定されない。
本開示の実施例によれば、処理対象画像における目標領域の複数の輪郭キーポイント情報を決定し、複数の輪郭キーポイント情報に基づいて目標領域を補正し、補正した領域画像情報を識別して目標領域の識別結果を得ることによって、目標識別の正確度を向上することができる。
可能な一実施形態では、ステップS11は、
前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、
前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、を含んでもよい。
前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、
前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、を含んでもよい。
例を挙げて説明すると、目標検出ネットワークにより処理対象画像に対するキーポイント検出を行うことができ、目標検出ネットワークは例えば畳み込みニューラルネットワークであってもよい。ここで、目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含んでもよい。
可能な一実施形態では、特徴抽出サブネットワークにより処理対象画像に対して特徴抽出を行って、処理対象画像の複数のスケールでの特徴を得ることができる。特徴抽出サブネットワークは、複数の残差層または残差ブロックを含む残差ネットワークResnetを用いてもよい。特徴抽出サブネットワークは、googlenet(グーグルネットワーク)、vggnet(vggネットワーク)、shufflenet(シャッフルネットワーク)、darknet(ダークネットワーク)などのネットワーク構造をさらに用いてもよいことが理解すべきである。本開示では、これが限定されない。
可能な一実施形態では、特徴融合サブネットワークにより処理対象画像の複数のスケールでの特徴を融合し、1つのスケールでの特徴、つまり処理対象画像の特徴マップを得ることができる。特徴融合サブネットワークは、特徴ピラミッドネットワークFPNを用いてもよく、NAS-FPN(自動検索による特徴ピラミッドネットワーク)、hourglass(砂時計ネットワーク)などのネットワーク構造を用いてもよいが、本開示ではこれが限定されない。
可能な一実施形態では、検出サブネットワークにより処理対象画像の特徴マップに対してキーポイント検出を行って、処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることができる。検出サブネットワークは複数の畳み込み層及び複数の検出層(例えば全結合層を含む)を含んでもよく、複数の畳み込み層により処理対象画像の特徴マップにおける特徴情報を更に抽出し、複数の検出層により当該特徴情報におけるキーポイントの位置をそれぞれ検出する。目標領域が四角形である場合、4つの位置決めヒートマップを予測し、それぞれ目標領域の左上、右上、右下及び左下の頂点(つまり4つのキーポイント)の位置を位置決めすることができる。各ヒートマップは頂点座標の位置を1、残りの頂点座標を0と定義することができ、01コードを選択してもよく、ガウスコードに置き換えてもよいが、本開示ではこれが限定されない。
図2は本開示の実施例に係るキーポイント検出手順の模式図を示す。図2に示すように、処理対象画像21を目標検出ネットワークに入力し、順次に残差ネットワーク(Res)22及び特徴ピラミッドネットワーク(FPN)23を介して特徴抽出及び融合を行って、特徴マップ24を得ることができる。処理対象画像21の寸法は、例えば320×280であり、特徴抽出及び融合の後、寸法が80×70×64である特徴マップ24が得られ、検出サブネットワーク(図示せず)により特徴マップ24に対して畳み込み及びキーポイント検出を更に行って、80×70×4の4つのキーポイントの位置決めヒートマップが得られることで、目標領域の左上、右上、右下及び左下の頂点の位置が決定される。
このようにして、目標領域の複数の輪郭キーポイント情報を迅速に決定することができることにより、目標領域の境界輪郭を精度よく限定し、処理速度及び精度を向上している。
可能な一実施形態では、複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、ステップS12は、
前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、を含んでもよい。
前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、を含んでもよい。
例を挙げて説明すると、目標領域の複数の輪郭キーポイント情報を決定した後、目標領域を補正することができる。複数の輪郭キーポイント情報は、処理対象画像または処理対象画像の特徴マップにおける各輪郭キーポイントの位置座標(つまり各輪郭キーポイントの第1の位置)を含んでもよい。目標領域が四角形領域である場合、4つの輪郭キーポイントを含んでもよい。
可能な一実施形態では、処理対象画像またはその特徴マップのスケールをh(高さ)×w(幅)×C(チャンネル数)とし、輪郭キーポイントの座標を(x1,y1,x2,y2,x3,y3,x4,y4)とし、補正された補正領域をhH(高さ)×wH(幅)×C(チャンネル数)とすることができる。複数の輪郭キーポイントの第1の位置に基づいて目標領域の位置を決定し、目標領域の位置及び補正領域の第2の位置に基づいて目標領域と補正領域との間のホモグラフィ変換行列を決定することができる。本分野での公知の方法を用いて目標領域と補正領域との間のホモグラフィ変換行列を決定することができることは理解すべきであり、本開示ではこれが限定されない。
可能な一実施形態では、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するステップは、
前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、
前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、を含んでもよい。
前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、
前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、を含んでもよい。
つまり、入力された輪郭キーポイント座標(x1,y1,x2,y2,x3,y3,x4,y4)及び出力された補正領域hH(高さ)×wH(幅)×C(チャンネル数)の座標をそれぞれ正規化し、入力座標及び出力座標を[-1,1]の間に正規化して、正規化された第1の位置及び正規化された第2の位置を得ることができる。正規化された第1の位置及び正規化された第2の位置に基づき、正規化された目標領域と補正領域との間のホモグラフィ変換行列(例えば3×3の行列)を決定する。本開示では、ホモグラフィ変換行列を決定する方法が限定されない。
このようにして、目標領域と補正領域のスケールを統一させ、目標領域と補正領域のスケールの差異による誤差を低減し、ホモグラフィ変換行列の正確度を向上することができる。
可能な一実施形態では、前記ホモグラフィ変換行列に基づき、前記目標領域の画像又は特徴を補正して、前記補正領域の領域画像情報を得るステップは、
前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、
各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、を含んでもよい。
前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、
各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、を含んでもよい。
例を挙げて説明すると、補正領域の正規化された第2の位置について、座標のx軸及びy軸における[-1,1]の間でwH及びhH個の点を等間隔で取って、補正領域のグリッド化座標(合計でhH×wH個の座標がある)を得、グリッド化座標を補正領域における複数の目標ポイントとする。複数の目標ポイントの第3の位置及びホモグラフィ変換行列に基づき、目標領域において対応するピクセルポイントの位置を算出することができることで、第3の位置のそれぞれに対応する目標領域におけるピクセルポイントを決定することができる。
可能な一実施形態では、第3の位置のそれぞれに対応するピクセルポイントのピクセル情報(つまりピクセル値)を目標ポイントのそれぞれにマッピングし、それぞれの目標ポイントの間に補間処理を行って、補正領域の領域画像情報を得ることができる。双線形補間の方法を用いてもよく、他の補間方法を用いてもよいが、本開示ではこれが限定されない。当該領域画像情報は、領域画像または領域特徴マップであってもよいが、本開示ではこれが限定されない。
このようにして、斜めに回転した目標領域を水平方向に補正することができる。この処理過程はホモグラフィプーリング(Homopooling)操作と呼ぶことができ、この操作は、目標領域の画像または特徴を補正するために微分および逆伝播することができ、任意のニューラルネットワークに埋め込んでエンドツーエンドのトレーニングを行うことができるため、統一されたネットワークにおいて画像識別過程全体を実現可能である。
可能な一実施形態では、ステップS13は、
前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
例を挙げて説明すると、複数の畳み込み層、グループ正規化(group normalization)層、RELU活性化層及び最大プーリング層などのネットワーク層を含む識別ネットワークにより領域画像情報を識別することができる。各ネットワーク層を介して領域画像情報の特徴を抽出して、幅が1の特徴ベクトル、例えば寸法が1×47の特徴ベクトルを得ることができる。
可能な一実施形態では、この識別ネットワークは、全結合層及びCTC(Connectionist Temporal Classification、接続主義時間分類)デコーダをさらに含んでもよい。全結合層により特徴ベクトを処理して、領域画像情報の文字確率分布ベクトルを得ることができ、CTCデコーダにより文字確率分布ベクトルをデコードして、目標領域の識別結果を得ることができる。目標対象物がナンバープレートである場合、目標領域の識別結果は、ナンバープレートにおける対応する文字、例えば9815QWである。このようにして、識別結果の正確性を向上することができる。
図3は本開示の実施例に係る画像識別手順の模式図的を示す。図3に示すように、本開示の実施例に係る画像識別方法は、前記処理対象画像に対してキーポイント検出を行うため目標検出ネットワーク31、前記目標領域を補正するための補正ネットワーク32及び前記領域画像情報を識別するための識別ネットワーク33を含むニューラルネットワークにより実現できる。
図3に示すように、処理対象画像34における目標対象物が車両のナンバープレートであり、処理対象画像34を目標検出ネットワーク31に入力してキーポイント検出を行って、ナンバープレートの4つの頂点を含む画像35が得られ、補正ネットワーク32により、画像35における4つの頂点に基づいて処理対象画像34のナンバープレート領域を補正して、ナンバープレート画像36が得られ、ナンバープレート画像36を識別ネットワーク33に入力して識別を行って、ナンバープレート領域の識別結果37、つまりナンバープレートにおける対応する9815QWという文字が得られる。
ニューラルネットワークを設定する前に、ニューラルネットワークをトレーニングする必要がある。本開示の実施例に係る画像識別方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、をさらに含む。
例を挙げて説明すると、ニューラルネットワークを2つの段階に分けてトレーニングすることができる。即ち、目標検出ネットワークを先にトレーニングし、そして補正ネットワーク及び前記識別ネットワークをトレーニングすることになる。
トレーニングの第1の段階では、トレーニングセットのサンプル画像を目標検出ネットワークに入力し、サンプル画像における目標領域の輪郭キーポイント検出情報を出力し、複数のサンプル画像の輪郭キーポイント検出情報と輪郭キーポイントラベリング情報との間の差異に応じて予め設定されたトレーニング条件が満たされるまで目標検出ネットワークのパラメータを調整して、トレーニングされた目標検出ネットワークを得る。
トレーニングの第2の段階では、トレーニングセットのサンプル画像をトレーニングされた目標検出ネットワークに入力し、トレーニングされた目標検出ネットワーク、補正ネットワーク及び識別ネットワークによる処理によってサンプル画像における目標領域のトレーニング識別結果が得られ、複数のサンプル画像のトレーニング識別結果と種別ラベリング情報との差異に応じて予め設定されたトレーニング条件が満たされるまで補正ネットワーク及び識別ネットワークのパラメータを調整して、トレーニングされた補正ネットワーク及び識別ネットワークを得る。
このようにして、トレーニング効果を高め、トレーニング速度を速くすることができる。
可能な一実施形態では、予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るステップは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、
前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、
前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、
前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、
前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、
前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、
前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、を含む。
例を挙げて説明すると、トレーニング効果を高めるために、トレーニング過程中で背景の検出を追加することができる。サンプル画像を特徴抽出サブネットワークに入力して特徴抽出を行って、サンプル画像の第1の特徴が得られ、第1の特徴を特徴融合サブネットワークに入力して特徴融合を行って、サンプル画像の融合特徴が得られ、融合特徴を検出サブネットワークに入力して検出して、サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報が得られる。即ち、目標対象物がナンバープレートである場合、4つの頂点の検出情報及びサンプル画像における背景の検出情報を得ることができる。
可能な一実施形態では、複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、目標検出ネットワークのネットワーク損失を特定し、ネットワーク損失に基づいて、予め設定されたトレーニング条件が満たされるまで目標検出ネットワークのパラメータを調整して、トレーニングされた目標検出ネットワークを得る。
教師有り信号として背景検出を追加することで目標検出ネットワークのトレーニング効果を大幅に高めることができる。
本開示の実施例に係る画像識別方法によれば、画像における複数の角度および不定なワード長を持つ目標対象物(例えばナンバープレート、広告用掲示板、交通標識など)を正確に識別することができる。この方法は、境界枠の代わりにキーポイント識別によるナンバープレート検出を行い、この形態は、ピクセル毎の回帰が不要で、アンカーを検出する必要がなく、非極大値の抑制を省くため、検出速度が大幅に向上した。回帰ターゲットとしてキーポイントのヒートマップを使用すると、位置決めの正確度を高めた。また、ポイント数が増加したため、より多くのナンバープレート情報を取得してナンバープレートを補正するためのホモグラフィプーリングに使用できる。
本開示の実施例に係る画像識別方法によれば、ホモグラフィープーリングによりナンバープレート画像または特徴を補正することができ、任意のネットワークに埋め込んでエンドツーエンドの協同訓練の統一されたネットワークを実現し、ネットワークの各部分を協同で最適化して、速度と精度を確保することができる。
本開示の実施例に係る画像識別方法によれば、スマートシティ、インテリジェント交通、安全防衛の監視制御、駐車場、車両の再識別、偽造ナンバープレートの識別などのシーンに適用してナンバープレートの番号を迅速で精度よく識別することができ、さらにはナンバープレートに基づく課金、罰金、偽造ナンバープレートの検出などを行うことができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
また、本開示では、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提供される。これらはいずれも本開示に係る画像識別方法のいずれか1つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。
図4は本開示の実施例に係る画像識別装置のブロック図を示す。図4に示すように、前記装置は、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュール41と、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュール42と、前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュール43と、を含む。
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュール41と、前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュール42と、前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュール43と、を含む。
可能な一実施形態では、前記キーポイント検出モジュールは、前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得るための特徴抽出・融合サブモジュールと、前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得るための検出サブモジュールと、を含む。
可能な一実施形態では、前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、前記補正モジュールは、前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定するための変換行列決定サブモジュールと、前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得るための補正サブモジュールと、を含む。
可能な一実施形態では、前記変換行列決定サブモジュールは、前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することに用いられる。
可能な一実施形態では、前記補正サブモジュールは、前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることに用いられる。
可能な一実施形態では、前記識別モジュールは、前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、を含む。
可能な一実施形態では、前記装置は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記装置は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るための第1のトレーニングモジュールと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングするための第2のトレーニングモジュールと、をさらに含む。
前記装置は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得るための第1のトレーニングモジュールと、前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングするための第2のトレーニングモジュールと、をさらに含む。
可能な一実施形態では、前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、前記第1のトレーニングモジュールは、前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることに用いられる。
可能な一実施形態では、前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含む。
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提供される。当該コンピュータ可読記憶媒体は、不揮発性または揮発性のコンピュータ可読記憶媒体であってもよい。
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、上記の方法を実行するように構成される電子機器がさらに提供される。
本開示の実施例では、コンピュータ可読コードを含むコンピュータプログラム製品であって、当該コンピュータ可読コードは機器において動作すると、機器のプロセッサに上述したいずれかの実施例に係る画像識別方法を実現するための命令を実行させるコンピュータプログラム製品がさらに提供される。
本開示の実施例では、コンピュータ可読命令が記憶されているコンピュータプログラム製品であって、命令は実行されると、コンピュータに上述したいずれかの実施例に係る画像識別方法の動作を実行させる別のコンピュータプログラム製品がさらに提供される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図5は、本開示の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
図6は、本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されいるオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することににより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
当該コンピュータプログラム製品は、ハードウェア、ソフトウェア、又はそれらの組み合わせによって具体的に実現できる。選択可能的な一実施例では、前記コンピュータプログラム製品はコンピュータ記憶媒体として具現化される。選択可能的な別の実施例では、コンピュータプログラム製品はソフトウェア製品、例えば、ソフトウェア開発キット(Software Development Kit、略称SDK)等として具現化される。
論理に違反しない限り、本開示のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照すればよい。
論理に違反しない限り、本開示のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照すればよい。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
Claims (13)
- 処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することと、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることと、
前記領域画像情報を識別して前記目標領域の識別結果を得ることと、
を含むことを特徴とする画像識別方法。 - 請求項1に記載の方法であって、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定することは、
前記処理対象画像に対して特徴抽出及び融合を行って、前記処理対象画像の特徴マップを得ることと、
前記処理対象画像の特徴マップに対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を得ることと、
を含むことを特徴とする方法。 - 請求項1または2に記載の方法であって、
前記複数の輪郭キーポイント情報は、前記複数の輪郭キーポイントの第1の位置を含み、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得ることは、
前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像または特徴を補正して、前記補正領域の領域画像情報を得ることと、
を含むことを特徴とする方法。 - 請求項3に記載の方法であって、
前記複数の輪郭キーポイントの第1の位置及び前記補正領域の第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することは、
前記第1の位置及び前記第2の位置のそれぞれに対して正規化処理を行って、正規化された第1の位置及び正規化された第2の位置を得ることと、
前記正規化された第1の位置及び前記正規化された第2の位置に基づき、前記目標領域と前記補正領域との間のホモグラフィ変換行列を決定することと、
を含むことを特徴とする方法。 - 請求項3または4に記載の方法であって、
前記ホモグラフィ変換行列に基づき、前記目標領域の画像を補正して、前記補正領域の領域画像情報を得ることは、
前記補正領域における複数の目標ポイントの第3の位置及び前記ホモグラフィ変換行列に基づき、各前記第3の位置に対応する前記目標領域におけるピクセルポイントを決定することと、
各前記第3の位置に対応するピクセルポイントのピクセル情報を各前記目標ポイントにマッピングし、各前記目標ポイント間で補間処理を行って、前記補正領域の領域画像情報を得ることと、
を含むことを特徴とする方法。 - 請求項1~5のいずれか1項に記載の方法であって、
前記領域画像情報を識別して前記目標領域の識別結果を得ることは、
前記領域画像情報に対して特徴抽出を行って、前記領域画像情報の特徴ベクトルを得ることと、
前記特徴ベクトルをデコードして、前記目標領域の識別結果を得ることと、
を含むことを特徴とする方法。 - 請求項1~6のいずれか1項に記載の方法であって、
前記方法は、前記処理対象画像に対してキーポイント検出を行うための目標検出ネットワーク、前記目標領域を補正するための補正ネットワーク及び前記領域画像情報を識別するための識別ネットワークを含むニューラルネットワークにより実現され、
前記方法は、
予め設定された、複数のサンプル画像、各前記サンプル画像における目標領域の輪郭キーポイントラベリング情報、背景ラベリング情報及び種別ラベリング情報を含むトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
前記トレーニングセット及び前記トレーニングされた目標検出ネットワークに基づき、前記補正ネットワーク及び前記識別ネットワークをトレーニングすることと、
をさらに含むことを特徴とする方法。 - 請求項7に記載の方法であって、
前記目標検出ネットワークは、特徴抽出サブネットワーク、特徴融合サブネットワーク及び検出サブネットワークを含み、
予め設定されたトレーニングセットに基づいて前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることは、
前記特徴抽出サブネットワークにより前記サンプル画像に対して特徴抽出を行って、前記サンプル画像の第1の特徴を得ることと、
前記特徴融合サブネットワークにより前記第1の特徴に対して特徴融合を行って、前記サンプル画像の融合特徴を得ることと、
前記検出サブネットワークにより前記融合特徴に対して検出を行って、前記サンプル画像における目標対象物の輪郭キーポイント検出情報及び背景検出情報を得ることと、
前記複数のサンプル画像の輪郭キーポイント検出情報及び背景検出情報と、前記複数のサンプル画像の輪郭キーポイントラベリング情報及び背景ラベリング情報とに基づき、前記目標検出ネットワークをトレーニングして、トレーニングされた目標検出ネットワークを得ることと、
を含むことを特徴とする方法。 - 請求項1~8のいずれか1項に記載の方法であって、
前記目標領域は、車両のナンバープレート領域を含み、前記目標領域の識別結果は、前記ナンバープレート領域の文字の種別を含むことを特徴とする方法。 - 画像識別装置であって、
処理対象画像に対してキーポイント検出を行って、前記処理対象画像における目標領域の複数の輪郭キーポイント情報を決定するためのキーポイント検出モジュールと、
前記複数の輪郭キーポイント情報に基づき、前記処理対象画像における目標領域を補正して、前記目標領域に対応する補正領域の領域画像情報を得るための補正モジュールと、
前記領域画像情報を識別して、前記目標領域の識別結果を得るための識別モジュールと、を含むことを特徴とする画像識別装置。 - プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶された命令を呼び出すことにより、請求項1~9のいずれか1項に記載の方法を実行するように構成されたことを特徴とする電子機器。 - コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体でって、
前記コンピュータプログラム命令はプロセッサにより実行されると、請求項1~9のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。 - コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器で動作すると、前記電子機器のプロセッサに請求項1~9のいずれか1項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089651.8A CN111339846B (zh) | 2020-02-12 | 2020-02-12 | 图像识别方法及装置、电子设备和存储介质 |
CN202010089651.8 | 2020-02-12 | ||
PCT/CN2020/081371 WO2021159594A1 (zh) | 2020-02-12 | 2020-03-26 | 图像识别方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022522596A true JP2022522596A (ja) | 2022-04-20 |
Family
ID=71183387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021536000A Pending JP2022522596A (ja) | 2020-02-12 | 2020-03-26 | 画像識別方法及び装置、電子機器並びに記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210312214A1 (ja) |
JP (1) | JP2022522596A (ja) |
CN (1) | CN111339846B (ja) |
SG (1) | SG11202106622XA (ja) |
TW (1) | TW202131219A (ja) |
WO (1) | WO2021159594A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768394A (zh) * | 2020-07-01 | 2020-10-13 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111753854B (zh) * | 2020-07-28 | 2023-12-22 | 腾讯医疗健康(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112069901B (zh) * | 2020-08-06 | 2022-07-08 | 南京领行科技股份有限公司 | 车内物品监控方法、电子设备及存储介质 |
CN111950547B (zh) * | 2020-08-06 | 2024-06-11 | 广东飞翔云计算有限公司 | 一种车牌的检测方法、装置、计算机设备和存储介质 |
CN111898171A (zh) * | 2020-08-11 | 2020-11-06 | 上海控软网络科技有限公司 | 余料的加工图纸确定方法、装置、电子设备及存储介质 |
CN111985556A (zh) * | 2020-08-19 | 2020-11-24 | 南京地平线机器人技术有限公司 | 关键点识别模型的生成方法和关键点识别方法 |
CN112200765B (zh) * | 2020-09-04 | 2024-05-14 | 浙江大华技术股份有限公司 | 车辆中被误检的关键点的确定方法及装置 |
CN112101183B (zh) * | 2020-09-10 | 2021-08-24 | 深圳市商汤科技有限公司 | 车辆识别方法及装置、电子设备及存储介质 |
CN114169952A (zh) * | 2020-09-11 | 2022-03-11 | 京东方科技集团股份有限公司 | 一种商品推荐方法、服务器、购物车和购物系统 |
CN112291445B (zh) * | 2020-10-28 | 2023-04-25 | 北京字节跳动网络技术有限公司 | 图像处理的方法、装置、设备和存储介质 |
CN112364807B (zh) * | 2020-11-24 | 2023-12-15 | 深圳市优必选科技股份有限公司 | 图像识别方法、装置、终端设备及计算机可读存储介质 |
CN112541500B (zh) * | 2020-12-03 | 2023-07-25 | 北京智芯原动科技有限公司 | 一种端到端的车牌识别方法及装置 |
CN112989910A (zh) * | 2020-12-12 | 2021-06-18 | 南方电网调峰调频发电有限公司 | 电力目标检测方法、装置、计算机设备和存储介质 |
CN112560986B (zh) * | 2020-12-25 | 2022-01-04 | 上海商汤智能科技有限公司 | 图像检测方法及装置、电子设备和存储介质 |
CN112700464B (zh) * | 2021-01-15 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 地图信息的处理方法、装置、电子设备以及存储介质 |
CN112906708B (zh) * | 2021-03-29 | 2023-10-24 | 北京世纪好未来教育科技有限公司 | 一种图片处理方法、装置、电子设备和计算机存储介质 |
CN113128407A (zh) * | 2021-04-21 | 2021-07-16 | 湖北微果网络科技有限公司 | 扫描识物方法、系统、计算机设备及存储介质 |
TWI784720B (zh) * | 2021-09-17 | 2022-11-21 | 英業達股份有限公司 | 基於電腦視覺的電磁敏感性測試方法 |
CN114022434A (zh) * | 2021-10-28 | 2022-02-08 | 武汉中海庭数据技术有限公司 | 一种护栏上下边线自动化提取方法及提取系统 |
CN113919499A (zh) * | 2021-11-24 | 2022-01-11 | 威盛电子股份有限公司 | 模型训练方法与模型训练系统 |
TWI805485B (zh) * | 2021-12-20 | 2023-06-11 | 財團法人工業技術研究院 | 影像辨識的方法及其電子裝置 |
CN114387436B (zh) * | 2021-12-28 | 2022-10-25 | 北京安德医智科技有限公司 | 壁冠状动脉检测方法及装置、电子设备和存储介质 |
WO2023125720A1 (en) * | 2021-12-29 | 2023-07-06 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for medical imaging |
CN114359911B (zh) * | 2022-03-18 | 2022-07-26 | 北京亮亮视野科技有限公司 | 文字关键信息的提取方法及装置 |
CN115375917B (zh) * | 2022-10-25 | 2023-03-24 | 杭州华橙软件技术有限公司 | 一种目标边缘特征提取方法、装置、终端及存储介质 |
TWI814623B (zh) * | 2022-10-26 | 2023-09-01 | 鴻海精密工業股份有限公司 | 圖像識別方法、電腦設備及儲存介質 |
CN115661577B (zh) * | 2022-11-01 | 2024-04-16 | 吉咖智能机器人有限公司 | 用于对象检测的方法、设备和计算机可读存储介质 |
CN115631465B (zh) * | 2022-12-22 | 2023-03-28 | 中关村科学城城市大脑股份有限公司 | 重点人群风险感知方法、装置、电子设备和可读介质 |
TWI832642B (zh) * | 2022-12-28 | 2024-02-11 | 國立中央大學 | 應用於穩定性招牌之偵測與辨識之影像處理方法 |
CN116958954B (zh) * | 2023-07-27 | 2024-03-22 | 匀熵智能科技(无锡)有限公司 | 基于关键点与旁路矫正的车牌识别方法、装置及存储介质 |
CN116935179B (zh) * | 2023-09-14 | 2023-12-08 | 海信集团控股股份有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008507A (ja) * | 2009-06-25 | 2011-01-13 | Kddi Corp | 画像検索方法およびシステム |
JP2013257864A (ja) * | 2012-06-12 | 2013-12-26 | Xerox Corp | 自動ナンバープレート認識のための幾何学的事前補正 |
CN108460411A (zh) * | 2018-02-09 | 2018-08-28 | 北京市商汤科技开发有限公司 | 实例分割方法和装置、电子设备、程序和介质 |
CN110163199A (zh) * | 2018-09-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 车牌识别方法、车牌识别装置、车牌识别设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250894B (zh) * | 2016-07-26 | 2021-10-26 | 北京小米移动软件有限公司 | 卡片信息识别方法及装置 |
CN108133220A (zh) * | 2016-11-30 | 2018-06-08 | 北京市商汤科技开发有限公司 | 模型训练、关键点定位及图像处理方法、系统及电子设备 |
CN107742120A (zh) * | 2017-10-17 | 2018-02-27 | 北京小米移动软件有限公司 | 银行卡卡号的识别方法及装置 |
WO2019169532A1 (zh) * | 2018-03-05 | 2019-09-12 | 深圳前海达闼云端智能科技有限公司 | 车牌识别方法及云系统 |
CN109522910B (zh) * | 2018-12-25 | 2020-12-11 | 浙江商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN110728283A (zh) * | 2019-10-11 | 2020-01-24 | 高新兴科技集团股份有限公司 | 一种车牌类型识别方法及设备 |
CN110781813B (zh) * | 2019-10-24 | 2023-04-07 | 北京市商汤科技开发有限公司 | 图像识别方法及装置、电子设备和存储介质 |
-
2020
- 2020-02-12 CN CN202010089651.8A patent/CN111339846B/zh active Active
- 2020-03-26 WO PCT/CN2020/081371 patent/WO2021159594A1/zh active Application Filing
- 2020-03-26 SG SG11202106622XA patent/SG11202106622XA/en unknown
- 2020-03-26 JP JP2021536000A patent/JP2022522596A/ja active Pending
- 2020-05-20 TW TW109116729A patent/TW202131219A/zh unknown
-
2021
- 2021-06-21 US US17/353,045 patent/US20210312214A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008507A (ja) * | 2009-06-25 | 2011-01-13 | Kddi Corp | 画像検索方法およびシステム |
JP2013257864A (ja) * | 2012-06-12 | 2013-12-26 | Xerox Corp | 自動ナンバープレート認識のための幾何学的事前補正 |
CN108460411A (zh) * | 2018-02-09 | 2018-08-28 | 北京市商汤科技开发有限公司 | 实例分割方法和装置、电子设备、程序和介质 |
CN110163199A (zh) * | 2018-09-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 车牌识别方法、车牌识别装置、车牌识别设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210312214A1 (en) | 2021-10-07 |
TW202131219A (zh) | 2021-08-16 |
CN111339846A (zh) | 2020-06-26 |
WO2021159594A1 (zh) | 2021-08-19 |
SG11202106622XA (en) | 2021-09-29 |
CN111339846B (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022522596A (ja) | 画像識別方法及び装置、電子機器並びに記憶媒体 | |
JP7041284B2 (ja) | 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム | |
US20210019562A1 (en) | Image processing method and apparatus and storage medium | |
JP7262659B2 (ja) | 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体 | |
JP2022500791A (ja) | 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP2022501688A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
JP7061191B2 (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
JP2021512378A (ja) | アンカー決定方法及び装置、電子機器並びに記憶媒体 | |
CN104918107A (zh) | 视频文件的标识处理方法及装置 | |
US11450021B2 (en) | Image processing method and apparatus, electronic device, and storage medium | |
CN112990197A (zh) | 车牌识别方法及装置、电子设备和存储介质 | |
CN113841179A (zh) | 图像生成方法及装置、电子设备及存储介质 | |
AU2020323956B2 (en) | Image processing method and apparatus, electronic device, and storage medium | |
CN113313115B (zh) | 车牌属性识别方法及装置、电子设备和存储介质 | |
WO2022141969A1 (zh) | 图像分割方法及装置、电子设备、存储介质和程序 | |
CN112330717B (zh) | 目标跟踪方法及装置、电子设备和存储介质 | |
CN109889693B (zh) | 视频处理方法及装置、电子设备和存储介质 | |
CN111832338A (zh) | 对象检测方法及装置、电子设备和存储介质 | |
CN112200201A (zh) | 一种目标检测方法及装置、电子设备和存储介质 | |
CN114550039A (zh) | 目标检测方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220621 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230207 |