JP2022531763A - 画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体 - Google Patents
画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2022531763A JP2022531763A JP2021564216A JP2021564216A JP2022531763A JP 2022531763 A JP2022531763 A JP 2022531763A JP 2021564216 A JP2021564216 A JP 2021564216A JP 2021564216 A JP2021564216 A JP 2021564216A JP 2022531763 A JP2022531763 A JP 2022531763A
- Authority
- JP
- Japan
- Prior art keywords
- image
- image set
- neural network
- unlabeled
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本発明は、画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体を発明する。当該方法は、処理されるべき画像を取得することと、画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得ることであって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なることとを含む。【選択図】図1
Description
(関連出願の相互参照)
本開示は、出願番号が202010264926.7であり、出願日が2020年4月7日である中国特許出願に基づいて提案され、且つこの中国特許出願の優先権を主張し、この中国特許出願の全てが参照として本発明に組み込まれる。
本開示は、出願番号が202010264926.7であり、出願日が2020年4月7日である中国特許出願に基づいて提案され、且つこの中国特許出願の優先権を主張し、この中国特許出願の全てが参照として本発明に組み込まれる。
本発明は、コンピュータ技術分野に関し、特に画像処理及び装置、プロセッサ、電子機器並びに記憶媒体に関する。
強い性能のおかげで、近年、ニューラルネットワークは画像処理分野で広く使用されている。ニューラルネットワークを使用する前に、ニューラルネットワークをトレーニングすることが必要になっている。従来の方法では、トレーニングデータを用いてニューラルネットワークをトレーニングしてトレーニング済みニューラルネットワークを得、且つトレーニング済みニューラルネットワークを異なる応用シーンに適用するようになっている。しかしながら、1つの応用シーンのトレーニングデータに基づいてトレーニングされたニューラルネットワークを他の応用シーンに適用する場合は、得られる処理結果の正確性が低い。
本発明は、画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体を提供する。
第一態様においては、
処理されるべき画像を取得することと、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得ることであって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なることとを含む画像処理方法を提供する。
処理されるべき画像を取得することと、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得ることであって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なることとを含む画像処理方法を提供する。
当該態様においては、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け無し画像集合に対してラベル付けする人件費を低減すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合、ラベル付け無し画像集合及びラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングすることで、ニューラルネットワークにトレーニング過程で第二収集条件の情報を学習させることができ、これによって、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
本発明のいずれか1つの実施形態によれば、前記方法は、
前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得することと、
前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることと、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得ることとを更に含む。
前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得することと、
前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることと、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得ることとを更に含む。
当該実施形態では、ラベル付け済み画像集合に基づいてラベル付け無し画像集合に対してラベル付けすることで、人件費を節約すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合とラベル付け無し画像集合を用いて第一トレーニングされるべきニューラルネットワークをトレーニングすることで、第一トレーニングされるべきニューラルネットワークにトレーニング過程でラベル付け無し画像集合の収集条件の情報を学習させて、画像処理ニューラルネットワークを得ることができる。このようにして、画像処理ニューラルネットワークを用いて処理されるべき画像を処理することで、処理結果の正確性を高くすることができる。
本発明のいずれか1つの実施形態によれば、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることは、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得ることと、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得ることとを含む。
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得ることと、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得ることとを含む。
当該実施形態では、第一トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得た後、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとし、ラベル付け無し画像集合のラベルをラベル付け無し画像集合の教師情報として、第二トレーニングされるべきニューラルネットワークをトレーニングすることで、トレーニング周期数を増大し、トレーニング効果を向上させ、それによって、トレーニングして得られた画像処理ニューラルネットワークによる処理されるべき画像に対する処理結果の正確性を高くする。
本発明のいずれか1つの実施形態によれば、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることと、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得ることと、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることと、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得ることとを含む。
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることと、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得ることと、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることと、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得ることとを含む。
当該実施形態では、第一差異と第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得、且つ第二トレーニングされるべきニューラルネットワークの損失に基づいて第二トレーニングされるべきニューラルネットワークのパラメータを調整することで、第二トレーニングされるべきニューラルネットワークのトレーニングを遂行して、画像処理ニューラルネットワークを得ることができる。
本発明のいずれか1つの実施形態によれば、前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、前記方法は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得ることであって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なることと、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得ることとを更に含み、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることは、
前記第一差異と前記第二差異により、カテゴリ損失を得ることと、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることとを含む。
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、前記方法は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得ることであって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なることと、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得ることとを更に含み、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることは、
前記第一差異と前記第二差異により、カテゴリ損失を得ることと、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることとを含む。
当該実施形態では、第一類似度と第二類似度によりトリプレット損失を得、且つ第二トレーニングされるべきニューラルネットワークのトレーニング過程で、カテゴリ損失とトリプレット損失により第二トレーニングされるべきニューラルネットワークの損失を決定することで、第二トレーニングされるべきニューラルネットワークにトレーニング過程で画像のカテゴリの区別能力を高めさせることができる。
本発明のいずれか1つの実施形態によれば、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、前記方法は、
第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定することであって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含むことを更に含む。
第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定することであって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含むことを更に含む。
上記形態によれば、同類の画像間の類似度最小値が非同類の画像間の類似度最大値よりも大きいため、いずれか2枚の同類の画像間の類似度がいずれか2枚の非同類の画像間の類似度よりも大きい。
本発明のいずれか1つの実施形態によれば、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記方法は、
前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得ることを更に含み、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得ることを含む。
前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得ることを更に含み、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得ることを含む。
当該実施形態では、ラベル付け無し画像集合に対してデータ増強処理を行って、収集条件がラベル付け無し画像集合の収集条件と同じな画像の数量を増加することによって、更に第二トレーニングされるべきニューラルネットワークのトレーニング効果を向上させる。このようにして、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
本発明のいずれか1つの実施形態によれば、前記データセット増強処理は、回転処理、消去処理、トリミング処理、ぼかし処理のうちの少なくとも1種を含む。
本発明のいずれか1つの実施形態によれば、画像の前記収集条件は、前記画像を収集するイメージング装置のパラメータを含む。
第二態様においては、
処理されるべき画像を取得するように構成される取得部と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得るように構成される処理部であって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部とを備える画像処理装置を提供する。
処理されるべき画像を取得するように構成される取得部と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得るように構成される処理部であって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部とを備える画像処理装置を提供する。
本発明のいずれか1つの実施形態によれば、前記取得部は、更に、前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得するように構成され、
前記処理部は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置は、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部を更に備える。
前記処理部は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置は、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部を更に備える。
本発明のいずれか1つの実施形態によれば、前記処理部は、更に、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得るように構成される。
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得るように構成される。
本発明のいずれか1つの実施形態によれば、前記処理部は、更に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得るように構成される。
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得るように構成される。
本発明のいずれか1つの実施形態によれば、前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記装置は、前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部であって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部とを更に備え、
前記処理部は、更に、前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される。
前記装置は、前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部であって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部とを更に備え、
前記処理部は、更に、前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される。
本発明のいずれか1つの実施形態によれば、前記装置は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部であって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部を更に備える。
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部であって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部を更に備える。
本発明のいずれか1つの実施形態によれば、前記装置は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得るように構成されるデータ増強処理部を更に備え、
前記処理部は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得るように構成される。
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得るように構成されるデータ増強処理部を更に備え、
前記処理部は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得るように構成される。
本発明のいずれか1つの実施形態によれば、前記データセット増強処理は、回転処理、消去処理、トリミング処理、ぼかし処理のうちの少なくとも1種を含む。
本発明のいずれか1つの実施形態によれば、画像の前記収集条件は、前記画像を収集するイメージング装置のパラメータを含む。
第三態様においては、上記第一態様及びそのいずれか1種の実現可能な形態の方法を実行するように構成されるプロセッサを提供する。
第4態様においては、プロセッサ、送信装置、入力装置、出力装置及びメモリを備え、前記メモリはコンピュータ指令を含むコンピュータプログラムコードを記憶するように構成され、前記プロセッサが前記コンピュータ指令を実行する場合に、上記第一態様及びそのいずれか1種の実現可能な形態の方法を実行する電子機器を提供する。
第5態様においては、プログラム指令を含むコンピュータプログラムが記憶されており、前記プログラム指令がプロセッサによって実行される場合に、前記プロセッサに上記第一態様及びそのいずれか1種の実現可能な形態の方法を実行させるコンピュータ読み取り可能な記憶媒体を提供する。
第6態様においては、コンピュータプログラム又は指令を含み、前記コンピュータプログラム又は指令がコンピュータで運行する場合に、前記コンピュータに上記第一態様及びそのいずれか1種の実現可能な形態の方法を実行させるコンピュータプログラム製品を提供する。
以上の一般的な説明と以下の詳細な説明は例示的及び解釈的なものに過ぎず、本発明を制限しないことを理解すべきである。
本発明の実施例又は背景技術における技術案をより明瞭に説明するために、以下において、本発明の実施例又は背景技術に必要とされる図面について説明する。
ここでの図面は明細書に組み込まれて本明細書の一部を構成し、これらの図面は本発明に合致する実施例を示し、明細書と共に本発明の技術的解決手段を説明するために用いられる。
当業者に本発明の解決手段をより好適に理解させるために、以下において、本発明の実施例における図面を参照しながら、本発明の実施例における技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本発明の実施例の一部に過ぎず、全ての実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を要することなく、得られた他の全ての実施例は、いずれも本発明の保護範囲に属する。
本発明の明細書、特許請求の範囲及び上記図面における「第一」、「第二」等の用語は、特定の順序を記述するものではなく、異なる対象を区別するためのものである。また、「含む」、「備える」という用語及びそれらのいかなる変形も、非排他的に含むことを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、挙げられたステップ又はユニットに限定されるものではなく、さらに挙げられないステップ又はユニットを選択可能に含み、又は、さらに、これらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを選択可能に含む。
本明細書で「実施例」が言及されることは、実施例を組み合わせて説明された特定の特徴、構造又は特性が本発明の少なくとも1つの実施例に含まれることが可能であるのを意味する。明細書の各箇所で出現する該用語は必ず同じ実施例を指すというわけでなく、他の実施例に対して排他的に独立した実施例又は代替的な実施例であるというわけでもない。本明細書に記載の実施例が他の実施例と組み合わせることができることが当業者に明示的又は暗示的に理解される。
強い性能のおかげで、近年、ニューラルネットワークは、種々のタスクを実行するように、画像処理分野で広く使用される。例えば、ニューラルネットワークを用いて画像分類タスクを実行し、更に例を挙げると、ニューラルネットワークを用いて画像分割タスクを実行する。説明の便宜上、以下にタスク実行を応用と呼び、ニューラルネットワークがタスクを実行して処理する画像を応用画像と呼ぶ。
ニューラルネットワークの応用過程でのパフォーマンス効果が高い程度でニューラルネットワークに対するトレーニング効果に依存し、ニューラルネットワークのトレーニング効果に影響する要素が多く、トレーニング画像の画像品質と応用画像の画像品質との間の差異が多くの要素の1つとなる。画像品質は、画像の解像度、画像の信号対雑音比、画像の鮮明度を含む。トレーニング画像の画像品質と応用画像の画像品質との間の差異は、トレーニング画像の解像度と応用画像の解像度との間の差異、トレーニング画像の信号対雑音比と応用画像の信号対雑音比との間の差異、トレーニング画像の鮮明度と応用画像の鮮明度との間の差異のうちの少なくとも1種を含む。トレーニング画像の画像品質と応用画像の画像品質との間に差異を存在させる原因の1つは、トレーニング画像の収集条件と応用画像の収集条件との間の差異である。
本発明の実施例では、トレーニング画像の収集条件と応用画像の収集条件(以下に第一収集条件と呼ぶ)との間の差異は、トレーニング画像を収集するイメージング装置(以下にトレーニングイメージング装置と呼ぶ)のパラメータと応用画像を収集するイメージング装置(以下に応用イメージング装置と呼ぶ)のパラメータとの間の差異、トレーニング画像を収集する環境と応用画像を収集する環境との間の差異のうちの少なくとも1種を含む。
トレーニング画像を収集するイメージング装置のパラメータと応用画像を収集するイメージング装置のパラメータとの間の差異は、トレーニングイメージング装置のハードウェア構成と応用イメージング装置のハードウェア構成との間の差異を含む。例えば、トレーニング装置の収集した画像の解像度が1920×1080であり、応用装置の収集した画像の解像度が1280×1024である。更に例を挙げると、トレーニング装置の焦点距離範囲が10ミリメートル~22ミリメートルであり、応用イメージング装置の焦点距離範囲が18ミリメートル~135ミリメートルである。
画像を収集する環境は、画像を収集する天気、画像を収集するシーンのうちの少なくとも1種を含む。例えば、画像を収集する天気は、曇りの日であっても、雨の日であっても、晴れの日であってもよい。雨の日に収集された画像の環境と晴れの日に収集された画像の環境とが異なり、曇りの日に収集された画像の環境と晴れの日に収集された画像の環境とが異なる。更に例を挙げると、シーンは自動車内部であっても、空港の搭乗待合室であっても、高速道路であってもよく、自動車内部の画像を収集したシーンと空港の搭乗待合室の画像を収集したシーンとが異なり、高速道路の画像を収集したシーンと空港の搭乗待合室の画像を収集したシーンとが異なる。
トレーニング画像を用いてニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを得る。トレーニングされたニューラルネットワークを用いてタスクを実行し、即ちトレーニングされたニューラルネットワークを用いて応用画像を処理して、処理結果を得る。例えば、画像分類タスクを実行する過程で、トレーニングされたニューラルネットワークを用いて応用画像を処理して、分類結果を得る。更に例を挙げると、画像分割タスクを実行する過程で、トレーニングされたニューラルネットワークを用いて応用画像を処理して、分割結果を得る。しかしながら、トレーニング画像と応用画像との間に差異が存在する場合に、上記処理結果(分類結果と分割結果を含む)の正確性が低い。
例を挙げると、都市Aの監視カメラによって曇りの日に歩行者を含む画像(以下に場所Aで収集された画像と呼ぶ)を収集し、且つ場所Aで収集された画像中の歩行者の身元にラベル付けすることによってトレーニング画像を得る。トレーニング画像を用いてニューラルネットワークaをトレーニングすることで、トレーニングされたニューラルネットワークaを、場所Aで収集された画像中の歩行者の身元を認識することに利用可能にする。ここで、トレーニングされたニューラルネットワークaを用いて場所Bで収集された画像中の歩行者の身元を認識することが必要になり、トレーニング画像は全て曇りの日に収集された画像であるが、場所Bで収集された画像は曇りの日に収集された画像、晴れの日に収集された画像、雨の日に収集された画像を含み、異なる天気で収集された画像は環境輝度、鮮明度が異なり、異なる環境輝度と鮮明度がニューラルネットワークの認識正確性に影響するため、トレーニングされたニューラルネットワークaを用いて晴れの日又は雨の日に収集された画像中の歩行者の身元を認識して、得られた認識結果の正確性が低い。なお、場所Aの監視カメラのパラメータと場所Bの監視カメラのパラメータ(例えば、撮影視角又は解像度)も同じでなく、これもトレーニングされたニューラルネットワークaが場所Bで収集された画像中の歩行者の身元を認識する正確性が低いことを招く。
処理結果の正確性を高くするために、従来の方法では、応用シーンでの第一収集条件で収集された画像をトレーニング画像とすることによって、ニューラルネットワークをトレーニングする。しかしながら、このような方法では、第一収集条件で収集された画像にラベル付けする必要があり、ニューラルネットワークのトレーニング画像の数量が大きく、従来の方法では大量の人件費を要することに加えて、ラベル付けの効率が低い。
以上に鑑みて、本発明の実施例は、人件費を低くし、ラベル付けの効率を高くした上で、ニューラルネットワークに基づいて得られた処理結果の正確性を高くする技術的解決手段を提供する。
本発明の実施例の実行主体は画像処理装置であってもよく、ここで、画像処理装置は携帯電話、コンピュータ、サーバ、タブレットのうちの1種であってもよい。本願の実施例では、プロセッサによってコンピュータコードを実行して本願の画像処理方法を実現するようになってもよい。
以下、本発明の実施例における図面を参照しながら、本発明の実施例を説明する。
本発明の実施例に係る画像処理方法の模式的フローチャートである図1を参照されたい。
101、処理されるべき画像を取得する。
本発明の実施例では、処理されるべき画像はいかなる内容を含んでもよい。例えば、処理されるべき画像は道路を含んでもよい。更に例を挙げると、処理されるべき画像は道路と車両を含んでもよい。更に例を挙げると、処理されるべき画像は人を含んでもよい。本発明は処理されるべき画像における内容を限定するものでない。
処理されるべき画像を取得する一実現形態において、画像処理装置はユーザが入力コンポーネントによって入力した処理されるべき画像を受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパネル及びオーディオ入力デバイス等を含む。
処理されるべき画像を取得する別の実現形態において、画像処理装置は第一端末が送信した処理されるべき画像を受信する。ここで、第一端末は、携帯電話、コンピュータ、タブレット、サーバ、ウェアラブルデバイスのいずれか1種であってもよい。
処理されるべき画像を取得する更に別の実現形態において、画像処理装置は自分の画像収集コンポーネント、例えばカメラによって、直接収集して処理されるべき画像を得ることができる。
102、画像処理ニューラルネットワークを用いて上記処理されるべき画像を処理して、上記処理されるべき画像の処理結果を得る。
本発明の実施例では、画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、ここで、ラベル付け無し画像集合の収集条件と処理されるべき画像の収集条件(以下に第二収集条件と呼ぶ)は同じであり、ラベル付け済み画像集合の収集条件(以下に第三収集条件と呼ぶ)とラベル付け無し画像集合の収集条件とは異なる。
例を挙げると、処理されるべき画像は空港の搭乗待合室で収集された画像であり、ラベル付け無し画像集合中の画像も空港の搭乗待合室で収集された画像であり、ラベル付け済み画像集合中の画像は空港の搭乗待合室で収集された画像ではない。更に例を挙げると、処理されるべき画像はカメラAで収集された画像であり、ラベル付け無し画像集合中の画像もカメラAで収集された画像であり、ラベル付け済み画像集合中の画像はカメラBで収集された画像である。
本発明の実施例では、ラベル付け済み画像集合中の画像のそれぞれにはラベルが含まれる。例えば、画像処理ネットワークを用いて実行される画像分類タスクは、画像に含まれるものがリンゴ、バナナ、梨、モモ、オレンジ、西瓜のどちらであるかを判断することであると、ラベル付け済み画像集合中の画像のラベルはリンゴ、バナナ、梨、モモ、オレンジ、西瓜のうちの1種を含む。更に例を挙げると、画像処理ネットワークを用いて実行されるタスクは、歩行者を再認識し、即ち画像に含まれる人物の身元を認識することであると、ラベル付け済み画像集合中の画像のラベルは人物の身元(例えば、張三、李四、王五、周六等)を含む。更に例を挙げると、画像処理ネットワークを用いて実行されるタスクは、人物に覆われた画素領域を画像から分割することであると、ラベル付け済み画像集合中の画像ラベルは人物輪廓を含み、当該人物輪廓が囲んだ画素領域が人物に覆われた画素領域となる。
ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングする過程で、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、更にラベル付け済み画像集合、ラベル付け無し画像集合、ラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングでき、このようにして、トレーニングされたニューラルネットワークを用いて第二収集条件で収集された画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
例を挙げると、ラベル付け済み画像集合中の画像は全て空港の搭乗待合室で収集された画像であり、処理されるべき画像とラベル付け無し画像集合中の画像は全て自動車内部で収集された画像である。ラベル付け無し画像集合中の画像のいずれにもラベルが含まれていないため、ラベル付け無し画像集合を用いてニューラルネットワークをトレーニングすることができなく、空港の搭乗待合室内の環境と自動車内部の環境とが異なる(例えば、空港の搭乗待合室内の光線と自動車内部の光線とが異なり、更に例えば、空港の搭乗待合室内の物体と自動車内部の物体とが異なる)ため、ラベル付け済み画像集合のみを用いてニューラルネットワークをトレーニングすれば、ニューラルネットワークがトレーニングによって自動車内部の環境の情報を学習することができなく、そのため、トレーニングされたニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性が低い。本発明の実施例では、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け無し画像集合とラベル付け無し画像集合のラベルをトレーニングデータとしてニューラルネットワークをトレーニングでき、このようにして、ニューラルネットワークがトレーニング過程で自動車内部の環境の情報を学習でき、更に、処理結果の正確性を高くする。
ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定する一実現形態(以下に第一の実現形態と呼ぶ)では、ラベル付け済み画像集合をトレーニングデータとして、ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを得る。トレーニングされたニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得る。ラベル付け済み画像集合、ラベル付け無し画像集合、ラベル付け無し画像集合のラベルを用いてトレーニングされたニューラルネットワークをトレーニングして、画像処理ニューラルネットワークを得る。例を挙げると、ラベル付け済み画像集合に画像aを含み、ラベル付け無し画像集合に画像bを含み、そのうち、画像aのラベルがAである。ニューラルネットワークを用いて画像aを処理して、第一処理結果を得る。第一処理結果とAとの間の差異により、第一中間損失を得る。第一中間損失に基づいてニューラルネットワークのパラメータを調整して、トレーニングされたニューラルネットワークを得る。トレーニングされたニューラルネットワークを用いて画像bを処理して、第二処理結果を得て、画像bのラベルとする。
ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定する別の実現形態(以下に第二の実現形態と呼ぶ)では、ラベル付け済み画像集合に対して特徴抽出処理を行って、第一中間特徴データセットを得る。第一中間特徴データセットをトレーニングデータとし、ラベル付け済み画像集合のラベルを第一中間特徴データセットの教師情報として、サポートベクトルマシン(support vetor machine:SVM)をトレーニングして、トレーニングされたSVMを得る。ラベル付け無し画像集合に対して特徴抽出処理を行って、第二中間特徴データセットを得る。トレーニングされたSVMを用いて第二中間特徴データセットを処理して、第二中間特徴データセットのラベルを得て、ラベル付け無し画像集合のラベルとする。例を挙げると、ラベル付け済み画像集合に画像aと画像bを含み、ラベル付け無し画像集合に画像cを含み、そのうち、画像aのラベルがAであり、画像bのラベルがBである。画像aに対して特徴抽出処理を行って画像aの特徴データを得、画像bに対して特徴抽出処理を行って画像bの特徴データを得る。画像aの特徴データと画像bの特徴データを用いてSVMをトレーニングして、トレーニングされたSVMを得る。画像cに対して特徴抽出処理を行って、画像cの特徴データを得る。トレーニングされたSVMを用いて画像cを処理して、目標処理結果を得て、画像cのラベルとする。
ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定する更に別の実現形態(以下に第三の実現形態と呼ぶ)では、ラベル付け無し画像集合に対してクラスタリング処理を行って少なくとも1つのクラスタを得、ここで、各クラスタに少なくとも1枚の画像を含む。ラベルを根拠としてラベル付け済み画像集合を区別して、少なくとも1つの画像集合を得、ここで、各画像集合にそれぞれ少なくとも1枚の画像を含み、且つ各画像集合中の画像のラベルが同じである。各クラスタとの間の類似度が最も大きい画像集合をそれぞれ決定して、最大類似度画像集合とする。最大類似度画像集合のラベルをクラスタのラベル、即ちクラスタ中のデータのラベルとする。例を挙げると、ラベル付け済み画像集合に画像a、画像b、画像cを含み、ラベル付け無し画像集合に画像d、画像e、画像fを含み、そのうち、画像aのラベルと画像bのラベルが共にAであり、画像cのラベルがBである。ラベル付け無し画像集合に対してクラスタリング処理を行って第一クラスタと第二クラスタが得られ、そのうち、第一クラスタに画像dと画像eを含み、第二クラスタに画像fを含む。ラベルを根拠としてラベル付け済み画像集合を区別して第一画像集合と第二画像集合が得られ、そのうち、第一画像集合に画像aと画像bを含み、第二画像集合に画像cを含み、第一画像集合のラベルがAであり、第二画像集合のラベルがBである。第一クラスタと第一画像集合との間の類似度をs1に決定し、第一クラスタと第二画像集合との間の類似度をs2に決定し、第二クラスタと第一画像集合との間の類似度をs3に決定し、第二クラスタと第二画像集合との間の類似度をs4に決定する。s1がs2より大きい場合に、第一クラスタの最大類似度集合が第一画像集合であり、第一クラスタのラベルがAであるため、画像dのラベルと画像eのラベルを共にAに決定可能である。s1がs2より小さい場合に、第一クラスタの最大類似度集合が第二画像集合であり、第一クラスタのラベルがBであるため、画像dのラベルと画像eのラベルを共にBに決定可能である。s3がs4より大きい場合に、第二クラスタの最大類似度集合が第一画像集合であり、第二クラスタのラベルがAであるため、画像fのラベルをAに決定可能である。s3がs4より小さい場合に、第二クラスタの最大類似度集合が第二画像集合であり、第二クラスタのラベルがBであるため、画像fのラベルをBに決定可能である。
第一クラスタと第一画像集合との間の類似度を決定する一実現形態において、第一クラスタのセントロイドが画像Aであり、第一画像集合のセントロイドが画像Bであると仮定する。画像Aと画像Bとの間の類似度を決定して、第一クラスタと第一画像集合との間の類似度とする。
第一クラスタと第一画像集合との間の類似度を決定する別の実現形態において、第一クラスタ中の各画像と第一画像集合中の各画像との間の類似度をそれぞれ決定して、類似度集合を得る。類似度集合中の最大値を第一クラスタと第一画像集合との間の類似度とする。
第一クラスタと第一画像集合との間の類似度を決定する更に別の実現形態において、第一クラスタ中の各画像と第一画像集合中の各画像との間の類似度をそれぞれ決定して、類似度集合を得る。類似度集合中の最小値又は平均値を第一クラスタと第一画像集合との間の類似度とする。
同様に、第一クラスタと第一画像集合との間の類似度を決定する実現形態によって、第一クラスタと第二画像集合との間の類似度、第二クラスタと第一画像集合との間の類似度、第二クラスタと第二画像集合との間の類似度を決定することができる。
本発明の実施例では、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け無し画像集合に対してラベル付けする人件費を低減すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合、ラベル付け無し画像集合及びラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングすることで、ニューラルネットワークにトレーニング過程で第二収集条件の情報を学習させることができ、これによって、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
本発明の実施例に係る画像処理ニューラルネットワークのトレーニング方法の模式的フローチャートである図2を参照されたい。本実施例の実行主体は画像処理装置であってもよく、画像装置でなくてもよく、即ち、画像処理ニューラルネットワークのトレーニング方法の実行主体は画像処理ネットワークを用いて処理されるべき画像を処理する実行主体と同じであっても、異なってもよく、本発明の実施例は本実施例の実行主体を限定するものでない。説明の便宜上、以下に本実施例の実行主体をトレーニング装置と呼び、ここで、トレーニング装置は携帯電話、コンピュータ、タブレット、サーバ、プロセッサのいずれか1種であってもよい。
201、ラベル付け無し画像集合、ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得する。
トレーニング装置がラベル付け無し画像集合を取得する実現形態については、ステップ101で画像処理装置がラベル付け無し画像集合を取得する実現形態を参照してもよく、トレーニング装置がラベル付け済み画像集合を取得する実現形態については、ステップ101で画像処理装置がラベル付け済み画像集合を取得する実現形態を参照してもよく、ここで詳細な説明を省略する。
本発明の実施例で、第一トレーニングされるべきニューラルネットワークはいかなるニューラルネットワークであってもよい。例えば、第一トレーニングされるべきニューラルネットワークは、畳み込み層、プーリング層、正規化層、全結合層、ダウンサンプリング層、アップサンプリング層、分類器のうちの少なくとも1種のネットワーク層で重ねられてなったものであってもよい。本発明の実施例は第一トレーニングされるべきニューラルネットワークの構成を限定するものでない。
第一トレーニングされるべきニューラルネットワークを取得する一実現形態において、トレーニング装置はユーザが入力コンポーネントによって入力した第一トレーニングされるべきニューラルネットワークを受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパネル及びオーディオ入力デバイス等を含む。
第一トレーニングされるべきニューラルネットワークを取得する別の実現形態において、トレーニング装置は第二端末が送信した第一トレーニングされるべきニューラルネットワークを受信する。ここで、上記第二端末は、携帯電話、コンピュータ、タブレット、サーバ、ウェアラブルデバイスのいずれか1種であってもよい。
第一トレーニングされるべきニューラルネットワークを取得する更に別の実現形態において、トレーニング装置は自分の記憶部材から予め記憶された第一トレーニングされるべきニューラルネットワークを取得してもよい。
202、上記ラベル付け済み画像集合に基づいて、上記ラベル付け無し画像集合のラベルを得る。
ステップ102に示すように、ラベル付け済み画像集合に基づいて、ラベル付け無し画像集合のラベルを得ることができる。このステップではステップ102における第一の実現形態を採用し、ラベル付け済み画像集合をトレーニングデータとして、第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得る。第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得る。
203、上記ラベル付け済み画像集合と上記ラベル付け無し画像集合をトレーニングデータとし、上記ラベル付け無し画像集合のラベルを上記ラベル付け無し画像集合の教師情報として、上記第一トレーニングされるべきニューラルネットワークをトレーニングして、上記画像処理ニューラルネットワークを得る。
ラベル付け無し画像集合のラベルが得られた後、ラベル付け無し画像集合をトレーニングデータとして第一トレーニングされるべきニューラルネットワークをトレーニングすることができる。
ニューラルネットワークのトレーニング効果に影響する要素にはトレーニングデータの数量も含まれるため、ここで、トレーニングデータの数量が大きいほど、ニューラルネットワークのトレーニング効果が優れる。従って、本発明の実施例では、第一トレーニングされるべきニューラルネットワークをトレーニングする過程で、トレーニング効果を向上させるように、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとし、ラベル付け無し画像集合のラベルをラベル付け無し画像集合の教師情報として、第一トレーニングされるべきニューラルネットワークをトレーニングする。このようにして、トレーニングによって得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
例を挙げると、ラベル付け済み画像集合に画像aを含み、ラベル付け無し画像集合に画像bを含み、そのうち、画像aのラベルがAであり、ステップ202の処理によって画像bのラベルがBに決定された。第一トレーニングされるべきニューラルネットワークを用いて画像aを処理して、第一中間結果を得る。第一中間結果とAとの間の差異を決定して、第一中間差異を得る。第一中間差異に基づいて第一トレーニングされるべきニューラルネットワークの損失を決定し、且つ第一トレーニングされるべきニューラルネットワークの損失に基づいて第一トレーニングされるべきニューラルネットワークのパラメータを調整して、第三トレーニングされるべきニューラルネットワークを得る。第三トレーニングされるべきニューラルネットワークを用いて画像bを処理して、第二中間結果を得る。第一中間結果とBとの間の差異を決定して、第二中間差異を得る。第二中間差異に基づいて第三トレーニングされるべきニューラルネットワークの損失を決定し、且つ第三トレーニングされるべきニューラルネットワークの損失に基づいて第三トレーニングされるべきニューラルネットワークのパラメータを調整して、画像処理ニューラルネットワークを得る。
ニューラルネットワークのトレーニング効果に影響する要素にはトレーニング周期数も含まれるため、ここで、トレーニング周期数が多いほど、ニューラルネットワークのトレーニング効果が優れる。ここで、第一トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得た後、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとし、ラベル付け無し画像集合のラベルをラベル付け無し画像集合の教師情報として、第二トレーニングされるべきニューラルネットワークをトレーニングすることで、トレーニング周期数を増大し、トレーニング効果を向上させ、それによって、トレーニングされた画像処理ニューラルネットワークによる処理されるべき画像の処理結果の正確性を高くする。
ニューラルネットワークのトレーニング過程で、ニューラルネットワークが全てのトレーニングデータの処理を完了したことを、1トレーニング周期とする。例を挙げると、トレーニングデータに画像a、画像bを含む。トレーニング過程での初回の反復において、ニューラルネットワークは画像aを処理して、画像aの結果を得る。画像aの結果と画像aのラベルに基づいてニューラルネットワークの損失を得、且つニューラルネットワークの損失に基づいてニューラルネットワークのパラメータを調整して、初回の反復後のニューラルネットワークを得る。2回目の反復において、初回の反復後のニューラルネットワークは画像bを処理して、画像bの結果を得る。画像bの結果と画像bのラベルに基づいて初回の反復後のニューラルネットワークの損失を得、且つ初回の反復後のニューラルネットワークの損失に基づいて初回の反復後のニューラルネットワークのパラメータを調整して、2回目の反復後のニューラルネットワークを得る。3回目の反復において、2回目の反復後のニューラルネットワークは画像aを処理して、画像aの結果を得る。画像aの結果と画像aのラベルに基づいて2回目の反復後のニューラルネットワークの損失を得、且つ2回目の反復後のニューラルネットワークの損失に基づいて2回目の反復後のニューラルネットワークのパラメータを調整して、3回目の反復後のニューラルネットワークを得る。ここで、1番目のトレーニング周期は初回の反復と2回目の反復を含み、3回目の反復が2番目のトレーニング周期に属するものとなる。
実現可能な一形態では、第二トレーニングされるべきニューラルネットワークを用いてラベル付け済み画像集合を処理して第一結果を得、第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して第二結果を得る。第一結果とラベル付け済み画像集合のラベルとの間の差異により第一差異を得、第二結果とラベル付け無し画像集合のラベルとの間の差異により第二差異を得る。第一差異と第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る。第二トレーニングされるべきニューラルネットワークはラベル付け済み画像集合を用いて第一トレーニングされるべきニューラルネットワークをトレーニングすることによって得られたものであるため、つまり、第二トレーニングされるべきニューラルネットワークのトレーニング完了周期数が第一トレーニングされるべきニューラルネットワークのトレーニング完了周期数より大きいため、ラベル付け無し画像集合のラベルが得られた後、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとしてラベル付け無し画像集合の教師情報で第二トレーニングされるべきニューラルネットワークをトレーニングした効果は、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとしてラベル付け無し画像集合の教師情報で第一トレーニングされるべきニューラルネットワークをトレーニングした効果より優れる。
第一差異と第二差異により第二トレーニングされるべきニューラルネットワークの損失を得る一実現形態において、第一差異により第二トレーニングされるべきニューラルネットワークの初回の反復損失を決定し、且つ初回の反復損失に基づいて第二トレーニングされるべきニューラルネットワークのパラメータを調整して、初回の反復後の第二トレーニングされるべきニューラルネットワークを得る。第二差異により第二トレーニングされるべきニューラルネットワークの2回目の反復損失を決定し、且つ2回目の反復損失に基づいて初回の反復後の第二トレーニングされるべきニューラルネットワークのパラメータを調整して、画像処理ニューラルネットワークを得る。
第一差異と第二差異により第二トレーニングされるべきニューラルネットワークの損失を得る別の実現形態において、第一差異と第二差異に対して加重加算を行ったり、加重加算を行ってから一つの定数を加えたりする等の方式で、第二トレーニングされるべきニューラルネットワークの損失を得るようにしてもよい。例えば、ラベル付け無し画像集合の収集条件と処理されるべき画像の収集条件とが同じであるが、画像処理ニューラルネットワークにトレーニングで第二収集条件の情報をより多く学習させるように、第二差異の重みを第一差異の重みより大きくしてもよく、これによって、トレーニングされたニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
同類の画像間の類似度が非同類の画像間の類似度より大きいはずであるため、画像の分類処理過程で、類似度が小さい2枚の画像のラベルを同じものに決定し、類似度が大きい2枚の画像のラベルを異なるものに決定すれば、処理結果の正確性を低くしてしまう。例えば、画像aと画像bとの間の類似度がs1であり、画像aと画像cとの間の類似度がs2であり、s1がs2より小さい。ニューラルネットワークが画像a、画像b、画像cを処理する過程で、画像aのラベルと画像bのラベルを同じものに決定し、画像aのラベルと画像cのラベルを異なるものに決定すれば、得られる処理結果が誤ったものである。
処理結果の正確性を更に高くするために、選択可能な一実施形態として、「第一差異と前記第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る」ステップを実行する前に、以下のステップを実行してもよい。
21、トレーニング画像集合中の第一画像と上記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、上記トレーニング画像集合中の第一画像と上記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る。
このステップにおいて、トレーニング画像集合にラベル付け済み画像集合とラベル付け無し画像集合を含む。第一画像のラベルと第二画像のラベルとが同じであり、即ち、第一画像のカテゴリと第二画像のカテゴリとが同じである。第一画像のラベルと第三画像のラベルとが異なり、即ち、第一画像のカテゴリと第三画像のカテゴリとが異なる。第一画像と第二画像との間の類似度を決定して、第一類似度とする。第一画像と第三画像との間の類似度を決定して、第二類似度とする。
本発明の実施例では、2枚の画像間の類似度は、2枚の画像間のユークリッド距離(euclidean distance)、2枚の画像間のコサイン類似度、2枚の画像間のマハラノビス距離(mahalanobis distance)、2枚の画像間のピアソン相関係数(pearson correlation coefficient)、2枚の画像間のハミング距離(hamming distance)のうちの1種であってもよい。
22、第一類似度と第二類似度との間の差異により、トリプレット損失を得る。
第一類似度が同類の画像間の類似度であり、第二類似度が非同類の画像間の類似度であるため、第一類似度が第二類似度より大きいはずである。従って、第一類似度と第二類似度との間の差異により、トリプレット損失を得ることができる。
23、「第一差異と前記第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る」ステップは以下のステップを含む。
1、第一差異と第二差異により、カテゴリ損失を得る。
このステップの実現過程については、ステップ203における「第一差異と第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る」の実現過程を参照してもよい。このステップにおいて、第一差異と第二差異により得られた損失が第二トレーニングされるべきニューラルネットワークの損失ではなく、カテゴリ損失であることを理解されたい。
2、カテゴリ損失とトリプレット損失により、第二トレーニングされるべきニューラルネットワークの損失を得る。
実現可能な一形態では、第二トレーニングされるべきニューラルネットワークの損失がLであり、カテゴリ損失がLcであり、トリプレット損失がLtであると仮定する。L、Lc、Ltが以下の式を満たし、
式(4)
ここで、k1とk2は共に1以下の正数である。
式(4)
ここで、k1とk2は共に1以下の正数である。
別の実現可能な形態では、第二トレーニングされるべきニューラルネットワークの損失がLであり、カテゴリ損失がLcであり、トリプレット損失がLtであると仮定する。L、Lc、Ltが以下の式を満たし、
式(5)
ここで、k1とk2は共に1以下の正数である。
式(5)
ここで、k1とk2は共に1以下の正数である。
更に別の実現可能な形態では、第二トレーニングされるべきニューラルネットワークの損失がLであり、カテゴリ損失がLcであり、トリプレット損失がLtであると仮定する。L、Lc、Ltが以下の式を満たし、
式(6)
ここで、k1とk2は共に1以下の正数である。
式(6)
ここで、k1とk2は共に1以下の正数である。
同一のカテゴリに属する画像のうち、異なる画像間の類似度が異なるため、第一画像と第二画像によって第一類似度を決定し、第一画像と第三画像によって第二類似度を決定し、且つ第一類似度を第二類似度より大きくした場合に、誤差が存在する可能性がある。例えば、トレーニング画像集合に画像a、画像b、画像c、画像d、画像eを含み、そのうち、画像aのカテゴリ、画像bのカテゴリ、画像eのカテゴリが共にAであり、画像cのカテゴリと画像dのカテゴリが共にBである。画像aと画像bとの間の類似度がs1であり、画像aと画像cとの間の類似度がs2であり、画像aと画像dとの間の類似度がs3であり、画像aと画像eとの間の類似度がs4である。画像aが第一画像であり、画像bが第二画像であり、画像cが第三画像である場合に、s1が第一類似度であり、s2が第二類似度である。ニューラルネットワークをトレーニングすることで、s1をs2より大きくすることができるが、s1がs3より大きく、s4がs2より大きく、s4がs3より大きいことを確保できない。s1がs3より小さく、s4がs2より小さく、s4がs3より小さいのが誤ったことは明らかである。
上記誤りの存在で、ニューラルネットワークのトレーニングが悪くなり、更に処理結果の正確性を低くしてしまう。上記誤りの発生の確率を低くし、更に処理結果の正確性を高くするように、本発明の実施例は第一画像、第二画像、第三画像を決定する実現形態を提供する。
選択可能な一実施形態として、ステップ21を実行する前に、以下のステップを実行してもよい。
第一画像のカテゴリ内最難画像を決定して第二画像とし、第一画像のカテゴリ外最難画像を決定して第三画像とする。
本発明の実施例では、カテゴリ内最難画像対はラベルが同じ画像のうち、類似度が最も小さい2枚の画像であり、カテゴリ外最難画像対はラベルが異なる画像のうち、類似度が最も大きい2枚の画像である。カテゴリ内最難画像対に画像aと画像bを含むと仮定すれば、画像bを画像aのカテゴリ内最難画像と呼び、画像aを画像bのカテゴリ内最難画像と呼ぶ。カテゴリ外最難画像対に画像cと画像dを含むと仮定すれば、画像cを画像dのカテゴリ外最難画像と呼び、画像cを画像dのカテゴリ外最難画像と呼ぶ。
例を挙げると、画像1のカテゴリ、画像2のカテゴリ、画像3のカテゴリが全て同じであり、画像1のカテゴリが画像4のカテゴリ、画像5のカテゴリとそれぞれ異なり、画像1と画像2との間の類似度が画像1と画像3との間の類似度より小さく、画像1と画像4との間の類似度が画像1と画像5との間の類似度より小さいと仮定する。第一画像が画像1の場合に、カテゴリ内最難画像対に画像1と画像2を含み、カテゴリ外最難画像対に画像1と画像5を含み、画像2が画像1のカテゴリ内最難画像であり、画像5が画像1のカテゴリ外最難画像であり、即ち、画像2が第二画像であり、画像5が第三画像である。
第一画像のカテゴリ内最難画像を第二画像とし、第一画像のカテゴリ外最難画像を第三画像として、第一画像と第二画像により第一類似度を決定し、第一画像と第三画像により第二類似度を決定し、且つ第一類似度と第二類似度との間の差異に基づいて第二トレーニングされるべきニューラルネットワークの損失を決定することで、第二トレーニングされるべきニューラルネットワークにトレーニング過程で画像のカテゴリの区別能力を高めさせることができる。
トレーニング画像集合のうちの収集条件が第二収集条件の画像の数量を更に増加して第二トレーニングされるべきニューラルネットワークのトレーニング効果を向上させるために、一部の実施例では、ラベル付け無し画像集合を第二トレーニングされるべきニューラルネットワークに入力する前に、ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得、且つ増強が得られた画像集合とラベル付け無し画像集合をトレーニングデータとして第二トレーニングされるべきニューラルネットワークをトレーニングするようにしてもよい。このようにして、第二トレーニングされるべきニューラルネットワークのトレーニングデータを拡張する効果を達成可能である。
増強された画像集合とラベル付け無し画像集合のラベルが同じであるため、第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合と増強された画像集合を処理して得られた結果を第二結果とし、第二結果とラベル付け無し画像集合のラベルとの間の差異により第二差異を得ることができる。
例(例2)を挙げると、ラベル付け無し画像集合に画像aと画像bを含み、画像aのラベルがAであり、画像bのラベルがBである。画像aに対してデータ増強処理を行って画像cを得、画像bに対してデータ増強処理を行って画像dを得、そのため、画像cのラベルがAであり、画像dのラベルがBである。第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合と増強された画像集合を処理して得られた第二結果は結果a、結果b、結果c、結果dを含み、そのうち、結果aは第二トレーニングされるべきニューラルネットワークを用いて画像aを処理することによって得られたものであり、結果bは第二トレーニングされるべきニューラルネットワークを用いて画像bを処理することによって得られたものであり、結果cは第二トレーニングされるべきニューラルネットワークを用いて画像cを処理することによって得られたものであり、結果dは第二トレーニングされるべきニューラルネットワークを用いて画像dを処理することによって得られたものである。
本発明の一部の実施例では、上記データセット増強処理は、回転処理、消去処理、トリミング処理、ぼかし処理のうちの少なくとも1種を含む。
画像に対する回転処理は、画像の幾何中心点を回転中心とし、基準角度を回転角度として、画像を回転させることであり、ここで、基準角度はユーザの要求に応じて調整可能である。画像に対して消去処理を行うことで、画像中の任意の一つの画素領域における画像内容を除去できる。例えば、当該画素領域中の画素値を0に調整する。画像に対するトリミング処理は画像から所定サイズの画像を切り取ることであり、ここで、所定サイズはユーザの要求に応じて調整可能である。画像に対してぼかし処理を行うことで、画像中の少なくとも一部の内容をぼかすことができる。
本発明の実施例に係る画像処理ニューラルネットワークのトレーニング方法においては、第一収集条件で収集された画像集合に基づいて第二収集条件で収集された画像集合にラベル付けし、これによって、人件費を節約すると共に、ラベル付けの効率を高くすることができる。第一収集条件で収集された画像集合と第二収集条件で収集された画像集合を用いて第一トレーニングされるべきニューラルネットワークをトレーニングして、画像処理ニューラルネットワークを得ることができ、また、画像処理ニューラルネットワークによって第二収集条件で収集された画像を処理して得られた処理結果の正確性が高い。任意の収集条件に対しても、本発明の実施例に係る技術的解決手段に基づいて、適合する画像処理ニューラルネットワークを得ることができ、ここで、収集条件に適合する画像処理ニューラルネットワークとは画像処理ニューラルネットワークで当該収集条件で収集された画像を処理して得られる処理結果の正確性が高いものを指す。
本発明の実施例に係る技術的解決手段に基づいて、本発明の実施例は一部の可能な応用シーンを更に提供する。
シーン1では、政府や企業、個人の安全管理意識の強化及びインテリジェントハードウェア装置の普及に伴い、顔認識機能付きの出入管理装置がますます実用化されるようになっている。一部の実施例では、出入管理装置はカメラによって訪問者の顔画像を収集して認識待ち画像とし、ニューラルネットワークを用いて認識待ち画像を処理して訪問者の身元を決定する。しかし、異なる応用シーンに対応して、出入管理装置が認識待ち画像を収集する時の収集条件が異なる。従って、異なる応用シーンでの出入管理装置の認識正確性を如何に効率的に高くするかは非常に重要な意義を有することである。
例えば、A社のゲートに出入管理装置aが取り付けられており、且つ所定時間使用されていた。A社はオフィスビル内に出入管理装置bを新しく取り付けた。つまり、出入管理装置aが室外に取り付けられ、出入管理装置bが室内に取り付けられている。出入管理装置aが認識待ち画像を収集する時の収集条件と出入管理装置bが認識待ち画像を収集する時の収集条件が異なることは明らかである。収集条件が異なるため、画像処理ニューラルネットワークの認識正確性が低い。出入管理装置aには、出入管理装置aが収集した、A社の社員の顔を含む画像(以下に画像集合cと呼ぶ)によってトレーニングして得られた第一ニューラルネットワークが使用されていると仮定し、注意すべきなのは、画像集合c中の画像には画像中の人物の身元(例えば、張三、李四、王五)を含むラベルが全て含まれていることである。第一ニューラルネットワークを出入管理装置bに適用して得られた認識正確性が低い。
出入管理装置bの認識正確性を高くするために、A社の管理者は出入管理装置bによってA社の社員の顔を含む画像(以下に画像集合dと呼ぶ)を収集し、且つ第一ニューラルネットワークを用いて画像集合dを処理して、画像集合dのラベルを得ることができる。画像集合cと画像集合dをトレーニングデータとし、画像集合dのラベルを画像集合dの教師情報として、第一ニューラルネットワークをトレーニングして、第二ニューラルネットワークを得る。第二ニューラルネットワークを出入管理装置bに配置することで、出入管理装置bの認識正確性を高くすることができる。
シーン2では、公共の場所でのカメラの数量の急速な増加に伴い、大量のビデオストリームによってビデオストリーム中の人物の属性を如何に効率的に決定し、且つ人物の属性により人物の行方を決定するかは重要な意義を有することである。
場所Bで、サーバは、空港の搭乗待合室内の監視カメラ(以下に監視カメラeと呼ぶ)との間に通信接続があり、当該通信接続によって、監視カメラeの収集したビデオストリーム(以下に第一ビデオストリームと呼ぶ)を取得し、且つ監視カメラeの収集した人物を含む画像(以下に画像集合fと呼ぶ)によってトレーニングして得られた第三ニューラルネットワークを用いて第一ビデオストリーム中の画像を処理して、第一ビデオストリーム中の人物の属性を得ることができ、注意すべきなのは、画像集合f中の画像のそれぞれには、上着の色、ズボンの色、ズボンの長さ、帽子のスタイル、靴の色、傘をさすかどうか、バッグの種類、マスクの有無、髪型、性別のうちの少なくとも1種を含む人物の属性を含むラベルが含まれていることである。例えば、第一ビデオストリームは画像gと画像hを含む。第三ニューラルネットワークを用いて第一ビデオストリームを処理して、画像gにおける人物の属性に白い上着、黒いズボン、メガネをかけていない、短い髪、女性を含むことと決定し、画像hにおける人物の属性に白い上着、黒いズボン、白い靴、メガネをかけている、マスクをかけている、傘を手に持っている、短い髪、男性を含むことと決定した。
場所Bの関連法執行官は、交差点での歩行者の属性を取得するために、交差点に監視カメラiを新しく取り付けた。空港の搭乗待合室内の環境が交差点の環境と異なるため、第三ニューラルネットワークを用いて監視カメラiを処理すれば、得られる歩行者の属性の正確性が低い。
本発明の実施例に係る技術的解決手段によれば、場所Bの関連法執行官は監視カメラiによって歩行者を含む画像(以下に画像集合jと呼ぶ)を収集し、第三ニューラルネットワークを用いて画像集合jを処理して、画像集合jのラベルを得ることができる。画像集合fと画像集合jをトレーニングデータとし、画像集合jのラベルを画像集合jの教師情報として、第三ニューラルネットワークをトレーニングして、第4ニューラルネットワークを得る。第4ニューラルネットワークを用いて監視カメラiの収集した第二ビデオストリームを処理して、得られる第二ビデオストリーム中の歩行者の属性の正確性を高くすることができる。
シーン3では、道路での車両の増加に伴い、道路交通事故を如何に防止するかは注目されてきており、ここで、人為的要因は道路交通事故の原因で占める割合が大きく、それは運転者の注意力散漫、注意力低下等の原因で発生する脇見運転を含む。従って、運転者が脇見運転しているかどうかを如何に効率的に監視するかは非常に重要な意義を有することである。
車載端末は車両に取り付けられたカメラによって運転者の顔部を含む画像を収集し、ニューラルネットワークを用いて運転者の顔部を含む画像を処理して、運転者が脇見運転しているかどうかを決定できる。
C社は運転者注意力監視手段の供給業者であり、C社はD社の車種kにおけるカメラで収集された運転者の顔部を含む画像(以下に画像集合mと呼ぶ)を用いて第5ニューラルネットワークをトレーニングして、第6ニューラルネットワークを得る。注意すべきなのは、画像集合m中の画像のそれぞれには、運転者が脇見運転していること又は運転者が脇見運転していないことを含むラベルが含まれていることである。第6ニューラルネットワークを車種kに配置すれば、車種kの車載端末は第6ニューラルネットワークを用いて運転者が脇見運転しているかどうかを決定できる。
現在、D社で新しい車種(以下に車種nと呼ぶ)が生産できており、C社から車種nに運転者注意力監視手段を提供することがD社に求められる。車種kに取り付けられたカメラ(以下にカメラpと呼ぶ)が車種nに取り付けられたカメラと異なり、且つ車種kの内部環境が車種nの内部環境と異なるため、第6ニューラルネットワークを車種nに配置すれば、第6ニューラルネットワークによって得られる監視結果(運転者が脇見運転していること又は運転者が脇見運転していないことを含む)の正確性が低い。
本発明の実施例に係る技術的解決手段によれば、C社の職員はカメラpによって運転者の顔部を含む画像(以下に画像集合qと呼ぶ)を収集し、且つ第6ニューラルネットワークを用いて画像集合qを処理して、画像集合qのラベルを得ることができる。画像集合mと画像集合qをトレーニングデータとし、画像集合qのラベルを画像集合qの教師情報として、第6ニューラルネットワークをトレーニングして、第7ニューラルネットワークを得る。第7ニューラルネットワークを車種nに配置し、車種nの車載端末は第7ニューラルネットワークを用いて運転者が脇見運転しているかどうかを決定し、得られる監視結果の正確性が高い。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序を意味して実施プロセスに対する如何なる制限を構成せず、各ステップの具体的な実行順序はその機能と可能な内在的論理で確定されるべきであることが当業者に理解される。
以上において本発明の実施例の方法を詳細に説明したが、以下、本発明の実施例の装置を提供する。
本発明の実施例に係る画像処理装置の構造的模式図である図3を参照されたく、当該装置1は、
処理されるべき画像を取得するように構成される取得部11と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得るように構成される処理部12であって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部12とを備える。
処理されるべき画像を取得するように構成される取得部11と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得るように構成される処理部12であって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部12とを備える。
本発明のいずれか1つの実施形態によれば、前記取得部11は、更に、前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得するように構成され、
前記処理部12は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置1は、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部13を更に備える。
前記処理部12は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置1は、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部13を更に備える。
本発明のいずれか1つの実施形態によれば、前記処理部12は、更に、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得るように構成される。
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得るように構成される。
本発明のいずれか1つの実施形態によれば、前記処理部12は、更に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得るように構成される。
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得るように構成される。
本発明のいずれか1つの実施形態によれば、前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記装置1は、前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部14であって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部14と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部15とを更に備え、
前記処理部12は、更に、前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される。
前記装置1は、前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部14であって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部14と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部15とを更に備え、
前記処理部12は、更に、前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される。
本発明のいずれか1つの実施形態によれば、前記装置1は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部16であって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部16を更に備える。
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部16であって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部16を更に備える。
本発明のいずれか1つの実施形態によれば、前記装置1は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得るように構成されるデータ増強処理部17を更に備え、
前記処理部12は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得るように構成される。
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得るように構成されるデータ増強処理部17を更に備え、
前記処理部12は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得るように構成される。
本発明のいずれか1つの実施形態によれば、前記データセット増強処理は、回転処理、消去処理、トリミング処理、ぼかし処理のうちの少なくとも1種を含む。
本発明のいずれか1つの実施形態によれば、画像の前記収集条件は、前記画像を収集するイメージング装置のパラメータを含む。
本発明の実施例及び他の実施例では、「一部」は、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェア等であってもよく、当然ながら、ユニットであってもよく、更にモジュール又は非モジュール化のものであってもよい。
本発明の実施例では、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け画像集合に対してラベル付けする人件費を低減すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合、ラベル付け無し画像集合及びラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングすることで、ニューラルネットワークにトレーニング過程で第二収集条件の情報を学習させることができ、これによって、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
一部の実施例では、本発明の実施例で提供された装置が備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その実現については、上記方法実施例の説明を参照してよく、簡単化するために、ここで重複説明は割愛する。
図4は本発明の実施例に係る画像処理装置のハードウェアの構造的模式図である。当該画像処理装置2はプロセッサ21、メモリ22、入力装置23及び出力装置24を含む。当該プロセッサ21、メモリ22、入力装置23及び出力装置24は、各種のポート、伝送回線又はバス等を含むコネクタによって結合され、本発明の実施例はこれを限定しない。本発明の各実施例では、結合とは直接的接続又は他のデバイスを介した間接的接続を含む特定の方式による相互関連であることを指し、例えば各種のポート、伝送回線、バス等によって接続されてもよいことを理解すべきである。
プロセッサ21は、1つ又は複数のグラフィックスプロセッシングユニット(graphics processing unit:GPU)であってもよく、1つのGPUである場合に、当該GPUがシングルコアGPUであっても、マルチコアGPUであってもよい。一部の実施例では、プロセッサ21は複数のGPUで構成されたプロセッサ群であってもよく、複数のプロセッサ同士が1つ又は複数のバスを介して互いに結合される。一部の実施例では、当該プロセッサは更に他の種類のプロセッサ等であってもよく、本発明の実施例はこれを限定するものではない。
メモリ22はコンピュータプログラム指令を記憶し、本発明の解決手段のプログラムコードを含む各種のコンピュータプログラムコードを実行するように構成されてもよい。選択可能に、メモリは、ランダムアクセスメモリ(random access memory:RAM)、読み出し専用メモリ(read-only memory:ROM)、消去可能なプログラマブル読み取り専用メモリ(erasable programmable read only memory:EPROM)又はコンパクトディスク読み取り専用メモリ(compact disc read-only memory:CD-ROM)を含むが、それらに限定されなく、当該メモリは関連指令及びデータを記憶するように構成される。
入力装置23はデータ及び/又は信号を入力するように構成され、出力装置24はデータ及び/又は信号を出力するように構成される。入力装置23と出力装置24は単独したデバイスであってもよく、一体化したデバイスであってもよい。
本発明の実施例では、メモリ22は関連指令を記憶するように構成されてもよいし、関連データを記憶するように構成されてもよいことが理解され、例えば、当該メモリ22は入力装置23によって取得された処理されるべき画像を記憶するように構成されてもよいし、プロセッサ21によって得られた処理結果等を記憶するように構成されてもよく、本発明の実施例は当該メモリに記憶されるデータを限定するものではない。
図4に示すのが画像処理装置の簡素化設計であることが理解される。実際の応用において、画像処理装置は更にそれぞれ必要な他の素子を含んでもよく、任意数量の入力/出力装置、プロセッサ、メモリ等を含むが、それらに限定されなく、本発明の実施例を実現可能な全ての画像処理装置は全て本発明の保護範囲に含まれる。
なお、本明細書で発明された実施例を組み合わせて記載された各例のユニット及びアルゴリズムのステップが、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアの組み合わせで実現され得ることは、当業者であれば想到できる。これらの機能がハードウェアの形態で実行されるか、又はソフトウェアの形態で実行されるかは、技術的解決手段の特定の応用及び設計制約条件によって決定される。専門技術者は各特定の応用について、記述された機能を異なる方法を用いて実現できるが、このような実現は本発明の範囲を超えたものと理解すべきではない。
当業者であれば、説明を簡単化及び簡潔化するために、上述説明されたシステム、装置及びユニットの具体的な動作プロセスは、前記方法の実施例における対応するプロセスを参照すればよいことが明確に理解され、ここでは説明を省略する。当業者であれば、本発明の各実施例で説明された重点はそれぞれ異なっており、説明を簡単化及び簡潔化するために、同じ又は類似する部分については異なる実施例で詳細に説明されないことがあるため、ある実施例で説明されなく、又は詳細な説明をなされない部分については他の実施例の記載を参照すればよいことが明確に理解される。
本発明により提供される一部の実施例では、発明されるシステム、装置及び方法は、他の形態で実現できることを理解すべきである。例えば、上述説明された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の形態で分割してもよく、例えば複数のユニット又はコンポーネントは組み合わせてもよく、又は別のシステムに統合してもよく、又は一部の特徴を省略もしくは実行しなくてもよい。一方、示される又は議論される相互の結合又は直接結合又は通信接続は一部のインタフェース、機器又はユニットを介した間接的結合又は通信接続であり得、電気的、機械的又は他の形態であり得る。
分離部材として説明されたユニットは物理的に分離されたものであってもよく又は物理的に分離されるものでなくてもよく、ユニットとして示された部材は物理ユニットであってもよく又は物理ユニットでなくてもよく、一箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際の必要に応じてその中の一部又は全てのユニットを選択して本実施例の解決手段の目的を実現できる。
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに統合されてもよく、個々のユニットは単独で物理的に存在してもよく、二つ又は二つ以上のユニットは一つのユニットに統合されてもよい。
上記実施例では、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせにより全体的又は部分的に実現されることができる。ソフトウェアにより実現される時に、コンピュータプログラム製品として全体的又は部分的に実現されることができる。前記コンピュータプログラム製品は1つ又は複数のコンピュータ指令を含む。コンピュータに前記コンピュータプログラム指令をロードし、実行する時に、本発明の実施例に記載のプロセス又は機能が全体的又は部分的に発生する。前記コンピュータは汎用コンピュータ、専用コンピュータ、コンピュータネットワーク又は他のプログラマブルデバイスであってよい。前記コンピュータ指令はコンピュータ読み取り可能な記憶媒体に記憶されてもよいし、前記コンピュータ読み取り可能な記憶媒体により伝送されてもよい。前記コンピュータ指令は1つのウェブサイト、コンピュータ、サーバ又はデータセンタから有線(例えば、同軸ケーブル、光ファイバー、デジタル加入者回線(digital subscriber line:DSL))又は無線(例えば、赤外線、無線、マイクロ波等)で別のウェブサイト、コンピュータ、サーバ又はデータセンタに伝送可能である。前記コンピュータ読み取り可能な記憶媒体は、コンピュータがアクセス可能ないかなる利用可能な媒体或いは1つ又は複数の利用可能な媒体を含んで統合されたサーバ、データセンタ等のデータ記憶装置であってもよい。前記利用可能な媒体は磁気媒体(例えば、フロッピーディスク、ハードディスク、磁気テープ)、光媒体(例えば、デジタル多用途ディスク(digital versatile disc:DVD))又は半導体媒体(例えば、ソリッドステートディスク(solid state disk:SSD))等であってもよい。
当業者であれば、上記実施例方法におけるプロセスの全て又は一部の実現について、このプロセスはコンピュータプログラムが関連ハードウェアに指令を出すことで完了することができ、このプログラムはコンピュータ読み取り可能な記憶媒体に記憶可能であり、このプログラムが実行される時に、上記各方法実施例のプロセスを含むできることが理解される。上記の記憶媒体は、読み出し専用メモリ(read-only memory:ROM)又はランダムアクセスメモリ(random access memory:RAM)、磁気ディスク又は光ディスク等の種々のプログラムコードを記憶できる媒体を含む。
本発明の実施例では、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け無し画像集合に対してラベル付けする人件費を低減すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合、ラベル付け無し画像集合及びラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングすることで、ニューラルネットワークにトレーニング過程で第二収集条件の情報を学習させることができ、これによって、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。
本発明は、コンピュータ技術分野に関し、特に画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体に関する。
Claims (18)
- 処理されるべき画像を取得することと、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理することで、前記処理されるべき画像の処理結果を得ることであって、前記画像処理ニューラルネットワークは、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なることとを含む
画像処理方法。 - 前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得することと、
前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることと、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、前記画像処理ニューラルネットワークを得ることとを更に含む
請求項1に記載の方法。 - 前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることは、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、第二トレーニングされるべきニューラルネットワークを得ることと、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理することで、前記ラベル付け無し画像集合のラベルを得ることとを含む
請求項2に記載の方法。 - 前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、前記画像処理ニューラルネットワークを得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得ると共に、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることと、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得ると共に、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得ることと、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることと、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整することで、前記画像処理ニューラルネットワークを得ることとを含む
請求項3に記載の方法。 - 前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、前記方法は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得ることであって、前記トレーニング画像集合は、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なることと、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得ることとを更に含み、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることは、
前記第一差異と前記第二差異により、カテゴリ損失を得ることと、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることとを含む
請求項4に記載の方法。 - トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、前記方法は、
第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定することであって、前記カテゴリ内最難画像は、カテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像は、カテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合は、ラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合は、ラベルが前記第一画像のラベルと異なる画像を含むことを更に含む
請求項5に記載の方法。 - 前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記方法は、前記ラベル付け無し画像集合に対してデータ増強処理を行うことで、増強された画像集合を得ることを更に含み、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理することで、前記第二結果を得ることを含む
請求項4~6のいずれか一項に記載の方法。 - 処理されるべき画像を取得するように構成される取得部と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理することで、前記処理されるべき画像の処理結果を得るように構成される処理部であって、前記画像処理ニューラルネットワークは、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部とを備える
画像処理装置。 - 前記取得部は、更に、前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得するように構成され、
前記処理部は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置は、更に、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部を備える
請求項8に記載の画像処理装置。 - 前記処理部は、更に、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、第二トレーニングされるべきニューラルネットワークを得ると共に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理することで、前記ラベル付け無し画像集合のラベルを得るように構成される
請求項9に記載の画像処理装置。 - 前記処理部は、更に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得ると共に、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得ると共に、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整することで、前記画像処理ニューラルネットワークを得るように構成される
請求項10に記載の画像処理装置。 - 前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記装置は、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部であって、前記トレーニング画像集合は、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部とを更に備え、
前記処理部は、更に、
前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される
請求項11に記載の画像処理装置。 - 前記装置は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部であって、前記カテゴリ内最難画像は、カテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像は、カテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部を更に備る
請求項12に記載の画像処理装置。 - 前記装置は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行うことで、増強された画像集合を得るように構成されるデータ増強処理部を更に備え、
前記処理部は、前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理することで、前記第二結果を得るように構成される
請求項10~12のいずれか一項に記載の画像処理装置。 - 請求項1~7のいずれか一項に記載の方法を実行するように構成されるプロセッサ。
- プロセッサ、送信装置、入力装置、出力装置及びメモリを備え、
前記メモリは、コンピュータ指令を含むコンピュータプログラムコードを記憶するように構成され、
前記プロセッサが前記コンピュータ指令を実行する場合に、請求項1~7のいずれか一項に記載の方法を実行する
電子機器。 - プログラム指令を含むコンピュータプログラムが記憶されており、
前記プログラム指令がプロセッサによって実行される場合に、前記プロセッサに請求項1~7のいずれか一項に記載の方法を実行させる
コンピュータ読み取り可能な記憶媒体。 - コンピュータ読み取り可能なコードを含み、
前記コンピュータ読み取り可能なコードが電子機器で運行して、前記電子機器内のプロセッサにより実行される場合に、請求項1~7のいずれか一項に記載の方法を実現する
コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010264926.7A CN111598124B (zh) | 2020-04-07 | 2020-04-07 | 图像处理及装置、处理器、电子设备、存储介质 |
CN202010264926.7 | 2020-04-07 | ||
PCT/CN2021/079122 WO2021203882A1 (zh) | 2020-04-07 | 2021-03-04 | 姿态检测及视频处理方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022531763A true JP2022531763A (ja) | 2022-07-11 |
Family
ID=72185159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021564216A Pending JP2022531763A (ja) | 2020-04-07 | 2021-03-04 | 画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2022531763A (ja) |
KR (1) | KR20210137213A (ja) |
CN (1) | CN111598124B (ja) |
TW (1) | TW202139062A (ja) |
WO (1) | WO2021203882A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598124B (zh) * | 2020-04-07 | 2022-11-11 | 深圳市商汤科技有限公司 | 图像处理及装置、处理器、电子设备、存储介质 |
US20220147761A1 (en) * | 2020-11-10 | 2022-05-12 | Nec Laboratories America, Inc. | Video domain adaptation via contrastive learning |
CN112749652B (zh) * | 2020-12-31 | 2024-02-20 | 浙江大华技术股份有限公司 | 身份信息确定的方法和装置、存储介质及电子设备 |
KR102403174B1 (ko) * | 2021-12-21 | 2022-05-30 | 주식회사 인피닉 | 중요도에 따른 데이터 정제 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
CN114742828B (zh) * | 2022-06-09 | 2022-10-14 | 武汉东方骏驰精密制造有限公司 | 基于机器视觉的工件定损智能分析方法及装置 |
TWI825980B (zh) * | 2022-09-07 | 2023-12-11 | 英業達股份有限公司 | 記憶體內計算的模擬器的設定方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019032821A (ja) * | 2017-06-26 | 2019-02-28 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術 |
CN109902798A (zh) * | 2018-05-31 | 2019-06-18 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
CN110889463A (zh) * | 2019-12-10 | 2020-03-17 | 北京奇艺世纪科技有限公司 | 一种样本标注方法、装置、服务器及机器可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836641B2 (en) * | 2014-12-17 | 2017-12-05 | Google Inc. | Generating numeric embeddings of images |
CN105046196B (zh) * | 2015-06-11 | 2018-04-17 | 西安电子科技大学 | 基于级联卷积神经网络的前车车辆信息结构化输出方法 |
CN106096538B (zh) * | 2016-06-08 | 2019-08-23 | 中国科学院自动化研究所 | 基于定序神经网络模型的人脸识别方法及装置 |
CN106971556B (zh) * | 2017-05-16 | 2019-08-02 | 中山大学 | 基于双网络结构的卡口车辆重识别方法 |
US10515295B2 (en) * | 2017-10-27 | 2019-12-24 | Adobe Inc. | Font recognition using triplet loss neural network training |
CN110188829B (zh) * | 2019-05-31 | 2022-01-28 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、目标识别的方法及相关产品 |
CN110532345A (zh) * | 2019-07-15 | 2019-12-03 | 北京小米智能科技有限公司 | 一种未标注数据的处理方法、装置及存储介质 |
CN110472737B (zh) * | 2019-08-15 | 2023-11-17 | 腾讯医疗健康(深圳)有限公司 | 神经网络模型的训练方法、装置和医学图像处理系统 |
CN110647938B (zh) * | 2019-09-24 | 2022-07-15 | 北京市商汤科技开发有限公司 | 图像处理方法及相关装置 |
CN111598124B (zh) * | 2020-04-07 | 2022-11-11 | 深圳市商汤科技有限公司 | 图像处理及装置、处理器、电子设备、存储介质 |
-
2020
- 2020-04-07 CN CN202010264926.7A patent/CN111598124B/zh active Active
-
2021
- 2021-03-04 KR KR1020217034492A patent/KR20210137213A/ko active Search and Examination
- 2021-03-04 JP JP2021564216A patent/JP2022531763A/ja active Pending
- 2021-03-04 WO PCT/CN2021/079122 patent/WO2021203882A1/zh active Application Filing
- 2021-03-24 TW TW110110670A patent/TW202139062A/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019032821A (ja) * | 2017-06-26 | 2019-02-28 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術 |
CN109902798A (zh) * | 2018-05-31 | 2019-06-18 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
CN110889463A (zh) * | 2019-12-10 | 2020-03-17 | 北京奇艺世纪科技有限公司 | 一种样本标注方法、装置、服务器及机器可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111598124B (zh) | 2022-11-11 |
KR20210137213A (ko) | 2021-11-17 |
CN111598124A (zh) | 2020-08-28 |
WO2021203882A1 (zh) | 2021-10-14 |
TW202139062A (zh) | 2021-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022531763A (ja) | 画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体 | |
Dai et al. | TIRNet: Object detection in thermal infrared images for autonomous driving | |
WO2021238281A1 (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
WO2021155792A1 (zh) | 一种处理装置、方法及存储介质 | |
WO2021073311A1 (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
WO2021047587A1 (zh) | 手势识别方法、电子设备、计算机可读存储介质和芯片 | |
CN111767831B (zh) | 用于处理图像的方法、装置、设备及存储介质 | |
WO2021175278A1 (zh) | 一种模型更新方法以及相关装置 | |
WO2024001123A1 (zh) | 基于神经网络模型的图像识别方法、装置及终端设备 | |
WO2022052375A1 (zh) | 车辆识别方法及装置、电子设备及存储介质 | |
Gawande et al. | SIRA: Scale illumination rotation affine invariant mask R-CNN for pedestrian detection | |
Karthika et al. | A novel convolutional neural network based architecture for object detection and recognition with an application to traffic sign recognition from road scenes | |
CN114627269A (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
CN116188392A (zh) | 图像处理方法、计算机可读存储介质以及计算机终端 | |
Wang et al. | A light iris segmentation network | |
Dou et al. | An improved yolov5s fire detection model | |
Ahmad et al. | Embedded deep vision in smart cameras for multi-view objects representation and retrieval | |
CN113449550A (zh) | 人体重识别数据处理的方法、人体重识别的方法和装置 | |
CN113343903B (zh) | 一种自然场景下的车牌识别方法及系统 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
Joseph Raj et al. | Bilingual text detection from natural scene images using faster R-CNN and extended histogram of oriented gradients | |
CN114882314A (zh) | 模型训练方法及相关产品、图像处理方法及相关产品 | |
WO2021189321A1 (zh) | 一种图像处理方法和装置 | |
CN114283087A (zh) | 一种图像去噪方法及相关设备 | |
Li et al. | Spatiotemporal feature extraction for pedestrian re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230627 |