JP2022531763A

JP2022531763A - 画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体

Info

Publication number: JP2022531763A
Application number: JP2021564216A
Authority: JP
Inventors: ヤンボージャオ; ジャンポンジャン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-04-07
Filing date: 2021-03-04
Publication date: 2022-07-11
Also published as: CN111598124B; KR20210137213A; CN111598124A; WO2021203882A1; TW202139062A

Abstract

本発明は、画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体を発明する。当該方法は、処理されるべき画像を取得することと、画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得ることであって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なることとを含む。【選択図】図１

Description

（関連出願の相互参照）
本開示は、出願番号が２０２０１０２６４９２６．７であり、出願日が２０２０年４月７日である中国特許出願に基づいて提案され、且つこの中国特許出願の優先権を主張し、この中国特許出願の全てが参照として本発明に組み込まれる。

本発明は、コンピュータ技術分野に関し、特に画像処理及び装置、プロセッサ、電子機器並びに記憶媒体に関する。

強い性能のおかげで、近年、ニューラルネットワークは画像処理分野で広く使用されている。ニューラルネットワークを使用する前に、ニューラルネットワークをトレーニングすることが必要になっている。従来の方法では、トレーニングデータを用いてニューラルネットワークをトレーニングしてトレーニング済みニューラルネットワークを得、且つトレーニング済みニューラルネットワークを異なる応用シーンに適用するようになっている。しかしながら、１つの応用シーンのトレーニングデータに基づいてトレーニングされたニューラルネットワークを他の応用シーンに適用する場合は、得られる処理結果の正確性が低い。

本発明は、画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体を提供する。

第一態様においては、
処理されるべき画像を取得することと、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得ることであって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なることとを含む画像処理方法を提供する。

当該態様においては、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け無し画像集合に対してラベル付けする人件費を低減すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合、ラベル付け無し画像集合及びラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングすることで、ニューラルネットワークにトレーニング過程で第二収集条件の情報を学習させることができ、これによって、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。

本発明のいずれか１つの実施形態によれば、前記方法は、
前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得することと、
前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることと、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得ることとを更に含む。

当該実施形態では、ラベル付け済み画像集合に基づいてラベル付け無し画像集合に対してラベル付けすることで、人件費を節約すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合とラベル付け無し画像集合を用いて第一トレーニングされるべきニューラルネットワークをトレーニングすることで、第一トレーニングされるべきニューラルネットワークにトレーニング過程でラベル付け無し画像集合の収集条件の情報を学習させて、画像処理ニューラルネットワークを得ることができる。このようにして、画像処理ニューラルネットワークを用いて処理されるべき画像を処理することで、処理結果の正確性を高くすることができる。

本発明のいずれか１つの実施形態によれば、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることは、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得ることと、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得ることとを含む。

当該実施形態では、第一トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得た後、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとし、ラベル付け無し画像集合のラベルをラベル付け無し画像集合の教師情報として、第二トレーニングされるべきニューラルネットワークをトレーニングすることで、トレーニング周期数を増大し、トレーニング効果を向上させ、それによって、トレーニングして得られた画像処理ニューラルネットワークによる処理されるべき画像に対する処理結果の正確性を高くする。

本発明のいずれか１つの実施形態によれば、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることと、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得ることと、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることと、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得ることとを含む。

当該実施形態では、第一差異と第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得、且つ第二トレーニングされるべきニューラルネットワークの損失に基づいて第二トレーニングされるべきニューラルネットワークのパラメータを調整することで、第二トレーニングされるべきニューラルネットワークのトレーニングを遂行して、画像処理ニューラルネットワークを得ることができる。

本発明のいずれか１つの実施形態によれば、前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、前記方法は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得ることであって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なることと、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得ることとを更に含み、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることは、
前記第一差異と前記第二差異により、カテゴリ損失を得ることと、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることとを含む。

当該実施形態では、第一類似度と第二類似度によりトリプレット損失を得、且つ第二トレーニングされるべきニューラルネットワークのトレーニング過程で、カテゴリ損失とトリプレット損失により第二トレーニングされるべきニューラルネットワークの損失を決定することで、第二トレーニングされるべきニューラルネットワークにトレーニング過程で画像のカテゴリの区別能力を高めさせることができる。

本発明のいずれか１つの実施形態によれば、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、前記方法は、
第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定することであって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含むことを更に含む。

上記形態によれば、同類の画像間の類似度最小値が非同類の画像間の類似度最大値よりも大きいため、いずれか２枚の同類の画像間の類似度がいずれか２枚の非同類の画像間の類似度よりも大きい。

本発明のいずれか１つの実施形態によれば、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記方法は、
前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得ることを更に含み、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得ることを含む。

当該実施形態では、ラベル付け無し画像集合に対してデータ増強処理を行って、収集条件がラベル付け無し画像集合の収集条件と同じな画像の数量を増加することによって、更に第二トレーニングされるべきニューラルネットワークのトレーニング効果を向上させる。このようにして、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。

本発明のいずれか１つの実施形態によれば、前記データセット増強処理は、回転処理、消去処理、トリミング処理、ぼかし処理のうちの少なくとも１種を含む。

本発明のいずれか１つの実施形態によれば、画像の前記収集条件は、前記画像を収集するイメージング装置のパラメータを含む。

第二態様においては、
処理されるべき画像を取得するように構成される取得部と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得るように構成される処理部であって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部とを備える画像処理装置を提供する。

本発明のいずれか１つの実施形態によれば、前記取得部は、更に、前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得するように構成され、
前記処理部は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置は、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部を更に備える。

本発明のいずれか１つの実施形態によれば、前記処理部は、更に、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得るように構成される。

本発明のいずれか１つの実施形態によれば、前記処理部は、更に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得るように構成される。

本発明のいずれか１つの実施形態によれば、前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記装置は、前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部であって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部とを更に備え、
前記処理部は、更に、前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される。

本発明のいずれか１つの実施形態によれば、前記装置は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部であって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部を更に備える。

本発明のいずれか１つの実施形態によれば、前記装置は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得るように構成されるデータ増強処理部を更に備え、
前記処理部は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得るように構成される。

第三態様においては、上記第一態様及びそのいずれか１種の実現可能な形態の方法を実行するように構成されるプロセッサを提供する。

第４態様においては、プロセッサ、送信装置、入力装置、出力装置及びメモリを備え、前記メモリはコンピュータ指令を含むコンピュータプログラムコードを記憶するように構成され、前記プロセッサが前記コンピュータ指令を実行する場合に、上記第一態様及びそのいずれか１種の実現可能な形態の方法を実行する電子機器を提供する。

第５態様においては、プログラム指令を含むコンピュータプログラムが記憶されており、前記プログラム指令がプロセッサによって実行される場合に、前記プロセッサに上記第一態様及びそのいずれか１種の実現可能な形態の方法を実行させるコンピュータ読み取り可能な記憶媒体を提供する。

第６態様においては、コンピュータプログラム又は指令を含み、前記コンピュータプログラム又は指令がコンピュータで運行する場合に、前記コンピュータに上記第一態様及びそのいずれか１種の実現可能な形態の方法を実行させるコンピュータプログラム製品を提供する。

以上の一般的な説明と以下の詳細な説明は例示的及び解釈的なものに過ぎず、本発明を制限しないことを理解すべきである。

本発明の実施例に係る画像処理方法の模式的フローチャートである。本発明の実施例に係る別の画像処理方法の模式的フローチャートである。本発明の実施例に係る画像処理装置の構造的模式図である。本発明の実施例に係る画像処理装置のハードウェア構造的模式図である。

本発明の実施例又は背景技術における技術案をより明瞭に説明するために、以下において、本発明の実施例又は背景技術に必要とされる図面について説明する。

ここでの図面は明細書に組み込まれて本明細書の一部を構成し、これらの図面は本発明に合致する実施例を示し、明細書と共に本発明の技術的解決手段を説明するために用いられる。

当業者に本発明の解決手段をより好適に理解させるために、以下において、本発明の実施例における図面を参照しながら、本発明の実施例における技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本発明の実施例の一部に過ぎず、全ての実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を要することなく、得られた他の全ての実施例は、いずれも本発明の保護範囲に属する。

本発明の明細書、特許請求の範囲及び上記図面における「第一」、「第二」等の用語は、特定の順序を記述するものではなく、異なる対象を区別するためのものである。また、「含む」、「備える」という用語及びそれらのいかなる変形も、非排他的に含むことを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、挙げられたステップ又はユニットに限定されるものではなく、さらに挙げられないステップ又はユニットを選択可能に含み、又は、さらに、これらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを選択可能に含む。

本明細書で「実施例」が言及されることは、実施例を組み合わせて説明された特定の特徴、構造又は特性が本発明の少なくとも１つの実施例に含まれることが可能であるのを意味する。明細書の各箇所で出現する該用語は必ず同じ実施例を指すというわけでなく、他の実施例に対して排他的に独立した実施例又は代替的な実施例であるというわけでもない。本明細書に記載の実施例が他の実施例と組み合わせることができることが当業者に明示的又は暗示的に理解される。

強い性能のおかげで、近年、ニューラルネットワークは、種々のタスクを実行するように、画像処理分野で広く使用される。例えば、ニューラルネットワークを用いて画像分類タスクを実行し、更に例を挙げると、ニューラルネットワークを用いて画像分割タスクを実行する。説明の便宜上、以下にタスク実行を応用と呼び、ニューラルネットワークがタスクを実行して処理する画像を応用画像と呼ぶ。

ニューラルネットワークの応用過程でのパフォーマンス効果が高い程度でニューラルネットワークに対するトレーニング効果に依存し、ニューラルネットワークのトレーニング効果に影響する要素が多く、トレーニング画像の画像品質と応用画像の画像品質との間の差異が多くの要素の１つとなる。画像品質は、画像の解像度、画像の信号対雑音比、画像の鮮明度を含む。トレーニング画像の画像品質と応用画像の画像品質との間の差異は、トレーニング画像の解像度と応用画像の解像度との間の差異、トレーニング画像の信号対雑音比と応用画像の信号対雑音比との間の差異、トレーニング画像の鮮明度と応用画像の鮮明度との間の差異のうちの少なくとも１種を含む。トレーニング画像の画像品質と応用画像の画像品質との間に差異を存在させる原因の１つは、トレーニング画像の収集条件と応用画像の収集条件との間の差異である。

本発明の実施例では、トレーニング画像の収集条件と応用画像の収集条件（以下に第一収集条件と呼ぶ）との間の差異は、トレーニング画像を収集するイメージング装置（以下にトレーニングイメージング装置と呼ぶ）のパラメータと応用画像を収集するイメージング装置（以下に応用イメージング装置と呼ぶ）のパラメータとの間の差異、トレーニング画像を収集する環境と応用画像を収集する環境との間の差異のうちの少なくとも１種を含む。

トレーニング画像を収集するイメージング装置のパラメータと応用画像を収集するイメージング装置のパラメータとの間の差異は、トレーニングイメージング装置のハードウェア構成と応用イメージング装置のハードウェア構成との間の差異を含む。例えば、トレーニング装置の収集した画像の解像度が１９２０×１０８０であり、応用装置の収集した画像の解像度が１２８０×１０２４である。更に例を挙げると、トレーニング装置の焦点距離範囲が１０ミリメートル～２２ミリメートルであり、応用イメージング装置の焦点距離範囲が１８ミリメートル～１３５ミリメートルである。

画像を収集する環境は、画像を収集する天気、画像を収集するシーンのうちの少なくとも１種を含む。例えば、画像を収集する天気は、曇りの日であっても、雨の日であっても、晴れの日であってもよい。雨の日に収集された画像の環境と晴れの日に収集された画像の環境とが異なり、曇りの日に収集された画像の環境と晴れの日に収集された画像の環境とが異なる。更に例を挙げると、シーンは自動車内部であっても、空港の搭乗待合室であっても、高速道路であってもよく、自動車内部の画像を収集したシーンと空港の搭乗待合室の画像を収集したシーンとが異なり、高速道路の画像を収集したシーンと空港の搭乗待合室の画像を収集したシーンとが異なる。

トレーニング画像を用いてニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを得る。トレーニングされたニューラルネットワークを用いてタスクを実行し、即ちトレーニングされたニューラルネットワークを用いて応用画像を処理して、処理結果を得る。例えば、画像分類タスクを実行する過程で、トレーニングされたニューラルネットワークを用いて応用画像を処理して、分類結果を得る。更に例を挙げると、画像分割タスクを実行する過程で、トレーニングされたニューラルネットワークを用いて応用画像を処理して、分割結果を得る。しかしながら、トレーニング画像と応用画像との間に差異が存在する場合に、上記処理結果（分類結果と分割結果を含む）の正確性が低い。

例を挙げると、都市Ａの監視カメラによって曇りの日に歩行者を含む画像（以下に場所Ａで収集された画像と呼ぶ）を収集し、且つ場所Ａで収集された画像中の歩行者の身元にラベル付けすることによってトレーニング画像を得る。トレーニング画像を用いてニューラルネットワークａをトレーニングすることで、トレーニングされたニューラルネットワークａを、場所Ａで収集された画像中の歩行者の身元を認識することに利用可能にする。ここで、トレーニングされたニューラルネットワークａを用いて場所Ｂで収集された画像中の歩行者の身元を認識することが必要になり、トレーニング画像は全て曇りの日に収集された画像であるが、場所Ｂで収集された画像は曇りの日に収集された画像、晴れの日に収集された画像、雨の日に収集された画像を含み、異なる天気で収集された画像は環境輝度、鮮明度が異なり、異なる環境輝度と鮮明度がニューラルネットワークの認識正確性に影響するため、トレーニングされたニューラルネットワークａを用いて晴れの日又は雨の日に収集された画像中の歩行者の身元を認識して、得られた認識結果の正確性が低い。なお、場所Ａの監視カメラのパラメータと場所Ｂの監視カメラのパラメータ（例えば、撮影視角又は解像度）も同じでなく、これもトレーニングされたニューラルネットワークａが場所Ｂで収集された画像中の歩行者の身元を認識する正確性が低いことを招く。

処理結果の正確性を高くするために、従来の方法では、応用シーンでの第一収集条件で収集された画像をトレーニング画像とすることによって、ニューラルネットワークをトレーニングする。しかしながら、このような方法では、第一収集条件で収集された画像にラベル付けする必要があり、ニューラルネットワークのトレーニング画像の数量が大きく、従来の方法では大量の人件費を要することに加えて、ラベル付けの効率が低い。

以上に鑑みて、本発明の実施例は、人件費を低くし、ラベル付けの効率を高くした上で、ニューラルネットワークに基づいて得られた処理結果の正確性を高くする技術的解決手段を提供する。

本発明の実施例の実行主体は画像処理装置であってもよく、ここで、画像処理装置は携帯電話、コンピュータ、サーバ、タブレットのうちの１種であってもよい。本願の実施例では、プロセッサによってコンピュータコードを実行して本願の画像処理方法を実現するようになってもよい。

以下、本発明の実施例における図面を参照しながら、本発明の実施例を説明する。

本発明の実施例に係る画像処理方法の模式的フローチャートである図１を参照されたい。

１０１、処理されるべき画像を取得する。

本発明の実施例では、処理されるべき画像はいかなる内容を含んでもよい。例えば、処理されるべき画像は道路を含んでもよい。更に例を挙げると、処理されるべき画像は道路と車両を含んでもよい。更に例を挙げると、処理されるべき画像は人を含んでもよい。本発明は処理されるべき画像における内容を限定するものでない。

処理されるべき画像を取得する一実現形態において、画像処理装置はユーザが入力コンポーネントによって入力した処理されるべき画像を受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパネル及びオーディオ入力デバイス等を含む。

処理されるべき画像を取得する別の実現形態において、画像処理装置は第一端末が送信した処理されるべき画像を受信する。ここで、第一端末は、携帯電話、コンピュータ、タブレット、サーバ、ウェアラブルデバイスのいずれか１種であってもよい。

処理されるべき画像を取得する更に別の実現形態において、画像処理装置は自分の画像収集コンポーネント、例えばカメラによって、直接収集して処理されるべき画像を得ることができる。

１０２、画像処理ニューラルネットワークを用いて上記処理されるべき画像を処理して、上記処理されるべき画像の処理結果を得る。

本発明の実施例では、画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、ここで、ラベル付け無し画像集合の収集条件と処理されるべき画像の収集条件（以下に第二収集条件と呼ぶ）は同じであり、ラベル付け済み画像集合の収集条件（以下に第三収集条件と呼ぶ）とラベル付け無し画像集合の収集条件とは異なる。

例を挙げると、処理されるべき画像は空港の搭乗待合室で収集された画像であり、ラベル付け無し画像集合中の画像も空港の搭乗待合室で収集された画像であり、ラベル付け済み画像集合中の画像は空港の搭乗待合室で収集された画像ではない。更に例を挙げると、処理されるべき画像はカメラＡで収集された画像であり、ラベル付け無し画像集合中の画像もカメラＡで収集された画像であり、ラベル付け済み画像集合中の画像はカメラＢで収集された画像である。

本発明の実施例では、ラベル付け済み画像集合中の画像のそれぞれにはラベルが含まれる。例えば、画像処理ネットワークを用いて実行される画像分類タスクは、画像に含まれるものがリンゴ、バナナ、梨、モモ、オレンジ、西瓜のどちらであるかを判断することであると、ラベル付け済み画像集合中の画像のラベルはリンゴ、バナナ、梨、モモ、オレンジ、西瓜のうちの１種を含む。更に例を挙げると、画像処理ネットワークを用いて実行されるタスクは、歩行者を再認識し、即ち画像に含まれる人物の身元を認識することであると、ラベル付け済み画像集合中の画像のラベルは人物の身元（例えば、張三、李四、王五、周六等）を含む。更に例を挙げると、画像処理ネットワークを用いて実行されるタスクは、人物に覆われた画素領域を画像から分割することであると、ラベル付け済み画像集合中の画像ラベルは人物輪廓を含み、当該人物輪廓が囲んだ画素領域が人物に覆われた画素領域となる。

ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングする過程で、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、更にラベル付け済み画像集合、ラベル付け無し画像集合、ラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングでき、このようにして、トレーニングされたニューラルネットワークを用いて第二収集条件で収集された画像を処理する過程で、得られる処理結果の正確性を高くすることができる。

例を挙げると、ラベル付け済み画像集合中の画像は全て空港の搭乗待合室で収集された画像であり、処理されるべき画像とラベル付け無し画像集合中の画像は全て自動車内部で収集された画像である。ラベル付け無し画像集合中の画像のいずれにもラベルが含まれていないため、ラベル付け無し画像集合を用いてニューラルネットワークをトレーニングすることができなく、空港の搭乗待合室内の環境と自動車内部の環境とが異なる（例えば、空港の搭乗待合室内の光線と自動車内部の光線とが異なり、更に例えば、空港の搭乗待合室内の物体と自動車内部の物体とが異なる）ため、ラベル付け済み画像集合のみを用いてニューラルネットワークをトレーニングすれば、ニューラルネットワークがトレーニングによって自動車内部の環境の情報を学習することができなく、そのため、トレーニングされたニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性が低い。本発明の実施例では、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け無し画像集合とラベル付け無し画像集合のラベルをトレーニングデータとしてニューラルネットワークをトレーニングでき、このようにして、ニューラルネットワークがトレーニング過程で自動車内部の環境の情報を学習でき、更に、処理結果の正確性を高くする。

ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定する一実現形態（以下に第一の実現形態と呼ぶ）では、ラベル付け済み画像集合をトレーニングデータとして、ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを得る。トレーニングされたニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得る。ラベル付け済み画像集合、ラベル付け無し画像集合、ラベル付け無し画像集合のラベルを用いてトレーニングされたニューラルネットワークをトレーニングして、画像処理ニューラルネットワークを得る。例を挙げると、ラベル付け済み画像集合に画像ａを含み、ラベル付け無し画像集合に画像ｂを含み、そのうち、画像ａのラベルがＡである。ニューラルネットワークを用いて画像ａを処理して、第一処理結果を得る。第一処理結果とＡとの間の差異により、第一中間損失を得る。第一中間損失に基づいてニューラルネットワークのパラメータを調整して、トレーニングされたニューラルネットワークを得る。トレーニングされたニューラルネットワークを用いて画像ｂを処理して、第二処理結果を得て、画像ｂのラベルとする。

ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定する別の実現形態（以下に第二の実現形態と呼ぶ）では、ラベル付け済み画像集合に対して特徴抽出処理を行って、第一中間特徴データセットを得る。第一中間特徴データセットをトレーニングデータとし、ラベル付け済み画像集合のラベルを第一中間特徴データセットの教師情報として、サポートベクトルマシン（ｓｕｐｐｏｒｔｖｅｔｏｒｍａｃｈｉｎｅ：ＳＶＭ）をトレーニングして、トレーニングされたＳＶＭを得る。ラベル付け無し画像集合に対して特徴抽出処理を行って、第二中間特徴データセットを得る。トレーニングされたＳＶＭを用いて第二中間特徴データセットを処理して、第二中間特徴データセットのラベルを得て、ラベル付け無し画像集合のラベルとする。例を挙げると、ラベル付け済み画像集合に画像ａと画像ｂを含み、ラベル付け無し画像集合に画像ｃを含み、そのうち、画像ａのラベルがＡであり、画像ｂのラベルがＢである。画像ａに対して特徴抽出処理を行って画像ａの特徴データを得、画像ｂに対して特徴抽出処理を行って画像ｂの特徴データを得る。画像ａの特徴データと画像ｂの特徴データを用いてＳＶＭをトレーニングして、トレーニングされたＳＶＭを得る。画像ｃに対して特徴抽出処理を行って、画像ｃの特徴データを得る。トレーニングされたＳＶＭを用いて画像ｃを処理して、目標処理結果を得て、画像ｃのラベルとする。

ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定する更に別の実現形態（以下に第三の実現形態と呼ぶ）では、ラベル付け無し画像集合に対してクラスタリング処理を行って少なくとも１つのクラスタを得、ここで、各クラスタに少なくとも１枚の画像を含む。ラベルを根拠としてラベル付け済み画像集合を区別して、少なくとも１つの画像集合を得、ここで、各画像集合にそれぞれ少なくとも１枚の画像を含み、且つ各画像集合中の画像のラベルが同じである。各クラスタとの間の類似度が最も大きい画像集合をそれぞれ決定して、最大類似度画像集合とする。最大類似度画像集合のラベルをクラスタのラベル、即ちクラスタ中のデータのラベルとする。例を挙げると、ラベル付け済み画像集合に画像ａ、画像ｂ、画像ｃを含み、ラベル付け無し画像集合に画像ｄ、画像ｅ、画像ｆを含み、そのうち、画像ａのラベルと画像ｂのラベルが共にＡであり、画像ｃのラベルがＢである。ラベル付け無し画像集合に対してクラスタリング処理を行って第一クラスタと第二クラスタが得られ、そのうち、第一クラスタに画像ｄと画像ｅを含み、第二クラスタに画像ｆを含む。ラベルを根拠としてラベル付け済み画像集合を区別して第一画像集合と第二画像集合が得られ、そのうち、第一画像集合に画像ａと画像ｂを含み、第二画像集合に画像ｃを含み、第一画像集合のラベルがＡであり、第二画像集合のラベルがＢである。第一クラスタと第一画像集合との間の類似度をｓ_１に決定し、第一クラスタと第二画像集合との間の類似度をｓ_２に決定し、第二クラスタと第一画像集合との間の類似度をｓ_３に決定し、第二クラスタと第二画像集合との間の類似度をｓ_４に決定する。ｓ_１がｓ_２より大きい場合に、第一クラスタの最大類似度集合が第一画像集合であり、第一クラスタのラベルがＡであるため、画像ｄのラベルと画像ｅのラベルを共にＡに決定可能である。ｓ_１がｓ_２より小さい場合に、第一クラスタの最大類似度集合が第二画像集合であり、第一クラスタのラベルがＢであるため、画像ｄのラベルと画像ｅのラベルを共にＢに決定可能である。ｓ_３がｓ_４より大きい場合に、第二クラスタの最大類似度集合が第一画像集合であり、第二クラスタのラベルがＡであるため、画像ｆのラベルをＡに決定可能である。ｓ_３がｓ_４より小さい場合に、第二クラスタの最大類似度集合が第二画像集合であり、第二クラスタのラベルがＢであるため、画像ｆのラベルをＢに決定可能である。

第一クラスタと第一画像集合との間の類似度を決定する一実現形態において、第一クラスタのセントロイドが画像Ａであり、第一画像集合のセントロイドが画像Ｂであると仮定する。画像Ａと画像Ｂとの間の類似度を決定して、第一クラスタと第一画像集合との間の類似度とする。

第一クラスタと第一画像集合との間の類似度を決定する別の実現形態において、第一クラスタ中の各画像と第一画像集合中の各画像との間の類似度をそれぞれ決定して、類似度集合を得る。類似度集合中の最大値を第一クラスタと第一画像集合との間の類似度とする。

第一クラスタと第一画像集合との間の類似度を決定する更に別の実現形態において、第一クラスタ中の各画像と第一画像集合中の各画像との間の類似度をそれぞれ決定して、類似度集合を得る。類似度集合中の最小値又は平均値を第一クラスタと第一画像集合との間の類似度とする。

同様に、第一クラスタと第一画像集合との間の類似度を決定する実現形態によって、第一クラスタと第二画像集合との間の類似度、第二クラスタと第一画像集合との間の類似度、第二クラスタと第二画像集合との間の類似度を決定することができる。

本発明の実施例では、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け無し画像集合に対してラベル付けする人件費を低減すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合、ラベル付け無し画像集合及びラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングすることで、ニューラルネットワークにトレーニング過程で第二収集条件の情報を学習させることができ、これによって、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。

本発明の実施例に係る画像処理ニューラルネットワークのトレーニング方法の模式的フローチャートである図２を参照されたい。本実施例の実行主体は画像処理装置であってもよく、画像装置でなくてもよく、即ち、画像処理ニューラルネットワークのトレーニング方法の実行主体は画像処理ネットワークを用いて処理されるべき画像を処理する実行主体と同じであっても、異なってもよく、本発明の実施例は本実施例の実行主体を限定するものでない。説明の便宜上、以下に本実施例の実行主体をトレーニング装置と呼び、ここで、トレーニング装置は携帯電話、コンピュータ、タブレット、サーバ、プロセッサのいずれか１種であってもよい。

２０１、ラベル付け無し画像集合、ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得する。

トレーニング装置がラベル付け無し画像集合を取得する実現形態については、ステップ１０１で画像処理装置がラベル付け無し画像集合を取得する実現形態を参照してもよく、トレーニング装置がラベル付け済み画像集合を取得する実現形態については、ステップ１０１で画像処理装置がラベル付け済み画像集合を取得する実現形態を参照してもよく、ここで詳細な説明を省略する。

本発明の実施例で、第一トレーニングされるべきニューラルネットワークはいかなるニューラルネットワークであってもよい。例えば、第一トレーニングされるべきニューラルネットワークは、畳み込み層、プーリング層、正規化層、全結合層、ダウンサンプリング層、アップサンプリング層、分類器のうちの少なくとも１種のネットワーク層で重ねられてなったものであってもよい。本発明の実施例は第一トレーニングされるべきニューラルネットワークの構成を限定するものでない。

第一トレーニングされるべきニューラルネットワークを取得する一実現形態において、トレーニング装置はユーザが入力コンポーネントによって入力した第一トレーニングされるべきニューラルネットワークを受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパネル及びオーディオ入力デバイス等を含む。

第一トレーニングされるべきニューラルネットワークを取得する別の実現形態において、トレーニング装置は第二端末が送信した第一トレーニングされるべきニューラルネットワークを受信する。ここで、上記第二端末は、携帯電話、コンピュータ、タブレット、サーバ、ウェアラブルデバイスのいずれか１種であってもよい。

第一トレーニングされるべきニューラルネットワークを取得する更に別の実現形態において、トレーニング装置は自分の記憶部材から予め記憶された第一トレーニングされるべきニューラルネットワークを取得してもよい。

２０２、上記ラベル付け済み画像集合に基づいて、上記ラベル付け無し画像集合のラベルを得る。

ステップ１０２に示すように、ラベル付け済み画像集合に基づいて、ラベル付け無し画像集合のラベルを得ることができる。このステップではステップ１０２における第一の実現形態を採用し、ラベル付け済み画像集合をトレーニングデータとして、第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得る。第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得る。

２０３、上記ラベル付け済み画像集合と上記ラベル付け無し画像集合をトレーニングデータとし、上記ラベル付け無し画像集合のラベルを上記ラベル付け無し画像集合の教師情報として、上記第一トレーニングされるべきニューラルネットワークをトレーニングして、上記画像処理ニューラルネットワークを得る。

ラベル付け無し画像集合のラベルが得られた後、ラベル付け無し画像集合をトレーニングデータとして第一トレーニングされるべきニューラルネットワークをトレーニングすることができる。

ニューラルネットワークのトレーニング効果に影響する要素にはトレーニングデータの数量も含まれるため、ここで、トレーニングデータの数量が大きいほど、ニューラルネットワークのトレーニング効果が優れる。従って、本発明の実施例では、第一トレーニングされるべきニューラルネットワークをトレーニングする過程で、トレーニング効果を向上させるように、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとし、ラベル付け無し画像集合のラベルをラベル付け無し画像集合の教師情報として、第一トレーニングされるべきニューラルネットワークをトレーニングする。このようにして、トレーニングによって得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。

例を挙げると、ラベル付け済み画像集合に画像ａを含み、ラベル付け無し画像集合に画像ｂを含み、そのうち、画像ａのラベルがＡであり、ステップ２０２の処理によって画像ｂのラベルがＢに決定された。第一トレーニングされるべきニューラルネットワークを用いて画像ａを処理して、第一中間結果を得る。第一中間結果とＡとの間の差異を決定して、第一中間差異を得る。第一中間差異に基づいて第一トレーニングされるべきニューラルネットワークの損失を決定し、且つ第一トレーニングされるべきニューラルネットワークの損失に基づいて第一トレーニングされるべきニューラルネットワークのパラメータを調整して、第三トレーニングされるべきニューラルネットワークを得る。第三トレーニングされるべきニューラルネットワークを用いて画像ｂを処理して、第二中間結果を得る。第一中間結果とＢとの間の差異を決定して、第二中間差異を得る。第二中間差異に基づいて第三トレーニングされるべきニューラルネットワークの損失を決定し、且つ第三トレーニングされるべきニューラルネットワークの損失に基づいて第三トレーニングされるべきニューラルネットワークのパラメータを調整して、画像処理ニューラルネットワークを得る。

ニューラルネットワークのトレーニング効果に影響する要素にはトレーニング周期数も含まれるため、ここで、トレーニング周期数が多いほど、ニューラルネットワークのトレーニング効果が優れる。ここで、第一トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して、ラベル付け無し画像集合のラベルを得た後、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとし、ラベル付け無し画像集合のラベルをラベル付け無し画像集合の教師情報として、第二トレーニングされるべきニューラルネットワークをトレーニングすることで、トレーニング周期数を増大し、トレーニング効果を向上させ、それによって、トレーニングされた画像処理ニューラルネットワークによる処理されるべき画像の処理結果の正確性を高くする。

ニューラルネットワークのトレーニング過程で、ニューラルネットワークが全てのトレーニングデータの処理を完了したことを、１トレーニング周期とする。例を挙げると、トレーニングデータに画像ａ、画像ｂを含む。トレーニング過程での初回の反復において、ニューラルネットワークは画像ａを処理して、画像ａの結果を得る。画像ａの結果と画像ａのラベルに基づいてニューラルネットワークの損失を得、且つニューラルネットワークの損失に基づいてニューラルネットワークのパラメータを調整して、初回の反復後のニューラルネットワークを得る。２回目の反復において、初回の反復後のニューラルネットワークは画像ｂを処理して、画像ｂの結果を得る。画像ｂの結果と画像ｂのラベルに基づいて初回の反復後のニューラルネットワークの損失を得、且つ初回の反復後のニューラルネットワークの損失に基づいて初回の反復後のニューラルネットワークのパラメータを調整して、２回目の反復後のニューラルネットワークを得る。３回目の反復において、２回目の反復後のニューラルネットワークは画像ａを処理して、画像ａの結果を得る。画像ａの結果と画像ａのラベルに基づいて２回目の反復後のニューラルネットワークの損失を得、且つ２回目の反復後のニューラルネットワークの損失に基づいて２回目の反復後のニューラルネットワークのパラメータを調整して、３回目の反復後のニューラルネットワークを得る。ここで、１番目のトレーニング周期は初回の反復と２回目の反復を含み、３回目の反復が２番目のトレーニング周期に属するものとなる。

実現可能な一形態では、第二トレーニングされるべきニューラルネットワークを用いてラベル付け済み画像集合を処理して第一結果を得、第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合を処理して第二結果を得る。第一結果とラベル付け済み画像集合のラベルとの間の差異により第一差異を得、第二結果とラベル付け無し画像集合のラベルとの間の差異により第二差異を得る。第一差異と第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る。第二トレーニングされるべきニューラルネットワークはラベル付け済み画像集合を用いて第一トレーニングされるべきニューラルネットワークをトレーニングすることによって得られたものであるため、つまり、第二トレーニングされるべきニューラルネットワークのトレーニング完了周期数が第一トレーニングされるべきニューラルネットワークのトレーニング完了周期数より大きいため、ラベル付け無し画像集合のラベルが得られた後、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとしてラベル付け無し画像集合の教師情報で第二トレーニングされるべきニューラルネットワークをトレーニングした効果は、ラベル付け済み画像集合とラベル付け無し画像集合をトレーニングデータとしてラベル付け無し画像集合の教師情報で第一トレーニングされるべきニューラルネットワークをトレーニングした効果より優れる。

第一差異と第二差異により第二トレーニングされるべきニューラルネットワークの損失を得る一実現形態において、第一差異により第二トレーニングされるべきニューラルネットワークの初回の反復損失を決定し、且つ初回の反復損失に基づいて第二トレーニングされるべきニューラルネットワークのパラメータを調整して、初回の反復後の第二トレーニングされるべきニューラルネットワークを得る。第二差異により第二トレーニングされるべきニューラルネットワークの２回目の反復損失を決定し、且つ２回目の反復損失に基づいて初回の反復後の第二トレーニングされるべきニューラルネットワークのパラメータを調整して、画像処理ニューラルネットワークを得る。

第一差異と第二差異により第二トレーニングされるべきニューラルネットワークの損失を得る別の実現形態において、第一差異と第二差異に対して加重加算を行ったり、加重加算を行ってから一つの定数を加えたりする等の方式で、第二トレーニングされるべきニューラルネットワークの損失を得るようにしてもよい。例えば、ラベル付け無し画像集合の収集条件と処理されるべき画像の収集条件とが同じであるが、画像処理ニューラルネットワークにトレーニングで第二収集条件の情報をより多く学習させるように、第二差異の重みを第一差異の重みより大きくしてもよく、これによって、トレーニングされたニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。

同類の画像間の類似度が非同類の画像間の類似度より大きいはずであるため、画像の分類処理過程で、類似度が小さい２枚の画像のラベルを同じものに決定し、類似度が大きい２枚の画像のラベルを異なるものに決定すれば、処理結果の正確性を低くしてしまう。例えば、画像ａと画像ｂとの間の類似度がs_１であり、画像ａと画像ｃとの間の類似度がs_２であり、s_１がs_２より小さい。ニューラルネットワークが画像ａ、画像ｂ、画像ｃを処理する過程で、画像ａのラベルと画像ｂのラベルを同じものに決定し、画像ａのラベルと画像ｃのラベルを異なるものに決定すれば、得られる処理結果が誤ったものである。

処理結果の正確性を更に高くするために、選択可能な一実施形態として、「第一差異と前記第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る」ステップを実行する前に、以下のステップを実行してもよい。

２１、トレーニング画像集合中の第一画像と上記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、上記トレーニング画像集合中の第一画像と上記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る。

このステップにおいて、トレーニング画像集合にラベル付け済み画像集合とラベル付け無し画像集合を含む。第一画像のラベルと第二画像のラベルとが同じであり、即ち、第一画像のカテゴリと第二画像のカテゴリとが同じである。第一画像のラベルと第三画像のラベルとが異なり、即ち、第一画像のカテゴリと第三画像のカテゴリとが異なる。第一画像と第二画像との間の類似度を決定して、第一類似度とする。第一画像と第三画像との間の類似度を決定して、第二類似度とする。

本発明の実施例では、２枚の画像間の類似度は、２枚の画像間のユークリッド距離（ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）、２枚の画像間のコサイン類似度、２枚の画像間のマハラノビス距離（ｍａｈａｌａｎｏｂｉｓｄｉｓｔａｎｃｅ）、２枚の画像間のピアソン相関係数（ｐｅａｒｓｏｎｃｏｒｒｅｌａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ）、２枚の画像間のハミング距離（ｈａｍｍｉｎｇｄｉｓｔａｎｃｅ）のうちの１種であってもよい。

２２、第一類似度と第二類似度との間の差異により、トリプレット損失を得る。

第一類似度が同類の画像間の類似度であり、第二類似度が非同類の画像間の類似度であるため、第一類似度が第二類似度より大きいはずである。従って、第一類似度と第二類似度との間の差異により、トリプレット損失を得ることができる。

実現可能な一形態では、第一類似度がs_１であり、第二類似度がs_２であり、トリプレット損失がL_tであると仮定すれば、s_１、s_２、L_tが以下の式を満たし、

式（１）
ここで、mは正数である。

別の実現可能な形態では、第一類似度がs_１であり、第二類似度がs_２であり、トリプレット損失がL_tであると仮定すれば、s_１、s_２、L_tが以下の式を満たし、

式（２）
ここで、kとnは共に正数である。

更に別の実現可能な形態では、第一類似度がs_１であり、第二類似度がs_２であり、トリプレット損失がL_tであると仮定すれば、s_１、s_２、L_tが以下の式を満たし、

式（３）
ここで、kとnは共に正数である。

２３、「第一差異と前記第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る」ステップは以下のステップを含む。

１、第一差異と第二差異により、カテゴリ損失を得る。

このステップの実現過程については、ステップ２０３における「第一差異と第二差異により、第二トレーニングされるべきニューラルネットワークの損失を得る」の実現過程を参照してもよい。このステップにおいて、第一差異と第二差異により得られた損失が第二トレーニングされるべきニューラルネットワークの損失ではなく、カテゴリ損失であることを理解されたい。

２、カテゴリ損失とトリプレット損失により、第二トレーニングされるべきニューラルネットワークの損失を得る。

実現可能な一形態では、第二トレーニングされるべきニューラルネットワークの損失がLであり、カテゴリ損失がL_cであり、トリプレット損失がL_tであると仮定する。L、L_c、L_tが以下の式を満たし、

式（４）
ここで、k_１とk_２は共に１以下の正数である。

別の実現可能な形態では、第二トレーニングされるべきニューラルネットワークの損失がLであり、カテゴリ損失がL_cであり、トリプレット損失がL_tであると仮定する。L、L_c、L_tが以下の式を満たし、

式（５）
ここで、k_１とk_２は共に１以下の正数である。

更に別の実現可能な形態では、第二トレーニングされるべきニューラルネットワークの損失がLであり、カテゴリ損失がL_cであり、トリプレット損失がL_tであると仮定する。L、L_c、L_tが以下の式を満たし、

式（６）
ここで、k_１とk_２は共に１以下の正数である。

同一のカテゴリに属する画像のうち、異なる画像間の類似度が異なるため、第一画像と第二画像によって第一類似度を決定し、第一画像と第三画像によって第二類似度を決定し、且つ第一類似度を第二類似度より大きくした場合に、誤差が存在する可能性がある。例えば、トレーニング画像集合に画像ａ、画像ｂ、画像ｃ、画像ｄ、画像ｅを含み、そのうち、画像ａのカテゴリ、画像ｂのカテゴリ、画像ｅのカテゴリが共にＡであり、画像ｃのカテゴリと画像ｄのカテゴリが共にＢである。画像ａと画像ｂとの間の類似度がs_１であり、画像ａと画像ｃとの間の類似度がs_２であり、画像ａと画像ｄとの間の類似度がs_３であり、画像ａと画像ｅとの間の類似度がs_４である。画像ａが第一画像であり、画像ｂが第二画像であり、画像ｃが第三画像である場合に、s_１が第一類似度であり、s_２が第二類似度である。ニューラルネットワークをトレーニングすることで、s_１をs_２より大きくすることができるが、s_１がs_３より大きく、s_４がs_２より大きく、s_４がs_３より大きいことを確保できない。s_１がs_３より小さく、s_４がs_２より小さく、s_４がs_３より小さいのが誤ったことは明らかである。

上記誤りの存在で、ニューラルネットワークのトレーニングが悪くなり、更に処理結果の正確性を低くしてしまう。上記誤りの発生の確率を低くし、更に処理結果の正確性を高くするように、本発明の実施例は第一画像、第二画像、第三画像を決定する実現形態を提供する。

選択可能な一実施形態として、ステップ２１を実行する前に、以下のステップを実行してもよい。

第一画像のカテゴリ内最難画像を決定して第二画像とし、第一画像のカテゴリ外最難画像を決定して第三画像とする。

本発明の実施例では、カテゴリ内最難画像対はラベルが同じ画像のうち、類似度が最も小さい２枚の画像であり、カテゴリ外最難画像対はラベルが異なる画像のうち、類似度が最も大きい２枚の画像である。カテゴリ内最難画像対に画像ａと画像ｂを含むと仮定すれば、画像ｂを画像ａのカテゴリ内最難画像と呼び、画像ａを画像ｂのカテゴリ内最難画像と呼ぶ。カテゴリ外最難画像対に画像ｃと画像ｄを含むと仮定すれば、画像ｃを画像ｄのカテゴリ外最難画像と呼び、画像ｃを画像ｄのカテゴリ外最難画像と呼ぶ。

例を挙げると、画像１のカテゴリ、画像２のカテゴリ、画像３のカテゴリが全て同じであり、画像１のカテゴリが画像４のカテゴリ、画像５のカテゴリとそれぞれ異なり、画像１と画像２との間の類似度が画像１と画像３との間の類似度より小さく、画像１と画像４との間の類似度が画像１と画像５との間の類似度より小さいと仮定する。第一画像が画像１の場合に、カテゴリ内最難画像対に画像１と画像２を含み、カテゴリ外最難画像対に画像１と画像５を含み、画像２が画像１のカテゴリ内最難画像であり、画像５が画像１のカテゴリ外最難画像であり、即ち、画像２が第二画像であり、画像５が第三画像である。

第一画像のカテゴリ内最難画像を第二画像とし、第一画像のカテゴリ外最難画像を第三画像として、第一画像と第二画像により第一類似度を決定し、第一画像と第三画像により第二類似度を決定し、且つ第一類似度と第二類似度との間の差異に基づいて第二トレーニングされるべきニューラルネットワークの損失を決定することで、第二トレーニングされるべきニューラルネットワークにトレーニング過程で画像のカテゴリの区別能力を高めさせることができる。

トレーニング画像集合のうちの収集条件が第二収集条件の画像の数量を更に増加して第二トレーニングされるべきニューラルネットワークのトレーニング効果を向上させるために、一部の実施例では、ラベル付け無し画像集合を第二トレーニングされるべきニューラルネットワークに入力する前に、ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得、且つ増強が得られた画像集合とラベル付け無し画像集合をトレーニングデータとして第二トレーニングされるべきニューラルネットワークをトレーニングするようにしてもよい。このようにして、第二トレーニングされるべきニューラルネットワークのトレーニングデータを拡張する効果を達成可能である。

増強された画像集合とラベル付け無し画像集合のラベルが同じであるため、第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合と増強された画像集合を処理して得られた結果を第二結果とし、第二結果とラベル付け無し画像集合のラベルとの間の差異により第二差異を得ることができる。

例（例２）を挙げると、ラベル付け無し画像集合に画像ａと画像ｂを含み、画像ａのラベルがＡであり、画像ｂのラベルがＢである。画像ａに対してデータ増強処理を行って画像ｃを得、画像ｂに対してデータ増強処理を行って画像ｄを得、そのため、画像ｃのラベルがＡであり、画像ｄのラベルがＢである。第二トレーニングされるべきニューラルネットワークを用いてラベル付け無し画像集合と増強された画像集合を処理して得られた第二結果は結果ａ、結果ｂ、結果ｃ、結果ｄを含み、そのうち、結果ａは第二トレーニングされるべきニューラルネットワークを用いて画像ａを処理することによって得られたものであり、結果ｂは第二トレーニングされるべきニューラルネットワークを用いて画像ｂを処理することによって得られたものであり、結果ｃは第二トレーニングされるべきニューラルネットワークを用いて画像ｃを処理することによって得られたものであり、結果ｄは第二トレーニングされるべきニューラルネットワークを用いて画像ｄを処理することによって得られたものである。

本発明の一部の実施例では、上記データセット増強処理は、回転処理、消去処理、トリミング処理、ぼかし処理のうちの少なくとも１種を含む。

画像に対する回転処理は、画像の幾何中心点を回転中心とし、基準角度を回転角度として、画像を回転させることであり、ここで、基準角度はユーザの要求に応じて調整可能である。画像に対して消去処理を行うことで、画像中の任意の一つの画素領域における画像内容を除去できる。例えば、当該画素領域中の画素値を０に調整する。画像に対するトリミング処理は画像から所定サイズの画像を切り取ることであり、ここで、所定サイズはユーザの要求に応じて調整可能である。画像に対してぼかし処理を行うことで、画像中の少なくとも一部の内容をぼかすことができる。

本発明の実施例に係る画像処理ニューラルネットワークのトレーニング方法においては、第一収集条件で収集された画像集合に基づいて第二収集条件で収集された画像集合にラベル付けし、これによって、人件費を節約すると共に、ラベル付けの効率を高くすることができる。第一収集条件で収集された画像集合と第二収集条件で収集された画像集合を用いて第一トレーニングされるべきニューラルネットワークをトレーニングして、画像処理ニューラルネットワークを得ることができ、また、画像処理ニューラルネットワークによって第二収集条件で収集された画像を処理して得られた処理結果の正確性が高い。任意の収集条件に対しても、本発明の実施例に係る技術的解決手段に基づいて、適合する画像処理ニューラルネットワークを得ることができ、ここで、収集条件に適合する画像処理ニューラルネットワークとは画像処理ニューラルネットワークで当該収集条件で収集された画像を処理して得られる処理結果の正確性が高いものを指す。

本発明の実施例に係る技術的解決手段に基づいて、本発明の実施例は一部の可能な応用シーンを更に提供する。

シーン１では、政府や企業、個人の安全管理意識の強化及びインテリジェントハードウェア装置の普及に伴い、顔認識機能付きの出入管理装置がますます実用化されるようになっている。一部の実施例では、出入管理装置はカメラによって訪問者の顔画像を収集して認識待ち画像とし、ニューラルネットワークを用いて認識待ち画像を処理して訪問者の身元を決定する。しかし、異なる応用シーンに対応して、出入管理装置が認識待ち画像を収集する時の収集条件が異なる。従って、異なる応用シーンでの出入管理装置の認識正確性を如何に効率的に高くするかは非常に重要な意義を有することである。

例えば、Ａ社のゲートに出入管理装置ａが取り付けられており、且つ所定時間使用されていた。Ａ社はオフィスビル内に出入管理装置ｂを新しく取り付けた。つまり、出入管理装置ａが室外に取り付けられ、出入管理装置ｂが室内に取り付けられている。出入管理装置ａが認識待ち画像を収集する時の収集条件と出入管理装置ｂが認識待ち画像を収集する時の収集条件が異なることは明らかである。収集条件が異なるため、画像処理ニューラルネットワークの認識正確性が低い。出入管理装置ａには、出入管理装置ａが収集した、Ａ社の社員の顔を含む画像（以下に画像集合ｃと呼ぶ）によってトレーニングして得られた第一ニューラルネットワークが使用されていると仮定し、注意すべきなのは、画像集合ｃ中の画像には画像中の人物の身元（例えば、張三、李四、王五）を含むラベルが全て含まれていることである。第一ニューラルネットワークを出入管理装置ｂに適用して得られた認識正確性が低い。

出入管理装置ｂの認識正確性を高くするために、Ａ社の管理者は出入管理装置ｂによってＡ社の社員の顔を含む画像（以下に画像集合ｄと呼ぶ）を収集し、且つ第一ニューラルネットワークを用いて画像集合ｄを処理して、画像集合ｄのラベルを得ることができる。画像集合ｃと画像集合ｄをトレーニングデータとし、画像集合ｄのラベルを画像集合ｄの教師情報として、第一ニューラルネットワークをトレーニングして、第二ニューラルネットワークを得る。第二ニューラルネットワークを出入管理装置ｂに配置することで、出入管理装置ｂの認識正確性を高くすることができる。

シーン２では、公共の場所でのカメラの数量の急速な増加に伴い、大量のビデオストリームによってビデオストリーム中の人物の属性を如何に効率的に決定し、且つ人物の属性により人物の行方を決定するかは重要な意義を有することである。

場所Ｂで、サーバは、空港の搭乗待合室内の監視カメラ（以下に監視カメラｅと呼ぶ）との間に通信接続があり、当該通信接続によって、監視カメラｅの収集したビデオストリーム（以下に第一ビデオストリームと呼ぶ）を取得し、且つ監視カメラｅの収集した人物を含む画像（以下に画像集合ｆと呼ぶ）によってトレーニングして得られた第三ニューラルネットワークを用いて第一ビデオストリーム中の画像を処理して、第一ビデオストリーム中の人物の属性を得ることができ、注意すべきなのは、画像集合ｆ中の画像のそれぞれには、上着の色、ズボンの色、ズボンの長さ、帽子のスタイル、靴の色、傘をさすかどうか、バッグの種類、マスクの有無、髪型、性別のうちの少なくとも１種を含む人物の属性を含むラベルが含まれていることである。例えば、第一ビデオストリームは画像ｇと画像ｈを含む。第三ニューラルネットワークを用いて第一ビデオストリームを処理して、画像ｇにおける人物の属性に白い上着、黒いズボン、メガネをかけていない、短い髪、女性を含むことと決定し、画像ｈにおける人物の属性に白い上着、黒いズボン、白い靴、メガネをかけている、マスクをかけている、傘を手に持っている、短い髪、男性を含むことと決定した。

場所Ｂの関連法執行官は、交差点での歩行者の属性を取得するために、交差点に監視カメラｉを新しく取り付けた。空港の搭乗待合室内の環境が交差点の環境と異なるため、第三ニューラルネットワークを用いて監視カメラｉを処理すれば、得られる歩行者の属性の正確性が低い。

本発明の実施例に係る技術的解決手段によれば、場所Ｂの関連法執行官は監視カメラｉによって歩行者を含む画像（以下に画像集合ｊと呼ぶ）を収集し、第三ニューラルネットワークを用いて画像集合ｊを処理して、画像集合ｊのラベルを得ることができる。画像集合ｆと画像集合ｊをトレーニングデータとし、画像集合ｊのラベルを画像集合ｊの教師情報として、第三ニューラルネットワークをトレーニングして、第４ニューラルネットワークを得る。第４ニューラルネットワークを用いて監視カメラｉの収集した第二ビデオストリームを処理して、得られる第二ビデオストリーム中の歩行者の属性の正確性を高くすることができる。

シーン３では、道路での車両の増加に伴い、道路交通事故を如何に防止するかは注目されてきており、ここで、人為的要因は道路交通事故の原因で占める割合が大きく、それは運転者の注意力散漫、注意力低下等の原因で発生する脇見運転を含む。従って、運転者が脇見運転しているかどうかを如何に効率的に監視するかは非常に重要な意義を有することである。

車載端末は車両に取り付けられたカメラによって運転者の顔部を含む画像を収集し、ニューラルネットワークを用いて運転者の顔部を含む画像を処理して、運転者が脇見運転しているかどうかを決定できる。

Ｃ社は運転者注意力監視手段の供給業者であり、Ｃ社はＤ社の車種ｋにおけるカメラで収集された運転者の顔部を含む画像（以下に画像集合ｍと呼ぶ）を用いて第５ニューラルネットワークをトレーニングして、第６ニューラルネットワークを得る。注意すべきなのは、画像集合ｍ中の画像のそれぞれには、運転者が脇見運転していること又は運転者が脇見運転していないことを含むラベルが含まれていることである。第６ニューラルネットワークを車種ｋに配置すれば、車種ｋの車載端末は第６ニューラルネットワークを用いて運転者が脇見運転しているかどうかを決定できる。

現在、Ｄ社で新しい車種（以下に車種ｎと呼ぶ）が生産できており、Ｃ社から車種ｎに運転者注意力監視手段を提供することがＤ社に求められる。車種ｋに取り付けられたカメラ（以下にカメラｐと呼ぶ）が車種ｎに取り付けられたカメラと異なり、且つ車種ｋの内部環境が車種ｎの内部環境と異なるため、第６ニューラルネットワークを車種ｎに配置すれば、第６ニューラルネットワークによって得られる監視結果（運転者が脇見運転していること又は運転者が脇見運転していないことを含む）の正確性が低い。

本発明の実施例に係る技術的解決手段によれば、Ｃ社の職員はカメラｐによって運転者の顔部を含む画像（以下に画像集合ｑと呼ぶ）を収集し、且つ第６ニューラルネットワークを用いて画像集合ｑを処理して、画像集合ｑのラベルを得ることができる。画像集合ｍと画像集合ｑをトレーニングデータとし、画像集合ｑのラベルを画像集合ｑの教師情報として、第６ニューラルネットワークをトレーニングして、第７ニューラルネットワークを得る。第７ニューラルネットワークを車種ｎに配置し、車種ｎの車載端末は第７ニューラルネットワークを用いて運転者が脇見運転しているかどうかを決定し、得られる監視結果の正確性が高い。

具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序を意味して実施プロセスに対する如何なる制限を構成せず、各ステップの具体的な実行順序はその機能と可能な内在的論理で確定されるべきであることが当業者に理解される。

以上において本発明の実施例の方法を詳細に説明したが、以下、本発明の実施例の装置を提供する。

本発明の実施例に係る画像処理装置の構造的模式図である図３を参照されたく、当該装置１は、
処理されるべき画像を取得するように構成される取得部１１と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理して、前記処理されるべき画像の処理結果を得るように構成される処理部１２であって、前記画像処理ニューラルネットワークはラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部１２とを備える。

本発明のいずれか１つの実施形態によれば、前記取得部１１は、更に、前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得するように構成され、
前記処理部１２は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置１は、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部１３を更に備える。

本発明のいずれか１つの実施形態によれば、前記処理部１２は、更に、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングして、第二トレーニングされるべきニューラルネットワークを得、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して、前記ラベル付け無し画像集合のラベルを得るように構成される。

本発明のいずれか１つの実施形態によれば、前記処理部１２は、更に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整して、前記画像処理ニューラルネットワークを得るように構成される。

本発明のいずれか１つの実施形態によれば、前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記装置１は、前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部１４であって、前記トレーニング画像集合は前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部１４と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部１５とを更に備え、
前記処理部１２は、更に、前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される。

本発明のいずれか１つの実施形態によれば、前記装置１は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部１６であって、前記カテゴリ内最難画像はカテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像はカテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部１６を更に備える。

本発明のいずれか１つの実施形態によれば、前記装置１は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行って、増強された画像集合を得るように構成されるデータ増強処理部１７を更に備え、
前記処理部１２は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理して、前記第二結果を得るように構成される。

本発明の実施例及び他の実施例では、「一部」は、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェア等であってもよく、当然ながら、ユニットであってもよく、更にモジュール又は非モジュール化のものであってもよい。

本発明の実施例では、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてニューラルネットワークをトレーニングすることで、ラベル付け済み画像集合に基づいてラベル付け無し画像集合のラベルを決定でき、これによって、ラベル付け画像集合に対してラベル付けする人件費を低減すると共に、ラベル付けの効率を高くすることができる。ラベル付け済み画像集合、ラベル付け無し画像集合及びラベル付け無し画像集合のラベルを用いてニューラルネットワークをトレーニングすることで、ニューラルネットワークにトレーニング過程で第二収集条件の情報を学習させることができ、これによって、トレーニングして得られた画像処理ニューラルネットワークを用いて処理されるべき画像を処理する過程で、得られる処理結果の正確性を高くすることができる。

一部の実施例では、本発明の実施例で提供された装置が備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その実現については、上記方法実施例の説明を参照してよく、簡単化するために、ここで重複説明は割愛する。

図４は本発明の実施例に係る画像処理装置のハードウェアの構造的模式図である。当該画像処理装置２はプロセッサ２１、メモリ２２、入力装置２３及び出力装置２４を含む。当該プロセッサ２１、メモリ２２、入力装置２３及び出力装置２４は、各種のポート、伝送回線又はバス等を含むコネクタによって結合され、本発明の実施例はこれを限定しない。本発明の各実施例では、結合とは直接的接続又は他のデバイスを介した間接的接続を含む特定の方式による相互関連であることを指し、例えば各種のポート、伝送回線、バス等によって接続されてもよいことを理解すべきである。

プロセッサ２１は、１つ又は複数のグラフィックスプロセッシングユニット（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＧＰＵ）であってもよく、１つのＧＰＵである場合に、当該ＧＰＵがシングルコアＧＰＵであっても、マルチコアＧＰＵであってもよい。一部の実施例では、プロセッサ２１は複数のＧＰＵで構成されたプロセッサ群であってもよく、複数のプロセッサ同士が１つ又は複数のバスを介して互いに結合される。一部の実施例では、当該プロセッサは更に他の種類のプロセッサ等であってもよく、本発明の実施例はこれを限定するものではない。

メモリ２２はコンピュータプログラム指令を記憶し、本発明の解決手段のプログラムコードを含む各種のコンピュータプログラムコードを実行するように構成されてもよい。選択可能に、メモリは、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、読み出し専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ：ＥＰＲＯＭ）又はコンパクトディスク読み取り専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ：ＣＤ－ＲＯＭ）を含むが、それらに限定されなく、当該メモリは関連指令及びデータを記憶するように構成される。

入力装置２３はデータ及び／又は信号を入力するように構成され、出力装置２４はデータ及び／又は信号を出力するように構成される。入力装置２３と出力装置２４は単独したデバイスであってもよく、一体化したデバイスであってもよい。

本発明の実施例では、メモリ２２は関連指令を記憶するように構成されてもよいし、関連データを記憶するように構成されてもよいことが理解され、例えば、当該メモリ２２は入力装置２３によって取得された処理されるべき画像を記憶するように構成されてもよいし、プロセッサ２１によって得られた処理結果等を記憶するように構成されてもよく、本発明の実施例は当該メモリに記憶されるデータを限定するものではない。

図４に示すのが画像処理装置の簡素化設計であることが理解される。実際の応用において、画像処理装置は更にそれぞれ必要な他の素子を含んでもよく、任意数量の入力／出力装置、プロセッサ、メモリ等を含むが、それらに限定されなく、本発明の実施例を実現可能な全ての画像処理装置は全て本発明の保護範囲に含まれる。

なお、本明細書で発明された実施例を組み合わせて記載された各例のユニット及びアルゴリズムのステップが、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアの組み合わせで実現され得ることは、当業者であれば想到できる。これらの機能がハードウェアの形態で実行されるか、又はソフトウェアの形態で実行されるかは、技術的解決手段の特定の応用及び設計制約条件によって決定される。専門技術者は各特定の応用について、記述された機能を異なる方法を用いて実現できるが、このような実現は本発明の範囲を超えたものと理解すべきではない。

当業者であれば、説明を簡単化及び簡潔化するために、上述説明されたシステム、装置及びユニットの具体的な動作プロセスは、前記方法の実施例における対応するプロセスを参照すればよいことが明確に理解され、ここでは説明を省略する。当業者であれば、本発明の各実施例で説明された重点はそれぞれ異なっており、説明を簡単化及び簡潔化するために、同じ又は類似する部分については異なる実施例で詳細に説明されないことがあるため、ある実施例で説明されなく、又は詳細な説明をなされない部分については他の実施例の記載を参照すればよいことが明確に理解される。

本発明により提供される一部の実施例では、発明されるシステム、装置及び方法は、他の形態で実現できることを理解すべきである。例えば、上述説明された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の形態で分割してもよく、例えば複数のユニット又はコンポーネントは組み合わせてもよく、又は別のシステムに統合してもよく、又は一部の特徴を省略もしくは実行しなくてもよい。一方、示される又は議論される相互の結合又は直接結合又は通信接続は一部のインタフェース、機器又はユニットを介した間接的結合又は通信接続であり得、電気的、機械的又は他の形態であり得る。

分離部材として説明されたユニットは物理的に分離されたものであってもよく又は物理的に分離されるものでなくてもよく、ユニットとして示された部材は物理ユニットであってもよく又は物理ユニットでなくてもよく、一箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際の必要に応じてその中の一部又は全てのユニットを選択して本実施例の解決手段の目的を実現できる。

また、本発明の各実施例における各機能ユニットは一つの処理ユニットに統合されてもよく、個々のユニットは単独で物理的に存在してもよく、二つ又は二つ以上のユニットは一つのユニットに統合されてもよい。

上記実施例では、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせにより全体的又は部分的に実現されることができる。ソフトウェアにより実現される時に、コンピュータプログラム製品として全体的又は部分的に実現されることができる。前記コンピュータプログラム製品は１つ又は複数のコンピュータ指令を含む。コンピュータに前記コンピュータプログラム指令をロードし、実行する時に、本発明の実施例に記載のプロセス又は機能が全体的又は部分的に発生する。前記コンピュータは汎用コンピュータ、専用コンピュータ、コンピュータネットワーク又は他のプログラマブルデバイスであってよい。前記コンピュータ指令はコンピュータ読み取り可能な記憶媒体に記憶されてもよいし、前記コンピュータ読み取り可能な記憶媒体により伝送されてもよい。前記コンピュータ指令は１つのウェブサイト、コンピュータ、サーバ又はデータセンタから有線（例えば、同軸ケーブル、光ファイバー、デジタル加入者回線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ：ＤＳＬ））又は無線（例えば、赤外線、無線、マイクロ波等）で別のウェブサイト、コンピュータ、サーバ又はデータセンタに伝送可能である。前記コンピュータ読み取り可能な記憶媒体は、コンピュータがアクセス可能ないかなる利用可能な媒体或いは１つ又は複数の利用可能な媒体を含んで統合されたサーバ、データセンタ等のデータ記憶装置であってもよい。前記利用可能な媒体は磁気媒体（例えば、フロッピーディスク、ハードディスク、磁気テープ）、光媒体（例えば、デジタル多用途ディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ：ＤＶＤ））又は半導体媒体（例えば、ソリッドステートディスク（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ：ＳＳＤ））等であってもよい。

当業者であれば、上記実施例方法におけるプロセスの全て又は一部の実現について、このプロセスはコンピュータプログラムが関連ハードウェアに指令を出すことで完了することができ、このプログラムはコンピュータ読み取り可能な記憶媒体に記憶可能であり、このプログラムが実行される時に、上記各方法実施例のプロセスを含むできることが理解される。上記の記憶媒体は、読み出し専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）又はランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、磁気ディスク又は光ディスク等の種々のプログラムコードを記憶できる媒体を含む。

本発明は、コンピュータ技術分野に関し、特に画像処理方法及び装置、プロセッサ、電子機器並びに記憶媒体に関する。

Claims

処理されるべき画像を取得することと、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理することで、前記処理されるべき画像の処理結果を得ることであって、前記画像処理ニューラルネットワークは、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なることとを含む
画像処理方法。
前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得することと、
前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることと、
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、前記画像処理ニューラルネットワークを得ることとを更に含む
請求項１に記載の方法。
前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得ることは、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、第二トレーニングされるべきニューラルネットワークを得ることと、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理することで、前記ラベル付け無し画像集合のラベルを得ることとを含む
請求項２に記載の方法。
前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、前記画像処理ニューラルネットワークを得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得ると共に、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることと、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得ると共に、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得ることと、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることと、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整することで、前記画像処理ニューラルネットワークを得ることとを含む
請求項３に記載の方法。
前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、前記方法は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得ることであって、前記トレーニング画像集合は、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なることと、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得ることとを更に含み、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることは、
前記第一差異と前記第二差異により、カテゴリ損失を得ることと、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得ることとを含む
請求項４に記載の方法。
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、前記方法は、
第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定することであって、前記カテゴリ内最難画像は、カテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像は、カテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合は、ラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合は、ラベルが前記第一画像のラベルと異なる画像を含むことを更に含む
請求項５に記載の方法。
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記方法は、前記ラベル付け無し画像集合に対してデータ増強処理を行うことで、増強された画像集合を得ることを更に含み、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得ることは、
前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理することで、前記第二結果を得ることを含む
請求項４～６のいずれか一項に記載の方法。
処理されるべき画像を取得するように構成される取得部と、
画像処理ニューラルネットワークを用いて前記処理されるべき画像を処理することで、前記処理されるべき画像の処理結果を得るように構成される処理部であって、前記画像処理ニューラルネットワークは、ラベル付け無し画像集合とラベル付け済み画像集合をトレーニングデータとしてトレーニングされたものであり、前記ラベル付け無し画像集合の収集条件と前記処理されるべき画像の収集条件とは同じであり、前記ラベル付け済み画像集合の収集条件と前記ラベル付け無し画像集合の収集条件とは異なる処理部とを備える
画像処理装置。
前記取得部は、更に、前記ラベル付け無し画像集合、前記ラベル付け済み画像集合及び第一トレーニングされるべきニューラルネットワークを取得するように構成され、
前記処理部は、更に、前記ラベル付け済み画像集合に基づいて、前記ラベル付け無し画像集合のラベルを得るように構成され、
前記装置は、更に、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合をトレーニングデータとし、前記ラベル付け無し画像集合のラベルを前記ラベル付け無し画像集合の教師情報として、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、前記画像処理ニューラルネットワークを得るように構成されるトレーニング部を備える
請求項８に記載の画像処理装置。
前記処理部は、更に、
前記ラベル付け済み画像集合をトレーニングデータとして、前記第一トレーニングされるべきニューラルネットワークをトレーニングすることで、第二トレーニングされるべきニューラルネットワークを得ると共に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理することで、前記ラベル付け無し画像集合のラベルを得るように構成される
請求項９に記載の画像処理装置。
前記処理部は、更に、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け済み画像集合を処理して第一結果を得ると共に、前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得、
前記第一結果と前記ラベル付け済み画像集合のラベルとの間の差異により第一差異を得ると共に、前記第二結果と前記ラベル付け無し画像集合のラベルとの間の差異により第二差異を得、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得、
前記第二トレーニングされるべきニューラルネットワークの損失に基づいて、前記第二トレーニングされるべきニューラルネットワークのパラメータを調整することで、前記画像処理ニューラルネットワークを得るように構成される
請求項１０に記載の画像処理装置。
前記ラベル付け済み画像集合のラベルと前記ラベル付け無し画像のラベルにはいずれもカテゴリ情報が含まれており、
前記装置は、
前記第一差異と前記第二差異により、前記第二トレーニングされるべきニューラルネットワークの損失を得る前に、トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得るように構成される第一決定部であって、前記トレーニング画像集合は、前記ラベル付け済み画像集合と前記ラベル付け無し画像集合を含み、前記第一画像のカテゴリと前記第二画像のカテゴリとは同じであり、且つ前記第一画像のカテゴリと前記第三画像のカテゴリとは異なる第一決定部と、
前記第一類似度と前記第二類似度との間の差異により、トリプレット損失を得るように構成される第二決定部とを更に備え、
前記処理部は、更に、
前記第一差異と前記第二差異により、カテゴリ損失を得、
前記カテゴリ損失と前記トリプレット損失により、前記第二トレーニングされるべきニューラルネットワークの損失を得るように構成される
請求項１１に記載の画像処理装置。
前記装置は、
トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第二画像との間の類似度を決定して第一類似度を得ると共に、前記トレーニング画像集合中の第一画像と前記トレーニング画像集合中の第三画像との間の類似度を決定して第二類似度を得る前に、第一画像のカテゴリ内最難画像を第二画像として決定し、第一画像のカテゴリ外最難画像を第三画像として決定するように構成される第三決定部であって、前記カテゴリ内最難画像は、カテゴリ内画像集合のうち、前記第一画像との間の類似度が最も小さい画像であり、前記カテゴリ外最難画像は、カテゴリ外画像集合のうち、前記第一画像との間の類似度が最も大きい画像であり、前記カテゴリ内画像集合はラベルが前記第一画像のラベルと同じな画像を含み、前記カテゴリ外画像集合はラベルが前記第一画像のラベルと異なる画像を含む第三決定部を更に備る
請求項１２に記載の画像処理装置。
前記装置は、
前記第二トレーニングされるべきニューラルネットワークを用いて前記ラベル付け無し画像集合を処理して第二結果を得る前に、前記ラベル付け無し画像集合に対してデータ増強処理を行うことで、増強された画像集合を得るように構成されるデータ増強処理部を更に備え、
前記処理部は、前記第二トレーニングされるべきニューラルネットワークを用いて前記増強された画像集合と前記ラベル付け無し画像集合を処理することで、前記第二結果を得るように構成される
請求項１０～１２のいずれか一項に記載の画像処理装置。
請求項１～７のいずれか一項に記載の方法を実行するように構成されるプロセッサ。
プロセッサ、送信装置、入力装置、出力装置及びメモリを備え、
前記メモリは、コンピュータ指令を含むコンピュータプログラムコードを記憶するように構成され、
前記プロセッサが前記コンピュータ指令を実行する場合に、請求項１～７のいずれか一項に記載の方法を実行する
電子機器。
プログラム指令を含むコンピュータプログラムが記憶されており、
前記プログラム指令がプロセッサによって実行される場合に、前記プロセッサに請求項１～７のいずれか一項に記載の方法を実行させる
コンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能なコードを含み、
前記コンピュータ読み取り可能なコードが電子機器で運行して、前記電子機器内のプロセッサにより実行される場合に、請求項１～７のいずれか一項に記載の方法を実現する
コンピュータプログラム。