JP2022063236A

JP2022063236A - 画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2022063236A
Application number: JP2021163243A
Authority: JP
Inventors: ウェイリィウ; Wei Liu; シャオリアン; Liang Xiao; 一成中村; Kazunari Nakamura; シーホングオ; Xihong Guo; アンシンリ; An-Shin Lee; ランチェン; Lan Chen; 悠介福島; Yusuke Fukushima
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2020-10-09
Filing date: 2021-10-04
Publication date: 2022-04-21
Also published as: CN114332524A

Abstract

【課題】異なる特徴を異なる次元で処理して融合することにより、複数の次元からヘテロジニアスな特徴の融合を効果的に促進でき、ニューラルネットワークモデルの判定結果がより正確になる画像処理装置、画像処理方法及び記憶媒体を提供する。【解決手段】画像処理装置１０００は、第１特徴及び第２特徴を取得するための前処理モジュールと、第１特徴及び第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得する少なくとも２つの特徴処理サブモジュールを含む特徴処理モジュールと、第１処理結果と第２処理結果とを融合して、判定結果を取得する特徴融合モジュールと、を含む。特徴融合モジュールは、特徴処理モジュールと異なる次元で第１処理結果と第２処理結果とを融合する。【選択図】図１

Description

本出願は、画像処理分野に関し、具体的には、画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体に関する。

ディープニューラルネットワークは、マルチパラメータで最適化された大規模ツールである。ディープニューラルネットワークは、大量のトレーニングデータに依存して、データにおける要約するのが難しい隠れた特徴を学習でき、それにより、顔検出、画像セマンティックセグメンテーション、テキスト要約抽出、物体検出、動作追従、自然言語翻訳など、多くの複雑なタスクを完成できる。

科学技術の発展に伴い、情報化と知能化は、人々の日常生活で広く使用されている。例えば、オンライン教育や自動運転などの分野では、注意力の集中が非常に重要であり、ディープニューラルネットワークを介した注意力に対するリアルタイム監視が可能になる。

上記問題に鑑みて、本開示は、画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体を提供する。

本開示の一態様によれば、ニューラルネットワークに基づく画像処理装置が提供され、前記装置は、第１特徴及び第２特徴を取得するための前処理モジュールと、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得する少なくとも２つの特徴処理サブモジュールを含む特徴処理モジュールと、前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得する特徴融合モジュールと、を含み、前記特徴融合モジュールは、前記特徴処理モジュールと異なる次元で前記第１処理結果と前記第２処理結果とを融合する。

本開示の１つの例によれば、前記少なくとも２つの特徴処理サブモジュールは、時間次元で前記第１特徴及び前記第２特徴を処理して、前記第１処理結果及び前記第２処理結果を取得し、前記特徴融合モジュールは、特徴次元で前記第１処理結果と前記第２処理結果とを融合して、前記判定結果を取得する。

本開示の１つの例によれば、前記特徴融合モジュールは、特徴次元で前記第１処理結果及び前記第２処理結果をそれぞれ処理して、前記第３処理結果及び前記第４処理結果を取得し、前記特徴融合モジュールは、前記第３処理結果と前記第４処理結果とをスティッチングして、前記判定結果を取得する。

本開示の１つの例によれば、前記第３処理結果は、前記第１処理結果の線形変換結果及び非線形変換結果を含み、前記第４処理結果は、前記第２処理結果の線形変換結果及び非線形変換結果を含む。

本開示の１つの例によれば、前記少なくとも２つの特徴処理サブモジュールは、自己注意力メカニズムに基づいて前記第１特徴及び前記第２特徴を処理する。

本開示の１つの例によれば、前記少なくとも２つの特徴処理サブモジュールは、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルに基づいて前記第１特徴及び前記第２特徴を処理する。

本開示の１つの例によれば、前記前処理モジュールは、前記第１特徴及び前記第１特徴とヘテロジニアス（Ｈｅｔｅｒｏｇｅｎｅｏｕｓ）な前記第２特徴を時間次元及び空間次元で取得する。

本開示の１つの例によれば、前記第１特徴及び前記第２特徴は、前記注意力変化に関連する特徴である。

本開示の一態様によれば、ニューラルネットワークに基づく画像処理方法が提供され、前記方法は、第１特徴及び第２特徴を取得するステップと、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得するステップと、前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第１特徴及び前記第２特徴を処理する場合と異なる次元で前記第１処理結果と前記第２処理結果とを融合する。

本開示の１つの例によれば、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得する前記ステップは、時間次元で前記第１特徴及び前記第２特徴をそれぞれ処理して、前記第１処理結果及び前記第２処理結果を取得するステップを含み、前記前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するステップは、特徴次元で前記第１処理結果と前記第２処理結果とを融合して、前記判定結果を取得するステップを含む。

本開示の１つの例によれば、特徴次元で前記第１処理結果と前記第２処理結果とを融合して、前記判定結果を取得する前記ステップは、特徴次元で前記第１処理結果及び前記第２処理結果をそれぞれ処理してで、前記第３処理結果及び前記第４処理結果を取得するステップと、前記第３処理結果と前記第４処理結果とをスティッチングして、前記判定結果を取得するステップと、を含む。

本開示の１つの例によれば、第１処理結果及び第２処理結果を取得する前記ステップは、自己注意力（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）メカニズムに基づいて前記第１特徴及び前記第２特徴を処理することにより、第１処理結果及び第２処理結果を取得するステップを含む。

本開示の１つの例によれば、第１処理結果及び第２処理結果を取得する前記ステップは、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルに基づいて前記第１特徴及び前記第２特徴を処理することにより、第１処理結果及び第２処理結果を取得するステップを含む。

本開示の１つの例によれば、第１特徴及び第２特徴を取得する前記ステップは、前記第１特徴及び前記第１特徴とヘテロジニアスな前記第２特徴を時間次元及び空間次元で取得するステップを含む。

本開示の一態様によれば、ニューラルネットワークに基づく画像処理機器が提供され、前記機器は、プロセッサと、コンピュータ読み取り可能なプログラム命令が記憶されるメモリと、を含み、前記コンピュータ読み取り可能なプログラム命令が前記プロセッサにより実行される場合、ニューラルネットワークに基づく画像処理方法が実行され、前記方法は、第１特徴及び第２特徴を取得するステップと、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得するステップと、前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第１特徴及び前記第２特徴を処理する場合と異なる次元で前記第１処理結果と前記第２処理結果とを融合する。

本開示の一態様によれば、コンピュータ読み取り可能なプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体が提供され、前記プログラムは、コンピュータに、上記のいずれかに記載のニューラルネットワークに基づく画像処理方法を実行させる。

本開示の上記態様では、ニューラルネットワークモデルを構築し、異なる次元で異なる特徴を処理で融合することにより、複数の次元からヘテロジニアスな特徴の融合を効果的に促進でき、ニューラルネットワークモデルに基づく判定結果がより正確になる。

図面を参照して本開示の実施形態をより詳細に説明することにより、本開示の上記及び他の目的、特徴及び利点はより明らかになる。図面は本開示の実施形態に対するさらなる理解を提供するために用いられ、かつ明細書の一部を構成し、本開示の実施形態と共に本開示を説明するために用いられ、本開示を限定するものではない。図面において、同じ参照符号は一般的に同じ部品又はステップを表す。

本開示の実施形態による画像処理装置の機能ブロック図である。本開示の実施形態による画像処理装置の模式図である。本開示の実施形態による画像処理装置を時間次元及び空間次元で実現する模式図である。本開示の実施形態による特徴融合モジュールの操作模式図である。本開示の実施形態による画像処理装置の操作プロセスの模式図である。本開示の実施形態による画像処理方法のフローチャートである。本開示の実施形態による判定結果の取得方法のフローチャートである。本開示の実施形態による画像処理機器の機能ブロック図である。本開示の実施形態によるコンピュータ読み取り可能な記憶媒体の模式図である。本開示の実施形態に係る電子機器のハードウェア構造の一例の図である。

以下、本開示の実施形態における図面を参照しながら、本開示の実施形態における技術的解決策を明確かつ完全に記載する。ここで記載される実施形態は、本開示の一部の実施形態に過ぎず、全ての実施形態ではないことが明らかである。本開示の実施形態に基づいて、創造的労働なしに当業者により得られる他の全ての実施形態は、本開示の保護範囲内に入るものとする。

本出願では、フローチャートを用いて、本出願の実施形態による方法のステップについて説明する。前のステップ、又は後のステップは、必ずしも順番で実行されなくてもよい。逆に、各ステップを逆の順序で、又は同時に処理してもよいことが理解され得る。それとともに、ほかの動作をこれらのプロセスに追加してもよく、又はこれらのプロセスから、あるステップ又は複数のステップを省略してもよい。

先ず、図１を参照しながら、本開示の実施形態を実現するための画像処理装置について説明する。本開示の画像処理装置は、オンライン教育又は自動運転などの分野における注意力検出の判定に適用できる。また、本開示の画像処理装置は、オンライン一人教育又は自動運転などの分野における注意力検出に限られず、本開示の画像処理装置は、オンライン多人教育又は自動運転などの分野における注意力検出にも適用できる。なお、本開示の画像処理装置は、この分野に限られず、任意の適切な分野に適用されてもよい。

以下、本開示の画像処理装置がオンライン教育の注意力検出に用いられることを例とし、図面を組み合わせて本開示の実施形態及びその例について詳細に説明する。

本発明の少なくとも１つの実施形態は、画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体を提供する。以下にいくつかの例及び実施形態により本開示の少なくとも１つの実施形態に係る画像処理を非限定的に説明し、以下に説明するように、互いに矛盾しない場合、これらの具体的な例及び実施形態における異なる特徴を互いに組み合わせることができ、それにより新しい例及び実施形態を取得し、これらの新しい例及び実施形態もいずれも本開示の保護範囲に属する。

以下、図１～５を参照しながら、本開示の実施形態による画像処理装置について説明する。

図１に示すように、本開示の実施形態による画像処理装置１０００は、前処理モジュール１０１０と、特徴処理モジュール１０２０と、特徴融合モジュール１０３０と、を含む。当業者に理解されるように、これらのユニットモジュールは、単独でハードウェアにより、単独でソフトウェアにより、又はそれらの組み合わせにより、様々な形態で実現することができ、本開示は、それらのいずれかに限定されない。例えば、中央処理ユニット（ＣＰＵ）、テキストプロセッサ（ＧＰＵ）、テンソル・プロセッシング・ユニット（ＴＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はデータ処理能力及び／又は命令実行能力を有する他の形態の処理ユニット及び対応するコンピュータ命令によりこれらのユニットを実現することができる。

図２に示すように、本開示の実施形態による画像処理装置の模式図である。

例えば、図２に示すように、前処理モジュール１０１０は、第１特徴３０及び第２特徴２０を取得することができる。

例えば、オンライン教育分野では、前記第１特徴３０及び前記第２特徴２０は、前記注意力の変動に関連する特徴である。例えば、第１特徴は、顔特徴であってもよく、第２特徴は、身体姿勢特徴であってもよい。なお、本開示の前処理モジュール１０１０は、上記２種類の特徴を取得することに限られず、ビデオ音響特徴、字幕特徴、背景特徴など、注意力変化に関連する複数種類の特徴を取得してもよいが、ここで限定しない。

例えば、前記前処理モジュール１０１０は、前記第１特徴及び前記第１特徴とヘテロジニアスな前記第２特徴を時間次元及び空間次元で取得することができる。

例えば、時間次元において、異なる時間で異なるビデオフレーム又は画像フレーム（例えば、３０秒ごと又は３フレームごと）における顔特徴及び身体姿勢特徴を抽出することができ、空間次元で、画像又はビデオにおける異なる空間において顔特徴及び身体姿勢特徴を抽出することができる。そして、前処理モジュール１０１０は、注意力を判定するのに必要なものに基づいて、抽出された顔特徴及び身体姿勢特徴を採取したり、変換したり、計算することができる。

１つの例としては、顔特徴は、注意力に関連する両眼の視線角度の平均値、分散値や傾きなど、及び頭部の向きの平均値、分散値、傾きなどを含んでもよい。別の例として、身体姿勢特徴は、注意力に関連する両肩の位置座標分散値、両手の肘の位置座標分散値などを含んでもよい。また他の例としては、顔は人によって大きさが異なるが、顔の大きさが注意力判定に関係ないので、顔大きさの特徴をこの画像処理装置１０００の特徴として抽出しなくてもよい。なお、全ての顔特徴及び身体姿勢特徴を抽出することに比べ、注意力に関連する特徴を直接抽出して処理することで、注意力判定の処理複雑度を低減させ、処理結果をより正確にすることができる。

なお、上記顔特徴及び身体姿勢特徴は単なる例であり、注意力に関する他の特徴を抽出してもよいが、ここで限定しない。

上述したように、前処理モジュール１０１０は、３７種類の第１特徴及び５０種類の第２特徴を取得したものとする。そして、図２に示すように、特徴処理モジュール１０２０は、少なくとも２つの特徴処理サブモジュール１１及び１２を含むことができ、前記少なくとも２つの特徴処理サブモジュール１１及び１２は、それぞれ前記第１特徴３０及び前記第２特徴２０を処理して、第１処理結果１３及び第２処理結果１４を取得する。

例えば、この画像処理装置１０００は、ニューラルネットワークに基づく画像処理装置であってもよい。例えば、このニューラルネットワークモデルは、畳み込みニューラルネットワーク（ＣＮＮ）（ＧｏｏｇＬｅＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧネットワークなどを含む）、領域ベースの畳み込みニューラルネットワーク（Ｒ－ＣＮＮ）、領域提案ネットワーク（ＲＰＮ）、サイクルニューラルネットワーク（ＲＮＮ）、スタックに基づくディープニューラルネットワーク（Ｓ－ＤＮＮ）、深層信念ネットワーク（ＤＢＮ）、制限ボルツマンマシン（ＲＢＭ）、完全畳み込みネットワーク、長・短期記憶（ＬＳＴＭ）ネットワーク及び分類ネットワークであるがこれらに限られない、様々なニューラルネットワークモデルを含んでもよい。

例えば、このニューラルネットワークモデルは、サブニューラルネットワーク／ニューラルネットワークブランチ（ｂｒａｎｃｈ）を含んでもよく、このサブニューラルネットワークは、ヘテロジニアスニューラルネットワーク（ＨｅｔｅｒｏｇｅｎｅｏｕｓｎｅｕｒａｌＮｅｔｗｏｒｋ）を含んでもよく、ヘテロジニアスニューラルネットワークモデルで実現されてもよい。例えば、この少なくとも２つの画像処理サブモジュールは、ニューラルネットワークの少なくとも２つのヘテロジニアスのニューラルブランチ／サブネットワークに対応してもよい。

例えば、前記少なくとも２つの特徴処理サブモジュールは、自己注意力メカニズムに基づいて前記第１特徴及び前記第２特徴を処理することができる。例えば、前記少なくとも２つの特徴処理サブモジュールは、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルに基づいて前記第１特徴及び前記第２特徴を処理することができる。例えば、第１特徴及び第２特徴を、Ｔｒａｎｓｆｏｒｍｅｒモデル及び活性化関数（例えば、ｓｉｇｍｏｉｄ関数、ｓｏｆｔｍａｘ関数、ｔａｎｈ関数など）により所定回数処理して、第１処理結果及び第２処理結果を取得することができる。なお、所定回数は、ニーズ又は統計情報に応じて設定されてもよいが、ここで限定しない。

図２に示すように、第１処理結果１３及び第２処理結果１４を取得した後、そして、特徴融合モジュール１０３０は、前記第１処理結果１３と前記第２処理結果１４とを融合して、判定結果１５を取得することができる。例えば、前記特徴融合モジュール１０３０は、前記特徴処理モジュール１０２０と異なる次元で前記第１処理結果１３と前記第２処理結果１４とを融合することができる。

例えば、前記少なくとも２つの特徴処理サブモジュールは、時間次元で前記第１特徴及び前記第２特徴を処理して、前記第１処理結果及び前記第２処理結果を取得でき、前記特徴融合モジュール１０３０は、特徴次元で前記第１処理結果と前記第２処理結果とを融合して、前記判定結果を取得できる。

以下、図３～４により、本開示の実施形態による画像処理装置１０００の異なる次元での処理について説明する。

図３は、本開示の実施形態による画像処理装置を時間次元及び空間次元で実現する模式図を示す。図３に示すように、左側は、少なくとも２つの特徴処理サブモジュールが時間次元で前記第１特徴及び前記第２特徴を処理する模式図であり、右側は、特徴融合モジュール１０３０が特徴次元で前記第１処理結果と前記第２処理結果とを融合する模式図である。

図３の左側に示すように、特徴処理サブモジュールは、時間次元で、例えば、第１特徴（例えば顔特徴）に対して、所定時間内（例えば、３０秒内）に第１特徴の３つの特徴量セット２１、２２及び２３を時間と共に取得する。ここで、特徴量セット２１、２２及び２３における異なる充填された円は、異なる特徴を表す。そして、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）に基づくモデルを用いて、当該３つの特徴量セット２１、２２及び２３に対して異なる重み（例えば、０．２、０．７及び０．１）を与えることで、時間次元での第１処理結果２４を得る。同様に、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）に基づくモデルを用いて、第２処理特徴（例えば、身体姿勢特徴）の時間と共に変換された特徴量セットに対して異なる重みを与えることで、時間次元での第２処理結果２４を得る。

図３の右側に示すように、特徴次元で、例えば、第１処理結果のうちの各特徴に対して、時間要素を無視し、各特徴の線形変換及び非線形変換を計算することで、特徴次元での処理結果を得る。

例えば、前記特徴融合モジュール１０３０は、特徴次元で前記第１処理結果及び前記第２処理結果をそれぞれ処理して、前記第３処理結果及び前記第４処理結果を取得でき、前記特徴融合モジュール１０３０は、前記第３処理結果と前記第４処理結果とをスティッチング（ｓｔｉｔｃｈｉｎｇ）して、前記判定結果を取得できる。例えば、前記第３処理結果は、前記第１処理結果の線形変換結果及び非線形変換結果を含むことができ、前記第４処理結果は、前記第２処理結果の線形変換結果及び非線形変換結果を含むことができる。

以下、図４を参照しながら、本開示の実施形態による特徴融合モジュール１０３０の操作について詳細する。

図４に示すように、まず、第１処理結果１３の各特徴量を、例えば、畳み込みニューラルネットワーク（Ｃｏｎｖ）２２により処理し、次に、処理結果に対して時間次元上の次元削減を行う。例えば、Ｃｏｎｖ２２の出力結果の時間次元における平均値（Ｒｅｄｕｃｅｍｅａｎ）４２、最大値、最小値、平均分散値などを取得して、その時間次元を削減させた処理結果として取得する。そして、例えばＲｅｄｕｃｅｍｅａｎ４２により次元削減後の処理結果を活性化関数４３により処理して、線形処理結果４６を取得する。例えば、この活性化関数は、ｓｉｇｍｏｉｄ関数、ｓｏｆｔｍａｘ関数、ｔａｎｈ関数などを含んでもよいが、これらに限られない。

例えば、活性化関数がｔａｎｈ関数の場合、以下の式により線形処理結果Ｓ１を取得することができる。

ｆ１、ｆ２及びｆ３は、Ｒｅｄｕｃｅｍｅａｎ４２により次元削減後の処理結果を示す。

例えば、第１処理結果１３の場合、上記活性化関数４３により取得された出力結果４６は、線形変換結果であり、第１処理結果１３も線形変換結果４４であり、また、畳み込みニューラルネットワークＣｏｎｖ２２により取得された出力結果４５は、非線形変換結果である。それにより、特徴融合モジュール１０３０は、前記第１処理結果１３を特徴次元で処理して、前記第３処理結果を取得し、第３処理結果は、前記第１処理結果１３の線形変換結果４４、４６及び非線形変換結果４５を含む。同様に、特徴融合モジュール１０３０は、第２処理結果１４を特徴次元で処理して、前記第４処理結果を取得してもよく、第４処理結果は、前記第２処理結果の線形変換結果及び非線形変換結果を含む。

そして、特徴融合モジュール１０３０は、前記第３処理結果と前記第４処理結果とをスティッチング４８して、前記判定結果１５を取得することができる。

また、第３処理結果と第４処理結果とをスティッチングする前に、第３処理結果の線形変換結果４４と４６とをスティッチングすることにより、線形変換結果４７を取得してもよい。同様に、第３処理結果と第４処理結果とをスティッチングする前、第４処理結果の２つの線形変換結果をスティッチングすることにより、線形変換結果４９を取得してもよい。

例えば、このスティッチング操作は、加算、掛け算し、直接組み合わせ、結合などの操作を含んでもよい。なお、スティッチング操作は、上記操作に限られず、第３処理結果と第４処理結果とをスティッチングする任意の操作は、上記スティッチング操作を実現できる。

図５は、本開示の実施形態による画像処理装置１０００の操作プロセスの模式図を示す。

図５に示すように、前処理モジュール１０１０は、第１特徴３０及び第２特徴２０を取得できる。オンライン教育分野で、前記第１特徴３０及び前記第２特徴２０は、前記注意力変化に関連する特徴である。例えば、第１特徴は、顔特徴であってもよく、第２特徴は、身体姿勢特徴であってもよい。本開示の前処理モジュール１０１０は、さらにビデオ音響特徴、字幕特徴、背景特徴など、注意力変化に関連する複数種類の特徴を取得してもよいが、ここで限定しない。

そして、特徴処理モジュール１０２０の少なくとも２つの特徴処理サブモジュールは、前記第１特徴３０及び前記第２特徴２０を時間次元で処理して、前記第１処理結果及び前記第２処理結果（例えば、破線フレーム６０に示）を取得する。例えば、特徴処理サブモジュールは、順に、例えば閾値サイクルユニット（ＧＲＵ）、活性化関数（例えば、ｓｉｇｍｏｉｄ関数、ｓｏｆｔｍａｘ関数、ｔａｎｈ関数など）、所定回数のトランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルなどにより、前記第１特徴３０を時間次元で処理して、第１処理結果を取得することができる。同様に、特徴処理サブモジュールは、順に、例えば閾値サイクルユニット（ＧＲＵ）、活性化関数（例えば、ｓｉｇｍｏｉｄ関数、ｓｏｆｔｍａｘ関数、ｔａｎｈ関数など）、所定回数のトランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルなどにより、前記第２特徴２０を時間次元で処理して第２処理結果を取得してもよい。なお、図５における所定回数のトランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルが２回に設定されることは、単なる例に過ぎないが、所定回数は、ニーズ又は統計情報に応じて設定されてもよいが、ここで限定しない。

そして、特徴融合モジュール１０３０は、前記第１処理結果及び前記第２処理結果をそれぞれ特徴次元で処理して、前記第３処理結果及び前記第４処理結果（例えば、破線フレーム６１に示す）を取得する。ここで、前記第３処理結果は、前記第１処理結果の線形変換結果及び非線形変換結果を含むことができ、前記第４処理結果は、前記第２処理結果の線形変換結果及び非線形変換結果を含むことができる。次に、前記特徴融合モジュール１０３０は、前記第３処理結果と前記第４処理結果とをスティッチングして、前記スティッチング結果を取得する。次のステップでは、この画像処理モデル１０００は、例えばニューラルネットワークのフラット化層（例えば、ｆｌａｔｔｅｎ５６、ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ２Ｄなど）、全接続層（ＦＣ）及び活性化関数（例えば、Ｓｉｇｍｏｉｄ）などにより、スティッチング結果を処理し、判定結果１５を取得する。オンライン教育分野において、この判定結果は、注意力の集中度の判定に用いられてもよい。

本開示では、マルチブランチニューラルネットワークを導入することで、ヘテロジニアスの第１特徴と第２特徴とを同時に処理し、同時に、特徴処理モジュール及び特徴融合モジュールにより、複数の次元において第１特徴及び第２特徴を処理し、ヘテロジニアスな特徴の融合を効果的に促進することにより、本開示の画像処理装置の判定結果がより正確になる。

以上、図面を参照しながら本開示の実施形態による画像処理装置について説明した。以下、本開示の実施形態による画像処理方法について説明する。

図６は、本開示の実施形態による画像処理方法１００のフローチャートである。本開示の画像処理方法は、オンライン教育又は自動運転などの分野における注意力検出の判定に適用できる。

以下、本開示の画像処理方法がオンライン教育の注意力検出に適用されることを例として、図面を参照しながら、本開示の実施形態及びその例について詳細に説明する。

図６に示すように、この画像処理方法は、ステップＳ１０１～Ｓ１０３を含む。

ステップＳ１０１において、第１特徴及び第２特徴を取得する。

ステップＳ１０２において、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得する。

ステップＳ１０３において、前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得する。前記方法は、前記第１特徴及び前記第２特徴を処理する場合と異なる次元で前記第１処理結果と前記第２処理結果とを融合する。

例えば、この画像処理方法１００は、ニューラルネットワークに基づく画像処理装置であってもよい。例えば、このニューラルネットワークモデルは、畳み込みニューラルネットワーク（ＣＮＮ）（ＧｏｏｇＬｅＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧネットワークなどを含む）、領域ベースの畳み込みニューラルネットワーク（Ｒ－ＣＮＮ）、領域提案ネットワーク（ＲＰＮ）、サイクルニューラルネットワーク（ＲＮＮ）、スタックに基づくディープニューラルネットワーク（Ｓ－ＤＮＮ）、深層信念ネットワーク（ＤＢＮ）、制限ボルツマンマシン（ＲＢＭ）、完全畳み込みネットワーク、長・短期記憶（ＬＳＴＭ）ネットワーク及び分類ネットワークであるが、これらに限られない様々なニューラルネットワークモデルを含んでもよい。

例えば、このニューラルネットワークモデルは、サブニューラルネットワーク／ニューラルネットワークブランチを含んでもよく、このサブニューラルネットワークは、ヘテロジニアスニューラルネットワークを含んでもよく、ヘテロジニアスニューラルネットワークモデルで実現されてもよい。

ステップＳ１０１において、例えば、オンライン教育分野において、前記第１特徴３０及び前記第２特徴２０は、前記注意力変化に関連する特徴である。例えば、第１特徴は、顔特徴であってもよく、第２特徴は、身体姿勢特徴であってもよい。なお、本開示は、上記２種類の特徴を取得することに限られず、本開示は、ビデオ音響特徴、字幕特徴、背景特徴など、注意力変化に関連する複数種類の特徴を取得してもよいが、ここで限定しない。

例えば、前記第１特徴及び前記第１特徴とヘテロジニアスな前記第２特徴を時間次元及び空間次元で取得することができる。

例えば、注意力を判定するのに必要なものに基づいて、抽出された顔特徴及び身体姿勢特徴を採取したり、変換したり、計算することができる。

１つの例としては、顔特徴は、注意力に関連する両眼の視線角度の平均値、分散値や傾きなど、及び頭部の向きの平均値、分散値、傾きなどを含んでもよい。別の例として、身体姿勢特徴は、注意力に関連する両肩の位置座標分散値、両手の肘の位置座標分散値などを含んでもよい。また他の例としては、顔の大きさは、人によって異なるが、注意力判定に関係ないので、顔大きさの特徴をこの画像処理方法１００の特徴として抽出しなくてもよい。なお、全ての顔特徴及び身体姿勢特徴を抽出することに比べ、注意力に関連する特徴を直接抽出して処理することで、注意力判定の処理複雑度を低減させ、処理結果をより正確にすることができる。

ステップＳ１０２において、例えば、本開示の実施形態によるニューラルネットワークは、少なくとも２つのヘテロジニアスのニューラルブランチ／サブネットワークを含むことができ、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得する。

例えば、前記第１処理結果及び第２処理結果を取得することは、自己注意力メカニズムに基づいて前記第１特徴及び前記第２特徴を処理して、第１処理結果及び第２処理結果を取得すること、を含むことができる。例えば、前記第１処理結果及び第２処理結果を取得することは、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）に基づくモデルを用いて前記第１特徴及び前記第２特徴を処理して、第１処理結果及び第２処理結果を取得することをさらに含むことができる。例えば、例えば、第１特徴及び第２特徴をＴｒａｎｓｆｏｒｍｅｒモデル及び活性化関数（例えば、ｓｉｇｍｏｉｄ関数、ｓｏｆｔｍａｘ関数、ｔａｎｈ関数など）により所定回数処理して、第１処理結果及び第２処理結果を取得することができる。なお、所定回数は、ニーズ又は統計情報に応じて設定されてもよいが、ここで限定しない。

ステップＳ１０３において、前記前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得することは、特徴次元で前記第１処理結果と前記第２処理結果とを融合して、前記判定結果を取得すること、を含むことができる。

図７は、本開示の実施形態による判定結果の取得方法２００のフローチャートを示す。

図７に示すように、前記特徴次元で前記第１処理結果と前記第２処理結果とを融合して、前記判定結果を取得することは、特徴次元で前記第１処理結果及び前記第２処理結果をそれぞれ処理して、前記第３処理結果及び前記第４処理結果を取得するステップ（Ｓ２０１）と、前記第３処理結果と前記第４処理結果とをスティッチングして、前記判定結果を取得するステップ（Ｓ２０２）と、を含むことができる。

図４に示すように、まず、第１処理結果１３の各特徴量を、例えば、畳み込みニューラルネットワーク（Ｃｏｎｖ）２２により処理し、次に処理結果に対して時間次元上の次元削減を行う。例えば、Ｃｏｎｖ２２の出力結果の時間次元における平均値（Ｒｅｄｕｃｅｍｅａｎ）４２、最大値、最小値、平均分散値などを取得し、その時間次元を削減させた処理結果として取得する。そして、例えばＲｅｄｕｃｅｍｅａｎ４２により次元削減後の処理結果を活性化関数４３により処理して、線形処理結果４６を取得する。例えば、この活性化関数は、ｓｉｇｍｏｉｄ関数、ｓｏｆｔｍａｘ関数、ｔａｎｈ関数などを含んでもよいが、これらに限られない。

例えば、第１処理結果１３の場合、上記活性化関数４３により取得された出力結果４６は、線形変換結果であり、第１処理結果１３も線形変換結果４４であり、畳み込みニューラルネットワークＣｏｎｖ２２により取得された出力結果４５は、非線形変換結果である。それにより、ステップＳ０１３において、前記第１処理結果１３を特徴次元で処理して、前記第３処理結果を取得し、第３処理結果は、前記第１処理結果１３の線形変換結果４４、４６及び非線形変換結果４５を含む。同様に、ステップＳ０１３では、第２処理結果１４を特徴次元で処理して前記第４処理結果を取得してもよく、第４処理結果は、前記第２処理結果の線形変換結果及び非線形変換結果を含む。

そして、ステップＳ０１３において、前記第３処理結果と前記第４処理結果とをスティッチング４８して、前記判定結果１５を取得することができる。

また、第３処理結果と第４処理結果とをスティッチングする前に、第３処理結果の線形変換結果４４と４６とをスティッチングして、線形変換結果４７を取得してもよい。同様に、第３処理結果と第４処理結果とをスティッチングする前に、第４処理結果の２つの線形変換結果をスティッチングして、線形変換結果４９を取得してもよい。

本開示の上記態様では、ニューラルネットワークモデルを構築し、異なる次元で異なる特徴を処理して融合することにより、複数の次元においてヘテロジニアスな特徴の融合を効果的に促進でき、ニューラルネットワークモデルに基づく判定結果がより正確になる。

以下、図８を参照しながら、本開示の実施形態による画像処理機器１１００について説明する。図８は、本開示の実施形態による画像処理機器の模式図である。本実施形態の画像処理機器の機能は、以上に図１を参照しながら説明された装置及び図６に説明される方法の詳細と同じであるため、ここで簡単にするために、同じ内容についての詳細な説明を省略する。

本開示の画像処理機器は、プロセッサ１１０２と、コンピュータ読み取り可能な命令記憶されるメモリ１１０１と、を含み、前記コンピュータ読み取り可能な命令が前記プロセッサにより実行される場合、画像処理方法が実行され、前記画像処理方法は、第１特徴及び第２特徴を取得するステップと、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得するステップと、前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第１特徴及び前記第２特徴を処理する場合と異なる次元で前記第１処理結果と前記第２処理結果とを融合する。

他の実施形態での画像処理装置１０００及び画像処理機器１１００の技術的効果については、本開示の実施形態に係る画像処理方法の技術の効果を参照でき、ここで繰り返し説明しない。

画像処理装置１０００及び画像処理機器１１００は、様々な適切な電子機器に適用できる。

図９は、本開示の実施形態によるコンピュータ読み取り可能な記憶媒体１２００の模式図である。

図９に示すように、本開示は、コンピュータ読み取り可能な命令１２０１が記憶されるコンピュータ読み取り可能な記憶媒体１２００をさらに含み、このコンピュータ読み取り可能な命令がコンピュータにより実行されると、コンピュータが画像方法を実行し、画像方法は、第１特徴及び第２特徴を取得するステップと、前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得するステップと、前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第１特徴及び前記第２特徴を処理する場合と異なる次元で前記第１処理結果と前記第２処理結果とを融合する。

＜ハードウェア構成＞
また、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。

例えば、本開示の一実施の形態における電子機器は、本開示の画像処理方法の処理を実行するコンピュータとして機能してもよい。図１０は、本開示の一実施の形態に係る電子機器のハードウェア構造の一例を示す図である。上記の電子機器１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。電子機器１０のハードウェア構造は、１つ又は複数の図に示す各装置を含んでもよいし、一部の装置を含まなくてもよい。

例えば、プロセッサ１００１は１つだけ図示されているが、複数のプロセッサがあってもよい。また、処理は、１つのプロセッサによって実行されてもよいし、１つ以上のプロセッサによって同時に、逐次に、又はその他の手法を用いて実行されてもよい。また、プロセッサ１００１は、１以上のチップで実装されてもよい。

電子機器１０中における各機能は、例えば、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４を介する通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御したりすることによって実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によって構成されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の本実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、電子機器１０の制御ユニット４０１は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば読み出し専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、プログラマブル読み出し専用メモリ（ＥＰＲＯＭ、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、電気的プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ、ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、その他の適切な記憶媒体の少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、高速キャッシュメモリ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク（ｆｌｅｘｉｂｌｅｄｉｓｋ）、フロッピーディスク（ｆｌｏｐｐｙｄｉｓｋ）、光磁気ディスク（例えば、コンパクトディスク（ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲＯＭ）など）、デジタル汎用光ディスク、ブルーレイ（Ｂｌｕ－ｒａｙ、登録商標）光ディスク）、リムーバブルディスク、ハードディスクドライバ、スマートカード、フラッシュメモリ機器（例えば、カード、スティック（ｓｔｉｃｋ）、キードライブ（ｋｅｙｄｒｉｖｅｒ））、磁気ストリップ、データベース、サーバ、多の適切な記憶媒体の少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置とも呼称される。

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間で通信するハードウェア（送信受信機器）であり、例えば、ネットワークデバイス、ネットワークコントローラ、ＬＡＮカード、通信モジュールなどとも呼称される。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、発光ダイオード（ＬＥＤ、ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）ランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１及びメモリ１００２などの各装置は、情報を通信するためのバス１００７を介して接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、電子機器１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、専用集積回路（ＡＳＩＣ、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、プログラマブルロジックデバイス（ＰＬＤ、ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などハードウェアを含んでもよく、このハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）など）及び／又は無線技術（赤外線、マイクロ波など）を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明された各態様／実施の形態は、単独又は組み合わせて使用されてもよく、実行中に切り替えて使用されてもよい。また、本明細書で説明した各態様／実施の形態の処理ステップ、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明された方法に関して、様々なステップ単位は、例示的な順序で与えられたが、与えられた特定の順序に限定されない。

本明細書で使用されている「に基づいて」とは、他の段落に明確に記載されていない限り、「のみに基づいて」という意味ではない。つまり、「に基づいて」という表現は、「のみに基づいて」と「少なくともに基づいて」の両方を意味する。

本明細書で使用されている「第１」、「第２」などの名称を使用したユニットへのいかなる参照は、これらのユニットの量又は順序を全般的に限定するものではない。これらの名称を２つ以上のユニットを区別するための便利な方法として使用することができる。したがって、第１ユニットおよび第２ユニットへの参照は、２つのユニットのみそこで採用され得ること、又は第１ユニットが第２ユニットに先行しなければならないことを意味しない。

本明細書又は特許請求の範囲で「含む（ｉｎｃｌｕｄｉｎｇ）」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」、及びそれらの変形が用いられるとき、これらの用語は、用語の「備える」と同様に、包括的である。さらに、本明細書又は特許請求の範囲で使用される用語の「又は（ｏｒ）」は、排他的論理和ではない。

当業者は、本出願の様々な態様が、新規で有用なプロセス、機械、製品、又は物質の組み合わせ、又はそれらの任意の組み合わせ、又はそれらに対して新規で有用な改良を含む、いくつかの特許可能なカテゴリ又は状況を通じて説明及び記載できることを理解できる。それに応じて、本出願の様々な態様は、ハードウェアによって完全に実行されてもよく、ソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）によって完全に実行されてもよく、又はハードウェアとソフトウェアの組み合わせによって実行されてもよい。上記のハードウェア又はソフトウェアはいずれも、「データブロック」、「モジュール」、「イニシエータ」、「ユニット」、「アセンブリ」、又は「システム」と呼ばれてもよい。また、本出願の様々な態様は、１つ又は複数のコンピュータ読み取り可能な媒体に設けられるコンピュータ製品として具現化されてもよく、該製品がコンピュータ読み取り可能なプログラムコードを含む。

本出願は、特定の単語を使用して、本出願の実施形態を説明した。例えば、「１つの実施形態」、「一実施形態」、及び／又は「いくつかの実施形態」は本出願の少なくとも１つの実施形態に関連する特定の特徴、構造、又は特性を意味する。したがって、本明細書において異なる位置で２回以上言及される「一実施形態」又は「１つの実施形態」又は「一代替実施形態」は、必ずしも同じ実施形態を指すとは限らないことを強調し、留意されるべきである。また、本出願の１つ又は複数の実施形態におけるいくつかの特徴、構造、又は特性は、適切に組み合わせられてもよい。

特に定義されない限り、ここで使用されるすべての用語（技術用語及び科学用語を含む）は、本開示の当業者によって一般に理解されるのと同じ意味を有する。また、通常の辞書で定義されているような用語は、関連する技術の文脈での意味と一致する意味を持つものとして解釈されるべきであり、ここで明示的に述べられていない限り、理想的又は極端に形式化された意味で解釈されるべきではないことも理解されたい。

以上、本開示について詳細に説明したが、本開示が本明細書で説明された実施の形態に限定されないことは、当業者には明らかである。本開示は、特許請求の範囲の説明によって決定される本開示の精神及び範囲から逸脱することなく、修正及び変更された形態として実装することができる。したがって、本明細書における説明は、例示を目的としたものであり、本開示に対していかなる限定的な意味も持たない。

Claims

ニューラルネットワークに基づく画像処理装置であって、
第１特徴及び第２特徴を取得するための前処理モジュールと、
前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得する少なくとも２つの特徴処理サブモジュールを含む特徴処理モジュールと、
前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するための特徴融合モジュールと、を含み、
前記特徴融合モジュールは、前記特徴処理モジュールと異なる次元で前記第１処理結果と前記第２処理結果とを融合する、画像処理装置。
前記少なくとも２つの特徴処理サブモジュールは、時間次元で前記第１特徴及び前記第２特徴を処理して、前記第１処理結果及び前記第２処理結果を取得し、
前記特徴融合モジュールは、特徴次元で前記第１処理結果と前記第２処理結果とを融合して、前記判定結果を取得する、請求項１に記載の画像処理装置。
前記特徴融合モジュールは、特徴次元で前記第１処理結果及び前記第２処理結果をそれぞれ処理して、前記第３処理結果及び前記第４処理結果を取得し、
前記特徴融合モジュールは、前記第３処理結果と前記第４処理結果とをスティッチングして、前記判定結果を取得する、請求項２に記載の画像処理装置。
前記第３処理結果は、前記第１処理結果の線形変換結果及び非線形変換結果を含み、前記第４処理結果は、前記第２処理結果の線形変換結果及び非線形変換結果を含む、請求項３に記載の画像処理装置。
前記少なくとも２つの特徴処理サブモジュールは、自己注意力メカニズムに基づいて前記第１特徴及び前記第２特徴を処理する、請求項１～４のいずれか一項に記載の画像処理装置。
前記少なくとも２つの特徴処理サブモジュールは、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）モデルに基づいて前記第１特徴及び前記第２特徴を処理する、請求項５に記載の画像処理装置。
前記前処理モジュールは、前記第１特徴及び前記第１特徴とヘテロジニアスな前記第２特徴を時間次元及び空間次元で取得する、請求項１～６のいずれか一項に記載の画像処理装置。
ニューラルネットワークに基づく画像処理方法であって、
第１特徴及び第２特徴を取得するステップと、
前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得するステップと、
前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するステップと、を含み、
前記画像処理方法は、前記第１特徴及び前記第２特徴を処理する場合と異なる次元で前記第１処理結果と前記第２処理結果とを融合する、ニューラルネットワークに基づく画像処理方法。
ニューラルネットワークに基づく画像処理機器であって、
プロセッサと、
コンピュータ読み取り可能なプログラム命令が記憶されるメモリと、を含み、
前記コンピュータ読み取り可能なプログラム命令が前記プロセッサにより実行される場合、ニューラルネットワークに基づく画像処理方法が実行され、前記画像処理方法は、
第１特徴及び第２特徴を取得するステップと、
前記第１特徴及び前記第２特徴をそれぞれ処理して、第１処理結果及び第２処理結果を取得するステップと、
前記第１処理結果と前記第２処理結果とを融合して、判定結果を取得するステップと、を含み、
前記画像処理方法は、前記第１特徴及び前記第２特徴を処理する場合と異なる次元で前記第１処理結果と前記第２処理結果とを融合する、画像処理機器。
コンピュータ読み取り可能なプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体であって、
前記プログラムは、コンピュータに請求項１～７のいずれかに記載のニューラルネットワークに基づく画像処理方法を実行させる、コンピュータ読み取り可能な記憶媒体。