JP2022063236A - 画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents
画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP2022063236A JP2022063236A JP2021163243A JP2021163243A JP2022063236A JP 2022063236 A JP2022063236 A JP 2022063236A JP 2021163243 A JP2021163243 A JP 2021163243A JP 2021163243 A JP2021163243 A JP 2021163243A JP 2022063236 A JP2022063236 A JP 2022063236A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- processing
- processing result
- result
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】異なる特徴を異なる次元で処理して融合することにより、複数の次元からヘテロジニアスな特徴の融合を効果的に促進でき、ニューラルネットワークモデルの判定結果がより正確になる画像処理装置、画像処理方法及び記憶媒体を提供する。【解決手段】画像処理装置1000は、第1特徴及び第2特徴を取得するための前処理モジュールと、第1特徴及び第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得する少なくとも2つの特徴処理サブモジュールを含む特徴処理モジュールと、第1処理結果と第2処理結果とを融合して、判定結果を取得する特徴融合モジュールと、を含む。特徴融合モジュールは、特徴処理モジュールと異なる次元で第1処理結果と第2処理結果とを融合する。【選択図】図1
Description
本出願は、画像処理分野に関し、具体的には、画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体に関する。
ディープニューラルネットワークは、マルチパラメータで最適化された大規模ツールである。ディープニューラルネットワークは、大量のトレーニングデータに依存して、データにおける要約するのが難しい隠れた特徴を学習でき、それにより、顔検出、画像セマンティックセグメンテーション、テキスト要約抽出、物体検出、動作追従、自然言語翻訳など、多くの複雑なタスクを完成できる。
科学技術の発展に伴い、情報化と知能化は、人々の日常生活で広く使用されている。例えば、オンライン教育や自動運転などの分野では、注意力の集中が非常に重要であり、ディープニューラルネットワークを介した注意力に対するリアルタイム監視が可能になる。
上記問題に鑑みて、本開示は、画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体を提供する。
本開示の一態様によれば、ニューラルネットワークに基づく画像処理装置が提供され、前記装置は、第1特徴及び第2特徴を取得するための前処理モジュールと、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得する少なくとも2つの特徴処理サブモジュールを含む特徴処理モジュールと、前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得する特徴融合モジュールと、を含み、前記特徴融合モジュールは、前記特徴処理モジュールと異なる次元で前記第1処理結果と前記第2処理結果とを融合する。
本開示の1つの例によれば、前記少なくとも2つの特徴処理サブモジュールは、時間次元で前記第1特徴及び前記第2特徴を処理して、前記第1処理結果及び前記第2処理結果を取得し、前記特徴融合モジュールは、特徴次元で前記第1処理結果と前記第2処理結果とを融合して、前記判定結果を取得する。
本開示の1つの例によれば、前記特徴融合モジュールは、特徴次元で前記第1処理結果及び前記第2処理結果をそれぞれ処理して、前記第3処理結果及び前記第4処理結果を取得し、前記特徴融合モジュールは、前記第3処理結果と前記第4処理結果とをスティッチングして、前記判定結果を取得する。
本開示の1つの例によれば、前記第3処理結果は、前記第1処理結果の線形変換結果及び非線形変換結果を含み、前記第4処理結果は、前記第2処理結果の線形変換結果及び非線形変換結果を含む。
本開示の1つの例によれば、前記少なくとも2つの特徴処理サブモジュールは、自己注意力メカニズムに基づいて前記第1特徴及び前記第2特徴を処理する。
本開示の1つの例によれば、前記少なくとも2つの特徴処理サブモジュールは、トランスフォーマー(Transformer)モデルに基づいて前記第1特徴及び前記第2特徴を処理する。
本開示の1つの例によれば、前記前処理モジュールは、前記第1特徴及び前記第1特徴とヘテロジニアス(Heterogeneous)な前記第2特徴を時間次元及び空間次元で取得する。
本開示の1つの例によれば、前記第1特徴及び前記第2特徴は、前記注意力変化に関連する特徴である。
本開示の一態様によれば、ニューラルネットワークに基づく画像処理方法が提供され、前記方法は、第1特徴及び第2特徴を取得するステップと、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得するステップと、前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第1特徴及び前記第2特徴を処理する場合と異なる次元で前記第1処理結果と前記第2処理結果とを融合する。
本開示の1つの例によれば、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得する前記ステップは、時間次元で前記第1特徴及び前記第2特徴をそれぞれ処理して、前記第1処理結果及び前記第2処理結果を取得するステップを含み、前記前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するステップは、特徴次元で前記第1処理結果と前記第2処理結果とを融合して、前記判定結果を取得するステップを含む。
本開示の1つの例によれば、特徴次元で前記第1処理結果と前記第2処理結果とを融合して、前記判定結果を取得する前記ステップは、特徴次元で前記第1処理結果及び前記第2処理結果をそれぞれ処理してで、前記第3処理結果及び前記第4処理結果を取得するステップと、前記第3処理結果と前記第4処理結果とをスティッチングして、前記判定結果を取得するステップと、を含む。
本開示の1つの例によれば、前記第3処理結果は、前記第1処理結果の線形変換結果及び非線形変換結果を含み、前記第4処理結果は、前記第2処理結果の線形変換結果及び非線形変換結果を含む。
本開示の1つの例によれば、第1処理結果及び第2処理結果を取得する前記ステップは、自己注意力(self-attention)メカニズムに基づいて前記第1特徴及び前記第2特徴を処理することにより、第1処理結果及び第2処理結果を取得するステップを含む。
本開示の1つの例によれば、第1処理結果及び第2処理結果を取得する前記ステップは、トランスフォーマー(Transformer)モデルに基づいて前記第1特徴及び前記第2特徴を処理することにより、第1処理結果及び第2処理結果を取得するステップを含む。
本開示の1つの例によれば、第1特徴及び第2特徴を取得する前記ステップは、前記第1特徴及び前記第1特徴とヘテロジニアスな前記第2特徴を時間次元及び空間次元で取得するステップを含む。
本開示の1つの例によれば、前記第1特徴及び前記第2特徴は、前記注意力変化に関連する特徴である。
本開示の一態様によれば、ニューラルネットワークに基づく画像処理機器が提供され、前記機器は、プロセッサと、コンピュータ読み取り可能なプログラム命令が記憶されるメモリと、を含み、前記コンピュータ読み取り可能なプログラム命令が前記プロセッサにより実行される場合、ニューラルネットワークに基づく画像処理方法が実行され、前記方法は、第1特徴及び第2特徴を取得するステップと、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得するステップと、前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第1特徴及び前記第2特徴を処理する場合と異なる次元で前記第1処理結果と前記第2処理結果とを融合する。
本開示の一態様によれば、コンピュータ読み取り可能なプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体が提供され、前記プログラムは、コンピュータに、上記のいずれかに記載のニューラルネットワークに基づく画像処理方法を実行させる。
本開示の上記態様では、ニューラルネットワークモデルを構築し、異なる次元で異なる特徴を処理で融合することにより、複数の次元からヘテロジニアスな特徴の融合を効果的に促進でき、ニューラルネットワークモデルに基づく判定結果がより正確になる。
図面を参照して本開示の実施形態をより詳細に説明することにより、本開示の上記及び他の目的、特徴及び利点はより明らかになる。図面は本開示の実施形態に対するさらなる理解を提供するために用いられ、かつ明細書の一部を構成し、本開示の実施形態と共に本開示を説明するために用いられ、本開示を限定するものではない。図面において、同じ参照符号は一般的に同じ部品又はステップを表す。
以下、本開示の実施形態における図面を参照しながら、本開示の実施形態における技術的解決策を明確かつ完全に記載する。ここで記載される実施形態は、本開示の一部の実施形態に過ぎず、全ての実施形態ではないことが明らかである。本開示の実施形態に基づいて、創造的労働なしに当業者により得られる他の全ての実施形態は、本開示の保護範囲内に入るものとする。
本出願では、フローチャートを用いて、本出願の実施形態による方法のステップについて説明する。前のステップ、又は後のステップは、必ずしも順番で実行されなくてもよい。逆に、各ステップを逆の順序で、又は同時に処理してもよいことが理解され得る。それとともに、ほかの動作をこれらのプロセスに追加してもよく、又はこれらのプロセスから、あるステップ又は複数のステップを省略してもよい。
先ず、図1を参照しながら、本開示の実施形態を実現するための画像処理装置について説明する。本開示の画像処理装置は、オンライン教育又は自動運転などの分野における注意力検出の判定に適用できる。また、本開示の画像処理装置は、オンライン一人教育又は自動運転などの分野における注意力検出に限られず、本開示の画像処理装置は、オンライン多人教育又は自動運転などの分野における注意力検出にも適用できる。なお、本開示の画像処理装置は、この分野に限られず、任意の適切な分野に適用されてもよい。
以下、本開示の画像処理装置がオンライン教育の注意力検出に用いられることを例とし、図面を組み合わせて本開示の実施形態及びその例について詳細に説明する。
本発明の少なくとも1つの実施形態は、画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体を提供する。以下にいくつかの例及び実施形態により本開示の少なくとも1つの実施形態に係る画像処理を非限定的に説明し、以下に説明するように、互いに矛盾しない場合、これらの具体的な例及び実施形態における異なる特徴を互いに組み合わせることができ、それにより新しい例及び実施形態を取得し、これらの新しい例及び実施形態もいずれも本開示の保護範囲に属する。
以下、図1~5を参照しながら、本開示の実施形態による画像処理装置について説明する。
図1に示すように、本開示の実施形態による画像処理装置1000は、前処理モジュール1010と、特徴処理モジュール1020と、特徴融合モジュール1030と、を含む。当業者に理解されるように、これらのユニットモジュールは、単独でハードウェアにより、単独でソフトウェアにより、又はそれらの組み合わせにより、様々な形態で実現することができ、本開示は、それらのいずれかに限定されない。例えば、中央処理ユニット(CPU)、テキストプロセッサ(GPU)、テンソル・プロセッシング・ユニット(TPU)、フィールドプログラマブルゲートアレイ(FPGA)又はデータ処理能力及び/又は命令実行能力を有する他の形態の処理ユニット及び対応するコンピュータ命令によりこれらのユニットを実現することができる。
図2に示すように、本開示の実施形態による画像処理装置の模式図である。
例えば、図2に示すように、前処理モジュール1010は、第1特徴30及び第2特徴20を取得することができる。
例えば、オンライン教育分野では、前記第1特徴30及び前記第2特徴20は、前記注意力の変動に関連する特徴である。例えば、第1特徴は、顔特徴であってもよく、第2特徴は、身体姿勢特徴であってもよい。なお、本開示の前処理モジュール1010は、上記2種類の特徴を取得することに限られず、ビデオ音響特徴、字幕特徴、背景特徴など、注意力変化に関連する複数種類の特徴を取得してもよいが、ここで限定しない。
例えば、前記前処理モジュール1010は、前記第1特徴及び前記第1特徴とヘテロジニアスな前記第2特徴を時間次元及び空間次元で取得することができる。
例えば、時間次元において、異なる時間で異なるビデオフレーム又は画像フレーム(例えば、30秒ごと又は3フレームごと)における顔特徴及び身体姿勢特徴を抽出することができ、空間次元で、画像又はビデオにおける異なる空間において顔特徴及び身体姿勢特徴を抽出することができる。そして、前処理モジュール1010は、注意力を判定するのに必要なものに基づいて、抽出された顔特徴及び身体姿勢特徴を採取したり、変換したり、計算することができる。
1つの例としては、顔特徴は、注意力に関連する両眼の視線角度の平均値、分散値や傾きなど、及び頭部の向きの平均値、分散値、傾きなどを含んでもよい。別の例として、身体姿勢特徴は、注意力に関連する両肩の位置座標分散値、両手の肘の位置座標分散値などを含んでもよい。また他の例としては、顔は人によって大きさが異なるが、顔の大きさが注意力判定に関係ないので、顔大きさの特徴をこの画像処理装置1000の特徴として抽出しなくてもよい。なお、全ての顔特徴及び身体姿勢特徴を抽出することに比べ、注意力に関連する特徴を直接抽出して処理することで、注意力判定の処理複雑度を低減させ、処理結果をより正確にすることができる。
なお、上記顔特徴及び身体姿勢特徴は単なる例であり、注意力に関する他の特徴を抽出してもよいが、ここで限定しない。
上述したように、前処理モジュール1010は、37種類の第1特徴及び50種類の第2特徴を取得したものとする。そして、図2に示すように、特徴処理モジュール1020は、少なくとも2つの特徴処理サブモジュール11及び12を含むことができ、前記少なくとも2つの特徴処理サブモジュール11及び12は、それぞれ前記第1特徴30及び前記第2特徴20を処理して、第1処理結果13及び第2処理結果14を取得する。
例えば、この画像処理装置1000は、ニューラルネットワークに基づく画像処理装置であってもよい。例えば、このニューラルネットワークモデルは、畳み込みニューラルネットワーク(CNN)(GoogLeNet、AlexNet、VGGネットワークなどを含む)、領域ベースの畳み込みニューラルネットワーク(R-CNN)、領域提案ネットワーク(RPN)、サイクルニューラルネットワーク(RNN)、スタックに基づくディープニューラルネットワーク(S-DNN)、深層信念ネットワーク(DBN)、制限ボルツマンマシン (RBM)、完全畳み込みネットワーク、長・短期記憶(LSTM)ネットワーク及び分類ネットワークであるがこれらに限られない、様々なニューラルネットワークモデルを含んでもよい。
例えば、このニューラルネットワークモデルは、サブニューラルネットワーク/ニューラルネットワークブランチ(branch)を含んでもよく、このサブニューラルネットワークは、ヘテロジニアスニューラルネットワーク(Heterogeneous neural Network)を含んでもよく、ヘテロジニアスニューラルネットワークモデルで実現されてもよい。例えば、この少なくとも2つの画像処理サブモジュールは、ニューラルネットワークの少なくとも2つのヘテロジニアスのニューラルブランチ/サブネットワークに対応してもよい。
例えば、前記少なくとも2つの特徴処理サブモジュールは、自己注意力メカニズムに基づいて前記第1特徴及び前記第2特徴を処理することができる。例えば、前記少なくとも2つの特徴処理サブモジュールは、トランスフォーマー(Transformer)モデルに基づいて前記第1特徴及び前記第2特徴を処理することができる。例えば、第1特徴及び第2特徴を、Transformerモデル及び活性化関数(例えば、sigmoid関数、softmax関数、tanh関数など)により所定回数処理して、第1処理結果及び第2処理結果を取得することができる。なお、所定回数は、ニーズ又は統計情報に応じて設定されてもよいが、ここで限定しない。
図2に示すように、第1処理結果13及び第2処理結果14を取得した後、そして、特徴融合モジュール1030は、前記第1処理結果13と前記第2処理結果14とを融合して、判定結果15を取得することができる。例えば、前記特徴融合モジュール1030は、前記特徴処理モジュール1020と異なる次元で前記第1処理結果13と前記第2処理結果14とを融合することができる。
例えば、前記少なくとも2つの特徴処理サブモジュールは、時間次元で前記第1特徴及び前記第2特徴を処理して、前記第1処理結果及び前記第2処理結果を取得でき、前記特徴融合モジュール1030は、特徴次元で前記第1処理結果と前記第2処理結果とを融合して、前記判定結果を取得できる。
以下、図3~4により、本開示の実施形態による画像処理装置1000の異なる次元での処理について説明する。
図3は、本開示の実施形態による画像処理装置を時間次元及び空間次元で実現する模式図を示す。図3に示すように、左側は、少なくとも2つの特徴処理サブモジュールが時間次元で前記第1特徴及び前記第2特徴を処理する模式図であり、右側は、特徴融合モジュール1030が特徴次元で前記第1処理結果と前記第2処理結果とを融合する模式図である。
図3の左側に示すように、特徴処理サブモジュールは、時間次元で、例えば、第1特徴(例えば顔特徴)に対して、所定時間内(例えば、30秒内)に第1特徴の3つの特徴量セット21、22及び23を時間と共に取得する。ここで、特徴量セット21、22及び23における異なる充填された円は、異なる特徴を表す。そして、トランスフォーマー(Transformer)に基づくモデルを用いて、当該3つの特徴量セット21、22及び23に対して異なる重み(例えば、0.2、0.7及び0.1)を与えることで、時間次元での第1処理結果24を得る。同様に、トランスフォーマー(Transformer)に基づくモデルを用いて、第2処理特徴(例えば、身体姿勢特徴)の時間と共に変換された特徴量セットに対して異なる重みを与えることで、時間次元での第2処理結果24を得る。
図3の右側に示すように、特徴次元で、例えば、第1処理結果のうちの各特徴に対して、時間要素を無視し、各特徴の線形変換及び非線形変換を計算することで、特徴次元での処理結果を得る。
例えば、前記特徴融合モジュール1030は、特徴次元で前記第1処理結果及び前記第2処理結果をそれぞれ処理して、前記第3処理結果及び前記第4処理結果を取得でき、前記特徴融合モジュール1030は、前記第3処理結果と前記第4処理結果とをスティッチング(stitching)して、前記判定結果を取得できる。例えば、前記第3処理結果は、前記第1処理結果の線形変換結果及び非線形変換結果を含むことができ、前記第4処理結果は、前記第2処理結果の線形変換結果及び非線形変換結果を含むことができる。
以下、図4を参照しながら、本開示の実施形態による特徴融合モジュール1030の操作について詳細する。
図4に示すように、まず、第1処理結果13の各特徴量を、例えば、畳み込みニューラルネットワーク(Conv)22により処理し、次に、処理結果に対して時間次元上の次元削減を行う。例えば、Conv 22の出力結果の時間次元における平均値(Reduce mean)42、最大値、最小値、平均分散値などを取得して、その時間次元を削減させた処理結果として取得する。そして、例えばReduce mean 42により次元削減後の処理結果を活性化関数43により処理して、線形処理結果46を取得する。例えば、この活性化関数は、sigmoid関数、softmax関数、tanh関数などを含んでもよいが、これらに限られない。
例えば、活性化関数がtanh関数の場合、以下の式により線形処理結果S1を取得することができる。
f1、f2及びf3は、Reduce mean 42により次元削減後の処理結果を示す。
例えば、第1処理結果13の場合、上記活性化関数43により取得された出力結果46は、線形変換結果であり、第1処理結果13も線形変換結果44であり、また、畳み込みニューラルネットワークConv 22により取得された出力結果45は、非線形変換結果である。それにより、特徴融合モジュール1030は、前記第1処理結果13を特徴次元で処理して、前記第3処理結果を取得し、第3処理結果は、前記第1処理結果13の線形変換結果44、46及び非線形変換結果45を含む。同様に、特徴融合モジュール1030は、第2処理結果14を特徴次元で処理して、前記第4処理結果を取得してもよく、第4処理結果は、前記第2処理結果の線形変換結果及び非線形変換結果を含む。
そして、特徴融合モジュール1030は、前記第3処理結果と前記第4処理結果とをスティッチング48して、前記判定結果15を取得することができる。
また、第3処理結果と第4処理結果とをスティッチングする前に、第3処理結果の線形変換結果44と46とをスティッチングすることにより、線形変換結果47を取得してもよい。同様に、第3処理結果と第4処理結果とをスティッチングする前、第4処理結果の2つの線形変換結果をスティッチングすることにより、線形変換結果49を取得してもよい。
例えば、このスティッチング操作は、加算、掛け算し、直接組み合わせ、結合などの操作を含んでもよい。なお、スティッチング操作は、上記操作に限られず、第3処理結果と第4処理結果とをスティッチングする任意の操作は、上記スティッチング操作を実現できる。
図5は、本開示の実施形態による画像処理装置1000の操作プロセスの模式図を示す。
図5に示すように、前処理モジュール1010は、第1特徴30及び第2特徴20を取得できる。オンライン教育分野で、前記第1特徴30及び前記第2特徴20は、前記注意力変化に関連する特徴である。例えば、第1特徴は、顔特徴であってもよく、第2特徴は、身体姿勢特徴であってもよい。本開示の前処理モジュール1010は、さらにビデオ音響特徴、字幕特徴、背景特徴など、注意力変化に関連する複数種類の特徴を取得してもよいが、ここで限定しない。
そして、特徴処理モジュール1020の少なくとも2つの特徴処理サブモジュールは、前記第1特徴30及び前記第2特徴20を時間次元で処理して、前記第1処理結果及び前記第2処理結果(例えば、破線フレーム60に示)を取得する。例えば、特徴処理サブモジュールは、順に、例えば閾値サイクルユニット(GRU)、活性化関数(例えば、sigmoid関数、softmax関数、tanh関数など)、所定回数のトランスフォーマー(Transformer)モデルなどにより、前記第1特徴30を時間次元で処理して、第1処理結果を取得することができる。同様に、特徴処理サブモジュールは、順に、例えば閾値サイクルユニット(GRU)、活性化関数(例えば、sigmoid関数、softmax関数、tanh関数など)、所定回数のトランスフォーマー(Transformer)モデルなどにより、前記第2特徴20を時間次元で処理して第2処理結果を取得してもよい。なお、図5における所定回数のトランスフォーマー(Transformer)モデルが2回に設定されることは、単なる例に過ぎないが、所定回数は、ニーズ又は統計情報に応じて設定されてもよいが、ここで限定しない。
そして、特徴融合モジュール1030は、前記第1処理結果及び前記第2処理結果をそれぞれ特徴次元で処理して、前記第3処理結果及び前記第4処理結果(例えば、破線フレーム61に示す)を取得する。ここで、前記第3処理結果は、前記第1処理結果の線形変換結果及び非線形変換結果を含むことができ、前記第4処理結果は、前記第2処理結果の線形変換結果及び非線形変換結果を含むことができる。次に、前記特徴融合モジュール1030は、前記第3処理結果と前記第4処理結果とをスティッチングして、前記スティッチング結果を取得する。次のステップでは、この画像処理モデル1000は、例えばニューラルネットワークのフラット化層(例えば、flatten 56、GlobalAveragePooling2Dなど)、全接続層(FC)及び活性化関数(例えば、Sigmoid)などにより、スティッチング結果を処理し、判定結果15を取得する。オンライン教育分野において、この判定結果は、注意力の集中度の判定に用いられてもよい。
本開示では、マルチブランチニューラルネットワークを導入することで、ヘテロジニアスの第1特徴と第2特徴とを同時に処理し、同時に、特徴処理モジュール及び特徴融合モジュールにより、複数の次元において第1特徴及び第2特徴を処理し、ヘテロジニアスな特徴の融合を効果的に促進することにより、本開示の画像処理装置の判定結果がより正確になる。
以上、図面を参照しながら本開示の実施形態による画像処理装置について説明した。以下、本開示の実施形態による画像処理方法について説明する。
図6は、本開示の実施形態による画像処理方法100のフローチャートである。本開示の画像処理方法は、オンライン教育又は自動運転などの分野における注意力検出の判定に適用できる。
以下、本開示の画像処理方法がオンライン教育の注意力検出に適用されることを例として、図面を参照しながら、本開示の実施形態及びその例について詳細に説明する。
図6に示すように、この画像処理方法は、ステップS101~S103を含む。
ステップS101において、第1特徴及び第2特徴を取得する。
ステップS102において、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得する。
ステップS103において、前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得する。前記方法は、前記第1特徴及び前記第2特徴を処理する場合と異なる次元で前記第1処理結果と前記第2処理結果とを融合する。
例えば、この画像処理方法100は、ニューラルネットワークに基づく画像処理装置であってもよい。例えば、このニューラルネットワークモデルは、畳み込みニューラルネットワーク(CNN)(GoogLeNet、AlexNet、VGGネットワークなどを含む)、領域ベースの畳み込みニューラルネットワーク(R-CNN)、領域提案ネットワーク(RPN)、サイクルニューラルネットワーク(RNN)、スタックに基づくディープニューラルネットワーク(S-DNN)、深層信念ネットワーク(DBN)、制限ボルツマンマシン (RBM)、完全畳み込みネットワーク、長・短期記憶(LSTM)ネットワーク及び分類ネットワークであるが、これらに限られない様々なニューラルネットワークモデルを含んでもよい。
例えば、このニューラルネットワークモデルは、サブニューラルネットワーク/ニューラルネットワークブランチを含んでもよく、このサブニューラルネットワークは、ヘテロジニアスニューラルネットワークを含んでもよく、ヘテロジニアスニューラルネットワークモデルで実現されてもよい。
ステップS101において、例えば、オンライン教育分野において、前記第1特徴30及び前記第2特徴20は、前記注意力変化に関連する特徴である。例えば、第1特徴は、顔特徴であってもよく、第2特徴は、身体姿勢特徴であってもよい。なお、本開示は、上記2種類の特徴を取得することに限られず、本開示は、ビデオ音響特徴、字幕特徴、背景特徴など、注意力変化に関連する複数種類の特徴を取得してもよいが、ここで限定しない。
例えば、前記第1特徴及び前記第1特徴とヘテロジニアスな前記第2特徴を時間次元及び空間次元で取得することができる。
例えば、注意力を判定するのに必要なものに基づいて、抽出された顔特徴及び身体姿勢特徴を採取したり、変換したり、計算することができる。
1つの例としては、顔特徴は、注意力に関連する両眼の視線角度の平均値、分散値や傾きなど、及び頭部の向きの平均値、分散値、傾きなどを含んでもよい。別の例として、身体姿勢特徴は、注意力に関連する両肩の位置座標分散値、両手の肘の位置座標分散値などを含んでもよい。また他の例としては、顔の大きさは、人によって異なるが、注意力判定に関係ないので、顔大きさの特徴をこの画像処理方法100の特徴として抽出しなくてもよい。なお、全ての顔特徴及び身体姿勢特徴を抽出することに比べ、注意力に関連する特徴を直接抽出して処理することで、注意力判定の処理複雑度を低減させ、処理結果をより正確にすることができる。
ステップS102において、例えば、本開示の実施形態によるニューラルネットワークは、少なくとも2つのヘテロジニアスのニューラルブランチ/サブネットワークを含むことができ、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得する。
例えば、前記第1処理結果及び第2処理結果を取得することは、自己注意力メカニズムに基づいて前記第1特徴及び前記第2特徴を処理して、第1処理結果及び第2処理結果を取得すること、を含むことができる。例えば、前記第1処理結果及び第2処理結果を取得することは、トランスフォーマー(Transformer)に基づくモデルを用いて前記第1特徴及び前記第2特徴を処理して、第1処理結果及び第2処理結果を取得することをさらに含むことができる。例えば、例えば、第1特徴及び第2特徴をTransformerモデル及び活性化関数(例えば、sigmoid関数、softmax関数、tanh関数など)により所定回数処理して、第1処理結果及び第2処理結果を取得することができる。なお、所定回数は、ニーズ又は統計情報に応じて設定されてもよいが、ここで限定しない。
ステップS103において、前記前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得することは、特徴次元で前記第1処理結果と前記第2処理結果とを融合して、前記判定結果を取得すること、を含むことができる。
図7は、本開示の実施形態による判定結果の取得方法200のフローチャートを示す。
図7に示すように、前記特徴次元で前記第1処理結果と前記第2処理結果とを融合して、前記判定結果を取得することは、特徴次元で前記第1処理結果及び前記第2処理結果をそれぞれ処理して、前記第3処理結果及び前記第4処理結果を取得するステップ(S201)と、前記第3処理結果と前記第4処理結果とをスティッチングして、前記判定結果を取得するステップ(S202)と、を含むことができる。
図4に示すように、まず、第1処理結果13の各特徴量を、例えば、畳み込みニューラルネットワーク(Conv)22により処理し、次に処理結果に対して時間次元上の次元削減を行う。例えば、Conv 22の出力結果の時間次元における平均値(Reduce mean)42、最大値、最小値、平均分散値などを取得し、その時間次元を削減させた処理結果として取得する。そして、例えばReduce mean 42により次元削減後の処理結果を活性化関数43により処理して、線形処理結果46を取得する。例えば、この活性化関数は、sigmoid関数、softmax関数、tanh関数などを含んでもよいが、これらに限られない。
例えば、活性化関数がtanh関数の場合、以下の式により線形処理結果S1を取得することができる。
f1、f2及びf3は、Reduce mean 42により次元削減後の処理結果を示す。
例えば、第1処理結果13の場合、上記活性化関数43により取得された出力結果46は、線形変換結果であり、第1処理結果13も線形変換結果44であり、畳み込みニューラルネットワークConv 22により取得された出力結果45は、非線形変換結果である。それにより、ステップS013において、前記第1処理結果13を特徴次元で処理して、前記第3処理結果を取得し、第3処理結果は、前記第1処理結果13の線形変換結果44、46及び非線形変換結果45を含む。同様に、ステップS013では、第2処理結果14を特徴次元で処理して前記第4処理結果を取得してもよく、第4処理結果は、前記第2処理結果の線形変換結果及び非線形変換結果を含む。
そして、ステップS013において、前記第3処理結果と前記第4処理結果とをスティッチング48して、前記判定結果15を取得することができる。
また、第3処理結果と第4処理結果とをスティッチングする前に、第3処理結果の線形変換結果44と46とをスティッチングして、線形変換結果47を取得してもよい。同様に、第3処理結果と第4処理結果とをスティッチングする前に、第4処理結果の2つの線形変換結果をスティッチングして、線形変換結果49を取得してもよい。
例えば、このスティッチング操作は、加算、掛け算し、直接組み合わせ、結合などの操作を含んでもよい。なお、スティッチング操作は、上記操作に限られず、第3処理結果と第4処理結果とをスティッチングする任意の操作は、上記スティッチング操作を実現できる。
本開示の上記態様では、ニューラルネットワークモデルを構築し、異なる次元で異なる特徴を処理して融合することにより、複数の次元においてヘテロジニアスな特徴の融合を効果的に促進でき、ニューラルネットワークモデルに基づく判定結果がより正確になる。
以下、図8を参照しながら、本開示の実施形態による画像処理機器1100について説明する。図8は、本開示の実施形態による画像処理機器の模式図である。本実施形態の画像処理機器の機能は、以上に図1を参照しながら説明された装置及び図6に説明される方法の詳細と同じであるため、ここで簡単にするために、同じ内容についての詳細な説明を省略する。
本開示の画像処理機器は、プロセッサ1102と、コンピュータ読み取り可能な命令記憶されるメモリ1101と、を含み、前記コンピュータ読み取り可能な命令が前記プロセッサにより実行される場合、画像処理方法が実行され、前記画像処理方法は、第1特徴及び第2特徴を取得するステップと、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得するステップと、前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第1特徴及び前記第2特徴を処理する場合と異なる次元で前記第1処理結果と前記第2処理結果とを融合する。
他の実施形態での画像処理装置1000及び画像処理機器1100の技術的効果については、本開示の実施形態に係る画像処理方法の技術の効果を参照でき、ここで繰り返し説明しない。
画像処理装置1000及び画像処理機器1100は、様々な適切な電子機器に適用できる。
図9は、本開示の実施形態によるコンピュータ読み取り可能な記憶媒体1200の模式図である。
図9に示すように、本開示は、コンピュータ読み取り可能な命令1201が記憶されるコンピュータ読み取り可能な記憶媒体1200をさらに含み、このコンピュータ読み取り可能な命令がコンピュータにより実行されると、コンピュータが画像方法を実行し、画像方法は、第1特徴及び第2特徴を取得するステップと、前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得するステップと、前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するステップと、を含み、前記方法は、前記第1特徴及び前記第2特徴を処理する場合と異なる次元で前記第1処理結果と前記第2処理結果とを融合する。
<ハードウェア構成>
また、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
また、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
例えば、本開示の一実施の形態における電子機器は、本開示の画像処理方法の処理を実行するコンピュータとして機能してもよい。図10は、本開示の一実施の形態に係る電子機器のハードウェア構造の一例を示す図である。上記の電子機器10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。電子機器10のハードウェア構造は、1つ又は複数の図に示す各装置を含んでもよいし、一部の装置を含まなくてもよい。
例えば、プロセッサ1001は1つだけ図示されているが、複数のプロセッサがあってもよい。また、処理は、1つのプロセッサによって実行されてもよいし、1つ以上のプロセッサによって同時に、逐次に、又はその他の手法を用いて実行されてもよい。また、プロセッサ1001は、1以上のチップで実装されてもよい。
電子機器10中における各機能は、例えば、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004を介する通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御したりすることによって実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の本実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、電子機器10の制御ユニット401は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば読み出し専用メモリ(ROM、Read Only Memory)、プログラマブル読み出し専用メモリ(EPROM、Erasable Programmable ROM)、電気的プログラマブル読み出し専用メモリ(EEPROM、Electrically EPROM)、ランダムアクセスメモリ(RAM、Random Access Memory)、その他の適切な記憶媒体の少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、高速キャッシュメモリ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク(flexible disk)、フロッピーディスク(floppy disk)、光磁気ディスク(例えば、コンパクトディスク(CD-ROM(Compact Disc ROM)など)、デジタル汎用光ディスク、ブルーレイ(Blu-ray、登録商標)光ディスク)、リムーバブルディスク、ハードディスクドライバ、スマートカード、フラッシュメモリ機器(例えば、カード、スティック(stick)、キードライブ(key driver))、磁気ストリップ、データベース、サーバ、多の適切な記憶媒体の少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置とも呼称される。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間で通信するハードウェア(送信受信機器)であり、例えば、ネットワークデバイス、ネットワークコントローラ、LANカード、通信モジュールなどとも呼称される。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、発光ダイオード(LED、Light Emitting Diode)ランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001及びメモリ1002などの各装置は、情報を通信するためのバス1007を介して接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、電子機器10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、専用集積回路(ASIC、Application Specific Integrated Circuit)、プログラマブルロジックデバイス(PLD、Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)などハードウェアを含んでもよく、このハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び/又は無線技術(赤外線、マイクロ波など)を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明された各態様/実施の形態は、単独又は組み合わせて使用されてもよく、実行中に切り替えて使用されてもよい。また、本明細書で説明した各態様/実施の形態の処理ステップ、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明された方法に関して、様々なステップ単位は、例示的な順序で与えられたが、与えられた特定の順序に限定されない。
本明細書で使用されている「に基づいて」とは、他の段落に明確に記載されていない限り、「のみに基づいて」という意味ではない。つまり、「に基づいて」という表現は、「のみに基づいて」と「少なくともに基づいて」の両方を意味する。
本明細書で使用されている「第1」、「第2」などの名称を使用したユニットへのいかなる参照は、これらのユニットの量又は順序を全般的に限定するものではない。これらの名称を2つ以上のユニットを区別するための便利な方法として使用することができる。したがって、第1ユニットおよび第2ユニットへの参照は、2つのユニットのみそこで採用され得ること、又は第1ユニットが第2ユニットに先行しなければならないことを意味しない。
本明細書又は特許請求の範囲で「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が用いられるとき、これらの用語は、用語の「備える」と同様に、包括的である。さらに、本明細書又は特許請求の範囲で使用される用語の「又は(or)」は、排他的論理和ではない。
当業者は、本出願の様々な態様が、新規で有用なプロセス、機械、製品、又は物質の組み合わせ、又はそれらの任意の組み合わせ、又はそれらに対して新規で有用な改良を含む、いくつかの特許可能なカテゴリ又は状況を通じて説明及び記載できることを理解できる。それに応じて、本出願の様々な態様は、ハードウェアによって完全に実行されてもよく、ソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)によって完全に実行されてもよく、又はハードウェアとソフトウェアの組み合わせによって実行されてもよい。上記のハードウェア又はソフトウェアはいずれも、「データブロック」、「モジュール」、「イニシエータ」、「ユニット」、「アセンブリ」、又は「システム」と呼ばれてもよい。また、本出願の様々な態様は、1つ又は複数のコンピュータ読み取り可能な媒体に設けられるコンピュータ製品として具現化されてもよく、該製品がコンピュータ読み取り可能なプログラムコードを含む。
本出願は、特定の単語を使用して、本出願の実施形態を説明した。例えば、「1つの実施形態」、「一実施形態」、及び/又は「いくつかの実施形態」は本出願の少なくとも1つの実施形態に関連する特定の特徴、構造、又は特性を意味する。したがって、本明細書において異なる位置で2回以上言及される「一実施形態」又は「1つの実施形態」又は「一代替実施形態」は、必ずしも同じ実施形態を指すとは限らないことを強調し、留意されるべきである。また、本出願の1つ又は複数の実施形態におけるいくつかの特徴、構造、又は特性は、適切に組み合わせられてもよい。
特に定義されない限り、ここで使用されるすべての用語(技術用語及び科学用語を含む)は、本開示の当業者によって一般に理解されるのと同じ意味を有する。また、通常の辞書で定義されているような用語は、関連する技術の文脈での意味と一致する意味を持つものとして解釈されるべきであり、ここで明示的に述べられていない限り、理想的又は極端に形式化された意味で解釈されるべきではないことも理解されたい。
以上、本開示について詳細に説明したが、本開示が本明細書で説明された実施の形態に限定されないことは、当業者には明らかである。本開示は、特許請求の範囲の説明によって決定される本開示の精神及び範囲から逸脱することなく、修正及び変更された形態として実装することができる。したがって、本明細書における説明は、例示を目的としたものであり、本開示に対していかなる限定的な意味も持たない。
Claims (10)
- ニューラルネットワークに基づく画像処理装置であって、
第1特徴及び第2特徴を取得するための前処理モジュールと、
前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得する少なくとも2つの特徴処理サブモジュールを含む特徴処理モジュールと、
前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するための特徴融合モジュールと、を含み、
前記特徴融合モジュールは、前記特徴処理モジュールと異なる次元で前記第1処理結果と前記第2処理結果とを融合する、画像処理装置。 - 前記少なくとも2つの特徴処理サブモジュールは、時間次元で前記第1特徴及び前記第2特徴を処理して、前記第1処理結果及び前記第2処理結果を取得し、
前記特徴融合モジュールは、特徴次元で前記第1処理結果と前記第2処理結果とを融合して、前記判定結果を取得する、請求項1に記載の画像処理装置。 - 前記特徴融合モジュールは、特徴次元で前記第1処理結果及び前記第2処理結果をそれぞれ処理して、前記第3処理結果及び前記第4処理結果を取得し、
前記特徴融合モジュールは、前記第3処理結果と前記第4処理結果とをスティッチングして、前記判定結果を取得する、請求項2に記載の画像処理装置。 - 前記第3処理結果は、前記第1処理結果の線形変換結果及び非線形変換結果を含み、前記第4処理結果は、前記第2処理結果の線形変換結果及び非線形変換結果を含む、請求項3に記載の画像処理装置。
- 前記少なくとも2つの特徴処理サブモジュールは、自己注意力メカニズムに基づいて前記第1特徴及び前記第2特徴を処理する、請求項1~4のいずれか一項に記載の画像処理装置。
- 前記少なくとも2つの特徴処理サブモジュールは、トランスフォーマー(Transformer)モデルに基づいて前記第1特徴及び前記第2特徴を処理する、請求項5に記載の画像処理装置。
- 前記前処理モジュールは、前記第1特徴及び前記第1特徴とヘテロジニアスな前記第2特徴を時間次元及び空間次元で取得する、請求項1~6のいずれか一項に記載の画像処理装置。
- ニューラルネットワークに基づく画像処理方法であって、
第1特徴及び第2特徴を取得するステップと、
前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得するステップと、
前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するステップと、を含み、
前記画像処理方法は、前記第1特徴及び前記第2特徴を処理する場合と異なる次元で前記第1処理結果と前記第2処理結果とを融合する、ニューラルネットワークに基づく画像処理方法。 - ニューラルネットワークに基づく画像処理機器であって、
プロセッサと、
コンピュータ読み取り可能なプログラム命令が記憶されるメモリと、を含み、
前記コンピュータ読み取り可能なプログラム命令が前記プロセッサにより実行される場合、ニューラルネットワークに基づく画像処理方法が実行され、前記画像処理方法は、
第1特徴及び第2特徴を取得するステップと、
前記第1特徴及び前記第2特徴をそれぞれ処理して、第1処理結果及び第2処理結果を取得するステップと、
前記第1処理結果と前記第2処理結果とを融合して、判定結果を取得するステップと、を含み、
前記画像処理方法は、前記第1特徴及び前記第2特徴を処理する場合と異なる次元で前記第1処理結果と前記第2処理結果とを融合する、画像処理機器。 - コンピュータ読み取り可能なプログラムを記憶するためのコンピュータ読み取り可能な記憶媒体であって、
前記プログラムは、コンピュータに請求項1~7のいずれかに記載のニューラルネットワークに基づく画像処理方法を実行させる、コンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011075037.2 | 2020-10-09 | ||
CN202011075037.2A CN114332524A (zh) | 2020-10-09 | 2020-10-09 | 图像处理装置、方法、设备以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022063236A true JP2022063236A (ja) | 2022-04-21 |
Family
ID=81259204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021163243A Pending JP2022063236A (ja) | 2020-10-09 | 2021-10-04 | 画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022063236A (ja) |
CN (1) | CN114332524A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409855A (zh) * | 2022-09-20 | 2022-11-29 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
WO2024060909A1 (zh) * | 2022-09-20 | 2024-03-28 | 支付宝(杭州)信息技术有限公司 | 识别表情的方法、装置、设备及介质 |
-
2020
- 2020-10-09 CN CN202011075037.2A patent/CN114332524A/zh active Pending
-
2021
- 2021-10-04 JP JP2021163243A patent/JP2022063236A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409855A (zh) * | 2022-09-20 | 2022-11-29 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
CN115409855B (zh) * | 2022-09-20 | 2023-07-07 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
WO2024060909A1 (zh) * | 2022-09-20 | 2024-03-28 | 支付宝(杭州)信息技术有限公司 | 识别表情的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114332524A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ge et al. | Mac: Mining activity concepts for language-based temporal localization | |
Boulahia et al. | Early, intermediate and late fusion strategies for robust deep learning-based multimodal action recognition | |
CN110991427B (zh) | 用于视频的情绪识别方法、装置和计算机设备 | |
US11657084B2 (en) | Correlating image annotations with foreground features | |
Yang et al. | Feature selection for multimedia analysis by sharing information among multiple tasks | |
JP2021163456A (ja) | クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 | |
WO2020062392A1 (zh) | 信号处理装置、信号处理方法及相关产品 | |
US20190156204A1 (en) | Training a neural network model | |
CN111710412B (zh) | 诊断结果的校验方法、装置及电子设备 | |
JP6236075B2 (ja) | インタラクティブ方法、インタラクティブ装置及びサーバー | |
KR102179890B1 (ko) | 텍스트 데이터 수집 및 분석을 위한 시스템 | |
CN111783620A (zh) | 表情识别方法、装置、设备及存储介质 | |
JP2022063236A (ja) | 画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体 | |
Gervasi et al. | Automating facial emotion recognition | |
KR102438784B1 (ko) | 데이터를 난독화 및 복호화 하는 전자 장치 및 그의 제어 방법 | |
US20220004809A1 (en) | Method and system for generating user driven adaptive object visualizations using generative adversarial network models | |
US20210263963A1 (en) | Electronic device and control method therefor | |
Ruan et al. | Adaptive deep disturbance-disentangled learning for facial expression recognition | |
CN111967599B (zh) | 用于训练模型的方法、装置、电子设备及可读存储介质 | |
Shi et al. | Learning modality-fused representation based on transformer for emotion analysis | |
Srinivas et al. | Facial Expression Detection Model of Seven Expression Types Using Hybrid Feature Selection and Deep CNN | |
KR102408256B1 (ko) | 검색을 수행하는 방법 및 장치 | |
Salekin et al. | Attentional generative multimodal network for neonatal postoperative pain estimation | |
Chan et al. | Recognition from hand cameras: A revisit with deep learning | |
Mukherjee et al. | Personalization of industrial human–robot communication through domain adaptation based on user feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230928 |