JP2022534345A - データ処理方法及び装置、電子機器並びに記憶媒体 - Google Patents

データ処理方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2022534345A
JP2022534345A JP2021544171A JP2021544171A JP2022534345A JP 2022534345 A JP2022534345 A JP 2022534345A JP 2021544171 A JP2021544171 A JP 2021544171A JP 2021544171 A JP2021544171 A JP 2021544171A JP 2022534345 A JP2022534345 A JP 2022534345A
Authority
JP
Japan
Prior art keywords
detection
target
data
gesture
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021544171A
Other languages
English (en)
Inventor
▲孫▼▲賀▼然
王磊
李佳▲寧▼
▲張▼▲慶▼涛
程玉文
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2022534345A publication Critical patent/JP2022534345A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、データ処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、目標対象のマルチメディアデータを取得することと、前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することと、前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することであって、前記目標検出結果は、前記目標対象の行動状態を示すために使用されることと、を含む。【選択図】図1

Description

[関連出願への相互参照]
本願は、2020年04月26日に中国特許局に提出された、発明の名称が「データ処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願第202010339381.1の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。
[技術分野]
本発明は、コンピュータビジョンの技術分野に関し、特に、データ処理方法及び装置、電子機器並びに記憶媒体に関する。
目標対象の行動状態査定は、さまざまな分野で幅広く適用でき、取得された査定結果は、目標対象又は目標対象の行動を分析するために使用でき、査定結果が正確であればあるほど、対応する分析がより現実的で意味のあるものになる。
したがって、より正確な行動状態査定結果をどのように簡単で迅速に取得するかが、現在解決すべき緊急の課題になっている。
本発明は、データ処理に関する技術的解決策を提案する。
本発明の一態様によれば、データ処理方法を提供し、前記データ処理方法は、
目標対象のマルチメディアデータを取得することと、前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することと、前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することであって、前記目標検出結果は、前記目標対象の行動状態を示すために使用されることと、を含む。
本発明の一態様によれば、データ処理装置を提供し、前記データ処理装置は、
目標対象のマルチメディアデータを取得するように構成される取得モジュールと、前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得するように構成される検出モジュールと、前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得するように構成される処理モジュールであって、前記目標検出結果は、前記目標対象の行動状態を示すために使用される処理モジュールと、を備える。
本発明の一態様によれば、電子機器提供し、前記電子機器は、プロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、上記のデータ処理方法を実行するように構成される。
本発明の一態様によれば、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記のデータ処理方法を実現する。
本発明の一態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記のデータ処理方法を実行させる。
本発明の実施例によれば、目標対象のマルチメディアデータを取得し、マルチメディアデータに従って、少なくとも1つの検出次元で目標対象に対して行動状態検出を実行することにより、少なくとも1つの検出次元における目標対象の中間検出結果を取得し、少なくとも1つの次元における中間検出結果を処理して、目標対象の行動状態を表す目標検出結果を取得する。上記のプロセスにより、多次元における目標対象の行動状態を検出することにより、目標対象の行動状態を表す目標検出結果を取得することができる。目標対象の行動状態の自動査定を実現できる一方で、最終的な目標検出結果の包括性と精度を向上させることもできる。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本発明を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例にに対する詳細な説明によれば、本発明の他の特徴および態様は明らかになる。
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示し、明細書とともに本発明の技術的解決策を説明するために使用される。
本発明の一実施例に係るデータ処理方法のフローチャートを示す。 本発明の一実施例に係るデータ処理装置のブロック図を示す。 本発明の一適用例に係る目標検出結果の概略図を示す。 本発明の実施例に係る電子機器のブロック図を示す。 本発明の実施例に係る電子機器のブロック図を示す。
以下、本発明のさまざまな例示的な実施例、特徴および態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。
本明細書における「例示的」という専用の用語は、「例、実施例または説明として使用される」ことを意図する。ここで、「例示的」として説明される任意の実施例は、他の実施例より適切であるかまたは優れると解釈される必要はない。
本明細書における「及び/又は」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合など3つの場合を表す。さらに、本明細書における「少なくとも1つ」という用語は、複数のうちの1つまたは複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCで構成されたセットから選択された任意の1つまたは複数の要素を含むことを示す。
さらに、本発明をよりよく説明するために、以下の具体的な実施形態において、多数の特定の詳細が与えられる。当業者は、本発明は特定の具体的な詳細なしにも実施できることを理解されたい。いくつかの具現例において、本発明の要旨を強調するために、当業者に周知の方法、手段、要素および回路について詳細に説明しない。
図1は、本発明の一実施例に係るデータ処理方法のフローチャートを示し、当該方法は、データ処理装置に適用されることができ、データ処理装置は、端末機器、サーバ又は他の処理機器などであってもよい。ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。一例において、当該データ処理方法は、クラウドサーバ又はローカルサーバに適用されることができ、クラウドサーバは、パブリッククラウドサーバであってもよいし、プライベートクラウドサーバであってもよく、実際の状況に応じて柔軟に選択することができる。
いくつかの可能な実施形態において、当該データ処理方法は、プロセッサがメモリに記憶されているコンピュータ可読命令を呼び出すことにより実現することもできる。
図1に示されたように、一可能な実施形態において、前記データ処理方法は、次のステップを含み得る。
ステップS11において、目標対象のマルチメディアデータを取得する。
ステップS12において、マルチメディアデータに従って、少なくとも1つの検出次元で目標対象に対して行動状態検出を実行することにより、少なくとも1つの検出次元における目標対象の中間検出結果を取得する。
ステップS13において、少なくとも1つの検出次元における中間検出結果を処理して、目標対象の目標検出結果を取得し、ここで、目標検出結果は、目標対象の行動状態を示すために使用される。
ここで、目標対象は、行動状態を表示又は評価する要件を有する任意の対象であり得、その具体的な実施形態は、目標対象が行動を実行する適用シナリオに従って柔軟に決定できる。本発明の実施例では、目標対象が実行する特定の行動を限定しない。一可能な実施形態において、行動は、教育行動、管理行動又は作業行動などであってもよい。これに対応して、目標対象の実行行動が異なると、目標対象の実施形態も変化し、一可能な実施形態において、行動が教育行動である場合、目標対象は教師であり得、さらに、教育行動は、正式な授業行動又はシミュレートされた授業行動であり得る。これに対応して、目標対象は、正式に授業する教師、シミュレートで授業する教師、又は正式に就職しておらず面接段階にある教師であり得る。一可能な実施形態において、行動が管理行動である場合、目標対象は、管理能力を備えた対象(例えば、教育管理者)であり得る。一可能な実施形態において、行動が作業行動である場合、目標対象は、関連する作業対象(例えば、教育従事者)であり得る。後続の各実施例は、例として目標対象が教師であり、実行する行動がシミュレートされた授業行動(以下では、シミュレート授業行動と略称する)である場合について説明し、目標対象及び行動が他の実施形態である場合、後続の各実施例に対して対応する拡張を実行することができ、ここでは繰り返して説明しない。
目標対象のマルチメディアデータは、目標対象が対応する行動を実行するときに取得されたデータであり得、その実施形態は、実際の状況に応じて柔軟に決定できる。一可能な実施形態において、目標対象のマルチメディアデータは、ビデオデータ及び/又はオーディオデータを含み得る。目標対象のマルチメディアデータの取得方式は、実際の状況に応じて柔軟に決定でき、詳細については後続の各実施例を参照を参照でき、ここでは詳しく説明しない。
目標対象のマルチメディアデータを取得した後、ステップS12により、少なくとも1つの検出次元で目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における中間検出結果を取得することができる。一可能な実施形態において、目標対象が教師であり、実行する行動がシミュレート授業行動である場合、教育行動の各検出次元での目標対象の状態検出(例えば、教育プロセスにおけるジェスチャ、気分、アイコンタクト、流暢さ、発話速度、中断又は音量など)を実行し、具体的にどの次元を含むか、及びこれらの次元で行動状態を検出する具体的な実施形態については、後続の各実施例を参照することができ、ここでは詳しく説明しない。
少なくとも1つの検出次元における目標対象の中間検出結果を取得した後、ステップS13により、少なくとも1つの検出次元における中間検出結果を処理して、目標対象の目標検出結果を取得することができる。ここで、目標検出結果の数は、実際の必要に応じて柔軟に設定することができ、本発明の実施例ではこれを限定しない。一可能な実施形態において、目標検出結果が、目標対象の行動状態の全体的な状況を反映するための全体的な検出結果を含み得る。一可能な実施形態において、目標対象の行動状態の全体的な状況及び詳細な状況を同時に反映するために、目標検出結果は、全体的な検出結果と複数の詳細な細分化結果とを同時に含むこともできる。目標検出結果の具体的な実施形態、及び目標検出結果を取得する方式は、後続の各実施例を参照でき、ここでは詳しく説明しない。
本発明の実施例において、目標対象のマルチメディアデータを取得し、マルチメディアデータに従って、少なくとも1つの検出次元で目標対象に対して行動状態検出を実行することにより、少なくとも1つの検出次元における目標対象の中間検出結果を取得し、少なくとも1つの次元における中間検出結果を処理して、目標対象の行動状態を表す目標検出結果を取得する。上記のプロセスにより、多次元における目標対象の行動状態を検出することにより、目標対象の行動状態を表す目標検出結果を取得することができ、目標対象の行動状態の自動査定を実現できる一方で、最終的な目標検出結果の包括性と精度を向上させることもできる。
上記の実施例に記載されるように、マルチメディアデータの実施形態は限定されず、一可能な実施形態において、マルチメディアデータは、オーディオデータのみを含み得、一可能な実施形態において、マルチメディアデータは、ビデオデータのみ(サイレントビデオなど)を含み得る。一可能な実施形態において、マルチメディアデータは、ビデオデータ及びオーディオデータを同時に(オーディオビデオなど)含み得る。一例において、マルチメディアデータがビデオデータを含む場合、ビデオデータの解像度は限定されず、実際の状況に応じて、640P、720P及び1080Pなどの解像度を柔軟に選択することができる。一例において、マルチメディアデータがオーディオデータを含む場合、オーディオデータのオーディオサンプリング周波数も限定されず、8000Hz又は16000Hzなどの周波数を柔軟に選択することができる。
マルチメディアデータの形式が異なると、当該マルチメディアデータの生成方式も柔軟に変化することができる。一可能な実施形態において、目標対象が教師であり、実行する行動がシミュレート授業行動である場合、オーディオデータは、シミュレート授業中の教師の音声を録音することで生成でき、ビデオデータは、シミュレート授業中の教師の動作を撮影することで生成できる。したがって、一例において、教師がシミュレート授業する過程をビデオ撮影することで、マルチメディアデータを生成することができる。
一可能な実施形態において、マルチメディアデータは、目標対象がプリセットされたコンテキストデータに従って教育動作を実行することによって取得でき、ここで、プリセットされたコンテキストデータは少なくとも1つの命令マークを含み、命令マークは、プリセットされたコンテキストデータのコンテンツの少なくとも一部を分割及び/又は注釈するために使用される。
ここで、プリセットされたコンテキストデータは、教師が授業又はシミュレート授業するために使用されるテキストコンテンツ(例えば、シミュレート授業の逐語的原稿など)であり得、教師がシミュレート授業中に伝える必要のある関連コンテンツを含む。命令マークは、プリセットされたコンテキストデータ内に配置され、命令マークは、プリセットされたコンテキストデータのコンテンツの一部を分割又は注釈するために使用されるマークであり得る。命令マークの位置、具体的な内容及び作用などはすべて、実際の状況に応じて柔軟に選択でき、以下の発明の実施例に限定されない。
一可能な実施形態において、プリセットされたコンテキストデータがシミュレート授業の逐語的原稿である場合、命令マークは、逐語的原稿に属するシミュレート授業過程を分割するマークであり得、つまり、当該命令マークは、シミュレート授業の逐語的原稿の部分構造への注釈であり得る。命令マークの具体的な実施形態は、シミュレート授業のプロセスの分割に応じて柔軟に決定できる。一可能な実施形態において、シミュレート授業過程を、授業前のウォームアップ、知識教育、授業中に行うトレーニング及び授業テストなどの段階に分割することができ、命令マークを介して、シミュレート授業の逐語的原稿のコンテンツをこれらの4つの段階に分割することができる。
さらに、命令を介してシミュレート授業過程を複数の段階に分割する方法について、その実施形態も柔軟に選択することができる。一可能な実施形態において、<開始命令開始>、<開始命令終了>、<終了命令開始>、<終了命令終了>などでそれぞれ対応する段階を注釈することにより、シミュレート授業の逐語的原稿の構造分割を実現することができる。具体的には、<開始命令開始>、<終了命令開始>などの注釈の具体的な実施形態も実際の状況に応じて柔軟に決定できる。例えば、いくつかの特定の単語又は動作の説明を、<開始命令開始>又は<終了命令開始>などの注釈の具体的な実施形態として使用することができる。
例示的に、シミュレート授業の逐語的原稿の内容は、次のとおりである。「<授業前のウォームアップセッション開始命令開始>:授業前のウォームアップセッションに入ります。<授業前のウォームアップセッション開始命令終了>:ここには課程内容があります。<授業前のウォームアップセッション終了命令開始>:では、次のセッションに移ります。<授業前のウォームアップセッション終了命令終了>:ここには課程内容があります。。
<知識教育セッション開始命令開始>:次は知識教育セッションに入ります。<知識教育セッション開始命令終了>
<知識教育セッション終了命令開始>:では、次のセッションに移ります。<知識教育セッション終了命令終了>」。上記の例示的なシミュレート授業の逐語的原稿内容から分かるように、一例において、<授業前のウォームアップセッション開始命令開始>、<授業前のウォームアップセッション開始命令終了>、<授業前のウォームアップセッション終了命令開始>及び<授業前のウォームアップセッション終了命令終了>などの注釈により、シミュレート授業の逐語的原稿から授業前のウォームアップセッションに必要なコンテキスト内容をマークすることができ、同様に、対応する命令により、シミュレート授業の逐語的原稿から知識教育セッションのコンテキスト内容を分割することもできる。これらの特定の命令注釈に対応する特定の語彙又は動作の説明は、実際の必要に応じて柔軟に選択することができ、本発明の実施例は、これらに対して限定しない。
教師は、構造を分割するための命令マークを含むプリセットされたコンテキストデータに従ってシミュレート授業を行うことにより、対応するマルチメディアデータを取得し、これにより、マルチメディアデータが異なる段階のマーク(例えば、特定の語彙又は動作など)を有するようにすることができる。これらの異なる段階のマークは、データ処理装置によって自動的に認識でき、それにより、データ処理装置は、対応する構造に従ってマルチメディアデータを分割することができる。一可能な実施形態において、分割されたマルチメディアデータは、教師がシミュレート授業を行う各段階の目標検出結果をそれぞれ取得するために使用されることができ、即ち、シミュレート授業中の各段階の目標検出結果をそれぞれ取得することができる。これにより、データ処理プロセスの自動化の程度を向上させるだけでなく、データ処理によって取得された目標検出結果の目標性と実用性も向上させることができる。
一可能な実施形態において、プリセットされたコンテキストデータがシミュレート授業の逐語的原稿である場合、命令マークは、逐語的原稿の主要な内容又はインタラクションする必要がある位置をマークするためにも使用でき、即ち、シミュレート授業の逐語的原稿の知識ポイントとインタラクションに対する注釈であり得る。命令マークの具体的な実施形態は、重要な内容の位置及び必要なインタラクションに応じて柔軟に決定でき、例えば、複数の重要な段落又はインタラクション位置がある場合、命令マークの数は複数であり得る。
さらに、命令マークによりシミュレート授業の逐語的原稿の重要な内容とインタラクション位置を注釈する方法について、その実施形態も柔軟に選択することができる。一可能な実施形態において、<重要なポイント開始><重要なポイント終了>でシミュレート授業中の重要な知識ポイントを注釈することができ、一可能な実施形態において、シミュレート授業中にインタラクションする必要がある場合、シミュレート授業の逐語的原稿の対応する位置に、マークとして<インタラクションを追加する必要がある>というマークを付けることができる。具体的には、<重要なポイント開始>、<インタラクションを追加する必要がある>などの注釈の具体的な実施形態も実際の状況に応じて柔軟に決定できる。例えば、いくつかの特定の単語又は動作の説明を、<重要なポイント開始>又は<インタラクションを追加する必要がある>などの注釈の具体的な実施形態として使用することができる。
例示的に、シミュレート授業の逐語的原稿のコンテンツは、次のとおりであってもよい。「これは、講義内容の一部です<重要なポイント開始>生徒の皆さん、図面を見てみましょう、これらは交差点の状況に属しています。手元の分度器の助けを借りて、新しい発見があるかどうかを確認できますか?<インタラクションを追加する必要がある>青い服を着た学生さん、答えてください。
<インタラクションを追加する必要がある>はい、その通りです。生徒の皆さん、2本の直線が直角に交差する場合、それらは互いに垂直であると言います。<重要なポイント終了>」。上記の例示的なシミュレート授業の逐語的原稿内容から分かるように、一例において、<重要なポイント開始>及び<重要なポイント終了>などの注釈を使用して、シミュレート授業の逐語的原稿から重要な知識ポイントを分割することができ、同様に、<インタラクションを追加する必要がある>などの注釈を使用して、授業中の特定の段階で対応する動作を実行するようにシミュレート授業を行う教師に提示することもできる。これらの命令注釈に対応する特定の語彙又は動作の説明は、実際の必要に応じて柔軟に選択することができ、本発明の実施例は、これらに対して限定しない。
教師は、知識ポイントとインタラクションを注釈するための命令マークを含むプリセットされたコンテキストデータに従って、シミュレート授業教育を行うことにより、対応するマルチメディアデータを取得する。これにより、シミュレート授業の特定の重要な段階(例えば、重要な知識ポイントの講義段階又はインタラクションする必要がある段階)へのマーク付きのマルチメディアデータを取得することができる。これらのマークは、データ処理装置によって自動的に認識でき、それにより、データ処理装置は、マルチメディアデータ内の重要な知識ポイントの講義過程又はインタラクション過程などを自動的に認識することができる。一可能な実施形態において、重要な知識ポイントの講義過程又はインタラクション過程での中間検出結果に焦点を当てることにより、教師のシミュレート授業状態をより目標的に評価することができる。これにより、データ処理プロセスの自動化の程度を向上させるだけでなく、データ処理によって取得された目標検出結果の目標性と実用性も向上させることができる。
上記の各実施例から分かるように、命令マークを含むプリセットされたコンテキストデータで生成されたマルチメディアデータは、自動認識と処理が容易であるため、データ処理方法の自動化の程度が向上し、最終的な目標検出結果の目標性と実用性も向上する。
上記の各実施例から分かるように、マルチメディアデータの実施形態と生成方式の両方が、複数の実施形態を有することができる。これに対応して、マルチメディアデータの実施形態が異なると、マルチメディアデータを取得する(即ち、ステップS11)実施形態も柔軟に変化することができる。一可能な実施形態において、マルチメディアデータは、事前に記録されたマルチメディアデータであってもよく、この場合、マルチメディアデータのストレージ位置(例えば、統一資源位置指定子(URL:Uniform Resource Locator)リンク)に従って、マルチメディアデータを取得することができる。一可能な実施形態において、マルチメディアデータは、記録過程中のデータ(例えば、ライブビデオ)であってもよく、この場合、マルチメディアデータのライブストリームのリンク又はアドレスに従って、マルチメディアデータを取得することができる。
さらに、上記の各実施例で説明されるように、マルチメディアデータは、ビデオデータ及び/又はオーディオデータを含み得るため、マルチメディアデータの具体的な内容が異なると、それを取得する方式も柔軟に変化することができる。一可能な実施形態において、マルチメディアデータがビデオデータ及びオーディオデータを同時に含み、且つオーディオデータとビデオデータが一体化された場合、当該オーディオとビデオを一体化したデータを直接に取得した後、特定の方式で当該一体化されたオーディオビデオデータからビデオデータとオーディオデータをそれぞれ分離することができる。本発明の実施例は、具体的な分離方式にに対して特に限定せず、実際の状況に応じて柔軟に選択できる。一可能な実施形態において、マルチメディアデータがビデオデータとオーディオデータを同時に含み、オーディオデータとビデオデータが互いに独立している場合、後続の検出に使用されるビデオデータとオーディオデータをそれぞれ取得することができる。
上記の各実施例で説明されるように、マルチメディアデータは、シミュレート授業過程の複数の段階(例えば、授業前のウォームアップ、知識教育、授業中に行うトレーニング及び授業テストなど)を含み得、これらの段階は、特定の命令マークに対応する単語又は動作に基づいて認識されることができる。したがって、一可能な実施形態において、マルチメディアデータを取得する場合、マルチメディアデータ内の特定の単語又は動作に従ってマルチメディアデータをセグメント化することにより、必要とするマルチメディアデータの一部を取得することもできる。例えば、一例において、マルチメディアデータ内の授業前のウォームアップセッション開始命令及び授業前のウォームアップセッション終了命令を認識することにより、マルチメディアデータ内の授業前のウォームアップ段階のマルチメディアデータを取得し、授業前のウォームアップ段階のマルチメディアデータに基づいて後続の目標検出結果を取得することができ、一例において、マルチメディアデータ内の複数の段階の開始命令と終了命令を認識することにより、マルチメディアデータの各部分のマルチメディアデータを取得することもでき、それにより、ステップS12及びステップS13を介して、マルチメディアデータの各部分の目標検出結果を取得する。
一可能な実施形態において、シミュレート授業過程の各段階の記録時間に基づいて異なる段階のマルチメディアデータをそれぞれ取得することもできる。一例において、教師は、クライアントを介してマルチメディアデータを記録し、クライアントの実施形態は、携帯電話、コンピュータ又は他のユーザ機器であってもよく、本発明の実施例は、これらに対して限定しない。記録中、クライアントは、タップ(tap)の形で、シミュレート授業の異なる段階をクライアントインターフェイスに表示することができる。この場合、教師は、tapをクリックすることにより、この段階に入り、この段階のシミュレート授業マルチメディアデータを記憶することができる。この場合、この段階のシミュレート授業マルチメディアデータは、ビデオ及びオーディオに加えて、記録中のタイムスタンプも含むため、データ処理装置は、ステップS11でマルチメディアデータを取得するプロセスにおいて、マルチメディアデータに含まれるタイムスタンプに従って、マルチメディアデータに対応するシミュレート授業段階を決定することができ、これにより、マルチメディアデータの各部分のマルチメディアデータを取得することができる。本発明において、説明の便宜上、後続の各実施例はすべて、マルチメディアデータの各段階を分割しないことを例としてデータ処理プロセスを説明する。マルチメディアデータが複数の部分に分割された後に各部分の目標検出結果をそれぞれ取得する実施形態については、後続の各実施例を参照して拡張することができ、ここでは繰り返して説明しない。
上記の内容に加えて、ステップS11では、マルチメディアデータの取得に関する目標対象の数も限定せず、1つの目標対象に対応する1つのマルチメディアデータであってもよいし、複数の目標対象に対応するマルチメディアデータであってもよい。即ち、本発明の実施例におけるデータ処理方法は、一度に1つの目標対象のみのマルチメディアデータを処理してもよいし、同時に複数の目標対象のマルチメディアデータをバッチ処理してもよい。目標対象が複数である場合、異なる目標対象のマルチメディアデータを区別するために、マルチメディアデータに他の情報を追加して、マルチメディアデータが属する目標対象を決定することができる。したがって、一可能な実施形態において、マルチメディアデータは、ビデオデータとオーディオデータに加えて、身元情報(例えば、教師ID(teacherID)、課程ID(シミュレート授業ID)及び教師所属団体ID(例えば、教師が所属する会社又は学校のvendeeID)など)を含むこともできる。さらに、マルチメディアデータは、他の関連情報、例えば、マルチメディアデータアドレス(URLリンク)、マルチメディアデータの構造(例えば、上記の実施例で言及されたマルチメディアデータに対応するシミュレート授業段階、及び各段階の開始タイムスタンプ又は終了タイムスタンプなど)又はマルチメディア検出の関連情報(例えば、ビデオ検出フレームレートなど)などを更に含み得る。後続の各実施例はすべて、取得されたマルチメディアデータが1つの目標対象のマルチメディアデータであることを例として説明し、複数の目標対象のマルチメディアデータを同時に取得してデータ処理を実行するプロセスは、後続の各実施例を参照して拡張することができ、ここでは繰り返して説明しない。
上記の各実施例で言及されたマルチメディアデータの実施形態、及びマルチメディアデータを取得する方式は、必要に応じて柔軟に組み合わせることによって実現でき、本発明の実施例は、これらに対して限定しないことに留意されたい。。
上記の任意の実施例により、目標対象のマルチメディアデータを取得した後、ステップS12により、少なくとも1つの検出次元で目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における目標対象の中間検出結果を取得することができる。ステップS12の実施形態は限定されず、マルチメディアデータの実際の状況に従って柔軟に選択することができ、以下の各実施例に限定されない。
上記の各実施例で説明されるように、一可能な実施形態において、マルチメディアデータはビデオデータを含み得、この場合、ステップS12は、ビデオデータに基づいて目標対象に対して行動状態検出を実行することであってもよい。したがって、一可能な実施形態において、ステップS12は、次のステップを含み得る。
ステップS1211において、ビデオデータ内の目標対象を決定する。
ステップS1212において、目標対象に対してジェスチャ、気分及びアイコンタクトのうちの少なくとも1つの検出次元における行動状態検出を実行して、少なくとも1つの検出次元における目標対象の中間検出結果を取得する。
ここで、ステップS1211で目標対象を決定する方式は限定されず、目標対象の実際の実施形態に従って柔軟に决定することができる。上記の各実施例で説明されるように、一可能な実施形態において、目標対象は教師であってもよく、実行する行動は、シミュレート授業行動であってもよく、この場合、顔検出又は顔追跡によって、ビデオデータから授業を行う教師を決定することにより、目標対象の決定を実現することができる。例えば、いくつかの可能な実施形態において、human action SDKの顔検出と顔追跡などのモデルを使用して、ビデオデータから目標対象を決定することができる。
目標対象を決定した後、ステップS1212により、ジェスチャ、気分及びアイコンタクトの少なくとも1つの検出次元で、目標対象に対して行動状態検出を実行することができるが、具体的に含まれる検出次元、及びこれらの検出次元間の検出順序は、実際の状況に応じて柔軟に選択できる。各検出次元でどのように検出するかについては、後続の各実施例を参照でき、ここでは詳しく説明しない。本発明において、後続の各実施例はすべて、ビデオデータに対してジェスチャ、気分及びアイコンタクトの3つの検出次元で行動状態検出を同時に実行することを例として説明し、他の実施形態は、後続の各実施例を参照して柔軟に拡張でき、ここでは繰り返して説明しない。
上記の実施例から分かるように、一可能な実施形態において、マルチメディアデータがビデオデータを含む場合、ビデオデータに従って、コンピュータビジョン処理を実行することにより、ビデオデータ内の目標対象に対するジェスチャ、気分及びアイコンタクトなどの複数の検出次元での行動状態検出を実行することができる。上記のプロセスにより、マルチメディアデータ内のビデオデータを十分かつ効果的に使用して、複数の異なる検出次元で目標対象を検出し、中間検出結果の多様性を改善し、後続の目標検出結果の包括性と信頼性を向上させることができる。
各検出次元で対応する中間検出結果を取得するための具体的な方式は、柔軟に決定することができる。一可能な実施形態において、検出次元がジェスチャ検出次元を含む場合、次のステップにより、ジェスチャ検出次元における目標対象の中間検出結果を取得することができる。
ビデオデータに基づき、目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得し、ジェスチャ検出周期のジェスチャ検出結果を取得し、ここで、目標ジェスチャは、手を支える、手を上げる及び親指を上げるというジェスチャのうちの1つ又は複数を含み、
少なくとも1つのジェスチャ検出周期のジェスチャ検出結果に従って、ジェスチャ検出次元における目標対象の中間検出結果を取得する。
ここで、ビデオデータを時系列で複数のセグメントに分割でき、分割されたビデオの各セグメントを、1つのジェスチャ検出周期として記録することができる。分割方式及び分割後の各ジェスチャ検出周期の長さは限定されない。一可能な実施形態において、ビデオデータを同じ時間長に従って分割することができ、この場合、ビデオの異なるセグメントに対応するジェスチャ検出周期の時間長は同じである。一可能な実施形態において、ビデオデータを異なる時間長に従ってランダムに分割することもでき、この場合、ビデオの異なるセグメントに対応するジェスチャ検出周期の時間長は異なる。本発明の実施例は、ジェスチャ検出周期の時間長が変化しないことを例として説明し、一例において、ジェスチャ検出周期を1分に設定でき、即ち、目標対象が1分ごとに少なくとも1つの目標ジェスチャを実行する回数をそれぞれ取得して、1分ごとの目標対象のジェスチャ検出結果を取得し、1分ごとのジェスチャ検出結果に従って、完全なビデオデータにおいて、ジェスチャ検出次元における目標対象の中間検出結果を取得することが出きる。
目標ジェスチャは、設定された、シミュレート授業中で有効であると判断できる教師のジェスチャであり得、例えば、手を支える(生徒に質問に答えるように求めることを示す)、手を上げる(生徒に質問に答えるように提示することを示す)又は親指を上げる(生徒の行動にイイねすることを示す)というジェスチャなどであり得、目標ジェスチャとして使用される特定のジェスチャは、実際の状況に応じて柔軟に設定できる。
ビデオデータに基づき、目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得し、ジェスチャ検出周期のジェスチャ検出結果を取得した後に、少なくとも1つのジェスチャ検出周期のジェスチャ検出結果に従って、ジェスチャ検出次元における目標対象の中間検出結果を取得する。上記のプロセスにより、ビデオデータを複数のジェスチャ検出周期に分割し、完全なジェスチャ検出プロセスを多段階のジェスチャ検出プロセスに変換することにより、毎回実行するジェスチャ検出の難易度を低下させ、ジェスチャ検証の効率を向上させる。同時に、ジェスチャ検出次元における中間検出結果により、シミュレート授業中の教師の体の動きの程度及び生徒とのジェスチャインタラクション程度を効果的に反映でき、データ処理方法の効率を向上させるとともに、データ処理結果の精度と信頼性を向上させることができる。
具体的には、目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数の取得方式は、実際の状況に応じて柔軟に決定できる。一可能な実施形態において、ビデオデータに基づき、目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得することは、
ジェスチャ検出周期におけるビデオデータの少なくとも1つのジェスチャ検出フレームシーケンスを取得することと、ジェスチャ検出フレームシーケンスにおいて、目標ジェスチャを含むフレームの数が第1閾値を超える場合、ジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ開始フレームとして記録することと、ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンスにおいて、目標ジェスチャを含まないフレームの数が第2閾値を超える場合、ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ終了フレームとして記録することと、ジェスチャ開始フレーム及びジェスチャ終了フレームの数に従って、目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得することと、を含む。
一可能な実施形態において、ビデオデータに対してジェスチャ検出を実行するプロセスでは、固定検出フレームレートにより、各ジェスチャ検出周期の長さでのビデオデータのジェスチャ検出を実行することができる。当該検出フレームレートの値は、実際の状況に応じて柔軟に設定することができ、一例において、検出フレームレートを10FPSに設定することができ、即ち、1秒あたりに10フレームのビデオデータに対してジェスチャ検出を実行することができる。
固定検出フレームレートの場合、ジェスチャ検出周期に検出されるフレームの数は実際には固定されており、すなわち、ジェスチャ検出周期内のビデオデータは、1つの完全なフレームシーケンスに対応することができ、当該フレームシーケンスに含まれるフレームの数は、ジェスチャ検出周期の時間長と検出フレームレートの積によって決定できる。一可能な実施形態において、ジェスチャ検出周期に対応する完全なフレームシーケンスに対してジェスチャ検出を直接に実行することができ、例えば、完全なフレームシーケンスに含まれる目標ジェスチャのフレームの数に従って、ジェスチャ検出周期に実行される目標ジェスチャの回数を決定することができる。一可能な実施形態において、上記の実施例で説明されるように、ジェスチャ検出周期に対応する完全なフレームシーケンスから、少なくとも1つのジェスチャ検出フレームシーケンスを取得し、その後、各ジェスチャ検出フレームシーケンスの検出結果に従って、ジェスチャ検出周期内の目標ジェスチャの回数を決定することもできる。
ここで、ジェスチャ検出フレームシーケンスは、ジェスチャ検出周期に対応する完全なフレームシーケンスから選択された複数のフレームシーケンスであってもよく、具体的な選択方式は柔軟に選択でき、以下の実施例に限定されない。一例において、フレームをスライドする方式により、複数のジェスチャ検出フレームシーケンスを取得することができ、具体的なプロセスは、次の通りである。各ジェスチャ検出フレームシーケンスの長さをXに設定し、ジェスチャ検出周期に対応する完全なフレームシーケンスにおいて、第1フレームを最初のジェスチャ検出フレームシーケンスの開始フレームとし、第Xフレームを最初のジェスチャ検出フレームシーケンスの終了フレームとすることにより、最初のジェスチャ検出フレームシーケンスを取得し、その後、完全なフレームシーケンスにおいて、最初のジェスチャ検出フレームシーケンスを1つのフレーム後ろににスライドして、2番目のジェスチャ検出フレームシーケンスを取得する。即ち、完全なフレームシーケンスの第2フレームを2番目のジェスチャ検出フレームシーケンスの開始フレームとし、X+1番目のフレームを2番目のジェスチャ検出フレームシーケンスの終了フレームとすることにより、2番目のジェスチャ検出フレームシーケンスを取得する。これによって類推すれば、複数のジェスチャ検出フレームシーケンスを取得することができる。Xの数は、実際の状況に応じて柔軟に選択でき、本発明の実施例はこれに対して限定しない。一例において、Xは、検出フレームレートと一致してもよく、即ち、検出フレームレートが10FPSである場合、Xを10フレームに設定することができる。
上記の実施例で説明されるように、複数のジェスチャ検出フレームシーケンスを取得した後、複数のジェスチャ検出フレームシーケンスに基づいて、ジェスチャ開始フレーム及びジェスチャ終了フレームを取得することができる。一可能な実施形態において、各ジェスチャ検出フレームシーケンスにおいて、各フレームに対してジェスチャ検出をそれぞれ実行することにより、目標ジェスチャを含むフレームの数を決定でき、目標ジェスチャを含むフレームの数が第1閾値を超える場合、現在のジェスチャ検出フレームシーケンスに目標ジェスチャがあると見なすことができ、この場合、現在のジェスチャ検出フレームシーケンスから、少なくとも1つのフレームをジェスチャ開始フレームとして選択することができる。
ここで、各フレームに対してジェスチャ検出を実行する方式は、実際の状況に応じて柔軟に選択できる。一可能な実施形態において、ジェスチャ検出機能を有するニューラルネットワークにより、フレーム画像に対するジェスチャ検出を実現することができる。ジェスチャ検出機能を有するニューラルネットワークの実施形態も柔軟に決定でき、上記の各実施例で説明されるように、目標ジェスチャは、複数のタイプのジェスチャを含み得、一可能な実施形態において、複数の目標ジェスチャを同時に認識することができるニューラルネットワークを使用して、各フレーム画像に対してジェスチャ検出を実行することができる。一可能な実施形態において、各タイプの目標ジェスチャに対して、1つの対応するニューラルネットワークを使用してジェスチャ検出を実行することもできる。具体的には、一例において、insight SDKの人体検出及び挙手検出モデルを呼び出すことで、目標対象の手を上げるという目標ジェスチャの検出を実行してもよく、一例において、human action SDKのジェスチャ検出モデルを呼び出すことで、目標対象の他の目標ジェスチャを検出することもできる。一可能な実施形態において、ジェスチャ検出フレームシーケンスで検出された目標ジェスチャのタイプが複数である場合、各目標ジェスチャのフレームの数が第1閾値を超えるかどうかをそれぞれ判断することができ、すべてのタイプの目標ジェスチャのフレームの数が第1閾値を超える場合、現在のジェスチャ検出フレームシーケンスに複数のジェスチャがあると見なすことができ、その中の一部のタイプの目標ジェスチャのフレームの数が第1閾値を超える場合、現在のジェスチャ検出フレームシーケンスに、第1閾値を超える一部のタイプの目標ジェスチャがあると見なすことができる。
第1閾値の数は、実際の状況に応じて柔軟に設定することができ、本発明の実施例に限定されない。一例において、ジェスチャ検出フレームシーケンスが10フレームを含む場合、第1閾値を6に設定することができる。
目標ジェスチャを含むフレームの数が第1閾値を超えた場合、現在のジェスチャフレームシーケンスから、少なくとも1つのフレームをジェスチャ開始フレームとして選択でき、ジェスチャ開始フレームとして使用されるフレームを選択する実施形態は、柔軟に決定することができる。一可能な実施形態では、ジェスチャ検出フレームシーケンスにおいて目標ジェスチャを含むN番目のフレームをジェスチャ開始フレームとして使用する場合、当該ジェスチャ開始フレームに対応する時間を、ジェスチャインタラクションの開始時間として記録することができる。ここで、Nの値は柔軟に選択でき、一例において、Nは、第1閾値の値と一致することができ、例えば、ジェスチャ検出フレームシーケンスが10フレームを含み、第1閾値を6に設定した場合、現在のジェスチャ検出フレームシーケンスにおいて目標ジェスチャを含むフレームの数が6を超えないことを検出すると、現在のジェスチャ検出フレームシーケンスにおいて目標ジェスチャを含む6番目のフレームをジェスチャ開始フレームとして使用し、ビデオデータでのジェスチャ開始フレームの時間をジェスチャ開始時間として記録することができる。
ジェスチャ開始フレームを決定した後、ジェスチャの終了時間、即ち、ジェスチャ終了フレームを更に決定することができる。ジェスチャ終了フレームの決定方式は、ジェスチャ開始フレームに類似しており、上記の実施例で説明されるように、一可能な実施形態において、ジェスチャ開始フレームの後のジェスチャ検出フレームシーケンスでジェスチャ検出をそれぞれ実行することができる。そのうち、目標ジェスチャを含まないフレームの数が第2閾値を超える特定のジェスチャ検出フレームシーケンスがある場合、当該ジェスチャ検出フレームシーケンスに目標ジェスチャが存在しないと見なすことができ、当該ジェスチャ検出フレームシーケンスから、少なくとも1つのフレームをジェスチャ終了フレームとして選択することができる。第2閾値の数は、実際の状況に応じて柔軟に決定することができ、第1閾値と同じでも、異なってもよい。一例において、第2閾値の数は、第1閾値の数と同じであり、両方とも6であり得る。ジェスチャ検出フレームシーケンスからジェスチャ終了フレームを選択するプロセスは、ジェスチャ開始フレームの選択プロセスを参照でき、ここでは繰り返して説明しない。
複数のジェスチャ開始フレーム及びジェスチャ終了フレームを取得した後、これらのフレームの数及び対応するジェスチャ開始時間と終了時間に基づいて、ジェスチャ検出周期において目標ジェスチャが現れる回数を決定することができる。表1は、本発明の一実施例に係るジェスチャ検出ルールを示す。
Figure 2022534345000002
ここで、表中のインタラクションジェスチャ検出周期は、上記の実施例におけるジェスチャ検出フレームシーケンスに対応し、インタラクションジェスチャルール閾値は、上記の実施例における第1閾値及び第2閾値に対応し、インタラクションジェスチャ開始時間は、上記の実施例におけるジェスチャ開始フレームの時間に対応し、インタラクションジェスチャ終了時間は、上記の実施例におけるジェスチャ終了時間に対応する。表1から分かるように、一例において、ジェスチャ検出周期内の10フレームごとを1つのジェスチャ検出フレームシーケンスとして使用でき、各ジェスチャ検出フレームシーケンスにおいて、各フレームに対してジェスチャ検出を実行して、ジェスチャ開始フレーム及びジェスチャ終了フレームを決定し、各ジェスチャ検出周期に発生する目標ジェスチャの回数を取得することができる。
上記のプロセスにより、ジェスチャ検出周期内の複数のジェスチャ検出フレームシーケンスに基づいて、目標ジェスチャの回数の検出を実現し、個々のフレームの不正解なジェスチャ検出結果がジェスチャ検出結果に与える影響を効果的に低減し、ジェスチャ検出の精度を向上させ、更に、データ処理プロセス全体の精度と信頼性を向上させることができる。
さらに、ジェスチャ検出周期内の目標ジェスチャの実行回数を取得した後、取得された回数に従って、当該ジェスチャ検出周期に対応するジェスチャ検出結果を取得することができる。一可能な実施形態において、当該ジェスチャ検出周期内の目標ジェスチャの実行回数をジェスチャ検出結果として直接に使用することができる。一可能な実施形態において、特定のルールに従って、当該ジェスチャ検出周期内の目標ジェスチャの実行回数をスコアにマッピングして、ジェスチャ検出結果として使用することもでき、本発明の実施例はマッピングルールに対して限定しない。表2は、本発明の一実施例に係るジェスチャ検出結果のマッピングルールを示す。
Figure 2022534345000003
ここで、インタラクションジェスチャ評点周期が上記の実施例におけるジェスチャ検出周期に対応する場合、表2から分かるように、一例において、1つのジェスチャ検出周期において、1回の目標ジェスチャを1ポイントとして記録することができ、目標ジェスチャの回数に従って、ジェスチャ検出周期のスコアを決定することができる。ジェスチャ検出周期に目標ジェスチャが10回以上現れた場合、当該ジェスチャ検出周期のジェスチャ検出結果を10ポイントとして記録する。
特定のルールに従って、ジェスチャ検出周期内の目標ジェスチャの実行回数をマッピングをスコアにマッピングすることにより、ジェスチャ検出結果を標準化することができ、これにより、ジェスチャ検出結果に基づいて決定された中間検出結果の標準化を向上させることができ、ジェスチャ次元の中間検出結果と他の次元の中間検出結果を融合して、より直感的な目標検出結果を取得するのに役立つ。
各ジェスチャ検出周期のジェスチャ検出結果を取得した後、少なくとも1つのジェスチャ検出結果に基づいて、ジェスチャ検出次元における中間検出結果をさらに取得することができる。ジェスチャ検出結果に従って中間検出結果を取得する方式は、柔軟に決定することができ、以下の実施例によって限定されない。一可能な実施形態において、各个ジェスチャ検出周期のジェスチャ検出結果の平均値をジェスチャ検出次元における中間検出結果として使用できる。
一可能な実施形態において、検出次元が気分検出次元を含む場合、次のステップにより、気分検出次元における目標対象の中間検出結果を取得することができる。
ビデオデータに従って、気分検出周期における前記目標対象の表情検出結果及び/又は笑顔検出結果を取得し、ここで、表情検出結果は、目標対象の表情に基づいて決定された気分結果を含み、笑顔検出結果は、目標対象の笑顔強度を含み、
少なくとも1つの気分検出周期内の目標対象の表情検出結果及び/又は笑顔検出結果に従って、気分検出次元における目標対象の中間検出結果を取得する。
ここで、気分検出周期の実施形態は、上記の実施例におけるジェスチャ検出周期の実施形態を参照することができ、ここでは繰り返して説明しない。気分検出周期の長さは、ジェスチャ検出周期の長さと同じでも、異なってもよく、実際の状況に応じて柔軟に選択することができる。一例において、気分検出周期をジェスチャ検出周期と同じに設定することができ、両方とも1分に設定することができる。
表情検出結果は、目標対象に対して表情検出を実行することによって決定された気分結果であり、例えば、目標対象の気分が嬉しい、穏やか又は悲しいである。その実施形態は柔軟に設定することができ、表情検出結果の取得方式と実施形態は、後続の各実施例を参照することができ、ここでは詳しく説明しない。
笑顔検出結果は、目標対象に対して笑顔検出を実行することによって決定された関連結果であってもよく、これは、目標対象の笑顔強度又は笑顔の度合いを反映することができる。その実施形態は柔軟に設定することができ、笑顔検出結果の取得方式と実施形態は、後続の各実施例を参照することができ、ここでは詳しく説明しない。
さらに、表情検出結果及び笑顔検出結果に従って気分検出次元における目標対象の中間検出結果を取得する方法は表情検出結果及び笑顔検出結果の実際の状況に従って決定することができ、詳細については、後続の各実施例も参照されたい。
本発明の実施例において、笑顔検出と表情検出は、2つの独立した検出であり得、両方とも目標対象の気分状態を表すために使用されることができるが、両者は異なる観点から実現されたものである。表情検出結果及び笑顔検出結果に基づいて決定された中間検出結果は、気分検出次元で、目標対象の気分状態をより包括的かつ確実に表すことができ、それにより、最終的な目標検出結果の包括性と信頼性を向上させることができる。
具体的には、気分周期内の目標対象の表情検出結果の取得方法について、その実施形態は、実際の状況に従って柔軟に決定することができる。一可能な実施形態において、ビデオデータに従って、気分検出周期内の目標対象の表情検出結果を取得することは、気分検出周期において、目標対象に対して表情検出を実行して、目標対象が少なくとも1つの目標表情を表示する回数を決定し、表情検出結果を取得することを含み得、ここで、目標表情は、嬉しい、穏やか及びその他の表情のうちの1つ又は複数を含む。
上記の実施例から分かるように、一可能な実施形態において、気分検出周期に目標対象が異なる目標表情を表示する回数に基づいて、表情検出結果を取得することができる。ここで、目標表情は、実際の状況に従って柔軟に設定することができ、一可能な実施形態において、目標表情を嬉しい、穏やか又はその他の表情に設定することができ、一可能な実施形態において、その他表情を更に細分化することもでき、例えば、目標表情を嬉しい、穏やか、悲しい又は怒るに設定することもできる。
気分検出周期内の目標表情の回数は、目標表情を含むフレームの数を検出することによって決定でき、一可能な実施形態において、気分検出の検出フレームレートは、ジェスチャ検出の検出フレームレートと同じであり得、特定の固定値である場合、各気分検出周期内に検出できるフレームの数は固定され、一可能な実施形態において、気分検出周期に各目標表情が検出されたフレームの数に従って、気分検出周期内の目標対象が各目標表情を表示した回数を決定する。一可能な実施形態において、気分検出周期を複数の気分検出サブ周期に分割することもでき、各気分検出サブ周期において、検出されたフレームの数が最も多い目標表情を当該気分検出サブ周期の表情として使用し、それにより、各気分検出サブ周期の表情に基づいて、気分検出周期内の目標表情の回数を決定することができる。表3は、本発明の一実施例に係る表情検出ルールを示す。
Figure 2022534345000004
表3から分かるように、気分検出周期が1分である場合、気分検出サブ周期の長さとして1秒を使用することにより、60個の気分検出サブ周期を取得することができ、次に、1秒ごとにビデオデータの各フレームに対して表情検出を実行して、各フレームに対応する目標表情を取得し、1秒あたりのフレームの数が最も多い目標表情をこの秒に対応する目標表情として使用することができ、各検出周期では、異なる目標表情の表示回数を取得することができ、これらの回数の和は60である。
各フレームに対して表情検出を実行する方式は限定されない。一可能な実施形態において、表情検出機能を有するニューラルネットワークによって、各フレーム画像の表情検出を実現することができる。即ち、各フレーム画像を、表情検出機能を有するニューラルネットワークに入力し、目標対象に対応する目標表情を出力することができる。本発明の実施例は、表情検出機能を有するニューラルネットワークの具体的な実施形態を限定しなく、実際の状況に従って適切なニューラルネットワークを柔軟に選択することができる。一例において、human action SDKの顔検出又は顔属性などのモデルを呼び出すことによって、目標対象の表情検出を実現することができる。
さらに、気分検出周期内の各目標表情の回数を決定した後、気分検出周期の表情検出結果を取得することができ、異なる目標表情の回数を表情検出結果に変換する具体的な方法について、そのマッピングルールは、実際の状況に従って柔軟に決定することができ、以下の実施例に限定されない。表4は、本発明の一実施例に係る気分検出結果の対応するルールを示す。
Figure 2022534345000005
ここで、表情スコアは、上記の実施例における表情検出結果に対応し、笑顔スコアは、上記の実施例における笑顔検出結果に対応する。表4に示されたように、一例において、気分検出周期内の異なる目標表情を異なるスコアに記録することができ、例えば、嬉しい表情を10ポイントとして記録し、穏やか表情を5ポイントとして記録し、その他の表情を0ポイントとして記録し、その後、気分検出周期内の目標表情の平均ポイントを、気分検出周期の表情検出結果として使用する。
気分検出周期において、目標対象に対して表情検出を実行して、目標対象が少なくとも1つの目標表情を表示する回数を決定し、表情検出結果を取得することにより、目標対象が気分検出周期内に現れた多種の異なる目標表情に基づいて、より包括的で信頼性の高い表情検出結果を取得することができ、それにより、目標対象の気分をより正確に反映し、気分検出結果の精度を向上させることができる。
同様に、気分周期内の目標対象の笑顔検出結果の取得方法について、その実施形態も、実際の状況に従って柔軟に決定することができる。一可能な実施形態において、ビデオデータに従って、気分検出周期における目標対象の笑顔検出結果を取得することは、
気分検出周期において、ビデオデータの少なくとも1つのフレームに基づき、目標対象に対して笑顔検出を実行して、少なくとも1つのフレームに対応する笑顔検出結果を取得し、少なくとも1つのフレームに対応する笑顔検出結果に従って、気分検出周期における目標対象の笑顔検出結果を決定することを含む。上記の実施例から分かるように、一可能な実施形態において、気分検出周期において、気分検出周期内のビデオデータの各フレームに対して笑顔検出を実行した後、一部のフレーム又は各フレームの笑顔検出結果の平均値に基づいて、気分検出周期における目標対象の笑顔検出結果を取得することができる。
一可能な実施形態において、表情検出の実施形態を参照して、気分検出周期を複数の気分検出サブ周期に分割し、各気分検出サブ周期の笑顔検出結果に基づいて、気分検出周期の笑顔検出結果を取得することもできる。気分検出周期の分割方式は、上記の実施例を参照することができ、ここでは繰り返して説明しない。各気分検出サブ周期内の笑顔検出結果の決定方式は、実際の状況に従って柔軟に决定することができ、表5は、本発明の一実施例に係る笑顔検出ルールを示す。
Figure 2022534345000006
表5から分かるように、一例において、気分検出周期を秒単位で複数の気分検出サブ周期に更に分割することができ、各気分検出サブ周期において、当該気分検出サブ周期内の各フレームに対して笑顔検出を実行し、その後、すべてのフレームの笑顔検出結果の平均値を当該気分検出サブ周期の笑顔検出結果として使用することができる。
本発明の実施例は、各フレーム画像に対して笑顔検出を実行する方式を限定せず、一可能な実施形態において、笑顔検出機能を備えたニューラルネットワークにフレーム画像を入力して、当該フレーム画像に対応する笑顔値を出力することができる。本発明の実施例は、笑顔検出機能を備えたニューラルネットワークの実施形態を限定せず、画像内の目標対象の笑顔の度合い又は笑顔強度を反映できる任意のニューラルネットワークはすべて、笑顔検出機能を備えたニューラルネットワークの実施形態として使用できる。
気分検出周期を複数の気分検出サブ周期に分割した後、気分検出サブ周期の笑顔検出結果に従って、気分検出周期の笑顔検出結果を取得する方式も柔軟に決定することができる。上記の実施例で言及された表4から分かるように、一例において、1分内の60個の笑顔検出結果の平均値を、気分検出周期の笑顔検出結果として使用することができ、即ち、気分検出周期内の気分検出サブ周期の笑顔検出結果の平均値に従って、気分検出周期の笑顔検出結果を取得することができる。
気分検出周期内の異なるフレームの笑顔検出結果に従って、気分検出周期の笑顔検出結果を取得することにより、一部のフレームの不正解な笑顔検出結果が与える影響を低減し、取得した気分検出周期内の笑顔検出結果の信頼性を向上させ、最終的な目標検出結果の信頼性と精度を向上させることができる。
気分検出周期内の表情検出結果及び笑顔検出結果を取得した後、両者に基づいて気分検出次元における目標対象の中間検出結果を取得することができる。一可能な実施形態において、各気分検出周期内の表情検出結果及び/又は笑顔検出結果に基づいて、各気分検出周期の気分検出結果を取得し、異なる気分検出周期の気分検出結果を平均して、気分検出次元における目標対象の中間検出結果を取得することができる。
各気分検出周期内の目標対象の気分検出結果の取得方式は限定されず、表4に示されたように、一可能な実施形態において、気分検出周期内の表情検出結果と笑顔検出結果の平均値を、当該周期の気分検出結果として使用することができる。一可能な実施形態において、気分検出周期内の表情検出結果と笑顔検出結果に対して加重平均を実行することで、当該周期の気分検出結果を取得することもでき、表情検出結果及び笑顔検出結果の重みは、両者の和が1であれば、実際の状況に従って柔軟に設定することができ、以下の実施例に限定されない。一例において、表情検出結果の重みを1に設定し、笑顔検出結果の重みを0に設定することができ、即ち、表情検出結果を当該気分検出周期の気分検出結果として使用することができる。一例において、表情検出結果の重みを0に設定し、笑顔検出結果の重みを1に設定し、即ち、笑顔検出結果を当該気分検出周期の気分検出結果として直接に使用することができる。
一可能な実施形態において、検出次元がアイコンタクト検出次元を含む場合、次のステップにより、アイコンタクト検出次元における目標対象の中間検出結果を取得することができる。
ビデオデータに基づき、目標対象に対して顔角度検出を実行して、目標対象の顔角度が顔角度閾値内にある時間を顔角度検出結果として決定し、ビデオデータに従って、目標対象に対して閉眼検出を実行して、目標対象が閉眼動作を実行する時間を閉眼検出結果として決定し、顔角度検出結果及び閉眼検出結果に従って、目標対象の顔角度が顔角度閾値内にあり且つ閉眼動作を実行しない時間長を決定し、時間長に従って、アイコンタクト検出次元における目標対象の中間検出結果を取得する。
上記の実施例から分かるように、一可能な実施形態において、アイコンタクト検出次元における目標対象の検出は、顔角度検出と閉眼検出の2つの部分で構成されることができる。本発明の実施例において、顔角度検出により、目標対象の顔の向き方向を決定でき、目標対象の顔が顔角度閾値内にある場合、目標対象の視角がアイコンタクトの範囲内にあると見なすことができる。ここで、顔角度閾値の値は、実際の状況に応じて柔軟に設定でき、一可能な実施形態において、顔角度閾値は静的な値であってもよく、即ち、ビデオデータの任意の時間帯でも、顔角度閾値の値が変化しない。一可能な実施形態において、顔角度閾値は動的な値であってもよく、即ち、ビデオデータ内の目標対象の位置の変化によって柔軟に変化する。
しかしながら、場合によっては、目標対象の視角がアイコンタクトの範囲内にあるが、会話しようとする対象とアイコンタクトすることではなく、顔の習慣的な動きに過ぎない可能性がある。したがって、本発明の実施例において、目標対象に対して閉眼検出をさらに実行することにより、目標対象が閉眼状態にあるかどうかを判断することもできる。目標対象の視角がアイコンタクトの範囲内にあり、目標対象が開眼状態(即ち、非閉眼状態)にある場合、目標対象が現在アイコンタクト動作を実行していると見なすことができる。したがって、一可能な実施形態において、顔角度検出及び閉眼検出により、目標対象の顔角度が顔角度閾値内にあり且つ閉眼動作を実行しない時間長を決定し、ビデオデータでの当該時間長の比率に従って、アイコンタクト検出次元における目標対象の中間検出結果を取得することができる。
顔角度検出及び閉眼検出により、目標対象の顔角度が顔角度閾値内にあり且つ閉眼動作を実行しない時間長を決定し、アイコンタクト検出次元における目標対象の中間検出結果を取得し、上記のプロセスにより、アイコンタクトを検出するプロセスにおいて、目標対象がアイコンタクト方向にあるかどうかを考慮する同時に、目光対象がこの方向にあるとき閉眼したかどうかも考慮することで、目標対象のアイコンタクト程度を総合的に評価することができ、これにより、アイコンタクト検出次元における中間検出結果の精度を大幅に向上させ、後続の目標検出結果の精度を向上させることができる。
さらに、一可能な実施形態において、アイコンタクト検出次元における行動状態検出の精度を向上させるために、上記の各実施例を参照して、1つのアイコンタクト検出周期を設定でき、各アイコンタクト検出周期において、目標対象の顔角度が顔角度閾値内にあり且つ閉眼動作を実行しない時間長を決定し、少なくとも1つのアイコンタクト検出周期の中間検出結果を取得し、少なくとも1つのアイコンタクト検出周期の中間検出結果に基づいて、アイコンタクト検出次元における目標対象の中間検出結果を取得する。
ここで、アイコンタクト検出周期の実施形態は、上記の各実施例におけるジェスチャ検出周期及び気分検出周期を参照することができ、ここでは繰り返して説明しない。一可能な実施形態において、アイコンタクト検出周期の長さを1分に設定することができる。
具体的には、各アイコンタクト検出周期において、顔角度検出を実行するプロセスは、ジェスチャ検出プロセスを参照することができる。したがって、一可能な実施形態において、アイコンタクト検出周期内で顔角度検出を実行するプロセスは、
アイコンタクト検出周期におけるビデオデータの少なくとも1つの顔角度検出フレームシーケンスを取得することと、顔角度検出フレームシーケンスにおいて、顔角度が顔角度閾値内にあるフレームの数が第3閾値を超える場合、顔角度検出フレームシーケンス内の少なくとも1つのフレームを顔向け開始フレームとして記録することと、顔向け開始フレームの後にある顔角度検出フレームシーケンスにおいて、顔角度閾値以外にある顔角度のフレームの数が第4閾値を超える場合、顔向け開始フレームの後にある顔角度検出フレームシーケンスの少なくとも1つのフレームを顔向け終了フレームとして記録することと、顔向け開始フレーム及び顔向け終了フレームの数と時間に従って、アイコンタクト周期内の目標対象の顔角度が顔角度閾値内にある時間を取得することとを含み得る。
ここで、顔角度検出フレームシーケンスの取得方式については、ジェスチャ検出フレームシーケンスを参照することができ、顔向け開始フレームの決定方式については、ジェスチャ開始フレームを参照することができ、顔向け終了フレームの決定方式については、ジェスチャ終了フレームを参照することができ、ここでは繰り返して説明しない。第3閾値及び第4閾値は、実際の状況に従って柔軟に設定される値であり得、当該第3閾値及び第4閾値は、第1閾値及び第2閾値と同じであっても、異なっていてもよく、実際の状況に従って柔軟に設定できる。顔角度の検出方式は、実際の状況に従って柔軟に決定することができ、一可能な実施形態において、顔角度検出機能を備えたニューラルネットワークに各フレーム画像を入力することにより、顔角度検出を実現することができる。ここで、本発明の実施例は、顔角度検出機能を備えたニューラルネットワークの実施形態に対して限定せず、一例において、human action SDK内の顔検出モデル又は顔追跡モデルなどのモデルを呼び出すことにより、顔角度検出を実行できるニューラルネットワークを取得することができる。表6は、本発明の一実施例に係る顔角度検出ルールを示す。
Figure 2022534345000007
Figure 2022534345000008
ここで、視聴閾値は、上記の実施例における顔角度閾値に対応でき、視聴検出周期は、上記の実施例における顔角度検出フレームシーケンスに対応でき、視聴ルール閾値は、上記の実施例における第3閾値及び第4閾値に対応でき、視聴イベント開始時間は、上記の実施例における顔向け開始フレーム時間に対応でき、視聴イベント終了時間は、上記の実施例における顔向け終了フレームの時間に対応できる。表6に示されたように、一例において、顔角度閾値は、正のヨー角、負のヨー角、正のピッチ角及び負のピッチ角の4つのパラメータを含み得、その具体的な値は、実際の状況に従って柔軟に決定することができ、ここで、ヨー角及びピッチ角は、顔角度検出で設定された座標系に応じて柔軟に決定することができ、正と負は、これらの角度の方向などを示し、特定のフレーム画像内の顔角度がこの4つのパラメータによって共同で決定された範囲内にあることが検出された場合、当該フレーム内の顔角度が顔角度閾値内にあると見なすことができる。顔角度検出の検出フレームレートを10FPSに設定でき、顔角度検出フレームシーケンスの長さを10に設定でき、第3閾値及び第4閾値は両方とも8に設定でき、即ち、1つの顔角度検出フレームシーケンスにおいて、顔角度が顔角度閾値内にあるフレームの数が8以上である場合、顔角度が顔角度閾値内にある8番目のフレームを顔向け開始フレームとして使用することができ、それに対応する時間は、顔角度が顔角度閾値内にある開始時間である。同様に、顔角度が顔角度閾値内にある終了時間を決定し、アイコンタクト周期において顔角度が顔角度閾値内にある時間範囲を取得することができる。
同様に、各アイコンタクト検出周期において、閉眼検出を実行するプロセスは、上記のジェスチャ検出プロセス及び顔検出プロセスを参照することができる。したがって、一可能な実施形態において、アイコンタクト検出周期内で閉眼検出を実行するプロセスは、
アイコンタクト検出周期におけるビデオデータの少なくとも1つの閉眼検出フレームシーケンスを取得することと、閉眼検出フレームシーケンスにおいて、両目が閉眼状態であるフレームの数が第5閾値を超える場合、閉眼検出フレームシーケンス内の少なくとも1つのフレームを閉眼開始フレームとして記録することと、閉眼開始フレームの後にある閉眼検出フレームシーケンスにおいて、両目が閉眼状態ではないか、又は片目のみが閉眼状態にあるフレームの数が第6閾値を超える場合、閉眼開始フレームの後にある閉眼検出フレームシーケンスの少なくとも1つのフレームを閉眼終了フレームとして記録することと、閉眼開始フレーム及び閉眼終了フレームの数と時間に従って、目標対象がアイコンタクト周期内で閉眼状態にある時間を取得することと、を含み得る。
ここで、閉眼検出フレームシーケンスの取得方式、閉眼開始フレーム及び閉眼終了フレームの決定方式はすべて、上記の各実施例を参照することができ、ここでは繰り返して説明しない。第5閾値及び第6閾値は、実際の状況に従って柔軟に設定される値であり得、当該第5閾値及び第6閾値は、上述で言及された各閾値と同じであっても、異なっていてもよく、実際の状況に従って柔軟に設定できる。検出目標対象が目を閉じているかどうかを検出する方式は、実際の状況に従って柔軟に決定することができ、一可能な実施形態において、閉眼検出機能を備えたニューラルネットワークに各フレーム画像を入力することにより、閉眼検出を実現することができ、ここで、本発明の実施例は、閉眼検出機能を備えたニューラルネットワークの実施形態に対して限定せず、一例において、human action SDK内の顔検出モデル又は顔属性モデルなどのモデルを呼び出すことにより、閉眼検出を実行できるニューラルネットワークを取得することができる。表7は、本発明の一実施例に係る閉眼検出ルールを示す。
Figure 2022534345000009
ここで、閉眼検出周期は、上記の実施例における閉眼検出フレームシーケンスに対応でき、閉眼ルール閾値は、上記の実施例における第5閾値及び第6閾値に対応でき、閉眼開始時間は、上記の実施例における閉眼開始フレームの時間に対応でき、閉眼イベント終了時間は、上記の実施例における閉眼終了フレームの時間に対応できる。表7に示されるように、一例において、目標対象の両目が閉じている状態を閉眼状態に設定し、他の状態を非閉眼状態に設定でき、閉眼検出の検出フレームレートを10FPSに設定でき、閉眼検出フレームシーケンスの長さを10に設定でき、第5閾値を6に設定でき、第6閾値を8に設定できる。即ち、1つの閉眼検出フレームシーケンスにおいて、閉眼状態にあるフレームの数が6以上であることを検出した場合、閉眼状態にある最初のフレームを閉眼開始フレームとして使用し、それに対応する時間は閉眼開始時間である。同様に、閉眼開始時間の後にある閉眼検出フレームシーケンスにおいて、非閉眼状態にあるフレームの数が8以上であることを検出した場合、非閉眼状態にある最初のフレームを閉眼終了フレームと使用して使用し、それにより、閉眼終了時間を決定し、アイコンタクト周期において目標対象が閉眼状態にある時間範囲を取得することができる。
アイコンタクト周期内の目標対象の顔が顔角度閾値内にある時間範囲と、目標対象が閉眼状態にある時間範囲をそれぞれ決定した後、アイコンタクト周期において目標対象の顔が顔角度閾値内にあり且つ閉眼状態にいない時間範囲、即ち、アイコンタクト周期において目標対象がアイコンタクトを実行する時間範囲を更に取得することができ、これにより、アイコンタクト周期の中間検出結果を決定することができる。アイコンタクト周期における目標対象のアイコンタクト時間範囲を中間検出結果にマッピングするマッピングルールは、実際の状況に従って柔軟に設定することができ、以下の実施例に限定されない。
表8は、本発明の一実施例に係るアイコンタクト検出結果のルールを示し、ここで、アイコンタクト評点周期は、上記の実施例におけるアイコンタクト検出周期に対応でき、アイコンタクト評点は、上記の実施例におけるアイコンタクト検出次元における中間検出結果に対応できる。
Figure 2022534345000010
表8から分かるように、一例において、特定のルールに従って、アイコンタクト検出周期内のアイコンタクトの時間比率をスコアにマッピングし、当該スコアを、当該アイコンタクト検出周期におけるアイコンタクト検出次元における中間検出結果として使用することができる。
同様に、上記の各実施例で説明されるように、一可能な実施形態において、マルチメディアデータはオーディオデータを含み得、この場合、ステップS12は、オーディオデータに基づいて、目標対象に対して行動状態検出を実行することであってもよい。したがって、一可能な実施形態において、ステップS12は、次のステップを含み得る。
ステップS1221において、文に従ってオーディオデータをセグメント化して、少なくとも1つのオーディオサブデータを取得する。
ステップS1222において、少なくとも1つのオーディオサブデータに対して流暢さ、発話速度、中断及び音量のうちの少なくとも1つの検出次元における行動状態検出を実行して、少なくとも1つの検出次元における目標対象の中間検出結果を取得する。
ここで、本発明の実施例は、文に従ってオーディオデータをセグメント化する実施形態に対して限定せず、以下の実施例に限定されない。一可能な実施形態において、オーディオデータ内のコンテキストを認識する機能を備えたオーディオデータ認識ニューラルネットワークにより、オーディオデータを認識し、オーディオデータ内の各文の認識結果(例えば、オーディオデータ内の各文、各文に含まれる単語、各文の開始タイムスタンプ、各文の時間長、単語の開始タイムスタンプ及び単語の時間長など)を取得することができる。オーディオデータ認識ニューラルネットワークの具体的な実施方式は柔軟に決定することができ、オーディオデータを認識できる任意のニューラルネットワークを、オーディオデータ認識ニューラルネットワークの実施形態として使用できる。
文に従ってオーディオデータをセグメント化して、1つ又は複数のオーディオサブデータを取得することができ、オーディオサブデータの実施形態及びそれに含まれる内容は、オーディオデータの実際のセグメント化に応じて柔軟に決定することができる。一可能な実施形態において、文に従ってオーディオデータをセグメント化する場合、取得した各オーディオサブデータは、オーディオデータの各完全な文にそれぞれ対応することができる。
オーディオサブデータを取得した後、取得したオーディオサブデータに従って、その一部又は各オーディオサブデータに対して行動状態検出を実行することができる。本発明の実施例において、オーディオサブデータに対する検出は、異なる次元で実行することもでき、例えば、オーディオサブデータに対して、流暢さ、発話速度、中断又は音量のうちの1つ又は複数の検出を実行することができ、具体的にどの次元を選択するかは、実際の状況に従って柔軟に決定することができ、本発明の実施例はそれを限定しない。
具体的には、オーディオサブデータに対して実行した流暢さ、発話速度、中断及び音量のうちの少なくとも1つの次元の検出方式は限定されない。一可能な実施形態において、トレーニングにより、異なる機能を備えた複数のニューラルネットワーク(例えば、流暢さ検出ニューラルネットワーク、発話速度検出ニューラルネットワーク、中断検出ニューラルネットワーク及び音量検出ニューラルネットワーク)を取得でき、オーディオサブデータをこれらのニューラルネットワークに入力して、対応する流暢さ、発話速度、中断及び音量の検出結果をそれぞれ出力することができる。上記の各ニューラルネットワークの具体的な実施形態は、実際の状況に従って柔軟に決定することができ、本発明の実施例はこれらを限定しない。
各个検出次元における各オーディオサブデータの中間検出結果を取得した後、各検出次元下で、時間長比率に従って、各オーディオサブデータの中間検出結果に対して加重融合を行い、加重融合結果を各検出次元における完全なオーディオデータの中間検出結果として使用する。
一可能な実施形態において、オーディオデータを検出する前に、オーディオデータのフォーマットをトランスコードすることができ、これにより、後続のオーディオデータ検出プロセスをより容易に実現することができる。トランスコード方式及びトランスコード後のフォーマットは、実際の検出要件に応じて柔軟に決定することができる。一可能な実施形態において、オーディオデータをpcmフォーマット(例えば、非圧縮のpcmファイルやwavファイルなど)又は16bitサンプリングビットのモノラルフォーマットにトランスコードすることができる。同様に、ビデオデータを検出する前に、ビデオデータを適切なビデオフォーマットにトランスコードすることもできる。
文に従ってオーディオデータをセグメント化して、少なくとも1つのオーディオサブデータを取得し、少なくとも1つのオーディオサブデータに対して流暢さ、発話速度、中断及び音量のうちの1つ又は複数の検出次元における検出を実行することにより、オーディオデータに対する検出プロセスをオーディオデータの各サブデータに対する検出プロセスに変換することができるため、検出の難易度や検出ごとに処理する必要のあるデータ量が軽減され、これにより、オーディオデータの検出効率と検出精度を向上させ、データ処理の効率と精度を向上させる。
上記の任意の実施例又は実施例の組み合わせに基づいて、複数の検出次元における目標対象の中間検出結果を取得した後、ステップS13により、取得した中間検出結果を処理して、目標対象の目標検出結果を取得することができる。ステップS13の実施形態は、実際の状況に従って柔軟に決定することができ、以下の各実施例に限定されない。
一可能な実施形態において、ステップS13は、検出次元のプリセットされた重みに基づき、少なくとも1つの検出次元の中間検出結果を併合して、目標対象の目標検出結果を取得することを含み得る。
上記の実施例から分かるように、一可能な実施形態において、マルチメディアデータに対してジェスチャ、気分、アイコンタクト、流暢さ、発話速度、中断及び音量のうちの1つ又は複数の検出次元における検出を実行することにより、各検出次元における中間検出結果をそれぞれ取得することができる。したがって、これに対応して、これらの検出次元における中間検出結果を融合又は合併して、目標検出結果を取得することができる。
融合又は合併のプロセスは、実際の状況に応じて柔軟に選択でき、上記の実施例に記載されたように、一可能な実施形態において、各検出次元のプリセットされた重みに従って、これらの検出次元における中間検出結果に対して加重平均をすることにより、目標対象の目標検出結果をそれぞれ取得することができる。各検出次元のプリセットされた重み値は、実際のニーズに応じて柔軟に設定することができ、一可能な実施形態において、目標対象の状態査定に大きな影響を与える検出次元に、比較的高いプリセットされた重みを設定することができる。一可能な実施形態において、各検出次元のプリセットされた重みが同じであるように設定でき、この場合、各検出次元における中間検出結果の平均値を目標対象の目標検出結果として直接に使用することができる。
上記のプロセスにより、各検出次元の中間検出結果に基づいて、最終的な目標検出結果を取得することができ、行動状態の平均の実際のニーズに応じてプリセットされた重みを調整できるため、取得された目標検出結果は、目標対象の行動状態をより適切に反映でき、より高い信頼性を有する。
上記の実施例で言及されたように、目標検出結果の実施形態は、柔軟に選択することができ、例えば、目標対象の行動状態の全体的な状況及び詳細な状況を同時に反映するための、全体的な検出結果と複数の詳細な細分化結果を同時に含むことができる。したがって、一可能な実施形態において、ステップS13はまた、次のステップを含み得る。
ステップS131において、オーディオデータ内のオーディオサブデータの時間に従って、マルチメディアデータに含まれるビデオデータから、オーディオサブデータに対応するビデオサブデータを決定する。
ステップS132において、プリセットされた重みに基づき、少なくとも1つの検出次元におけるオーディオサブデータの中間検出結果及び少なくとも1つの検出次元における対応するビデオサブデータの中間検出結果を併合して、少なくとも1つのオーディオサブデータ又はビデオサブデータの目標検出結果を取得する。
ステップS133において、少なくとも1つのオーディオサブデータ又はビデオサブデータの目標検出結果を併合して、目標対象の目標検出結果を取得する。
上記の各実施例で説明されるように、一可能な実施形態において、マルチメディアデータは、ビデオデータ及びオーディオデータの両方を含み得、ここで、ビデオデータとオーディオデータは1対1で対応することができ、即ち、それらは、オーディオを含むデータから個別に分離されたものであってもよい。オーディオデータに対して多次元の行動状態検出を実行するプロセスで、文に従ってオーディオデータをセグメント化して複数のオーディオサブデータを取得し、流暢さ、発話速度、中断及び音量などの複数の検出次元におけるオーディオサブデータの中間検出結果をそれぞれ取得することができる。
したがって、一可能な実施形態において、これらのオーディオサブデータの目標検出結果をさらに取得するために、更に、ジェスチャ、気分及びアイコンタクトなどの検出次元におけるこれらのオーディオサブデータの中間検出結果を取得することもできる。具体的な取得方式については、ステップS131を参照することができ、一可能な実施形態において、オーディオデータでのオーディオサブデータのセグメント化方式で、ビデオデータをセグメント化することにより、複数のビデオサブデータを取得することができ、オーディオデータはビデオデータに対応し、両者のセグメント化方式は同じであるため、取得したビデオサブデータはオーディオサブデータと1対1で対応する。上記の任意の実施例のとおりでビデオデータに対して行動状態検出を実行することにより、複数の検出次元における中間検出結果を取得でき、さらに、セグメント化方式に従って、これらの中間検出結果を各ビデオサブデータにマッピングすることにより、少なくとも1つの検出次元における各ビデオサブデータの中間検出結果を取得することができる。
少なくとも1つの検出次元における各ビデオサブデータの中間検出結果を取得した後、ビデオサブデータとオーディオサブデータの対応関係に従って、各次元におけるビデオサブデータの中間結果と各次元におけるオーディオサブデータの中間結果を合併して、各オーディオサブデータの目標検出結果を取得することができ、オーディオサブデータはビデオサブデータに対応するため、当該目標検出結果は、各ビデオサブデータの目標検出結果でもあり得る。ここで、合併方式については、上記の各実施例を参照することができ、ここでは繰り返して説明しない。
さらに、各オーディオサブデータ又はビデオサブデータの目標検出結果を取得した後、オーディオサブデータ又はビデオサブデータのセグメント化方式の逆方式で、異なるオーディオサブデータ又はビデオサブデータの目標検出結果を再び融合して、目標対象の全体的な目標検出結果を取得することもできる。
上記のプロセスにより、目標対象の全体的な目標検出結果を取得するとともに、各文下での目標対象の目標検出結果も取得することができるため、目標対象の行動状態をより適切に反映でき、これにより、目標検出結果の参考価値と利用範囲を向上させることができる。
図2は、本発明の実施例に係るデータ処理装置のブロック図を示す。図2に示されたように、前記データ処理装置20は、
目標対象のマルチメディアデータを取得するように構成される取得モジュール21と、前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得するように構成される検出モジュール22と、前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得するように構成される処理モジュール23であって、前記目標検出結果は、前記目標対象の行動状態を示すために使用される、処理モジュール23と、を備えることができる。
一可能な実施形態において、前記マルチメディアデータはビデオデータを含み、検出モジュール22は、前記ビデオデータ内の目標対象を決定し、前記目標対象に対してジェスチャ、気分及びアイコンタクトのうちの少なくとも1つの検出次元における行動状態検出を実行して、前記少なくとも1つの検出次元における前記目標対象の中間検出結果を取得するように構成される。
一可能な実施形態において、前記少なくとも1つの検出次元は、ジェスチャ検出次元を含み、検出モジュール22は更に、前記ビデオデータに基づき、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得し、前記ジェスチャ検出周期のジェスチャ検出結果を取得し、少なくとも1つの前記ジェスチャ検出周期の前記ジェスチャ検出結果に従って、ジェスチャ検出次元における前記目標対象の中間検出結果を取得するように構成され、ここで、前記目標ジェスチャは、手を支える、手を上げる及び親指を上げるというジェスチャのうちの1つ又は複数を含む。
一可能な実施形態において、検出モジュール22は更に、前記ジェスチャ検出周期における前記ビデオデータの少なくとも1つのジェスチャ検出フレームシーケンスを取得し、前記ジェスチャ検出フレームシーケンスにおいて、前記目標ジェスチャを含むフレームの数が第1閾値を超える場合、前記ジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ開始フレームとして記録し、前記ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンスにおいて、前記目標ジェスチャを含まないフレームの数が第2閾値を超える場合、前記ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ終了フレームとして記録し、前記ジェスチャ開始フレーム及び前記ジェスチャ終了フレームの数に従って、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得するように構成される。
一可能な実施形態において、前記少なくとも1つの検出次元は、気分検出次元を含み、検出モジュール22は更に、前記ビデオデータに従って、気分検出周期における前記目標対象の表情検出結果及び/又は笑顔検出結果を取得し、少なくとも1つの前記気分検出周期における前記目標対象の表情検出結果及び/又は笑顔検出結果に従って、気分検出次元における前記目標対象の中間検出結果を取得するように構成され、ここで、前記表情検出結果は、前記目標対象の表情に基づいて決定された気分結果を含み、前記笑顔検出結果は、前記目標対象の笑顔強度を含む。
一可能な実施形態において、検出モジュール22は更に、前記気分検出周期において、前記目標対象に対して表情検出を実行して、前記目標対象が少なくとも1つの目標表情を表示する回数を決定し、前記表情検出結果を取得するように構成され、ここで、前記目標表情は、嬉しい、穏やか及びその他の表情のうちの1つ又は複数を含む。
一可能な実施形態において、検出モジュール22は更に、前記気分検出周期において、前記ビデオデータの少なくとも1つのフレームに基づき、前記目標対象に対して笑顔検出を実行して、少なくとも1つのフレームに対応する笑顔検出結果を取得し、前記少なくとも1つのフレームに対応する笑顔検出結果に従って、前記気分検出周期における前記目標対象の笑顔検出結果を決定するように構成される。
一可能な実施形態において、前記少なくとも1つの検出次元は、アイコンタクト検出次元を含み、検出モジュール22は更に、前記ビデオデータに基づき、前記目標対象に対して顔角度検出を実行して、前記目標対象の顔角度が顔角度閾値内にある時間を顔角度検出結果として決定し、前記ビデオデータに従って、前記目標対象に対して閉眼検出を実行して、前記目標対象が閉眼動作を実行する時間を閉眼検出結果として決定し、前記顔角度検出結果及び前記閉眼検出結果に従って、前記目標対象の顔角度が顔角度閾値内にあり且つ閉眼動作を実行しない時間長を決定し、前記時間長に従って、前記アイコンタクト検出次元における前記目標対象の中間検出結果を取得するように構成される。
一可能な実施形態において、前記マルチメディアデータはオーディオデータを含み、検出モジュール22は、文に従って前記オーディオデータをセグメント化して、少なくとも1つのオーディオサブデータを取得し、前記少なくとも1つのオーディオサブデータに対して流暢さ、発話速度、中断及び音量のうちの少なくとも1つの検出次元における行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得するように構成される。
一可能な実施形態において、処理モジュール23は、前記検出次元のプリセットされた重みに基づき、少なくとも1つの検出次元の前記中間検出結果を併合して、前記目標対象の目標検出結果を取得するように構成される。
一可能な実施形態において、処理モジュール23は、前記オーディオデータ内の前記オーディオサブデータの時間に従って、前記マルチメディアデータに含まれるビデオデータから、前記オーディオサブデータに対応するビデオサブデータを決定し、プリセットされた重みに基づき、少なくとも1つの検出次元における前記オーディオサブデータの中間検出結果及び少なくとも1つの検出次元における対応する前記ビデオサブデータの中間検出結果を併合して、少なくとも1つの前記オーディオサブデータ又は前記ビデオサブデータの目標検出結果を取得し、少なくとも1つの前記オーディオサブデータ又は前記ビデオサブデータの目標検出結果を併合して、前記目標対象の目標検出結果を取得するように構成される。
一可能な実施形態において、前記マルチメディアデータは、前記目標対象がプリセットされたコンテキストデータに従って教育操作を実行することによって取得されたものであり、ここで、前記プリセットされたコンテキストデータは少なくとも1つの命令マークを含み、前記命令マークは、前記プリセットされたコンテキストデータのコンテンツの少なくとも一部を分割及び/又は注釈するために使用される。
論理に違反しない限り、本発明の異なる実施例を互に組み合わせることができ、異なる実施例の説明にはそれぞれの重み付けがあり、重み付けて説明されてない部分は、他の実施例の記載を参照することができる。
本発明のいくつかの実施例において、本発明の実施例で提供される装置の機能又はモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現及び技術的効果は、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。
適用シナリオの例
教師シミュレート授業、即ち、教師がシミュレート授業を行うことは、オフラインで複数の教師が、それぞれシミュレートされた対面授業を行い、相互評価を行うことであり得る。オンライン教育の発展に伴い、シミュレート授業をオンラインシミュレート授業に変換することもでき、即ち、教師は、端末機器(携帯電話、コンピュータなど)を介して、シミュレート授業課程を録画又はライブブロードキャストすることができる。
シミュレート授業は、教師が正式な授業をリハーサルするのに役立ち、シミュレート授業の評価は、教師の教育作業にとって高い指導価値がある。したがって、信頼性の高いシミュレート授業方法は、教師のオンラインシミュレート授業過程に効果的に適用でき、教師の正式な教育のためにより良い補助的な役割を果たすことができる。
本発明の適用例は、教師シミュレート授業システムを提案し、当該システムは、上記の実施例で言及されたデータ処理方法により、教師シミュレート授業行動状態の効率的な査定を実現することができる。
本発明の実施例で言及された教師シミュレート授業システムは、クライアント(例えば、携帯電話、コンピュータ、ユーザ機器など)及びサーバ(例えば、ローカルサーバ又はクラウドサーバなど)の2つの部分を含み得、教師は、クライアントでシミュレート授業過程を録画又はライブブロードキャストし、録画又はライブブロードキャストした結果をマルチメディアデータとしてサーバにアップロードすることができ、サーバは、クライアントによってアップロードされたマルチメディアデータを受信し、上記の各実施例に係るデータ処理方法で、マルチメディアデータを処理することにより、目標対象の目標検出結果を取得することができる。
ここで、教師がクライアントでシミュレート授業を行うプロセスは、以下のステップを含む。
クライアントは、表示インターフェイスを介して、授業前のウォームアップ、知識教育、授業中に行うトレーニング及び授業テストのシミュレート授業過程の4つの部分を表示することができる。表示インターフェイスにおいて、各部分は1つのtapに対応し、教師は、tapをクリックすることにより、当該部分に入ることができる。教師がtapをクリックすると、サーバは、教師が各tapをクリックしたタイムスタンプを収集し、教師が録画したマルチメディアデータを4つの部分のうちの1つ又は複数の部分にマッピングできる。
教師は、既存の逐語的原稿(即ち、上記の実施例におけるプリセットされたコンテキストデータ)に従って、シミュレート授業を行うことができる。ここで、逐語的原稿は、txtフォーマットのコンテキストファイルであってもよく、逐語的原稿は、命令マークを含み得、当該命令マークを使用して、逐語的原稿に対して構造化注釈及び知識ポイントとインタラクション注釈を行うことができ、それにより、逐語的原稿を上記の4つの部分に分割でき、各部分において、適切なところでインタラクション(音声内容及びインタラクションジェスチャ)を行うように教師に提示することができる。
ここで、構造化注釈は、シミュレート授業の異なる部分に従って逐語的原稿を分割でき、本発明の適用例において、特定の開始及び終了命令マークを使用して、逐語的原稿の4つの部分(授業前のウォームアップ、知識教育、授業中に行うトレーニング、授業テスト)の開始及び終了セッションを注釈することができる。
一例において、<開始命令開始>、<開始命令終了>、<終了命令開始>、<終了命令終了>を使用して対応する命令を注釈することができ、それにより、構造化注釈された命令マークに従って、現在教師が教えている内容に対応する部分を判断する。本発明の適用例において、構造化注釈された命令マークの具体的な実施形態は、上記の実施例を参照することができる。
知識ポイントとインタラクション注釈を使用して、逐語的原稿のシミュレート授業知識ポイントとインタラクション位置をマークすることができ、本発明の適用例において、<重要なポイント開始>、<重要なポイント終了>を使用して重要な内容をそれぞマークすることにより、シミュレート授業中の重要な段落を容易に検出することができる。シミュレート授業中、インタラクションする必要がある場合、逐語的原稿の対応する授業内容に<インタラクションを追加する必要がある>というマークを付ける。本発明の適用例において、知識ポイントとインタラクション注釈された命令マークの具体的な実施形態は、上記の実施例を参照することができる。
本発明の適用例において、教師は、逐語的原稿を使用してシミュレート授業を行う同時に、クライアントを介して当該シミュレート授業過程を録画することにより、当該教師のマルチメディアデータを取得し、サーバにアップロードすることができる。
サーバがクライアントによってアップロードされたマルチメディアデータに対してデータ処理を実行するプロセスは、次のステップを含み得る。
マルチメディアデータの取得:
サーバは、要求を開始することにより、処理されるマルチメディアデータを取得し、ここで、サーバによって開始された要求は、マルチメディアデータ(MP4ファイルなど)のURLリンク、vendeeID 、teacherID、シミュレート授業ID、マルチメディアデータ構造(即ち、シミュレート授業過程に従って分割された当該マルチメディアデータの各部分、及び各部分の開始タイムスタンプと終了タイムスタンプ)、ビデオ検出フレームレートを含み得る。本発明の適用例において、マルチメディアデータがビデオデータを含む場合、当該ビデオの解像度は、例えば、640p、720p又は1080pなどの複数のフォーマットを含み得、マルチメディアデータがオーディオデータを含む場合、当該オーディオデータは、例えば、8000Hz又は16000Hzなどの複数のオーディオサンプリングレートを含み得る。さらに、教師がクライアントを介してシミュレート授業のライブブロードキャストを行う場合、サーバは、マルチメディアデータ(即ち、ビデオ及びオーディオデータ)をリアルタイムで取得することもできる。
マルチメディアデータの前処理(例えば、ビデオのトランスコーディングやオーディオのトランスコーディングなど):
サーバは、取得したマルチメディアデータからビデオストリーム及びオーディオストリームを分離し、ビデオ検出、音声認識又は音声評価でサポートできるフォーマットにそれぞれトランスコードすることができる。例えば、分離されたオーディオストリームをpcm(非圧縮のpcmファイル又はwavファイル)又は16bitのサンプリングビットのモノラルフォーマットにトランスコードすることができる。
ビデオ検出:
本発明の適用例において、human action SDKの顔検出モデル、顔跟踪モデル、顔属性モデル及びジェスチャ検出モデル、並びにinsight SDKの人体検出モデル及び挙手検出モデルを呼び出すことにより、ビデオデータに対して多次元検出を実行することができる。本発明の適用例において、多次元におけるビデオデータに対する検出は、ジェスチャ検出、気分検出及びアイコンタクト検出などを含み得る。
ここで、ジェスチャ検出は、教師シミュレート授業のインタラクションの度合いを反映することができる。ジェスチャ検出は、手を支える(生徒に質問に答えるように求めることを示す)、手を上げる(生徒が質問に答えようとすることを提示する)及び親指を上げる(いいねを表す)というジェスチャの3つのジェスチャをサポートする検出であり得、検出方式は、ジェスチャ検出機能を備えたニューラルネットワークを使用して検出する方式であり得、これにより、各ジェスチャの回数及び各ジェスチャ検出のタイムスタンプを出力することができる。ジェスチャ検出の具体的な実施形態は、上記の各実施例を参照することができ、ジェスチャ検出次元における中間検出結果を取得するルールは、上記の実施例における表1及び表2を参照することができ、ここでは繰り返して説明しない。
気分検出は、教師シミュレート授業の親和性を反映することができ、それは、表情検出及び笑顔検出含み得る。ここで、表情検出は、表情検出機能を備えたニューラルネットワークによって検出することができ、単一フレーム検出結果に基づき、気分検出周期(暫定的に分に設定される)に従って表情検出結果を出力することができる。例示的なルールにおいて、気分検出周期内に検出された回数が最も多い表情を当該気分検出周期の表情検出結果として使用することができる。
同様に、笑顔検出は、単一フレームの検出結果に基づき、気分検出周期(暫定的に分に設定される)に従って笑顔検出結果を出力することができる。例示的なルールにおいて、気分検出周期内のすべての単一フレームの笑顔検出結果の平均値を当該気分検出周期の笑顔検出結果として使用することができる。
表情検出及び笑顔検出の具体的な実施形態は、上記の各実施例を参照することができ、気分検出次元における中間検出結果を取得するルールは、上記の実施例における表3~表5を参照することができ、ここでは繰り返して説明しない。
アイコンタクト検出は、教師がシミュレート授業中に学生とアイコンタクトする程度を反映することができ、これは、顔角度検出(headposeの方向)及び閉眼検出を含み得る。ここで、アイコンタクト検出をアイコンタクトイベントとして定義し、顔角度検出を視聴イベントとして定義し、閉眼検出を閉眼イベントとして定義でき、この場合、アイコンタクトイベントは、視聴イベントと非閉眼イベントの共通部分であり得る。本発明の適用例において、アイコンタクトイベントの開始時間を、視聴イベントの時間範囲内にあり且つ閉眼イベントの時間範囲内にない初期時間に設定し、アイコンタクトイベントの終了時間を視聴イベントの終了時間又は閉眼イベントの開始時間に設定することができる。
顔角度検出及び閉眼検出の具体的な実施形態は、上記の各実施例を参照することができ、アイコンタクト検出次元における中間検出結果を取得するルールは、上記の実施例における表6~表8を参照することができ、ここでは繰り返して説明しない。
オーディオ認識:
本発明の適用例において、音声認識に関する認識モデルを呼び出して、オーディオデータをそれに入力して、音声認識結果をリアルタイムで取得することができる。音声認識結果は、オーディオデータ内の文、文中の単語、及び各文と各単語の開始タイムスタンプと時間長を含む。
オーディオ検出:
本発明の適用例において、音声認識結果の各文の開始タイムスタンプ及び時間長に基づいて、オーディオデータをセグメント化し、当該文のオーディオの検出結果(流暢さ、発話速度、中断及び音量を含む)を取得することができる。
オーディオ認識及びオーディオ検出を介して、教師のシミュレート授業の過程において、流暢さ、発話速度及び音量などの次元における中間検出結果を反映することができる。本発明の適用例において、オーディオ検出は、英語以外の科目のシミュレート授業評価のための中国語の音声認識をサポートすることができ、又は英語科目のシミュレート授業評価のための中国語と英語の混合読みの音声認識をサポートすることができる。
ここで、オーディオ認識は、音声認識に関連するニューラルネットワークモデルを呼び出すことにより、認識結果をリアルタイムで返すことができ、認識結果は、文及び文内の単語に分けられ、オーディオ検出により、音声認識によって返された文を検出することにより、上記の各次元における検出結果を取得することができ、さらに、段落に対するオーディオ検出を追加することもできる。
目標検出結果の生成:
目標検出結果は、全体的な目標検出結果及び細分化された目標検出結果を含み得、ここで、全体的な目標検出結果は、インタラクション、流暢さ、発話速度及び音量を含み得、ここで、インタラクションは更に、ジェスチャインタラクション、気分インタラクション及びアイコンタクトインタラクションに分けることができる。図3は、本発明の一適用例に係る目標検出結果の概略図を示し、図3から分かるように、全体的な目標検出結果は、各次元の中間検出結果に基づいて計算された全体的な評点、及び各次元の中間検出結果の評点を含み得る。図3は、目標検出結果を示す例示的な概略図に過ぎず、実際の応用では、実際のニーズに応じて、任意の形で目標検出結果を視覚的に表示することができることに留意されたい。
細分化された目標検出結果は、音声認識基づいて出力された各文の検出結果であってもよく、一例において、細分化された目標検出結果は、文ID、文のコンテキスト、文の開始タイムスタンプ、文の時間長、文の流暢さ、文の発話速度、文の音量、文のジェスチャ(複数のジェスチャをサポートする)、文の表情及び文の笑顔値などを含み得る。
本発明の適用例で言及されたシステムは、教師シミュレート授業分析だけでなく、他の関連分野、例えば、教師の正式な教育分析、又は教師候補者の試験講義評価などにも適用することができる。
本発明で言及される上述の各方法の実施例は、原理および論理に違反することなく、互いに組み合わせて、組み合わせされた実施例を生成することができ、紙数に限りがあるので、本発明ではそれ以上説明しないことを理解されたい。
当業者なら自明であるが、上記の具体的な実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定する厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックに従って決定すべきである。
本発明の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を更に提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の方法を実現する。コンピュータ可読記憶媒体は、揮発性コンピュータ可読記憶媒体または不揮発性コンピュータ可読記憶媒体であってもよい。
本発明の実施例は、電子機器をさらに提供し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、上記の方法を実行するように構成される。
本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の方法を実行させる。
実際の適用では、上記のメモリは、RAMなどの揮発性メモリ(volatile memory)、ROM、フラッシュメモリ(flash memory)、ハードディスク(HDD:Hard Disk Drive)またはソリッドステートハードディスク(SSD:Solid-State Drive)などの不揮発性メモリ(non-volatile memory)、または上記のメモリの組み合わせであり得、プロセッサに命令やデータを提供する。
上記のプロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであり得る。異なる機器の場合、上記のプロセッサ機能を実装するための電子素子は他のものであり得ることを理解することができるが、本発明の実施例はこれらに対して特に限定しない。
電子機器は、端末、サーバまたは他の形の機器として提供できる。
上記の実施例と同じ技術構想に基づき、本発明の実施例は、コンピュータプログラムを更に提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の方法を実現する。
図4は、本発明の実施例に係る電子機器800のブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
図4を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つまたは複数のコンポーネントを備えることができる。
処理コンポーネント802は、一般的に、電子機器800のの全体的な動作、例えば、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する動作を制御する。処理コンポーネント802は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための1つまたは複数のプロセッサ820を備えることができる。加えて、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントの間のインタラクションを容易にするための1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。
メモリ804は、電子機器800での操作をサポートするための様々なタイプのデータを格納するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
電力コンポーネント806は、電子機器800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つまたは複数の電源、及び電子機器800のための電力の生成、管理および配分に関する他のコンポーネントを備えることができる。
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを備える。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラおよび/またはリアカメラを備える。電子機器800が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイクロフォン(MIC)を備え、電子機器800が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804にさらに記憶されてもよく、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント810は、さらに、オーディオ信号を出力するためのスピーカを備える。
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。
センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つまたは複数のセンサを備える。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態と、電子機器800のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント814はまた、電子機器800または電子機器800のコンポーネントの位置の変化、ユーザとの電子機器800の接触の有無、電子機器800の向きまたは加速/減速、及び電子機器800の温度の変化も検出することができる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント814はまた、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサをさらに備えることができる。いくつかの実施例において、当該センサコンポーネント814は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを備えることができる。
通信コンポーネント816は、電子機器800と他の装置の間の有線または無線通信を容易にするように構成される。電子機器800は、WiFi,2G、3G、4Gまたは5G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント816は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて具現することができる。
例示的な実施例において、電子機器800は、上記の方法を実行するように構成される、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができる。
例示的な実施例において、コンピュータプログラム命令を含むメモリ804などの、コンピュータ可読記憶媒体をさらに提供し、上述のコンピュータプログラム命令が電子機器800のプロセッサ820によって実行されることにより、上記の方法を完了することができる。
図5は、本発明の実施例に係る電子機器1900のブロック図である。例えば、電子機器1900は、サーバとして提供されることができる。図5を参照すると、電子機器1900は、1つまたは複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令(アプリケーションなど)を記憶するように構成されるメモリリソースとして表されるメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションは、それぞれが一セットの命令に対応する1つまたは複数のモジュールを備えることができる。さらに、処理コンポーネント1922は、命令を実行することにより、上記の方法を実行するように構成される。
電子機器1900は、さらに、電子装置1900の電源管理を実行するように構成される電力コンポーネント1926と、電子装置1900をネットワークに接続するように構成される有線または無線ネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958と、を備えることができる。電子機器1900は、メモリ1932に記憶されたオペレーティングシステム、例えば、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMまたは類似したもの介して操作できる。
例示的な実施例において、コンピュータプログラム命令を含むメモリ1932などの、不揮発性コンピュータ可読記憶媒体をさらに提供し、電子機器1900の処理コンポーネント1922によって上述のコンピュータプログラム命令を実行することにより、上記の方法を完了することができる。
本発明は、システム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに本発明の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器または前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的リスト)は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピー(登録商標)ディスク、命令が記憶されたパンチカードまたは溝内の凸状構造、および前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波(光ファイバーケーブルを介した光パルスなど)、またはワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバなどを含み得る。各コンピューティング/処理機器におけるネットワークアダプターカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング/処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。
本発明の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または以1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたは目標コードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく完全にリモートコンピュータまたはサーバで実行されてもよいリモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、または、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる)。いくつかの実施例において、コンピュータ可読命令の状態情報を使用して、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブルロジックアレイ(PLA)などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行することにより、本発明の各態様を実現することができる。
ここで、本発明の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロックを参照して、本発明の実施例の各態様について説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャートおよび/またはブロック図における1つのまたは複数のブロックで指定された機能/動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置および/または他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作の各態様の命令を含む、製品を含むことができる。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置または他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、または他の機器で実行される命令により、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作を実現することができる。
添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメントまたは命令の一部を表すことができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、2つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行するハードウェアに基づく専用システムによって実現することができ、または専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。
以上、本発明の各実施例を説明したが、以上の説明は、例示的なものであり、網羅的ではなく、開示された各実施例に限定されない。説明された各実施例の範囲および精神から逸脱することなく、多くの修正および変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場における技術への技術的改善を好適に説明するためのものであるか、当業者に本明細書で開示された各実施例を理解させるためのものである。
本発明の一態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記のデータ処理方法を実行させる。
例えば、本願は以下の項目を提供する。
(項目1)
データ処理方法であって、
目標対象のマルチメディアデータを取得することと、
前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、前記少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することと、
前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することであって、前記目標検出結果は、前記目標対象の行動状態を示すために使用されることと、を含むことを特徴とする、前記データ処理方法。
(項目2)
前記マルチメディアデータはビデオデータを含み、
前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することは、
前記ビデオデータ内の目標対象を決定し、前記目標対象に対してジェスチャ、気分及びアイコンタクトのうちの少なくとも1つの検出次元における行動状態検出を実行して、前記少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することを含むことを特徴とする、
項目1に記載のデータ処理方法。
(項目3)
前記少なくとも1つの検出次元は、ジェスチャ検出次元を含み、
前記ビデオデータに基づき、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得し、前記ジェスチャ検出周期のジェスチャ検出結果を取得し、前記目標ジェスチャは、手を支える、手を上げる及び親指を上げるというジェスチャのうちの1つ又は複数を含み、少なくとも1つの前記ジェスチャ検出周期の前記ジェスチャ検出結果に従って、ジェスチャ検出次元における前記目標対象の中間検出結果を取得することにより、前記ジェスチャ検出次元における前記目標対象の中間検出結果を取得することを特徴とする、
項目2に記載のデータ処理方法。
(項目4)
前記ビデオデータに基づき、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得することは、
前記ジェスチャ検出周期における前記ビデオデータの少なくとも1つのジェスチャ検出フレームシーケンスを取得することと、
前記ジェスチャ検出フレームシーケンスにおいて、前記目標ジェスチャを含むフレームの数が第1閾値を超える場合、前記ジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ開始フレームとして記録することと、
前記ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンスにおいて、前記目標ジェスチャを含まないフレームの数が第2閾値を超える場合、前記ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ終了フレームとして記録することと、
前記ジェスチャ開始フレーム及び前記ジェスチャ終了フレームの数に従って、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得することと、を含むことを特徴とする、
項目3に記載のデータ処理方法。
(項目5)
前記少なくとも1つの検出次元は、気分検出次元を含み、
前記ビデオデータに従って、気分検出周期における前記目標対象の表情検出結果及び/又は笑顔検出結果を取得し、前記表情検出結果は、前記目標対象の表情に基づいて決定された気分結果を含み、前記笑顔検出結果は、前記目標対象の笑顔強度を含み、少なくとも1つの前記気分検出周期における前記目標対象の表情検出結果及び/又は笑顔検出結果に従って、気分検出次元における前記目標対象の中間検出結果を取得することにより、前記気分検出次元における目標対象の中間検出結果を取得することを特徴とする、
項目2ないし4のいずれか一項に記載のデータ処理方法。
(項目6)
前記ビデオデータに従って、気分検出周期における前記目標対象の表情検出結果を取得することは、
前記気分検出周期において、前記目標対象に対して表情検出を実行して、前記目標対象が少なくとも1つの目標表情を表示する回数を決定し、前記表情検出結果を取得することを含み、前記目標表情は、嬉しい、穏やか及びその他の表情のうちの1つ又は複数を含むことを特徴とする、
項目5に記載のデータ処理方法。
(項目7)
前記ビデオデータに従って、気分検出周期における前記目標対象の笑顔検出結果を取得することは、
前記気分検出周期において、前記ビデオデータの少なくとも1つのフレームに基づき、前記目標対象に対して笑顔検出を実行して、少なくとも1つのフレームに対応する笑顔検出結果を取得し、前記少なくとも1つのフレームに対応する笑顔検出結果に従って、前記気分検出周期における前記目標対象の笑顔検出結果を決定することを含むことを特徴とする、
項目5又は6に記載のデータ処理方法。
(項目8)
前記少なくとも1つの検出次元は、アイコンタクト検出次元を含み、
前記ビデオデータに基づき、前記目標対象に対して顔角度検出を実行して、前記目標対象の顔角度が顔角度閾値内にある時間を顔角度検出結果として決定し、
前記ビデオデータに従って、前記目標対象に対して閉眼検出を実行して、前記目標対象が閉眼動作を実行する時間を閉眼検出結果として決定し、
前記顔角度検出結果及び前記閉眼検出結果に従って、前記目標対象の顔角度が顔角度閾値内にあり、且つ閉眼動作を実行しない時間長を決定し、
前記時間長に従って、前記アイコンタクト検出次元における前記目標対象の中間検出結果を取得することにより、前記アイコンタクト検出次元における前記目標対象の中間検出結果を取得することを特徴とする、
項目3ないし7のいずれか一項に記載のデータ処理方法。
(項目9)
前記マルチメディアデータはオーディオデータを含み、
前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することは、
文に従って前記オーディオデータをセグメント化して、少なくとも1つのオーディオサブデータを取得し、前記少なくとも1つのオーディオサブデータに対して流暢さ、発話速度、中断及び音量のうちの少なくとも1つの検出次元における行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することを含むことを特徴とする、
項目2ないし8のいずれか一項に記載のデータ処理方法。
(項目10)
前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することは、
前記検出次元のプリセットされた重みに基づき、少なくとも1つの検出次元の前記中間検出結果を併合して、前記目標対象の目標検出結果を取得することを含むことを特徴とする、
項目1ないし9のいずれか一項に記載のデータ処理方法。
(項目11)
前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することは、
前記オーディオデータ内の前記オーディオサブデータの時間に従って、前記マルチメディアデータに含まれるビデオデータから、前記オーディオサブデータに対応するビデオサブデータを決定することと、
プリセットされた重みに基づき、少なくとも1つの検出次元における前記オーディオサブデータの中間検出結果及び少なくとも1つの検出次元における対応する前記ビデオサブデータの中間検出結果を併合して、少なくとも1つの前記オーディオサブデータ又は前記ビデオサブデータの目標検出結果を取得することと、
少なくとも1つの前記オーディオサブデータ又は前記ビデオサブデータの目標検出結果を併合して、前記目標対象の目標検出結果を取得することと、を含むことを特徴とする、
項目9に記載のデータ処理方法。
(項目12)
前記マルチメディアデータは、前記目標対象がプリセットされたコンテキストデータに従って教育操作を実行することによって取得されたものであり、ここで、前記プリセットされたコンテキストデータは少なくとも1つの命令マークを含み、前記命令マークは、前記プリセットされたコンテキストデータのコンテンツの少なくとも一部を分割及び/又は注釈するために使用されることを特徴とする、
項目1ないし11のいずれか一項に記載のデータ処理方法。
(項目13)
データ処理装置であって、
目標対象のマルチメディアデータを取得するように構成される取得モジュールと、
前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得するように構成される検出モジュールと、
前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得するように構成される処理モジュールであって、前記目標検出結果は、前記目標対象の行動状態を示すために使用される、処理モジュールと、を備えることを特徴とする、前記データ処理装置。
(項目14)
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を呼び出して実行することにより、項目1ないし12のいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
(項目15)
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されるときに、項目1ないし12のいずれか一項に記載の方法を実現することを特徴とする、前記コンピュータ可読記憶媒体。
(項目16)
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、項目1ないし12のいずれか一項に記載の方法を実行させることを特徴とする、前記コンピュータプログラム。

Claims (16)

  1. データ処理方法であって、
    目標対象のマルチメディアデータを取得することと、
    前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、前記少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することと、
    前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することであって、前記目標検出結果は、前記目標対象の行動状態を示すために使用されることと、を含むことを特徴とする、前記データ処理方法。
  2. 前記マルチメディアデータはビデオデータを含み、
    前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することは、
    前記ビデオデータ内の目標対象を決定し、前記目標対象に対してジェスチャ、気分及びアイコンタクトのうちの少なくとも1つの検出次元における行動状態検出を実行して、前記少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することを含むことを特徴とする、
    請求項1に記載のデータ処理方法。
  3. 前記少なくとも1つの検出次元は、ジェスチャ検出次元を含み、
    前記ビデオデータに基づき、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得し、前記ジェスチャ検出周期のジェスチャ検出結果を取得し、前記目標ジェスチャは、手を支える、手を上げる及び親指を上げるというジェスチャのうちの1つ又は複数を含み、少なくとも1つの前記ジェスチャ検出周期の前記ジェスチャ検出結果に従って、ジェスチャ検出次元における前記目標対象の中間検出結果を取得することにより、前記ジェスチャ検出次元における前記目標対象の中間検出結果を取得することを特徴とする、
    請求項2に記載のデータ処理方法。
  4. 前記ビデオデータに基づき、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得することは、
    前記ジェスチャ検出周期における前記ビデオデータの少なくとも1つのジェスチャ検出フレームシーケンスを取得することと、
    前記ジェスチャ検出フレームシーケンスにおいて、前記目標ジェスチャを含むフレームの数が第1閾値を超える場合、前記ジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ開始フレームとして記録することと、
    前記ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンスにおいて、前記目標ジェスチャを含まないフレームの数が第2閾値を超える場合、前記ジェスチャ開始フレームの後にあるジェスチャ検出フレームシーケンス内の少なくとも1つのフレームをジェスチャ終了フレームとして記録することと、
    前記ジェスチャ開始フレーム及び前記ジェスチャ終了フレームの数に従って、前記目標対象がチェスチャ検出周期内で少なくとも1つの目標ジェスチャを実行する回数を取得することと、を含むことを特徴とする、
    請求項3に記載のデータ処理方法。
  5. 前記少なくとも1つの検出次元は、気分検出次元を含み、
    前記ビデオデータに従って、気分検出周期における前記目標対象の表情検出結果及び/又は笑顔検出結果を取得し、前記表情検出結果は、前記目標対象の表情に基づいて決定された気分結果を含み、前記笑顔検出結果は、前記目標対象の笑顔強度を含み、少なくとも1つの前記気分検出周期における前記目標対象の表情検出結果及び/又は笑顔検出結果に従って、気分検出次元における前記目標対象の中間検出結果を取得することにより、前記気分検出次元における目標対象の中間検出結果を取得することを特徴とする、
    請求項2ないし4のいずれか一項に記載のデータ処理方法。
  6. 前記ビデオデータに従って、気分検出周期における前記目標対象の表情検出結果を取得することは、
    前記気分検出周期において、前記目標対象に対して表情検出を実行して、前記目標対象が少なくとも1つの目標表情を表示する回数を決定し、前記表情検出結果を取得することを含み、前記目標表情は、嬉しい、穏やか及びその他の表情のうちの1つ又は複数を含むことを特徴とする、
    請求項5に記載のデータ処理方法。
  7. 前記ビデオデータに従って、気分検出周期における前記目標対象の笑顔検出結果を取得することは、
    前記気分検出周期において、前記ビデオデータの少なくとも1つのフレームに基づき、前記目標対象に対して笑顔検出を実行して、少なくとも1つのフレームに対応する笑顔検出結果を取得し、前記少なくとも1つのフレームに対応する笑顔検出結果に従って、前記気分検出周期における前記目標対象の笑顔検出結果を決定することを含むことを特徴とする、
    請求項5又は6に記載のデータ処理方法。
  8. 前記少なくとも1つの検出次元は、アイコンタクト検出次元を含み、
    前記ビデオデータに基づき、前記目標対象に対して顔角度検出を実行して、前記目標対象の顔角度が顔角度閾値内にある時間を顔角度検出結果として決定し、
    前記ビデオデータに従って、前記目標対象に対して閉眼検出を実行して、前記目標対象が閉眼動作を実行する時間を閉眼検出結果として決定し、
    前記顔角度検出結果及び前記閉眼検出結果に従って、前記目標対象の顔角度が顔角度閾値内にあり、且つ閉眼動作を実行しない時間長を決定し、
    前記時間長に従って、前記アイコンタクト検出次元における前記目標対象の中間検出結果を取得することにより、前記アイコンタクト検出次元における前記目標対象の中間検出結果を取得することを特徴とする、
    請求項3ないし7のいずれか一項に記載のデータ処理方法。
  9. 前記マルチメディアデータはオーディオデータを含み、
    前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することは、
    文に従って前記オーディオデータをセグメント化して、少なくとも1つのオーディオサブデータを取得し、前記少なくとも1つのオーディオサブデータに対して流暢さ、発話速度、中断及び音量のうちの少なくとも1つの検出次元における行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得することを含むことを特徴とする、
    請求項2ないし8のいずれか一項に記載のデータ処理方法。
  10. 前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することは、
    前記検出次元のプリセットされた重みに基づき、少なくとも1つの検出次元の前記中間検出結果を併合して、前記目標対象の目標検出結果を取得することを含むことを特徴とする、
    請求項1ないし9のいずれか一項に記載のデータ処理方法。
  11. 前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得することは、
    前記オーディオデータ内の前記オーディオサブデータの時間に従って、前記マルチメディアデータに含まれるビデオデータから、前記オーディオサブデータに対応するビデオサブデータを決定することと、
    プリセットされた重みに基づき、少なくとも1つの検出次元における前記オーディオサブデータの中間検出結果及び少なくとも1つの検出次元における対応する前記ビデオサブデータの中間検出結果を併合して、少なくとも1つの前記オーディオサブデータ又は前記ビデオサブデータの目標検出結果を取得することと、
    少なくとも1つの前記オーディオサブデータ又は前記ビデオサブデータの目標検出結果を併合して、前記目標対象の目標検出結果を取得することと、を含むことを特徴とする、
    請求項9に記載のデータ処理方法。
  12. 前記マルチメディアデータは、前記目標対象がプリセットされたコンテキストデータに従って教育操作を実行することによって取得されたものであり、ここで、前記プリセットされたコンテキストデータは少なくとも1つの命令マークを含み、前記命令マークは、前記プリセットされたコンテキストデータのコンテンツの少なくとも一部を分割及び/又は注釈するために使用されることを特徴とする、
    請求項1ないし11のいずれか一項に記載のデータ処理方法。
  13. データ処理装置であって、
    目標対象のマルチメディアデータを取得するように構成される取得モジュールと、
    前記マルチメディアデータに基づき、少なくとも1つの検出次元で前記目標対象に対して行動状態検出を実行して、少なくとも1つの検出次元における前記目標対象の中間検出結果を取得するように構成される検出モジュールと、
    前記少なくとも1つの検出次元における中間検出結果を処理して、前記目標対象の目標検出結果を取得するように構成される処理モジュールであって、前記目標検出結果は、前記目標対象の行動状態を示すために使用される、処理モジュールと、を備えることを特徴とする、前記データ処理装置。
  14. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出して実行することにより、請求項1ないし12のいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
  15. コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし12のいずれか一項に記載の方法を実現することを特徴とする、前記コンピュータ可読記憶媒体。
  16. コンピュータ可読コードを含むコンピュータプログラムであって、
    前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1ないし12のいずれか一項に記載の方法を実行させることを特徴とする、前記コンピュータプログラム。
JP2021544171A 2020-04-26 2020-12-18 データ処理方法及び装置、電子機器並びに記憶媒体 Pending JP2022534345A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010339381.1 2020-04-26
CN202010339381.1A CN111539339A (zh) 2020-04-26 2020-04-26 数据处理方法及装置、电子设备和存储介质
PCT/CN2020/137678 WO2021218194A1 (zh) 2020-04-26 2020-12-18 数据处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022534345A true JP2022534345A (ja) 2022-07-29

Family

ID=71967577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021544171A Pending JP2022534345A (ja) 2020-04-26 2020-12-18 データ処理方法及び装置、電子機器並びに記憶媒体

Country Status (6)

Country Link
JP (1) JP2022534345A (ja)
KR (1) KR20210134614A (ja)
CN (1) CN111539339A (ja)
SG (1) SG11202109528SA (ja)
TW (1) TW202141240A (ja)
WO (1) WO2021218194A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539339A (zh) * 2020-04-26 2020-08-14 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN112883782B (zh) * 2021-01-12 2023-03-24 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN115953715B (zh) * 2022-12-22 2024-04-19 北京字跳网络技术有限公司 一种视频检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523502A (zh) * 2011-12-15 2012-06-27 四川长虹电器股份有限公司 智能电视交互系统及交互方法
CN110598632A (zh) * 2019-09-12 2019-12-20 深圳市商汤科技有限公司 目标对象的监测方法及装置、电子设备和存储介质
CN111046819A (zh) * 2019-12-18 2020-04-21 浙江大华技术股份有限公司 一种行为识别处理方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7512537B2 (en) * 2005-03-22 2009-03-31 Microsoft Corporation NLP tool to dynamically create movies/animated scenes
KR101731461B1 (ko) * 2015-12-09 2017-05-11 고려대학교 산학협력단 객체에 대한 행동 탐지 장치 및 이를 이용한 행동 탐지 방법
US20180218308A1 (en) * 2017-01-31 2018-08-02 International Business Machines Corporation Modeling employee productivity based on speech and ambient noise monitoring
CN109766770A (zh) * 2018-12-18 2019-05-17 深圳壹账通智能科技有限公司 服务质量评价方法、装置、计算机设备和存储介质
CN110378228A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 面审视频数据处理方法、装置、计算机设备和存储介质
CN110443487A (zh) * 2019-07-31 2019-11-12 浙江工商职业技术学院 一种教学评价方法及设备
CN110968239B (zh) * 2019-11-28 2022-04-05 北京市商汤科技开发有限公司 一种展示对象的控制方法、装置、设备及存储介质
CN111539339A (zh) * 2020-04-26 2020-08-14 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523502A (zh) * 2011-12-15 2012-06-27 四川长虹电器股份有限公司 智能电视交互系统及交互方法
CN110598632A (zh) * 2019-09-12 2019-12-20 深圳市商汤科技有限公司 目标对象的监测方法及装置、电子设备和存储介质
CN111046819A (zh) * 2019-12-18 2020-04-21 浙江大华技术股份有限公司 一种行为识别处理方法及装置

Also Published As

Publication number Publication date
KR20210134614A (ko) 2021-11-10
SG11202109528SA (en) 2021-12-30
WO2021218194A1 (zh) 2021-11-04
CN111539339A (zh) 2020-08-14
TW202141240A (zh) 2021-11-01

Similar Documents

Publication Publication Date Title
CN112287844B (zh) 学情分析方法及装置、电子设备和存储介质
US10580317B2 (en) Conditional provisioning of auxiliary information with a media presentation
WO2021232775A1 (zh) 视频处理方法及装置、电子设备和存储介质
US10614298B2 (en) Generating auxiliary information for a media presentation
JP2022534345A (ja) データ処理方法及び装置、電子機器並びに記憶媒体
US10715713B2 (en) Interactive application adapted for use by multiple users via a distributed computer-based system
CN109191940B (zh) 一种基于智能设备的交互方法及智能设备
CN108875785B (zh) 基于行为特征对比的关注度检测方法以及装置
WO2022089192A1 (zh) 一种互动处理方法、装置、电子设备和存储介质
CN109191939B (zh) 一种基于智能设备的三维投影交互方法及智能设备
EP3828868A2 (en) Method and apparatus for determining key learning content, device, storage medium, and computer program product
CN116018789A (zh) 在线学习中用于对学生注意力进行基于上下文的评估的方法、系统和介质
EP4075411A1 (en) Device and method for providing interactive audience simulation
Ochoa Multimodal systems for automated oral presentation feedback: A comparative analysis
CN113391745A (zh) 网络课程的重点内容处理方法、装置、设备及存储介质
CN113705653A (zh) 模型生成方法及装置、电子设备和存储介质
Mennig et al. Supporting rapid product changes through emotional tracking
WO2023279699A1 (zh) 实验生成方法及装置、电子设备、存储介质和程序
Rea et al. Word2Mouth-An eLearning platform catered for low-income countries
CN115052194B (zh) 学习报告生成方法、装置、电子设备及存储介质
CN111144255B (zh) 一种教师的非语言行为的分析方法及装置
Pardon An Extensible Presentation Framework for Real-time Data Acquisition, Interaction and Augmented Reality Visualisations
CN112966674A (zh) 题目讲解方法、装置和电子设备
Foster et al. Metadata for the masses: Implications on the pervasive easy availability of metadata in text, video, photography and objects

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220905

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230331