JP2022537475A

JP2022537475A - ビデオ処理方法及び装置、電子デバイスと記憶媒体

Info

Publication number: JP2022537475A
Application number: JP2021538705A
Authority: JP
Inventors: ホーランスン; レイワン; ドンフォンバイ; ジエンミンシア; ジュンツァオ
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2020-05-22
Filing date: 2020-12-18
Publication date: 2022-08-26
Also published as: CN111553323A; TW202145131A; WO2021232775A1; KR20210144658A

Abstract

本開示は、ビデオ処理方法及び装置、電子デバイスと記憶媒体に関する。前記方法は、ビデオを取得することであって、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むことと、前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも１種類の学習行動を検出することと、前記ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、前記少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又は前記ターゲットオブジェクトが前記少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することと、を含む。【選択図】図１

Description

（関連出願への相互参照）
本開示は、２０２０年５月２２日に中国特許庁に提出された、出願番号が２０２０１０４４２７３３．６であり、出願名称が「ビデオ処理方法及び装置、電子デバイスと記憶媒体」である中国特許出願に基づいて優先権を主張し、その全ての内容が参照により本開示に組み込まれる。

本開示は、コンピュータ視覚分野に関し、特にビデオ処理方法及び装置、電子デバイスと記憶媒体に関する。

ティーチングプロセスでは、教師が授業のために精力を集中する必要があるため、機関又は教師は、学生の受講状態を把握することが困難であり、親も学校での学生の表現を理解することができない。学生が本当に授業を受けているか否か及び真剣に受講しているか否か、教室内のインタラクティブ表現が如何であるかは、すべて定量的に評価できない。

したがって、どのようにティーチング品質を保証するとともに、ティーチングプロセスでの各学生の学習状態を把握するかは、現在の解決すべき問題となっている。

本開示は、ビデオ処理のソリューションを提供する。

本開示の一態様によるビデオ処理方法は、
ビデオを取得することであって、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むことと、前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも１種類の学習行動を検出することと、前記ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、前記少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又は前記ターゲットオブジェクトが前記少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することと、を含む。

本開示の一態様によるビデオ処理装置は、
ビデオを取得するように構成され、ここで、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むビデオ取得モジュールと、
前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも１種類の学習行動を検出するように構成される検出モジュールと、
前記ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、前記少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又は前記ターゲットオブジェクトが前記少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュールと、を備える。

本開示の一態様による電子デバイスは、
プロセッサと、プロセッサが実行可能な命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、上記のビデオ処理方法を実行するように構成される。

本開示の一態様によるコンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラム命令がプロセッサによって実行されると、上記のビデオ処理方法が実現される。

本開示の一態様によるコンピュータプログラムは、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子デバイスで実行される場合、前記電子デバイスにおけるプロセッサが上記のビデオ処理方法を実現するように実行する。

本開示の実施例では、ターゲットオブジェクトの少なくとも１種類の学習行動が検出された場合、学習行動を含むビデオフレームを用いて直感的な学習状態情報を生成し、また、学習行動の持続時間に基づいて、定量的な学習状態情報を生成することができ、上記の方式により、評価値付きの学習状態情報を柔軟に得ることができ、教師又は親などの関係者や機関が学生の学習状態を効果的かつ正確に把握することに便利である。

以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本開示を制限するものではないことを理解すべきである。以下の図面に基づく例示的な実施例への詳細な説明によれば、本開示の他の特徴及び態様は明らかになる。

本開示の一実施例によるビデオ処理方法を示すフローチャートである。本開示の一実施例によるビデオ処理装置を示すブロック図である。本開示による一適用例を示す概略図である。本開示の実施例による電子デバイスを示すブロック図である。本開示の実施例による電子デバイスを示すブロック図である。

ここでの添付図面は本明細書に組み込まれて本明細書の一部を構成し、これらの図面は、本開示と一致する実施例を示し、明細書と共に本開示の技術案を説明することに用いられる。

以下に図面を参照しながら本開示の各種の例示的な実施例、特徴と態様を詳しく説明する。図面における同じ符号は、機能が同じ又は類似する素子を表す。図面に実施例の様々な態様が示されているが、特に指摘しない限り、図面は一定の比例で描かれる必要はないここで用語「例示的」は、「例、実施例又は説明のために使用する」という意味である。ここで「例示的」として説明されるいかなる実施例は、他の実施例よりも好ましく又は有利なものと解釈される必要はない。

本明細書では「及び／又は」という用語は、関連付けられたオブジェクトの関連関係を説明するためのものだけであり、３種類の関係が存在できることを示し、例えば、Ａ及び／又はＢは、Ａが単独で存在すること、Ａ及びＢが同時に存在すること、Ｂが単独で存在することの３つの状況を示すことができる。また、本明細書では「少なくとも１種類」という用語は、複数種類のうちのいずれか１種類又は複数種類のうちの少なくとも２種類の任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種類を含むことは、Ａ、ＢとＣからなるセットから選択された任意の１つ又は複数の要素を含むことを示すことができる。

また、本開示をより良く説明するために、以下の具体的な実施形態において多くの詳細が示されている。当業者は、いくつかの詳細がなくても、本開示が同様に実施できることを理解すべきである。一部の実施例では、本開示の要旨を明らかにするように、当業者がよく知っている方法、手段、素子と回路を詳細に説明しない。

図１は本開示の一実施例によるビデオ処理方法を示すフローチャートである。当該方法は、ビデオ処理装置に適用することができ、ビデオ処理装置は、端末デバイス、サーバー又は他の処理デバイスなどであってもよい。ここで、端末デバイスは、ユーザデバイス（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、移動デバイス、ユーザ端末、端末、セルラー電話、コードレス電話、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティングデバイス、車載デバイス、ウェアラブルデバイスなどであってもよい。一例では、当該データ処理方法は、クラウドサーバー又はローカルサーバーに適用でき、クラウドサーバーは、パブリッククラウドサーバーであってもよいし、プライベートクラウドサーバーであってもよく、実際の状況に応じて柔軟に選択さればいい。

一部の可能な実現方式では、当該ビデオ処理方法は、プロセッサがメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことで実現されてもよい。

図１に示すように、１つの可能な実現方式では、前記ビデオ処理方法は、以下のステップを含む。

ステップＳ１１において、ビデオを取得し、ここで、ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含む。

ステップＳ１２において、ビデオに基づいて、ティーチングコースを視聴しているプロセスにおけるターゲットオブジェクトの少なくとも１種類の学習行動を検出する。

ステップＳ１３において、ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又はターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成する。

ここで、ターゲットオブジェクトは、学習状態情報が取得される任意のオブジェクト、即ち学習状態評価が要求されるオブジェクトであってもよく、その具体的な実現形態は、実際の状況に応じて柔軟に確定されてもよい。１つの可能な実現方式では、ターゲットオブジェクトは、学生、例えば小学生、中学生又は大学生などであってもよく、１つの可能な実現方式では、ターゲットオブジェクトは、職業教育及びトレーニングに参加する成人、又は高齢大学で学ぶ高齢者など研修している成人であってもよい。

本開示の実施例では、ビデオは、ターゲットオブジェクトがティーチングコースを視聴するプロセスで録画したビデオであってもよく、ここで、ティーチングコースの実現形態は限定されず、予め録画されたコースビデオであってもよいし、ライブコースであってもよく、又は教師がその場で授業するコースなどであってもよく、ビデオ内の少なくとも一部のビデオフレームは、ターゲットオブジェクトを含むことができ、即ち録画されたビデオ内のターゲットオブジェクトの出現状況は実際の状況に応じて柔軟に決定されてもよい。１つの可能な実現方式では、ターゲットオブジェクトは、常にビデオ内にいることができ、１つの可能な実現方式では、ターゲットオブジェクトは、ある時点又はある期間においてビデオフレーム内に現れないことなどもできる。

ターゲットオブジェクトがティーチングコースを視聴するというシーンは、実際の状況に応じて柔軟に決定されてもよく、１つの可能な実現方式では、このシーンは、オンラインシーンであってもよく、即ちターゲットオブジェクトは、ネットワーク教室などのオンライン教育方式でティーチングコースを視聴することなどがあり、１つの可能な実現方式では、このシーンは、オフラインシーンであってもよく、即ちターゲットオブジェクトは、教師がその場で教えているティーチングコースを伝統的な面対面授業方式で視聴し、又はターゲットオブジェクトは、教室などの特定の教学場所で、ビデオ又は他のマルチメディア形態で再生されたティーチングコースを視聴することなどがある。

ビデオの具体的な実現形態は、ビデオ処理方法の適用シーンに応じて柔軟に決定されてもよい。１つの可能な実現方式では、ビデオは、ターゲットオブジェクトがオンライン教室で学習するプロセスでリアルタイムに録画したビデオ、又はターゲットオブジェクトが教室で授業を受けるプロセスで、教室に配置されたカメラで収集したリアルタイムなビデオなどのリアルタイムなビデオであってもよく、１つの可能な実現方式では、ビデオは、ターゲットオブジェクトがオンライン教室で学習した後に録画した、ターゲットオブジェクトが学習する再生ビデオ、又はターゲットオブジェクトが教室で授業を受けた後に、教室に配置されたカメラで収集した完全な教室学習ビデオなどの録画ビデオであってもよい。

説明を容易にするために、後続の各々の開示される実施例は、ビデオが、ターゲットオブジェクトがオンライン教室で学習するプロセスでリアルタイムに録画したビデオであることを例として、ビデオ処理プロセスを説明する。他の応用シーンにおけるビデオ処理プロセスについて、後続の各々の開示される実施例を参照して柔軟に拡張することができ、ここでは説明を省略する。

ステップＳ１１で上記の各々の実施例に記載されたビデオを取得した後、ステップＳ１１２で、ティーチングコースを視聴するプロセスでのターゲットオブジェクトの少なくとも１種類の学習行動を検出することができる。ここで、検出された学習行動の種類及び数は、実際の状況に応じて柔軟に決定されてもよく、下記の各々の開示される実施例に限定されない。１つの可能な実現方式では、ターゲットオブジェクトが実行する学習行動は、少なくとも１種類のターゲットジェスチャーを実行すること、ターゲット情緒を表現すること、ティーチングコースの展示領域に注目すること、他のオブジェクトとの少なくとも１種類のインタラクション行動を生成すること、ビデオ内の少なくとも一部のビデオフレームに現れないこと、目を閉じること、及びティーチングコースの展示領域でのアイコンタクトのうちの少なくとも１種類を含むことができる。

ここで、ターゲットジェスチャーは、ターゲットオブジェクトがティーチングコースを視聴しているプロセスにおいて発生する可能性のあるいくつかの予め設定されたジェスチャーを反映するものであってもよく、その具体的な実現形態は、実際の状況に応じて柔軟に設定されてもよく、詳細は、後文に開示される各実施例を参照するので、ここでは詳しく説明しない。

ターゲット情緒は、ターゲットオブジェクトがティーチングコースを視聴するプロセスでティーチングコースに対する実感を反映するいくつかの情緒であってもよく、その具体的な実現形態は、同様に実際の状況に応じて柔軟に設定されてもよく、ここでは詳しく説明しない。

ティーチングコースの展示領域に注目することは、ティーチングコースを視聴するプロセスでのターゲットオブジェクトの注目度を体現することができ、ここで、展示領域の具体的な領域範囲は、実際の状況に応じて柔軟に設定されてもよく、下記の各々の開示される実施例に限定されない。１つの可能な実現方式では、展示領域は、オンライン教室でのティーチングコースビデオの展示領域であってもよく、例えば、学生がコンピュータ、携帯電話又はタブレットなどの端末デバイスでオンラインで学習するプロセスにおいて、展示領域は、これらの端末デバイスのティーチングコースを再生するスクリーンなどであってもよく、１つの可能な実現方式では、展示領域は、オフライン教室での教師の授業領域、例えば教室内の教壇又は黒板などの位置であってもよい。

他のオブジェクトとの少なくとも１種類のインタラクション行動は、ターゲットオブジェクトがティーチングコースを視聴するプロセスでのティーチングコースにおける関連する他のオブジェクトとの学習に関連するインタラクションであってもよく、ここで、他のオブジェクトの実現形態は、実際の状況に応じて柔軟に決定されてもよく、１つの可能な実現形態では、他のオブジェクトは、授業オブジェクト、例えば教師などであってもよく、１つの可能な実現形態では、他のオブジェクトは、ティーチングプロセスでのターゲットオブジェクト以外の学習オブジェクト、例えばターゲットオブジェクトの同学などであってもよく、他のオブジェクトとのインタラクション行動は、オブジェクトによって柔軟に変化することができ、１つの可能な実現方式では、他のオブジェクトが授業教師である場合、他のオブジェクトとのインタラクションは、教師が与える小さな赤い花を受け取ったり、名前で褒めたりするなどの教師が与える奨励を受け取ることを含むことができ、１つの可能な実現方式では、他のオブジェクトが授業教師である場合、他のオブジェクトとのインタラクションは、教師の質問に答えたり、教師の点呼に合わせて発言したりすることなどを含むことができ、１つの可能な実現方式では、他のオブジェクトが同学である場合、他のオブジェクトとのインタラクションは、グループ協力、グループ検討又はグループ学習などを含むことができる。

ビデオ内の少なくとも一部のビデオフレームに現れないことは、学習オブジェクトがある時点又はある期間においてティーチングコースを離れることなどであってもよく、例えば、ターゲットオブジェクトがオンラインで学習するプロセスでは、個人的な理由で現在のオンライン学習デバイスを離れたり、現在のオンライン学習デバイスの撮影範囲を離れたりすることなどがある。

目を閉じることは、ターゲットオブジェクトがティーチングコースを視聴するプロセスで目を閉じる操作であってもよく、ティーチングコースの展示領域でのアイコンタクトは、ティーチングコースの展示領域を見ることであってもよく、それに応じて、ビデオ内の、ティーチングコースの展示領域でのターゲットオブジェクトのアイコンタクトの状況に応じて、ターゲットオブジェクトがティーチングコースの展示領域を見ていないことなどをさらに確定することもできる。

上記の開示された実施例に記載された様々な学習行動により、ターゲットオブジェクトの学習プロセスに対して全面的かつ柔軟な行動検出を行うことができ、それによって、検出により得られる学習状態情報の全面性と正確性を向上させ、ターゲットオブジェクトの学習状態をより柔軟かつ正確に把握する。

具体的には、ステップＳ１２で上記の開示された実施例における様々な学習行動に対してどの種類又はどのいくつかの種類の検出を実行するかは、実際の状況に応じて柔軟に設定されてもよい。１つの可能な実現方式では、上記の開示された実施例に記載された各種類の学習行動を同時に検出することができ、具体的な検出方式及びプロセスについては下記に開示される各実施例を詳細に参照することができ、ここでは詳しく説明しない。

ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又はターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することができる。ここで、学習状態情報の具体的な実現形態は、学習行動の種類、及びそれに対応して実行される操作に応じて柔軟に決定されてもよい。１つの可能な実現方式では、少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレームに基づいて学習状態情報を生成する場合、学習状態情報は、ビデオフレームからなる情報を含むことができ、１つの可能な実現方式では、ターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づく場合、学習状態情報は、デジタル形態のデータ情報であってもよく、１つの可能な実現方式では、学習状態情報は、ビデオフレーム情報とデータ情報の２つの形態の情報を同時に含むことができ、１つの可能な実現方式では、学習状態情報は、他の状態の情報などを含むこともできる。具体的には、どのように学習状態情報を生成するか、及び学習状態情報の実現形態については、後文に開示される各実施例を参照することができ、ここでは詳しく説明しない。

本開示の実施例では、ターゲットオブジェクトの少なくとも１種類の学習行動が検出された場合、学習行動を含むビデオフレームを用いて直感的な学習状態情報を生成し、及び学習行動の持続時間に基づいて、定量的な学習状態情報を生成することができ、上記の方式により、評価値付きの学習状態情報を柔軟に得ることができ、教師又は親などの関係者や機関が学生の学習状態を効果的かつ正確に把握することに便利である。

上記の開示された実施例に記載されるように、ビデオは、ターゲットオブジェクトがティーチングコースを視聴しているプロセスに録画したビデオであり、ターゲットオブジェクトがティーチングコースを視聴するシーンは、実際の状況に応じて柔軟に決定されてもよく、したがって、それに応じて、ステップＳ１１におけるビデオを取得する方式はシーンによって柔軟に変化することができる。１つの可能な実現方式では、ターゲットオブジェクトがティーチングコースを視聴するシーンはオンラインシーンである場合、即ちターゲットオブジェクトがオンライン教室によってティーチングコースを視聴することができる場合、ビデオを取得する方式は、ビデオ処理装置とターゲットオブジェクトがオンライン学習を行うデバイスが同じ装置である場合に、ターゲットオブジェクトがオンライン学習を行うデバイスによって、ターゲットオブジェクトがティーチングコースを視聴しているプロセスに対してビデオ収集を行うこと、ビデオ処理装置とターゲットオブジェクトがオンライン学習を行うデバイスが異なる装置である場合に、ターゲットオブジェクトがオンライン学習を行うデバイスによって、ターゲットオブジェクトがティーチングコースを視聴しているプロセスに対してビデオ収集を行い、リアルタイム及び／又は非リアルタイムでビデオ処理装置に伝送すること、を含むことができる。１つの可能な実現方式では、ターゲットオブジェクトがティーチングコースを視聴するシーンがオフラインシーンである場合、即ちターゲットオブジェクトが面対面授業に参加する場合又は特定のティーチングシーンでティーチングコースを視聴するなどの場合、ビデオを取得する方式は、オフラインで配置された画像収集デバイス（例えば一般的なカメラ、セキュリティニーズに応じて配置された撮影デバイスなど）によってターゲットオブジェクトのビデオを収集することを含むことができる。さらに、オフラインで配置された画像収集デバイスがビデオ処理を行い、即ちビデオ処理装置として用いられる可能な場合、ステップＳ１１でのビデオを取得するプロセスは既に完了され、オフラインで配置された画像収集デバイスがビデオ処理を行う可能でない場合、オフラインで配置された画像収集デバイスで収集されたビデオをビデオ処理装置にリアルタイム及び／又は非リアルタイムで伝送することができる。

上記の開示された各実施例に記載されるように、ステップＳ１２でターゲットオブジェクトに対して学習行動の検出を行う方式は、実際の状況に応じて柔軟に決定されてもよい。１つの可能な実現方式では、ステップＳ１２は、以下のステップを含むことができる。

ステップＳ１２１において、ビデオに対してターゲットオブジェクトの検出を行い、ターゲットオブジェクトを含むビデオフレームを得る。

ステップＳ１２２において、ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行う。

上記の開示された実施例から、１つの可能な実現方式において、ビデオに対してターゲットオブジェクトの検出を行うことで、ビデオのうちのターゲットオブジェクトを含むビデオフレームを確定することができることがわかる。どのビデオフレームにターゲットオブジェクトが含まれるかを確定した後、ターゲットオブジェクトを含むビデオフレーム内のターゲットオブジェクトに対して、少なくとも１種類の学習行動の検出を行うことができる。

ここで、ターゲットオブジェクトの検出方式は、実際の状況に応じて柔軟に決定されてもよく、下記の実施例に限定されない。１つの可能な実現方式では、顔検出又は顔追跡などの方式により、ビデオ内のターゲットオブジェクトを検出することができる。１つの可能な実現方式では、顔検出又は顔追跡などの方式によりビデオフレームを検出した後、複数のオブジェクトが検出される可能性があり、この場合、検出した顔画像をさらにスクリーニングし、１つ又は複数のオブジェクトをターゲットオブジェクトとして選定することができ、具体的なスクリーニング方式は、実際の状況に応じて柔軟に設定されてもよく、本開示の実施例で限定されない。

１つの可能な実現方式では、ターゲットオブジェクトを含むビデオフレームが得られた後、ステップＳ１２２により、ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うことができる。ステップＳ１２２の実現方式は、学習行動によって柔軟に変化することができ、詳細は、以下に開示される各実施例を参照するので、ここでは詳しく説明しない。ターゲットオブジェクトの複数種類の学習行動を検出する必要がある場合、複数種類の方式を同時に用いて組み合わせて、複数種類の学習行動の検出を実現することができる。

１つの可能な実現方式では、ビデオに対してターゲットオブジェクトの検出を行った後、ティーチングコースを視聴しているプロセスにおけるターゲットオブジェクトの学習行動への検出を完了させることができる。即ち、ビデオに対してターゲットオブジェクトの検出を行うことにより、上記の開示された実施例に記載されたビデオ内の少なくとも一部のビデオフレーム内に現れないという学習行動を確定することができる。さらに、ターゲットオブジェクトが検出されていないビデオフレームによって学習状態情報を得て、又はターゲットオブジェクトが検出されていないビデオフレームによって、ターゲットオブジェクトがビデオ内の少なくとも一部のビデオフレームに現れない時間を学習状態情報として統計する。

本開示の実施例では、ビデオに対してターゲットオブジェクトの検出を行うことにより、ターゲットオブジェクトを含むビデオフレームを得て、また、ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行い、上記のプロセスを通じて、ビデオに対するターゲットオブジェクトの検出により、ターゲットオブジェクトの少なくとも１種類の学習行動をより意図的に検出することができ、それによって、学習行動の検出がより正確になり、後続の得られた学習状態情報の正確性と信頼性がさらに向上させる。

上記に開示された各実施例に記載されるように、ステップＳ１２２の実現方式は、学習行動によって柔軟に変化することができる。１つの可能な実現方式では、学習行動は、少なくとも１種類のターゲットジェスチャーを実行することを含むことができる。

この場合、ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うことは、
ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類のターゲットジェスチャーの検出を行うことと、
少なくとも１種類のターゲットジェスチャーを含む、連続するビデオフレームの数が第１閾値を超えることを検出した場合、ターゲットジェスチャーを含むビデオフレーム内の少なくとも１フレームをジェスチャー開始フレームとして記録することと、
ジェスチャー開始フレームの後のビデオフレームのうち、ターゲットジェスチャーがない連続するビデオフレームの数が第２閾値を超える場合、ターゲットジェスチャーがないビデオフレームのうちの少なくとも１フレームをジェスチャー終了フレームとして記録することと、
ジェスチャー開始フレームとジェスチャー終了フレームの数に基づいて、ビデオ内の前記ターゲットオブジェクトが少なくとも１種類のターゲットジェスチャーを実行する回数及び／又は時間を確定することと、を含むことができる。

上記の開示された実施例から、学習行動が少なくとも１種類のターゲットジェスチャーを実行することを含む場合、ターゲットオブジェクトのビデオフレームに対して行われる学習行動の検出は、ターゲットジェスチャーの検出を含むことができることがわかる。

ここで、ターゲットジェスチャーが具体的にどのジェスチャーを含むかは、実際の状況に応じて柔軟に設定されてもよく、下記の開示された実施例に限定されない。例示的に、ターゲットジェスチャーは、挙手ジェスチャー、賞讃ジェスチャー、ＯＫジェスチャー及び勝利ジェスチャーの１種類又は複数種類を含む。

１つの可能な実現方式では、ターゲットジェスチャーは、ティーチングコースを視聴するプロセスで、ターゲットオブジェクトが受講状況に応じて反映した、学習に関連するジェスチャー、例えば質問に答えるための挙手ジェスチャー、授業内容又は授業教師に対する賞讃を表すための賞讃ジェスチャー（親指を立てるなど）、授業内容に対する理解又は賛同を表すためのＯＫジェスチャー及び授業教師とのインタラクションを行うための勝利ジェスチャー（例えばＹｅａｈジェスチャーなど）などを含むことができる。

具体的には、ターゲットオブジェクトを含むビデオフレームに対する少なくとも１種類のターゲットジェスチャーの検出方式は、実際の状況に応じて柔軟に決定されてもよく、下記の実施例に限定されない。１つの可能な実現方式では、ジェスチャー識別の関連アルゴリズムにより、ターゲットジェスチャーの検出を実現することができ、例えば、ビデオフレームにおけるターゲットオブジェクトの手部のキーポイント又は手部検出ブロックに対応する画像領域を識別することができ、手部のキーポイント又は手部検出ブロックに対応する画像領域に基づいてジェスチャー検出を行い、ジェスチャー検出結果に基づいてターゲットオブジェクトがターゲットジェスチャーを実行しているか否かを確定する。１つの可能な実現方式では、ジェスチャー検出機能を備えたニューラルネットワークによりターゲットジェスチャーの検出を実現することができる。ジェスチャー検出機能を備えたニューラルネットワークの具体的な構造及び実現方式は、実際の状況に応じて柔軟に設定されてもよく、ターゲットジェスチャーが複数種類のジェスチャーを含む場合、１つの可能な実現方式では、ターゲットオブジェクトを含むビデオフレームを、複数のジェスチャーを同時に検出できるニューラルネットワークに入力して、ターゲットジェスチャーの検出を実現することができ、１つの可能な実現方式では、ターゲットオブジェクトを含むビデオフレームを、単一のジェスチャー検出機能を備えた複数のニューラルネットワークにそれぞれ入力して、複数のターゲットジェスチャーの検出を実現することもできる。

上記に開示された任意の実施例によるターゲットジェスチャー検出プロセスでは、少なくとも１種類のターゲットジェスチャーを含む、連続するビデオフレームの数が第１閾値を超えることを検出した場合、ターゲットジェスチャーを含む、これらの連続するビデオフレームから、少なくとも１フレームをタジェスチャー開始フレームとして選定することができる。ここで、第１閾値の数は、実際の状況に応じて柔軟に設定されてもよく、異なるターゲットジェスチャーに対応する第１閾値の数は、同じであってもよいし、異なってもよく、例えば、挙手ジェスチャーに対応する第１閾値は、６に設定されてもよく、賞讃ジェスチャーに対応する第１閾値は、７に設定されてもよく、挙手ジェスチャーを含む、連続するビデオフレームの数が６以上であることを検出した場合、挙手ジェスチャーを含むビデオフレームから、少なくとも１フレームを挙手ジェスチャーのジェスチャー開始フレームとして選定することができ、賞讃ジェスチャーの連続するビデオフレームの数が７以上であることを検出した場合、賞讃ジェスチャーを含むビデオフレームから少なくとも１フレームを賞讃ジェスチャーのジェスチャー開始フレームとして選定することができる。１つの可能な実現方式では、ターゲットジェスチャーの検出を容易にするために、異なるターゲットジェスチャーに対応する第１閾値は、同じ値に設定されてもよく、一例では、第１閾値の数は、６に設定されてもよい。

ジェスチャー開始フレームの選定方式は、同様に実際の状況に応じて柔軟に設定されてもよく、１つの可能な実現方式では、検出された、ターゲットジェスチャーを含む、連続するビデオフレーム内の第１フレームを当該ターゲットジェスチャーのジェスチャー開始フレームとして用いることができ、１つの可能な実現方式では、ジェスチャー検出の誤差を減らすために、検出された、ターゲットジェスチャーを含む、連続するビデオフレーム内の第１フレームの後のあるフレームを当該ターゲットジェスチャーのジェスチャー開始フレームとして用いることもできる。

ジェスチャー開始フレームが確定された後、ジェスチャー開始フレームの後のビデオフレームからジェスチャー終了フレームを確定し、即ちジェスチャー開始フレーム内のターゲットジェスチャーの終了時間を確定することができる。具体的な確定方式は、実際の状況に応じて柔軟に選択されてもよく、下記の開示された実施例に限定されない。１つの可能な実現方式では、ジェスチャー開始フレームを検出した後のビデオフレームのうち、ジェスチャー開始フレーム内のターゲットジェスチャーがない連続するビデオフレームの数が第２閾値を超えることを検出した場合、ターゲットジェスチャーがない連続するビデオフレームのうちの少なくとも１フレームをジェスチャー終了フレームとして記録することができる。ここで、第２閾値の値は、同様に実際の状況に応じて柔軟に設定されてもよく、異なるターゲットジェスチャーに対応する第２閾値の値は、同じでも異なってもよく、具体的な設定方式については第１閾値を参照することができ、ここでは説明を省略する。一例では、異なるターゲットジェスチャーに対応する第２閾値の値は、同じであってもよく、例えば１０に設定されてもよく、即ちジェスチャー開始フレームの後に、連続する１０フレームにジェスチャー開始フレーム内のターゲットジェスチャーが含まれないことを検出した場合、ターゲットオブジェクトがターゲットジェスチャーの実行を終了すると考えられてもよい。この場合、ターゲットジェスチャーがない連続するビデオフレームから、少なくとも１フレームをジェスチャー終了フレームとして選択することができ、選定方式については同様にジェスチャー開始フレームを参照することができ、一例では、ターゲットジェスチャーがない連続するビデオフレーム内の最後のフレームをジェスチャー終了フレームとして用いることができ、一例では、ターゲットジェスチャーがない連続するビデオフレームのうちの最後のフレームよりも前のあるフレームをジェスチャー終了フレームとして用いることもできる。１つの可能な実現方式では、ジェスチャー開始フレームを検出した後に、ターゲットオブジェクトがないあるフレーム又はいくつかのフレームのビデオフレームが存在すると、ターゲットオブジェクトがないあるフレーム又はいくつかのビデオフレームをジェスチャー終了フレームとして用いることができる。

ジェスチャー開始フレームとジェスチャー終了フレームが確定された後、ビデオフレームに含まれるジェスチャー開始フレームとジェスチャー終了フレームの数に基づいて、ターゲットオブジェクトがあるターゲットジェスチャー又はいくつかのターゲットジェスチャーを実行する回数を確定することができ、さらに、あるターゲットジェスチャー又はいくつかのターゲットジェスチャーを実行する持続時間などを確定することもできる。具体的にどのようなターゲットジェスチャーに関連する内容を確定するかは、ステップＳ１３での学習状態情報のニーズに応じて柔軟に決定されてもよく、詳細は、後続に開示される各実施例を参照するので、ここでは詳しく説明しない。

ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類のターゲットジェスチャーの検出を行い、検出状況に応じてジェスチャー開始フレームとジェスチャー終了フレームを確定することにより、ビデオ内のターゲットオブジェクトが少なくとも１種類のターゲットジェスチャーを実行する回数及び／又は時間をさらに確定し、上記のプロセスにより、ビデオ内のターゲットオブジェクトが学習状態に応じてフィードバックしたジェスチャーに対して全面的かつ正確な検出を行うことができ、これにより、後続の得られる学習状態情報の全面性と精度が向上し、さらにターゲットオブジェクトの学習状態を正確に把握することができる。

１つの可能な実現方式では、学習行動は、ターゲット情緒を表現することを含むことができる。

この場合、ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うことは、
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び／又は微笑値検出を行うことと、
ビデオフレーム内のターゲットオブジェクトが少なくとも１種類の第１ターゲット表情を示すこと又は微笑値の検出結果がターゲット微笑値を超えることを検出した場合、検出されたビデオフレームを第１検出フレームとして用いることと、
連続する第１検出フレームの数が第３閾値を超えることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定することと、を含むことができる。

ここで、ターゲット情緒は、実際のニーズに応じて設定された任意の情緒であってもよく、例えば、ターゲットオブジェクトが学習に専心していることを示す愉快情緒、又はターゲットオブジェクトの学習状態が悪いことを示す退屈情緒などであってもよい。下記に開示される各実施例は、ターゲット情緒が愉快情緒であることを例として説明し、ターゲット情緒が他の情緒である場合については後続の各々の開示される実施例を参照して対応する拡張を行うことができる。

上記の開示された実施例から、学習行動がターゲット情緒を表現することを含む場合、表情検出及び／又は微笑値検出により、ターゲットオブジェクトの学習行動の検出を実現することができることが分かる。１つの可能な実現方式では、表情検出又は微笑値検出のみにより、ターゲット情緒を表現するという学習行動の検出を実現することができ、１つの可能な実現方式では、表情検出と微笑値検出により、ターゲットオブジェクトがターゲット情緒を表現するか否かを共同で確定することができる。後続の各々の開示される実施例は、表情検出と微笑値検出により、ターゲットオブジェクトがターゲット情緒を表現するか否かを共同で確定することを、例として説明し、その他の実現方式について、後続に開示される各実施例を参照して対応する拡張を行うことができ、ここでは説明を省略する。

ここで、表情検出は、ターゲットオブジェクトによって示される表情に対する検出を含むことができ、例えば、ターゲットオブジェクトがどの表情を示すかを検出することができ、具体的な表情の区分は、実際の状況に応じて柔軟に設定されてもよく、１つの可能な実現方式では、表情を、愉快、落ち着き及びその他などに分けることができ、微笑値検出は、ターゲットオブジェクトの微笑の強さの検出を含むことができ、例えば、ターゲットオブジェクトの微笑幅を検出することができ、微笑値の検出結果は、値でフィードバックされてもよく、例えば、微笑値の検出結果は、［０，１００］の間に設定されてもよく、値が大きいほど、ターゲットオブジェクトの微笑強度又は微笑幅が大きくなることを示すことなどがある。具体的な表情検出と微笑値検出の方式は、実際の状況に応じて柔軟に決定されてもよく、ターゲットオブジェクトの表情又は微笑程度を検出できるいかなる方式は、対応する検出方式として用いられてもよく、下記の各々の開示される実施例に限定されない。１つの可能な実現方式では、表情識別ニューラルネットワークによってターゲットオブジェクトの表情検出を実現することができ、１つの可能な実現方式では、微笑値検出ニューラルネットワークによってターゲットオブジェクトの微笑値検出を実現することができる。具体的には、表情識別ニューラルネットワークと微笑値検出ニューラルネットワークの構造及び実現方式は、本開示の実施例で限定されなく、いかなる訓練により表情識別機能を実現するニューラルネットワーク及び訓練により微笑値検出機能を実現するニューラルネットワークの両方は、本開示の実施例に適用することができる。１つの可能な実現方式では、ビデオ内のターゲットオブジェクトの顔のキーポイント及び口部のキーポイントを検出することにより、表情検出と微笑値検出をそれぞれ実現することがもできる。

具体的には、表情検出と微笑値検出がどの検出結果を達成した場合、ターゲットオブジェクトがターゲット情緒を生み出すことを確定するかについては、その実現方式は、実際の状況に応じて柔軟に設定されてもよい。１つの可能な実現方式では、ビデオフレーム内のターゲットオブジェクトが少なくとも１種類の第１ターゲット表情を示すことが検出されたと考えてもよく、又は、微笑値の検出結果がターゲット微笑値を超える場合、当該ビデオフレーム内のターゲットオブジェクトがターゲット情緒を示すと考えてもよく、この場合、当該ビデオフレームを第１検出フレームとして用いることができる。ここで、第１ターゲット表情の具体的な表情種類は、実際の状況に応じ柔軟に決定されてもよく、下記の開示された実施例に限定されない。１つの可能な実現方式では、愉快を第１ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの表情が愉快であるビデオフレームのすべてを第１検出フレームとして用いることができる。１つの可能な実現方式では、愉快と落ち着きの両方を第１ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの表情の愉快又は落ち着きのビデオフレームの両方を第１検出フレームとして用いることができる。同様に、ターゲット微笑値の具体的な値も実際の状況に応じて柔軟に設定されてもよく、ここで具体的に限定されない。したがって、１つの可能な実現方式では、微笑値の検出結果がターゲット微笑値を超えるビデオフレームを、第１検出フレームとして用いることもできる。

１つの可能な実現方式では、あるビデオフレームが第１検出フレームであることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定する。１つの可能な実現方式では、検出の正確性を向上させ、検出誤差の学習行動の検出結果への影響を低減するために、連続する第１検出フレームの数が第３閾値を超えることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定することができる。ここで、連続するビデオフレーム内の各フレームが第１検出フレームであるビデオフレームシーケンスを、連続する第１検出フレームとして用いることができる。第３閾値の数は、実際の状況に応じて柔軟に設定されてもよく、その値は、第１閾値又は第２閾値と同じであっても異なってもよく、一例では、第３閾値の数は６であってもよく、即ち連続する６フレームがすべて第１検出フレームであることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したと考えてもよい。

さらに、ターゲットオブジェクトがターゲット情緒を生み出したことを確定した後、連続する第１検出フレームから１フレームをターゲット情緒開始フレームとして選定し、次にターゲット情緒開始フレームの後に、連続する１０フレームにおいて、ターゲットオブジェクトの表情が第１ターゲット表情であることが検出されない場合、又は連続する１０フレームにおいてターゲットオブジェクトの微笑値検出結果が第３閾値を超えない場合、又はあるフレーム又はいくつかのフレームにおいてターゲットオブジェクトが検出されない場合、ターゲット情緒終了フレームをさらに確定し、次にターゲット情緒開始フレーム又はターゲット情緒終了フレームに基づいて、ターゲットオブジェクトがターゲット情緒を生み出す回数及び／又は時間などを確定することができ、具体的なプロセスにつてはターゲットジェスチャーの対応するプロセスを参照することができ、ここでは説明を省略する。

ターゲットオブジェクトを含むビデオフレームに対して表情検出及び／又は微笑値検出を行い、表情検出及び微笑値検出の結果に基づいて、第１検出フレームを確定することにより、連続する第１検出フレームの数が第３閾値を超えることが検出された場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定し、上記のプロセスにより、ターゲットオブジェクトの表情及び微笑程度に基づいて、学習プロセスでのターゲットオブジェクトの情緒を柔軟に確定することができ、これにより、学習プロセスでのターゲットオブジェクトの情緒状態をより全面的及び正確に感知し、より正確な学習状態情報を生成することができる。

１つの可能な実現方式では、学習行動は、ティーチングコースの展示領域に注目することを含むことができ、
この場合、ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動を検出することは、
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行うことと、
ビデオフレーム内のターゲットオブジェクトが少なくとも１種類の第２ターゲット表情を示しかつ顔角度がターゲット顔角度範囲内にあることを検出した場合、検出されたビデオフレームを第２検出フレームとして用いることと、
連続する第２検出フレームの数が第４閾値を超えることが検出された場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定することと、を含むことができる。

ここで、ティーチングコースの展示領域の実現形態については上記の各々の開示される実施例を参照することができ、ここでは説明を省略する。

上記の開示された実施例から、学習行動がティーチングコースの展示領域に注目することを含む場合、表情検出及び／又は顔角度検出により、ターゲットオブジェクトの学習行動検出を実現することができることが分かる。１つの可能な実現方式では、顔角度検出だけで、ティーチングコースの展示領域に注目するという学習行動の検出を実現することもできる。後続の各々の開示される実施例は、表情検出と顔角度検出により、ターゲットオブジェクトがティーチングコースの展示領域に注目するか否かを確定することを例として説明するが、その他の実現方式については、後続の各々の開示される実施例を参照して対応する拡張を行うことができ、ここでは説明を省略する。

ここで、表情検出の実現方式については上記の各々の開示される実施例を参照することができ、ここでは説明を省略する。顔角度検出は、顔の向き角度などに対する検出であってもよい。具体的な顔角度検出方式は、実際の状況に応じて柔軟に決定されてもよく、ターゲットオブジェクトの顔角度を検出できるいかなる方式は、顔角度検出の検出方式として用いられてもよく、下記の各々の開示される実施例に限定されない。１つの可能な実現方式では、顔角度検出ニューラルネットワークにより、ターゲットオブジェクトの顔角度検出を実現することができる。具体的には、顔角度検出ニューラルネットワークの構造及び実現方式は、本開示の実施例で限定されなく、訓練により顔角度検出機能を実現するいかなるニューラルネットワークは本開示の実施例に適用することができる。１つの可能な実現方式では、ビデオ内のターゲットオブジェクトの顔のキーポイントを検出することにより、ターゲットオブジェクトの顔角度を確定することもできる。顔角度検出により検出できる顔の角度の形式も実際の状況に応じて柔軟に決定されてもよく、１つの可能な実現方式では、ターゲットオブジェクトの顔のヨー角とピッチ角を検出することにより、ターゲットオブジェクトの顔角度を確定することができる。

具体的には、表情検出と顔角度検出がどの検出結果を達成した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目することを確定するかについては、その実現方式は、実際の状況に応じて柔軟に設定されてもよい。１つの可能な実現方式では、ビデオフレーム内のターゲットオブジェクトが少なくとも１種類の第２ターゲット表情を示すことが検出されたと考えてもよく、かつ検出された顔角度がターゲット顔角度範囲内にある場合、当該ビデオフレーム内のターゲットオブジェクトがティーチングコースの展示領域に注目すると考え、この場合、当該ビデオフレームを第２検出フレームとして用いることができる。ここで、第２ターゲット表情の具体的な表情種類は、実際の状況に応じ柔軟に決定されてもよく、上記の開示された実施例に記載される第１ターゲット表情と同じであってもよいし、上記の開示された実施例に記載された第１ターゲット表情と異なってもよく、下記の開示された実施例に限定されない。１つの可能な実現方式では、落ち着きを第２ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの表情が落ち着きでありかつ顔角度がターゲット顔角度範囲にあるビデオフレームを第２検出フレームとして用いることができる。１つの可能な実現方式では、他の表情のすべてを第２ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの顔角度がターゲット顔角度範囲にあり、かつ表情が「他」ではないビデオフレームのすべてを第２検出フレームとして用いることができる。同様に、ターゲット顔角度範囲の具体的な範囲値も実際の状況に応じて柔軟に設定されてもよく、ここで具体的に限定されない。１つの可能な実現方式では、当該ターゲット顔角度範囲は、静的であってもよく、一例では、教師が授業中に移動する可能性のある全体的な位置（例えばオフラインシーンにおける教師がいる教壇領域など）をターゲット顔角度範囲として用いることができ、一例では、ターゲットオブジェクトがティーチングコースを視聴するプロセスで注目する可能のある固定領域（例えばオンラインシーンにおけるターゲットオブジェクトが注目するスクリーンなど）をターゲット顔角度範囲として用いることができる。１つの可能な実現方式では、当該ターゲット顔角度範囲も動的であってもよく、一例では、教師が授業中に移動する現在の位置に基づいてターゲット顔角度範囲を柔軟に確定することができ、即ち教師の移動に伴い、ターゲット顔角度範囲の値を動的に変更することができる。

１つの可能な実現方式では、あるビデオフレームが第２検出フレームであることを検出した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定することができる。１つの可能な実現方式では、検出の正確性を向上させ、検出誤差の学習行動の検出結果への影響を低減するために、連続する第２検出フレームの数が第４閾値を超えることを検出した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定することができる。ここで、連続するビデオフレーム内の各フレームが第２検出フレームであるビデオフレームシーケンスを、連続する第２検出フレームとして用いることができる。第４閾値の数は、実際の状況に応じて柔軟に設定されてもよく、その値は、第１閾値、第２閾値又は第３閾値と同じであってもよいし、異なってもよく、一例では、第４閾値の数は６であってもよく、即ち連続する６フレームがすべて第２検出フレームであることが検出された場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していると考えることができる。

さらに、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定した後、連続する第２検出フレームから１フレームを注目開始フレームとして選定し、次に注目開始フレームの後に、連続する１０フレームにおいてターゲットオブジェクトの表情が第２ターゲット表情であることが検出されない場合、又は連続する１０フレームにおいてターゲットオブジェクトの顔角度がターゲット顔角度範囲内にあっていない場合、又はあるフレーム又はいくつかのフレームにおいてターゲットオブジェクトが検出されない場合、注目終了フレームをさらに確定し、次に注目開始フレーム又は注目終了フレームに基づいて、ターゲットオブジェクトがティーチングコースの展示領域に注目している回数及び及び／又は時間などを確定することができ、具体的なプロセスにつては、ターゲットジェスチャー及びターゲット情緒の対応するプロセスを参照することができ、ここでは説明を省略する。

ターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行い、表情検出及び顔角度検出の結果に基づいて、第２検出フレームを確定することにより、連続する第２検出フレームの数が第４閾値を超えることが検出された場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定し、上記のプロセスにより、ターゲットオブジェクトの表情及び顔角度に基づいて、ターゲットオブジェクトがティーチングコースの展示領域に注目しているか否かを柔軟に確定することができ、これにより、学習プロセスでのターゲットオブジェクトの精力集中状況をより全面的及び正確に感知し、より正確な学習状態情報を生成することができる。

１つの可能な実現方式では、学習行動は、他のオブジェクトとの少なくとも１種類のインタラクション行動を実行することをさらに含むことができる。インタラクション行動の実現方式については、上記の各々の開示される実施例を参照することができ、ここでは説明を省略する。この場合、ターゲットオブジェクトを含むビデオフレームに対するインタラクション行動の検出方式は、実際の状況に応じて柔軟に決定されてもよく、１つの可能な実現方式では、インタラクション行動がオンラインインタラクション行動である場合、例えば、教師がオンライン教室で与えた小さな赤い花を受け取った場合、又はオンライン教室での教師の点呼に合わせて発言する場合、インタラクション行動の検出方式は、他のオブジェクトから転送された信号に基づいて、ターゲットオブジェクトがインタラクション行動を実行するか否かを直接確定することであってもよい。１つの可能な実現方式では、インタラクション行動がオフラインインタラクション行動である場合、例えば、ターゲットオブジェクトが教師によって点呼されて発言する場合、ターゲットオブジェクトがインタラクション行動を実行するか否かを検出する方式は、ターゲットオブジェクトのターゲット行動を識別することにより、ターゲットオブジェクトがインタラクション行動を実行するか否かを確定することを含むことができ、ここで、ターゲット行動は、インタラクション行動の実際の状況に応じて柔軟に設定されてもよく、例えば、ターゲット行動は、立ち上がって発言すること、又は顔が他のオブジェクトに向けかつ発言時間が一定の時間値を超えることなどを含むことができる。

１つの可能な実現方式では、学習行動は、ビデオ内の少なくとも一部のビデオフレームに現れないことをさらに含むことができ、この場合、ステップＳ１２は、
ビデオに対してターゲットオブジェクトの検出を行い、ターゲットオブジェクトを含むビデオフレームを得て、ビデオのうちのターゲットオブジェクトを含むビデオフレーム以外のビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用いることと
ターゲットオブジェクトが検出されないビデオフレームの数が予め設定されたビデオフレームの数を超える場合、学習行動がビデオ内の少なくとも一部のビデオフレームに現れないとの行動を含むことを検出することとを含むことができる。

ここで、ビデオに対するターゲットオブジェクトの検出方式については、上記に開示された各実施例を詳細に参照するが、ここでは説明を省略する。１つの可能な実現方式では、ビデオ内の各ビデオフレームには、ターゲットオブジェクトを含むビデオフレームに加えて、ターゲットオブジェクトがないビデオフレームも存在する可能性があり、したがって、ターゲットオブジェクトがないこれらのビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用い、ターゲットオブジェクトが検出されないビデオフレームの数が予め設定されたビデオフレーム数を超える場合、「ビデオ内の少なくとも一部のビデオフレームに現れない」という学習行動が検出されたことを確認することができる。予め設定されたビデオフレーム数は、実際の状況に応じて柔軟に設定されてもよく、１つの可能な実現方式では、予め設定されたビデオフレーム数を０に設定することができ、即ち、ターゲットオブジェクトが検出されないビデオフレームがビデオに含まれる場合、ビデオ内の少なくとも一部のビデオフレームにこの学習行動が現れないことを検出したと考え、１つの可能な実現方式では、予め設定されたビデオフレーム数も０よりも大きい数であってもよく、具体的にどのように設定するかは、実際の状況に応じて柔軟に決定されてもよい。

１つの可能な実現方式では、学習行動は、目を閉じることをさらに含むことができ、この場合での学習行動の検出方式は、目を閉じることの検出であってもよい、目を閉じることの検出の具体的なプロセスは、実際の状況に応じて柔軟に設定されてもよく、一例では、目を閉じることの検出機能を備えたニューラルネットワークによって実現されてもよく、一例では、目及び眼球内のキーポイントを検出することにより、ターゲットオブジェクトが目を閉じているか否かなどを確定することもでき、例えば、眼球内のキーポイントが検出された場合、ターゲットオブジェクトが目を開いていることを確定し、目のキーポイントが僅かに検出され、眼球内のキーポイントが検出されない場合、ターゲットオブジェクトが目を閉じることを確定する。１つの可能な実現方式では、学習行動は、ティーチングコースの展示領域でのアイコンタクトをさらに含むことができ、この場合での学習行動の検出方式につては上記の開示された実施例におけるティーチングコースの展示領域に注目するプロセスを参照することができ、具体的な検出方式は、柔軟に変化することができ、例えば、ターゲットオブジェクトに対して、目を閉じることの検出及び顔角度検出を同時に行うことができ、顔角度がターゲット顔角度範囲内にありかつ目を閉じないビデオフレームを第３検出フレームとして用い、次に第３検出フレームの数がある設定された閾値を超える場合、ターゲットオブジェクトがティーチングコースの展示領域内でアイコンタクトを行うことを認定することなどがある。

上記の開示された実施例の様々な実施形態の任意の組み合わせにより、ターゲットオブジェクトの少なくとも１種類の学習行動に対する検出を実現した後、ターゲットオブジェクトが少なくとも１種類の学習行動を実行することを検出された場合、ステップＳ１３により学習状態情報を生成することができる。ステップＳ１３の具体的な実施形態は限定されず、検出された学習行動の実際の状況に応じて柔軟に変化することができ、下記の各々の開示される実施例に限定されない。

上記の開示された実施例におけるステップＳ１３の実際の内容から、ステップＳ１３における学習状態情報を生成するプロセスにおいて、以下のいくつかの生成方式があり得ることが分かり、例えば、少なくとも１種類の学習行動を含むビデオフレームに基づいて学習状態情報を生成することができ、又はターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づいて学習状態情報を生成することができ、又は、上記の２つの状況を組み合わせて、少なくとも１種類の学習行動を含むビデオフレームに基づいて一部の学習状態情報を生成し、また、ターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づいて別の学習状態情報を生成することができる。学習行動のビデオフレームに基づいて学習状態情報を生成することができるだけでなく、ターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づいて学習状態情報を生成することができる場合、具体的にどの学習行動に応じてそれに対応するどの学習状態情報を生成するかについて、そのマッピング方式は、実際の状況に応じて柔軟に設定されてもよい。１つの可能な実現方式では、一部の積極的な学習行動を、学習行動を含むビデオフレームに基づいて学習状態情報を生成するというプロセスに対応させることができ、例えば、ターゲットオブジェクトが少なくとも１種類のターゲットジェスチャーを実行すること、積極的なターゲット情緒を示すこと、ティーチングコースの展示領域に注目すること、及び他のオブジェクトとの少なくとも１種類のインタラクション行動を実行することなどの場合、上記の学習行動を含むビデオフレームに基づいて、学習状態情報を生成することができ、１つの可能な実現方式では、ターゲットオブジェクトがビデオ内の一部のビデオフレームに現れないこと、目を閉じること又はティーチングコースの展示領域内でアイコンタクトを行わないことなどの一部の消極的な学習行動の場合、上記学習行動の持続時間に基づいて学習状態情報を生成することができる。

１つの可能な実現方式では、少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレームに基づいて、学習状態情報を生成することは、
ビデオフレームのうちの少なくとも１種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得するステップＳ１３１１と、
ターゲットビデオフレームセット内の少なくとも１つのビデオフレームに対して顔の品質の検出を行い、顔の品質が顔の品質の閾値よりも大きいビデオフレームをターゲットビデオフレームとして用いるステップＳ１３１２と、
ターゲットビデオフレームに基づいて、学習状態情報を生成するステップＳ１３１３と、を含むことができる。

ここで、少なくとも１種類の学習行動を含むビデオフレームは、学習行動の検出プロセスにおいて、ターゲットオブジェクトがその中の少なくとも１種類の行動を実行していることが検出されたビデオフレームであってもよく、例えば、上記の開示された実施例で記載された第１検出フレーム、第２検出フレーム及び第３フレームなどであってもよく、又はジェスチャー開始フレームとジェスチャー終了フレームの間のターゲットジェスチャーを含むビデオフレームなどであってもよい。

少なくとも１種類の学習行動を含むビデオフレームが確定された後、どのようにターゲットビデオフレームセットを取得するかについて、その実現方式は柔軟に決定されてもよい。１つの可能な実現方式では、学習行動の種類に従って、各種類の学習行動を含む各ビデオフレームをそれぞれ取得し、それによって各種類の学習行動のターゲットビデオフレームセットを構成することができ、１つの可能な実現方式では、学習行動の種類に従って、各種類の学習行動を含む一部のフレームなどをそれぞれ取得し、次に各種類の学習行動の一部のフレームに基づいて当該種類の学習行動のターゲットビデオフレームセットを得ることもでき、具体的にどの部分のフレームを選択するかについて、その選択方式は柔軟に決定されてもよい。

学習行動に対応するターゲットビデオフレームセットが得られた後、ステップＳ１３１２により、ターゲットビデオフレームセットからターゲットビデオフレームを選択して取得することができる。ステップＳ１３１２から、１つの可能な実現方式において、ターゲットビデオフレームセット内のビデオフレームに対して顔の品質の検出を行い、次に顔の品質が顔の品質の閾値よりも大きいビデオフレームをターゲットビデオフレームとして用いることができることが分かる。

ここで、顔の品質の検出方式は、実際の状況に応じて柔軟に設定されてもよく、下記の開示された実施例に限定されず、１つの可能な実現方式では、ビデオフレーム内の顔に対して顔の識別を行ってビデオフレーム内の顔の完全性を確定することにより、顔の品質を確定することができ、１つの可能な実現方式では、ビデオフレームにおける顔の明瞭さに基づいて顔の品質を確定することもでき、１つの可能な実現方式では、ビデオフレームにおける顔の完全性、明瞭さ及び輝度などの複数のパラメータに基づいてビデオフレームにおける顔の品質を総合的に判断することもでき、１つの可能な実現方式では、ビデオフレームを顔品質ニューラルネットワークに入力することにより、ビデオフレームにおける顔の品質を取得することができ、顔品質ニューラルネットワークは、顔品質のスコアラベルを含む大量の顔ピクチャーによって訓練されて得られてもよく、その具体的な実現形態は、実際の状況に柔軟に選択されてもよく、本開示の実施例において限定されない。

顔品質の閾値の具体的な値は、実際の状況に応じて柔軟に決定されてもよく、本開示の実施例において限定されない。１つの可能な実現方式では、各種類の学習行動のために異なる顔品質の閾値をそれぞれ設定することができ、１つの可能な実現方式では、各種類の学習行動のために同じ顔の閾値をそれぞれ設定することもできる。１つの可能な実現方式では、顔品質の閾値をターゲットビデオフレームセット内の顔品質の最大値に設定することもでき、この場合、各種類の学習行動での顔品質の最も高いビデオフレームをターゲットビデオフレームとして直接用いることができる。

一部の可能な実現方式では、複数種類の学習行動を同時に含むいくつかのビデオフレームが存在する可能性があり、この場合、複数種類の学習行動を含むビデオフレームを処理する方式は、実際の状況に応じて、柔軟に変化することができる。１つの可能な実現方式では、これらのビデオフレームをそれぞれ各種類の学習行動に帰属させ、次に各種類の学習行動に対応するビデオフレームセットからステップＳ１３１２に従って選択し、ターゲットビデオフレームを取得することができ、１つの可能な実現方式では、複数種類の学習行動を同時に含むビデオフレームをターゲットビデオフレームとして直接選定することもできる。

上記の任意の実施例によりターゲットビデオフレームが確定された後、ステップＳ１３１３により、ターゲットビデオフレームに基づいて学習状態情報を生成することができる。ステップＳ１３１３の実現方式は、実際の状況に応じて柔軟に選択されてもよく、詳細は、以下に開示される各実施例を参照するので、ここでは詳しく説明しない。

本開示の実施例では、ビデオフレームのうちの少なくとも１種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得することにより、各種類の学習行動のターゲットビデオフレームセットに基づいて、顔の品質が高いビデオフレームをターゲットビデオフレームとして選定し、次にターゲットビデオフレームに基づいて学習状態情報を生成する。上記のプロセスにより、生成された学習状態情報は、顔の品質が高くかつ学習行動を含むビデオフレームに基づいて取得された情報であってもよく、正確性がより高くなり、それによってターゲットオブジェクトの学習状態をより正確に把握することができる。

上記の開示された実施例に記載されるように、ステップＳ１３１３の実現方式は、柔軟に変化することができる。１つの可能な実現方式では、ステップＳ１３１３は、
ターゲットビデオフレーム内の少なくとも１フレームを学習状態情報として用いること、及び／又は、
少なくとも１フレームのターゲットビデオフレーム内におけるターゲットオブジェクトの位置する領域を識別し、ターゲットオブジェクトの位置する領域に基づいて、学習状態情報を生成することを含むことができる。

上記の開示された実施例から、１つの可能な実現方式において、ターゲットビデオフレーム内の少なくとも１フレームを学習状態情報として直接用いることができることが分かり、一例では、取得されたターゲットビデオフレームをさらに選定することができ、この選定はランダムにしてもよいし、一定の条件によってしても良い、次に、選定されたターゲットビデオフレームを直接に学習状態情報とし、一例では、取得された各ターゲットビデオフレームを直接に学習状態情報として用いることもできる。

１つの可能な実現方式では、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域をさらに識別し、それによってターゲットオブジェクトの位置する領域に基づいて学習状態情報を生成することもできる。ここで、ターゲットオブジェクトの領域を識別する方式は、本開示の実施例において限定されず、１つの可能な実現方式では、上記の開示された実施例で記載された、ターゲットオブジェクトの検出機能を備えたニューラルネットワークによって実現されてもよい。ターゲットビデオフレーム内のターゲットオブジェクトの領域が確定された後、さらにターゲットビデオフレームに対して対応する処理を行い、学習状態情報を取得することができる。ここで、処理方式は、柔軟に決定されてもよく、一例では、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域の画像を学習状態情報として用いることができ、一例では、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域以外の背景領域をレンダリングし、例えば他のステッカーを追加したり、背景領域にモザイクを追加したり、背景領域の画像を置き換えたりすることなど、ターゲットオブジェクトの現在の背景が表示されない学習状態情報を取得することもでき、これにより、ターゲッオブジェクトのプライバシーをより保護することができ、ステッカーなどのレンダリング方法により、学習状態情報の多様性と美しさを向上させることもできる。

ターゲットビデオ内の少なくとも１フレームを学習状態情報とすることにより、及び／又は、ターゲットビデオフレーム内におけるターゲットオブジェクトの位置する領域に基づいて学習状態情報を生成し、上記の方式により、最終的に取得された学習状態情報をより柔軟にすることができ、それによってターゲットオブジェクトのニーズに応じて、ターゲットオブジェクトをより目立つ学習状態情報、又はターゲットオブジェクトのプライバシーをより保護したりする学習状態情報を取得することができる。

上記の各々の開示された実施例は、任意に組み合わせられて、学習行動を含むビデオフレームを基にして生成された学習状態情報を取得することができ、例えば、表１は本開示の一実施例による学習状態情報の生成ルールを示している。

ここで、Ｍ、Ｎ、Ｘ、Ｙ、Ｚはいずれも正の整数であり、具体的な値が実際のニーズに応じて設定されてもよい。そして、表１における異なる行にあるＭなどのパラメータは、同じ又は異なってもよく、上記のＭなどのパラメータは、僅かに概略的な説明として用いられ、本開示の内容を限定するものではない。

ここで、素晴らしい瞬間とは、ターゲットオブジェクトの積極的な学習行動に対応する時点である。表１から、一例において、ターゲットオブジェクトが挙手などのターゲットジェスチャーを実行すること、愉快というターゲット情緒を生み出すこと、又はティーチングコースの展示領域に精力を集中して注目していること及び教師によって点呼されて発言することなどのインタラクションなどの学校行動が検出された場合、ビデオに対して一定のデータ処理を行い、データ処理の後、ビデオフレームに対してさらに画像処理を行い、これによりターゲットビデオフレームを学習状態情報として取得することができる。

１つの可能な実現方式では、ターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することは、
ターゲットオブジェクトが少なくとも１種類の学習行動を実行する時間が時間閾値以上であることが検出された場合、少なくとも１種類の学習行動の持続時間を記録するステップＳ１３２１と、
少なくとも１種類の学習行動に対応する持続時間を学習状態情報として用いるステップＳ１３２２と、を含むことができる。

ここで、時間閾値は、実際の状況に応じて柔軟に設定されたある値であってもよく、異なる種類の学習行動の時間閾値は同じでも異なってもよい。ターゲットオブジェクトが一定の時間内である種類の学習行動を実行していることを検出した場合、ターゲットオブジェクトがこれらの学習行動を実行する時間を統計して、学習状態情報として教師又は親にフィードバックすることができる。具体的な統計条件及びどの学習行動の下で時間を統計するかについて、その実現方式はすべて実際の状況に応じて柔軟に設定されてもよい。

１つの可能な実現方式では、ターゲットオブジェクトがビデオに現れない（例えば、ビデオに誰もいないこと、ビデオフレームに誰かがいるが、彼らがターゲットオブジェクトであるか否かを確定できないこと、又はカメラに誰かがいるがターゲットオブジェクトではないこと）時間が一定の時間長を超えること、ターゲットオブジェクトが目を閉じること又はターゲットオブジェクトがティーチングコースの展示領域を見ないことが検出された場合、これらの学習行動の時間長を統計してそれを学習状態情報として用いることができる。

本開示の実施例では、ターゲットオブジェクトが少なくとも１種類の学習行動を実行する時間が時間閾値以上であることを検出した場合、少なくとも１種類の学習行動の持続時間を記録して学習状態情報として用い、上記のプロセスにより、学習状態情報を定量化し、ターゲットオブジェクトの学習状態をより直感的かつ正確に把握することができる。

１つの可能な実現方式では、本開示の実施例で提供されるビデオ処理方法は、
ビデオ内の少なくとも一部のビデオフレーム内の背景領域をレンダリングすることであって、ここで、背景領域は、ビデオフレーム内のターゲットオブジェクト以外の領域であることをさらに含むことができる。

ここで、背景領域の分割方式及び背景領域のレンダリング方式については、上記の開示された実施例における、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域に対する識別及び認識後のレンダリングプロセスを参照でき、ここでは説明を省略する。背景領域をレンダリングするプロセスでは、一例で、現在のビデオ処理装置での予め設定されたユニバーサルテンプレートによってレンダリングすることができ、一例で、非ビデオ処理装置のデータベース内の他のテンプレート又はカスタムテンプレートを呼び出すことによりレンダリングすることもでき、例えば、非ビデオ処理装置のクラウドサーバーから他の背景テンプレートなどを呼び出して、ビデオ内の背景領域をレンダリングすることなどができる。

ビデオ内の少なくとも一部のビデオフレーム内の背景領域をレンダリングすることにより、ビデオ内のターゲットオブジェクトのプライバシーを保護し、適切なビデオ収集位置がないため、ターゲットオブジェクトのプライバシーが漏洩される可能性を低減させることができると共に、ターゲットオブジェクトがティーチングコースを視聴するプロセスの興味性を高めることもできる。

１つの可能な実現方式では、本開示の実施例で提供されるビデオ処理方法は、
少なくとも１つのターゲットオブジェクトの学習状態情報を統計して、少なくとも１つのターゲットオブジェクトの統計結果を取得することと、
少なくとも１つのターゲットオブジェクトの統計結果に基づいて、学習状態の統計データを生成することとをさらに含むことができる。

本開示の実施例では、１つのビデオに含まれるターゲットオブジェクトは、１つであってもよいし、複数であってもよく、また、本開示の実施例におけるビデオ処理方法は、単一のビデオを処理するために用いられてもよいし、複数のビデオを処理するために用いられてもよい。したがって、それに応じて、１つのターゲットオブジェクトの学習状態情報を取得することができ、複数のターゲットオブジェクトの学習状態情報を取得することもできる。この場合、少なくとも１つのターゲットオブジェクトの学習状態情報を統計して、少なくとも１つのターゲットオブジェクトの統計結果を取得することができる。ここで、統計結果は、ターゲットオブジェクトの学習状態情報だけでなく、ターゲットオブジェクトがティーチングコースを視聴することに関連する他の情報も含むことができる。例えば、１つの可能な実現方式では、ステップＳ１２の前に、即ちターゲットオブジェクトに対して学習行動の検出を行う前に、ターゲットオブジェクトのチェックインデータを取得することもできる。ターゲットオブジェクトのチェックインデータは、ターゲットオブジェクトの身元情報及びチェックイン時間などを含むことができ、具体的なチェックインデータの取得方式は、ターゲットオブジェクトの実際のチェックイン方式に応じて柔軟に決定されてもよく、本開示の実施例で限定されない。

少なくとも１つのターゲットオブジェクトの統計結果が取得された後、少なくとも１つの統計結果に基づいて学習状態の統計データを生成することができる。具体的には、学習状態の統計データの生成方式及び内容は、統計結果の実現形態に応じて柔軟に変化することができる。詳細については、以下に開示される各実施例を参照するが、ここでは詳しく説明しない。

本開示の実施例では、少なくとも１つのターゲットオブジェクトの学習状態情報を統計することにより、少なくとも１つのターゲットオブジェクトの統計結果を取得し、それによって少なくとも１つのターゲットオブジェクトの統計結果に基づいて学習状態の統計データを生成し、上記のプロセスにより、複数のターゲットオブジェクトの学習状態に対して総合的な評価を効果的に行うことができ、これにより、教師は、教室全体の全体的な学習状況を把握しやすくなり、他の関係者は、ターゲットオブジェクトの現在の学習位置などをより全面的に了解することもできる。

１つの可能な実現方式では、少なくとも１つの前記ターゲットオブジェクトの統計結果に基づいて、学習状態の統計データを生成することは、
少なくとも１つのターゲットオブジェクトが属するカテゴリに基づいて、少なくとも１つのカテゴリに含まれるターゲットオブジェクトの統計結果を取得し、少なくとも１つのカテゴリの学習状態の統計データを生成することであって、ここで、ターゲットオブジェクトが属するカテゴリは、ターゲットオブジェクトが参加するコース、ターゲットオブジェクトが登録した機関及びターゲットオブジェクトが用いるデバイスのうちの少なくとも１種類を含むこと、及び／又は、
少なくとも１つのターゲットオブジェクトの統計結果に対して可視化処理を行い、少なくとも１つのターゲットオブジェクトの学習状態の統計データを生成することを含む。

ここで、ターゲットオブジェクトが属するカテゴリは、ターゲットオブジェクトの身元に応じて分けられたカテゴリであってもよく、例えば、ターゲットオブジェクトが属するカテゴリは、ターゲットオブジェクトが参加するコース、ターゲットオブジェクトが登録した機関、及びターゲットオブジェクトが用いるデバイスの少なくとも１種類を含むことができ、ここで、ターゲットオブジェクトが参加するコースは、上記の開示された実施例で記載されたターゲットオブジェクトが視聴するティーチングコースであってもよく、ターゲットオブジェクトが登録した機関は、ターゲットオブジェクトがいる教育機関、又はターゲットオブジェクトがいる学年又はターゲットオブジェクトがいるクラスなどであってもよく、ターゲットオブジェクトが用いるデバイスは、オンラインシーンで、ターゲットオブジェクトがオンラインコースに参加するために用いられる端末デバイスなどであってもよい。

本開示の実施例では、ターゲットオブジェクトが属するカテゴリに従って少なくとも１つのカテゴリに含まれるターゲットオブジェクトの統計結果を取得することができ、即ち、ターゲットオブジェクトが属するカテゴリにおける少なくとも１つの統計結果をまとめて当該カテゴリにおける全体的な学習状態の統計データを取得することができる。例えば、用いられるデバイス、コース、教育機関などのカテゴリに従って分けて、同じデバイスでの異なるターゲットオブジェクトの統計結果、同じコースでの異なるターゲットオブジェクトの統計結果、及び同じ教育機関での異なるターゲットオブジェクトの統計結果などをそれぞれ取得することができる。一例では、これらの統計結果をレポートの形態で表示することができる。一例では、レポート内の各カテゴリにおける統計結果は、各ターゲットオブジェクトの全体的な学習状態情報だけでなく、各ターゲットオブジェクトの具体的な学習状態情報、例えばティーチングコースの展示領域に注目する時間長、微笑の時間長などを含むことができ、その他、ティーチングコースの視聴に関連する他の情報、例えばターゲットオブジェクトのチェックイン時間、チェックイン回数、ターゲットオブジェクト及び予め設定されたデータベース内の顔マッチング状況、チェックインデバイス及びチェックインコースなどを含むこともできる。

その他、少なくとも１つのターゲットオブジェクトの統計結果に対して可視化処理を行って、少なくとも１つのターゲットオブジェクトの学習状態の統計データを取得することができる。ここで、可視化処理の方式は、実際の状況に応じて柔軟に決定されてもよく、例えば、データをグラフ又はビデオなどの形態に整理することができる。学習状態の統計データに含まれる内容は、実際の状況に応じて柔軟に決定されてもよく、例えば、ターゲットオブジェクトの全体的な学習状態情報、ターゲットオブジェクトが視聴しているティーチングコースの名前及びターゲットオブジェクトの具体的な学習状態情報などを含むことができ、具体的にどのデータを含むかは、実際の状況に応じて柔軟に設定されてもよい。一例では、ターゲットオブジェクトの身元、ターゲットオブジェクトによって視聴されるティーチングコースの名前、ターゲットオブジェクトのティーチングコースの展示領域に注目する時間長、ターゲットオブジェクトの注目程度の強さ、ターゲットオブジェクトと他のターゲットオブジェクトの間のデータ比較結果、ターゲットオブジェクトのインタラクション回数及びターゲットオブジェクトの情緒などの内容を、可視化されたレポートに整理して、ターゲットオブジェクト又はターゲットオブジェクトの他の関係者、例えばターゲットオブジェクトの親などに送信することができる。

一例では、可視化処理後の学習状態の統計データには、ピクチャーとビデオ以外、「授業科目がＸＸであり、学生Ａの専心時間長が３０分間であり、集中力が高く、クラスメートの１０％の集中力よりも高く、インタラクション回数が３回であり、微笑が５回であり、ここで表彰して、引き続き努力することを望む」又は「授業科目がＸＸであり、学生Ｂの集中力が低く、挙手などのジェスチャーのインタラクション頻度が低く、親が細心の注意を払い、子供の学習習慣をリアルタイムで調整することを勧める」などのような文字内容も含まれても良い。

本開示の実施例では、少なくとも１つのターゲットオブジェクトが属するカテゴリを取得することにより、少なくとも１つのカテゴリの学習状態の統計データを生成し、及び／又は、少なくとも１つのターゲットオブジェクトの統計結果に対して可視化処理を行うことにより、少なくとも１つのターゲットオブジェクトの学習状態の統計データを生成する。上記のプロセスにより、異なるデータ統計方式で、ターゲットオブジェクトの学習状態をより直感的かつ全面的に把握することができる。

図２は本開示の実施例によるビデオ処理装置を示すブロック図である。図に示すように、前記ビデオ処理装置２０は、ビデオを取得するように構成され、ここで、ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むビデオ取得モジュール２１と、
ビデオに基づいて、ティーチングコースを視聴するプロセスでのターゲットオブジェクトの少なくとも１種類の学習行動を検出するように構成される検出モジュール２２と、
ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又はターゲットオブジェクトが少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュール２３と、を備えることができる。

１つの可能な実現方式では、学習行動は、少なくとも１種類のターゲットジェスチャーを実行すること、ターゲット情緒を表現すること、ティーチングコースの展示領域に注目すること、他のオブジェクトとの少なくとも１種類のインタラクション行動を生成すること、ビデオ内の少なくとも一部のビデオフレームに現れないこと、目を閉じること、及びティーチングコースの展示領域でのアイコンタクトのうちの少なくとも１種類を含む。

１つの可能な実現方式では、検出モジュールは、ビデオに対してターゲットオブジェクトの検出を行って、ターゲットオブジェクトを含むビデオフレームを取得し、ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うように構成される。

１つの可能な実現方式では、学習行動は、少なくとも１種類のターゲットジェスチャーを実行することを含み、検出モジュールは、さらにターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類のターゲットジェスチャーを検出し、少なくとも１種類のターゲットジェスチャーを含む、連続するビデオフレームの数が第１閾値を超えることを検出した場合、ターゲットジェスチャーを含むビデオフレーム内の少なくとも１フレームをジェスチャー開始フレームとして記録し、ジェスチャー開始フレームの後のビデオフレームのうち、ターゲットジェスチャーがない連続するビデオフレームの数が第２閾値を超える場合、ターゲットジェスチャーがないビデオフレームのうちの少なくとも１フレームをジェスチャー終了フレームとして記録し、ジェスチャー開始フレームとジェスチャー終了フレームの数に基づいて、ビデオ内のターゲットオブジェクトが少なくとも１種類のターゲットジェスチャーを実行する回数及び／又は時間を確定するように構成される。

１つの可能な実現方式では、学習行動は、ターゲット情緒を表現することを含み、検出モジュールは、さらにターゲットオブジェクトを含むビデオフレームに対して表情検出及び／又は微笑値検出を行い、ビデオフレーム内のターゲットオブジェクトが少なくとも１種類の第１ターゲット表情を示すこと又は微笑値の検出結果がターゲット微笑値を超えることを検出した場合、検出されたビデオフレームを第１検出フレームとして用い、連続する第１検出フレームの数が第３閾値を超えることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定するように構成される。

１つの可能な実現方式では、学習行動は、ティーチングコースの展示領域に注目することを含み、検出モジュールは、さらにターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行い、ビデオフレーム内のターゲットオブジェクトが少なくとも１種類の第２ターゲット表情を示しかつ顔角度がターゲット顔角度範囲内にあることを検出した場合、検出されたビデオフレームを第２検出フレームとして用い、連続する第２検出フレームの数が第４閾値を超えることを検出した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定するために用いられる。

１つの可能な実現方式では、生成モジュールは、ビデオのうちの少なくとも１種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得し、ターゲットビデオフレームセットの少なくとも１つのビデオフレームに対して顔の品質の検出を行い、顔の品質が顔品質の閾値よりも大きいビデオフレームをターゲットビデオフレームとして用い、ターゲットビデオフレームに基づいて学習状態情報を生成するように構成される。

１つの可能な実現方式では、生成モジュールは、さらにターゲットビデオフレーム内の少なくとも１フレームを学習状態情報として用いるように構成され、及び／又は、少なくとも１フレームのターゲットビデオフレーム内のターゲットオブジェクトの位置する領域を識別し、ターゲットオブジェクトの位置する領域に基づいて、学習状態情報を生成するように構成される。

１つの可能な実現方式では、検出モジュールは、ビデオに対してターゲットオブジェクトの検出を行い、ターゲットオブジェクトを含むビデオフレームを取得し、ビデオのうちのターゲットオブジェクトを含むビデオフレーム以外のビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用い、ターゲットオブジェクトが検出されないビデオフレームの数が予め設定されたビデオフレームの数を超える場合、学習行動がビデオ内の少なくとも一部のビデオフレームに現れないとの行動を含むことを検出するように構成される。

１つの可能な実現方式では、生成モジュールは、ターゲットオブジェクトが少なくとも１種類の学習行動を実行する時間が時間閾値以上であることを検出した場合、少なくとも１種類の学習行動の持続時間を記録し、少なくとも１種類の学習行動に対応する持続時間を学習状態情報として用いるように構成される。

１つの可能な実現方式では、装置は、さらにビデオ内の少なくとも一部のビデオフレームの背景領域をレンダリングするために用いられ、ここで、背景領域は、ビデオフレーム内のターゲットオブジェクト以外の領域である。

１つの可能な実現方式では、装置は、さらに少なくとも１つのターゲットオブジェクトの学習状態情報を統計し、少なくとも１つのターゲットオブジェクトの統計結果を取得し、少なくとも１つのターゲットオブジェクトの統計結果に基づいて、学習状態の統計データを生成するために用いられる。

１つの可能な実現方式では、装置は、さらに少なくとも１つのターゲットオブジェクトが属するカテゴリに基づいて、少なくとも１つのカテゴリに含まれるターゲットオブジェクトの統計結果を取得し、少なくとも１つのカテゴリの学習状態の統計データを生成するように構成され、ここで、ターゲットオブジェクトが属するカテゴリが、前記ターゲットオブジェクトが参加するコース、ターゲットオブジェクトが登録した機関及びターゲットオブジェクトが用いるデバイスのうちの少なくとも１種類を含み、及び／又は、少なくとも１つのターゲットオブジェクトの統計結果に対して可視化処理を行って、少なくとも１つのターゲットオブジェクトの学習状態の統計データを生成するように構成される。

本出願の異なる実施例は、論理に違反することなく、互いに組み合わせられてもよく、異なる実施例の説明において重点が置かれており、重点として説明されない部分については、他の実施例の記載を参照することができる。

本開示の一部の実施例では、本開示の実施例によって提供される装置が備えた機能又はそれに含まれるモジュールは、上記の方法の実施例で説明される方法を実行するために用いられてもよく、その具体的な実現と技術的効果については上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは説明を省略する。

適用シーンの例
学生が学習する方式は、通常、教師が授業し、学生が受講することであり、教室がインタラクションと興味性を欠き、学生が受講に興味を持っていることが容易ではなく、学生のリアルタイムな表現によって学生に対して積極的な激励を形成することができない。同時に、機関又は教師は、学生の受講状態を把握できず、親も学校での子供の表現を理解できず、特にエピデミックの影響を受けるため、学生がオンラインで授業を受ける時間が非常に多く、しかしながら、学生が本当に授業を受けているか否か及び真剣に受講しているか否か、教室でのインタラクション表現が如何であるかは、すべて定量的に評価できない。したがって、どのように学生の学習状態を効果的に把握するかは、現在の解決すべき問題となっている。

本開示の適用例で１つの学習システムが提供され、当該システムは、上記の開示された実施例に記載されたビデオ処理方法により、学生の学習状態を効果的に把握することができる。

図３は本開示による一適用例を示す概略図である。図に示すように、一例では、学習システムは、ユーザ端、教育用ソフトウェアサービス（ＳａａＳ：Ｓｏｆｔｗａｒｅ－ａｓ－ａ－Ｓｅｒｖｉｃｅ）バックグラウンド及びインタラクション教室バックグラウンドなどの３つの部分で構成されてもよい。ここで、学生は、ユーザ端によってティーチングコースを視聴し、ユーザ端は、学習用のハードウェアデバイス（例えば図におけるＷｉｎｄｏｗｓシステム又はＩＯＳシステム及びＳＤＫがインストールされたクライアント）と、学生がオンライン教室にログインするためのアプリケーションプログラム（即ち図におけるユーザＡＰＰ）との２つの部分を含むことができる。教育ＳａａＳバックグラウンドは、学生がいる教育機関のサーバーによって構築されたプラットフォームであってもよく、インタラクション教室バックグラウンドは、異なる教育機関のデータをまとめてデータメンテナンスを行うサーバーによって構築されたプラットフォームであってもよく、教育ＳａａＳバックグラウンド又はインタラクション教室バックグラウンドに関わらず、いずれもＡＰＩインターフェースを介して、ユーザ端とのデータインタラクションを行うことができる。これにより、上記に開示された各実施例で記載された学習状態情報の生成及び学習状態の統計データの生成が実現される。

本開示の適用例では、学習状態情報の生成プロセスは、
ユーザ端が、学生がティーチングコースを視聴するプロセスのビデオを収集し、収集されたビデオを処理することにより、各学生の学習状態情報を取得し、教育ＳａａＳバックグラウンド及びインタラクション教室バックグラウンドが、ＡＰＩインターフェースを介して、異なるユーザ端で生成された学習状態情報を呼び出し、これらの学習状態情報に対して、上記の開示された実施例で記載された任意の方式で統計処理を行い、学習状態の統計データを生成することを含むことができる。

一例では、ユーザ端が収集されたビデオを処理し、各学生の学習状態情報を取得するプロセスは、以下のことを含むことができる。

Ａ．学生が授業を受ける素晴らしい瞬間（即ち上記の開示された実施例で記載された積極的な学習行動）を取得する。

一例では、一定のルールを定義して、学生の素晴らしいビデオハイライトを作成することができ、学生の表現を短いビデオ又は一部の素晴らしいピクチャーに編集して親に提供することができ、このようにして、親は、学生の受講表現をリアルタイムで評価することができ、効果が高いと、学生が引き続き関連するコースに参加するように励ます可能性がある。

一例では、学生の素晴らしい瞬間の取得は、学生のチェックインが成功した後に行われてもよく、後の素晴らしい瞬間のビデオ又はピクチャーは、バックグラウンド又はクラウドにアップロードされ、同時に、学生がアップロードされた素晴らしい瞬間の内容をリアルタイムで見ることができるか否かを選択することもできる。一例では、素晴らしい瞬間の定義ルールは、少なくとも１種類のターゲットジェスチャーを生み出すことを含むことができ、ターゲットジェスチャーは、挙手、賞賛、ＯＫジェスチャー及びＹｅａｈジェスチャーなどを含むことができ、一定時間の範囲内で、学生が上記のジェスチャーを実行していることが検出された場合、ジェスチャーを含むビデオに対してピクチャー又はビデオフレームの抽出を行うことができる。愉快のターゲット情緒を表現し、一定時間の範囲内に学生の表情が愉快であることが検出され、かつ微笑値があるターゲット微笑値（例えば９９点）に達した場合、愉快ラベルが付いたビデオフレーム又はターゲット微笑値に達したビデオフレームに対してピクチャー又はビデオフレームの抽出を行うことができる。ティーチングコースの展示領域に注目し、一定時間の範囲内で学生の顔の向きがずっと正のままであると、即ちｈｅａｄｐｏｓｅがある閾値範囲内にあると、この時間範囲内のビデオに対してピクチャー又はビデオフレームの抽出を行うことができる。

Ｂ．学生の学習状況に対して（上記の開示された実施例で記載された消極的な学習行動に対して）学習状況検出を行う。

一例では、学生が画面内にない可能性がある場合、又は専心しない場合、学習状況検出により、データを親にリアルタイムでプッシュできるため、親が早めに子供に注意を払い、子供の悪い学習習慣をタイムリーに正すことが容易になり、補助的な監督の役割を果たす。

一例では、学生に対する学習状況検出のプロセスは、学生のチェックインが成功した後に行われてもよく、例えば、カメラの前にどのくらいの時間範囲内に誰も現れないか、画面を見ないこと、目を閉じることなどの場合、その人の集中度が低いと判断し、この場合、学生が上記の学習行動を実行する時間長を統計して、それを学習状況検出の結果として用いて、対応する学習状態データを取得することができる。具体的な学習状況検出の配置ルールについては上記の各々の開示された実施例を参照することができ、ここで説明を省略する。

上記の各々の開示された例により、素晴らしい瞬間及び学習状況検出を含む学習状態情報を取得することができ、さらに、教育ＳａａＳバックグラウンド及びインタラクション教室バックグラウンドがＡＰＩインターフェースを介して、異なるユーザ端で生成された学習状態情報を呼び出し、学習状態の統計データを生成するというプロセスは、以下のことを含むことができる。

Ｃ．レポートを生成する（即ち上記の開示された実施例における少なくとも１つのカテゴリの学習状態の統計データを生成する）。

１つの例では、バックグラウンド又はクラウドＡＰＩでは、デバイス、コース、機関など異なる方面で、学生のチェックイン情報及び学習状態情報を見ることができ、主なデータ指標は、チェックイン時間、チェックイン回数、顔ライブラリの顔とマッチングした状況（即ち上記の開示された実施例におけるターゲットオブジェクトと予め設定されたデータベース内の顔とのマッチング状況）、チェックインデバイス、チェックインコース、専心時間長さ及び微笑時間長さなどを含むことができる。

Ｄ．レポートを分析する（即ち上記の開示された実施例における可視化処理により少なくとも１つのターゲットオブジェクトの学習状態の統計データを生成する）。

１つの例では、教育ＳａａＳバックグラウンド又はインタラクション教室バックグラウンドでは、オンライン教室での学生の表現状況を１つの完全な学習状況分析レポートに統括に整理することができる。レポートは、可視化されたグラフィカルインターフェースによって学生の受講状況を説明し、さらに、バックグラウンドは、より良い状況を選択して親又は教師にプッシュすることもでき、それによって機関の教師が学生の状況を分析し、子供たちが彼らの学習行動を改善するように徐々に支援するために用いられてもよい。

上記のプロセスに加えて、学習システムは、学生がユーザ端で学習するプロセスにおいて、学生の学習ビデオに対して背景分割処理を行うこともできる。一例では、ユーザ端は、ライブ放送に適す位置背景がなく又はプライバシー保護のために学生が背景画面を表示したくない場合に対して、背景分割機能を提供することができる。一例では、ユーザ端のＳＤＫは、いくつかの異なる背景テンプレートをサポートすることができ、例えば、いくつかの汎用テンプレートを予め設定することができ、一例では、学生は、ユーザ端を介してインタラクション教室バックグラウンドからカスタマイズテンプレートを呼び出すこともできる。一例では、ＳＤＫは、背景テンプレートプレビューインターフェースをユーザ端のＡＰＰに提供することができ、これは、学生がＡＰＰを介して、呼び出す可能なカスタマイズテンプレートをプレビューすることに便利であり、学生は、授業を受けるプロセスにおいて、ユーザ端でのＡＰＰ上の背景分割されたステッカーを用いてライブ放送の背景をレンダリングすることもでき、一例では、学生がステッカーに満足していない場合、それを手動でトリガーして閉じることもできる。ユーザ端のＡＰＰは、学生がステッカーを用いるデータを対応するバックグラウンド（教育ＳａａＳバックグラウンド又はインタラクション教室バックグラウンド）に報告することができ、対応するバックグラウンドは、学生がどんな背景ステッカーを使用するか及び使用量などの情報を分析して追加の学習状態情報などとして用いることができる。

本開示の適用例で提供された学習システムは、オンライン教室に適用できるだけでなく、オンライン会議などの他の関連分野にも拡張されて適用することができる。

本開示で記載された上記の各方法の実施例が原理論理に反することなく、いずれも互いに組合わせられて、組み合わせた実施例を形成することができることを理解でき、紙幅に限定されるため、本開示で説明を省略する。

当業者は、具体的な実施形態の上記の方法において、各ステップの書き込み順序が厳密な実行順序を意味するものではなく、実施プロセスに対する制限を構成せず、各ステップの具体的な実行順序がその機能及び可能な内部論理で確定されるべきである。

本開示の実施例によるコンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラム命令がプロセッサに実行されると上記の方法が実現される。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体又は不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。

本開示の実施例はさらに電子デバイスを提供する。前記電子デバイスは、プロセッサと、プロセッサが実行可能な命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、上記方法を実行するように構成される。

本開示の実施例によるコンピュータプログラムは、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子デバイスで実行されると、前記電子デバイスにおけるプロセッサが上記の方法を実現するように実行する。

実際の応用において、上記のメモリは、揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えばＲＡＭ、又は不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えばＲＯＭ、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はソリッドステートドライブ（ＳＳＤ：Ｓｏｌｉｄ－ＳｔａｔｅＤｒｉｖｅ）、又は上記のタイプのメモリの組み合わせであってもよく、プロセッサに命令及びデータを提供する。

上記プロセッサは、ＡＳＩＣ、ＤＳＰ、ＤＳＰＤ、ＰＬＤ、ＦＰＧＡ、ＣＰＵ、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであってもよい。異なるデバイスについて、上記のプロセッサ機能を実現するための電子機器が他のものであってもよいことを理解でき、本開示の実施例において具体的に限定されない。

電子デバイスは、端末、サーバー又は他の形態のデバイスとして提供されてもよい。

上記の実施例と同じ技術的考えに基づき、本開示の実施例は、さらに、プロセッサによって実行される時に上記の方法を実現するコンピュータプログラムを提供する。

図４は本開示の実施例による電子デバイス８００のブロック図である。例えば、電子デバイス８００は、移動電話、コンピュータ、デジタル放送端末、メッセージ送受信デバイス、ゲームコンソール、タブレットデバイス、医療デバイス、フィットネスデバイス、パーソナルデジタルアシスタント等の端末であってもよい。

図４を参照すると、電子デバイス８００は、処理ユニット８０２、メモリ８０４、電源ユニット８０６、マルチメディアユニット８０８、オーディオユニット８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサーユニット８１４、及び通信ユニット８１６のうちの一つ又は複数を備えることができる。

処理ユニット８０２は、一般的に電子デバイス８００の全体動作、例えば、表示、電話コール、データ通信、カメラの動作及び記録動作と関連する動作を制御する。処理ユニット８０２は、一つ又は複数のプロセッサ８２０を含んで命令を実行し、上記の方法の全て又は一部のステップを完成するようにすることができる。また、処理ユニット８０８と他のユニットとのインタラクションを容易にするために、処理ユニット８０２は、ユニット一つ又は複数のモジュールを含むことができる。例えば、マルチメディアユニット８０８と処理ユニット８０２の間のインタラクションを容易にするために、処理ユニット８０２は、マルチメディアモジュールユニットを含むことができる。

メモリ８０４は、様々なタイプのデータを記憶して電子デバイス８００での動作をサポートするように構成される。これらのデータの例は、電子デバイス８００で動作するいずれかのアプリケーションプログラム又は方法のための命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクなどの任意のタイプの揮発性又は不揮発性記憶装置又はそれらの組み合わせにより実現されてもよい。

電源ユニット８０６は、電子デバイス８００の様々なユニットに電力を供給する。電源ユニット８０６は、電源管理システム、一つ又は複数の電源、及び電子デバイス８００のための電力の生成、管理及び割り当てに関連する他のユニットを含むことができる。

マルチメディアユニット８０８は、前記電子デバイス８００とユーザの間に１つの出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）とタッチパネル（ＴＰ）を含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するために、タッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライドとタッチパネル上のジェスチャーをセンシングするように、一つ又は複数のタッチセンサーを含む。前記タッチセンサーは、タッチ又はスライド動作の境界をセンシングするだけでなく、前記タッチ又はスライド動作に関連する持続時間及び圧力を検出することができる。一部の実施例において、マルチメディアユニット８０８は、１つのフロントカメラ及び／又はリアカメラを含む。電子デバイス８００が動作モード、例えば撮影モード又はビデオモードにある場合、フロントカメラ及び／又はリアカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及び／又はリアカメラは、１つの固定された光学レンズシステムであってもよく、又は焦点距離及び光学ズーム能力を持っている。

オーディオユニット８１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオユニット８１０は、１つのマイクロホン（ＭＩＣ）を含み、電子デバイス８００が動作モード、例えばコールモード、記録モードと音声識別モードにある場合、マイクロホンは、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶又は通信ユニット８１６を介して送信されることができる。一部の実施例において、オーディオユニット８１０は、オーディオ信号を出力するためのスピーカをさらに含む。

Ｉ／Ｏインターフェース８１２は処理ユニット８０２と周辺インターフェースモジュールの間にインターフェースを提供し、上記周辺インターフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、音量ボタン、スタートボタンとロックボタンを含むことができるがこれらに限定されない。

センサーユニット８１４は、電子デバイス８００に様々態様の状態評価を提供するための１つ又は複数のセンサーを含む。例えば、センサーユニット８１４は、電子デバイス８００のオン／オフ状態、ユニットの相対的位置決めを検出することができ、例えば前記ユニットが電子デバイス８００のディスプレイ及びキーパッドであり、センサーユニット８１４は、さらに電子デバイス８００又は電子デバイス８００の１つのユニットの位置変化、ユーザと電子デバイス８００との接触の有無、電子デバイス８００の方位又は加速／減速と電子デバイス８００の温度変化を検出することができる。センサーユニット８１４は、いかなる物理的接触がない時に近くの物体の存在を検出するための近接センサーを含むことができる。センサーユニット８１４は、さらにイメージングアプリケーションに用いられる光センサー、例えばＣＭＯＳ又はＣＣＤイメージセンサーを含むことができる。一部の実施例において、当該センサーユニット８１４は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。

通信ユニット８１６は、電子デバイス８００と他のデバイスの間の有線又は無線方式の通信を容易にするように構成される。電子デバイス８００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ、３Ｇ、４Ｇ又は５Ｇ又はそれらの組み合わせにアクセスすることができる。１つの例示的な実施例では、通信ユニット８１６は、放送チャネルを介して外部の放送管理システムからの放送信号又は放送関係者情報を受信する。１つの例示的な実施例では、前記通信ユニット８１６は、さらに近距離通信を容易にするための近距離通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線通信協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術に基づいて実現されてもよい。

例示的実施例では、電子デバイス８００は、上記方法を実行するために、一つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、ディジタル信号処理装置（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現されてもよい。

例示的実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えば、コンピュータプログラム命令を含むメモリ８０４が提供され、上記のコンピュータプログラム命令は、上記の方法を完了するために電子デバイス８００のプロセッサ８２０によって実行されてもよい。

図５は本開示の実施例による電子デバイス１９００のブロック図である。例えば、電子デバイス１９００は、サーバーとして提供されてもよく、図５を参照すると、電子デバイス１９００は、１つ又は複数のプロセッサを含む処理ユニット１９２２と、処理ユニット１９２２で実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２に代表されるメモリリソースとを備える。メモリ１９３２に記憶されているアプリケーションプログラムは、１つ又は１つ以上の１グループの命令に対応するモジュールを含むことができる。また、処理ユニット１９２２は、上記の方法を実行するために命令を実行するように構成される。

電子デバイス１９００は、さらに電子デバイス１９００の電源管理を実行するように構成される１つの電源ユニット１９２６と、電子デバイス１９００をネットワークに接続するように構成される有線又は無線ネットワークインターフェース１９５０と、入出力（Ｉ／Ｏ）インターフェース１９５８とを備えることができる。電子デバイス１９００は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭ又は類似するものなどのメモリ１９３２に記憶されたオペレーティングシステムに基づいて動作することができる。

例示的実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えば、コンピュータプログラム命令を含むメモリ１９３２がさらに提供され、上記のコンピュータプログラム命令は、上記方法を完了するために電子デバイス１９００の処理ユニット１９２２によって実行されてもよい。

本開示は、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の様々な態様を実現させるためのコンピュータ読み取り可能なプログラム命令をロードしているコンピュータ読み取り可能な記憶媒体を含むことができる。

コンピュータ読み取り可能な記憶媒体は、命令実行デバイスによって用いられる命令を保持及び記憶することができる有形デバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス又は上記のデバイスの任意の適切な組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリースティック、フロッピーディスク、機械的コーディングデバイス、例えば命令を記憶しているパンチカード又は溝内突出構造、及び上記のいずれかの適切な組み合わせを含む。ここで用いられるコンピュータ読み取り可能な憶媒体は、無線電波又は他の自由に伝播する電磁波、導波路又は他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを通る光パルス）、又は電線を介して伝送される電気信号などの瞬時信号そのものとして解釈されるべきではない。

ここで説明されるコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から各コンピューティング／処理デバイスにダウンロードされてもよく、又はインターネット、ローカルエリアネットワーク、広域ネットワーク及び／又はワイヤレスネットワークなどのネットワークを介して外部コンピュータ又は外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバーを含むことができる。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、各コンピューティング／プロセッシングデバイスのコンピュータ読み取り可能な記憶媒体に記憶するために当該コンピュータ読み取り可能なプログラム命令を転送する。

本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、器械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたはターゲットコードであってもよく、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト向けプログラミング言語、及び「Ｃ」言語などの従来の手続き型プログラミング言語又は類似するプログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、ユーザのコンピュータで完全に実行されたり、ユーザのコンピュータで部分的に実行されたり、１つの独立したソフトウェアパッケージとして実行されたり、ユーザのコンピュータで部分的に実行されたり、遠隔のコンピュータで部分的に実行されたり、又は遠隔のコンピュータ又はサーバーで完全に実行されたりすることができる。遠隔のコンピュータに係る場合、遠隔のコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい（例えばインターネットサービスプロバイダーによってインターネットを介して接続される）。一部の実施例では、コンピュータ読み取り可能なプログラム命令の状態人員情報を用いて、電子回路、例えばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブルロジックアレイ（ＰＬＡ）をパーソナライズしてカスタマイズすることにより、当該電子回路がコンピュータ読み取り可能なプログラム命令を実行できるため、本開示の様々な態様が実現される。

ここで本開示の各態様は、本開示の実施例による方法、装置（システム）とコンピュータプログラム製品のフローチャート及び／又はブロック図を参照して説明される。フローチャート及び／又はブロック図の各ブロック、並びにフローチャート及び／又はブロック図の各ブロックの組み合わせがすべてコンピュータ読み取り可能なプログラム命令によって実現されてもよいことを理解すべきである。

これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサに提供されてもよく、これにより、これらの命令がコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行される場合、フローチャート及び／又はブロック図の１つ又は複数のブロックで規定された機能／動作を実現するデバイスを生じるように、マシンが生じる。これらのコンピュータ読み取り可能なプログラム命令をコンピュータ読み取り可能な記憶媒体に記憶することができ、これらの命令により、コンピュータ、プログラマブルデータ処理装置及び／又は他のデバイスが特定の方式で動作し、これにより、命令を記憶しているコンピュータ読み取り可能な媒体は、一つの製品を含み、その製品は、フローチャート及び／又はブロック図の１つ又は複数のブロックで規定された機能／動作の各態様を実現する命令を含む。

コンピュータ読み取り可能なプログラム命令をコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードすることもでき、これにより、コンピュータ、他のプログラマブルデータ処理装置又は他のデバイスで一連の操作ステップを実行して、コンピュータで実現されるプロセスを生成し、それによってコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスで実行される命令により、フローチャート及び／又はブロック図の１つ又は複数のブロックで規定された機能／動作が実現される。

図面におけるフローチャート及びブロック図には本開示の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能と操作が示されている。この点において、フローチャート又はブロック図の各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができ、前記モジュール、プログラムセグメント又は命令の一部は、所定の論理機能を実現するための１つ又は複数の実行可能な命令を含む。いくつかの代替実現では、ブロックで表記された機能は、図面で表記されたものとは異なる順序で発生することもできる。例えば、２つの連続するブロックは、実際には基本的に並行して実行されてもよく、それらは、関連する機能によって逆の順序で実行されてもよい場合もある。注意すべきこととして、ブロック及び／又はフローチャートの各ブロック、及びブロック及び／又はフローチャートのブロックの組み合わせは、所定の機能又は動作を実行するための専用の、ハードウェアに基づくシステムで実現されてもよく、又は専用ハードウェアとコンピュータ命令の組み合わせで実現されてもよい。

以上に本開示の各実施例について説明したが、上記の説明は、例示的であり、網羅的ではなく、かつ開示される各実施例に限定されない。説明される各実施例の範囲及び精神から逸脱することなく、多くの修正及び変更は、当業者にとって明らかである。本明細書で用いられている用語の選択は、各実施例の原理、実際の応用又は市場における技術に対する改善を最もよく解釈すること、又は当業者が本明細書で開示される各実施例を理解することを可能にすることを目的とする。

Claims

ビデオ処理方法であって、
ビデオを取得することであって、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むことと、
前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも１種類の学習行動を検出することと、
前記ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、前記少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又は前記ターゲットオブジェクトが前記少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することと、を含むことを特徴とする、ビデオ処理方法。
前記学習行動は、少なくとも１種類のターゲットジェスチャーを実行すること、ターゲット情緒を表現すること、前記ティーチングコースの展示領域に注目すること、他のオブジェクトとの少なくとも１種類のインタラクション行動を実行すること、前記ビデオ内の少なくとも一部のビデオフレームに現れないこと、目を閉じること、及び前記ティーチングコースの展示領域でのアイコンタクト、のうちの少なくとも１種類を含むことを特徴とする
請求項１に記載の方法。
前記ビデオに基づいて、前記ターゲットオブジェクトの少なくとも１種類の学習行動を検出することは、
前記ビデオに対してターゲットオブジェクトの検出を行い、前記ターゲットオブジェクトを含むビデオフレームを取得することと、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うことと、を含むことを特徴とする
請求項１又は２に記載の方法。
前記学習行動は、少なくとも１種類のターゲットジェスチャーを実行することを含み、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うことは、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類のターゲットジェスチャーの検出を行うことと、
少なくとも１種類の前記ターゲットジェスチャーを含む、連続するビデオフレームの数が第１閾値を超えることを検出した場合、前記ターゲットジェスチャーを含むビデオフレーム内の少なくとも１フレームをジェスチャー開始フレームとして記録することと、
ジェスチャー開始フレームの後のビデオフレームのうち、前記ターゲットジェスチャーがない連続するビデオフレームの数が第２閾値を超える場合、前記ターゲットジェスチャーがないビデオフレームのうちの少なくとも１フレームをジェスチャー終了フレームとして記録することと、
前記ジェスチャー開始フレームと前記ジェスチャー終了フレームの数に基づいて、前記ビデオ内の前記ターゲットオブジェクトが少なくとも１種類のターゲットジェスチャーを実行する回数及び／又は時間を確定することと、を含むことを特徴とする
請求項３に記載の方法。
前記学習行動は、ターゲット情緒を表現することを含み、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うことは、
前記ターゲットオブジェクトを含むビデオフレームに対して表情検出及び／又は微笑値検出を行うことと、
ビデオフレーム内の前記ターゲットオブジェクトが少なくとも１種類の第１ターゲット表情を示すこと又は微笑値の検出結果がターゲット微笑値を超えることを検出した場合、検出されたビデオフレームを第１検出フレームとして用いることと、
連続する前記第１検出フレームの数が第３閾値を超えることを検出した場合、前記ターゲットオブジェクトが前記ターゲット情緒を生み出したことを確定することと、を含むことを特徴とする
請求項３又は４に記載の方法。
前記学習行動は、前記ティーチングコースの展示領域に注目することを含み、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも１種類の学習行動の検出を行うことは、
前記ターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行うことと、
ビデオフレーム内の前記ターゲットオブジェクトが少なくとも１種類の第２ターゲット表情を示しかつ顔角度がターゲット顔角度範囲内にあることを検出した場合、検出されたビデオフレームを第２検出フレームとして用いることと、
連続する前記第２検出フレームの数が第４閾値を超えることを検出した場合、前記ターゲットオブジェクトが前記ティーチングコースの展示領域に注目することを確定することと、を含むことを特徴とする
請求項３乃至５のいずれか一項に記載の方法。
前記少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレームに基づいて、学習状態情報を生成することは、
前記ビデオフレームのうちの少なくとも１種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得することと、
前記ターゲットビデオフレームセット内の少なくとも１つのビデオフレームに対して顔の品質の検出を行い、顔の品質が顔品質閾値よりも大きいビデオフレームをターゲットビデオフレームとして用いることと、
前記ターゲットビデオフレームに基づいて、前記学習状態情報を生成することと、を含むことを特徴とする
請求項１乃至６のいずれか一項に記載の方法。
前記ターゲットビデオフレームに基づいて、前記学習状態情報を生成することは、
前記ターゲットビデオフレーム内の少なくとも１フレームを学習状態情報として用いること、及び／又は、
少なくとも１フレームの前記ターゲットビデオフレームにおける前記ターゲットオブジェクトの位置する領域を識別し、前記ターゲットオブジェクトの位置する領域に基づいて、前記学習状態情報を生成することを含むことを特徴とする
請求項７に記載の方法。
前記ビデオに基づいて、前記ターゲットオブジェクトの少なくとも１種類の学習行動を検出することは、
前記ビデオに対してターゲットオブジェクトの検出を行い、前記ターゲットオブジェクトを含むビデオフレームを取得し、前記ビデオ内の、前記ターゲットオブジェクトを含むビデオフレーム以外のビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用いることと、
ターゲットオブジェクトが検出されない前記ビデオフレームの数が予め設定されたビデオフレーム数を超える場合、前記学習行動が前記ビデオ内の少なくとも一部のビデオフレームに現れないとの行動を含むことを検出することと、を含むことを特徴とする
請求項１又は２に記載の方法。
前記ターゲットオブジェクトが前記少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することは、
前記ターゲットオブジェクトが少なくとも１種類の学習行動を実行する時間が時間閾値以上であることを検出した場合、少なくとも１種類の前記学習行動の持続時間を記録することと、
少なくとも１種類の前記学習行動に対応する前記持続時間を前記学習状態情報として用いることと、を含むことを特徴とする
請求項１乃至９のいずれか一項に記載の方法。
前記方法は、
前記ビデオ内の少なくとも一部のビデオフレームの背景領域をレンダリングすることであって、ここで、前記背景領域は、前記ビデオフレーム内の前記ターゲットオブジェクト以外の領域であることをさらに含むことを特徴とする
請求項１乃至１０のいずれか一項に記載の方法。
前記方法は、
少なくとも１つの前記ターゲットオブジェクトの学習状態情報を統計して、少なくとも１つの前記ターゲットオブジェクトの統計結果を得ることと、
少なくとも１つの前記ターゲットオブジェクトの統計結果に基づいて、学習状態統計データを生成することとをさらに含むことを特徴とする
請求項１乃至１１のいずれか一項に記載の方法。
少なくとも１つの前記ターゲットオブジェクトの統計結果に基づいて、学習状態統計データを生成することは、
少なくとも１つの前記ターゲットオブジェクトが属するカテゴリに基づいて、少なくとも１つの前記カテゴリに含まれるターゲットオブジェクトの統計結果を取得し、少なくとも１つのカテゴリの学習状態統計データを生成することであって、ここで、前記ターゲットオブジェクトが属するカテゴリは、前記ターゲットオブジェクトが参加したコース、前記ターゲットオブジェクトが登録した機関及び前記ターゲットオブジェクトが用いるデバイスのうちの少なくとも１種類を含むこと、及び／又は、
少なくとも１つの前記ターゲットオブジェクトの統計結果に対して可視化処理を行い、少なくとも１つの前記ターゲットオブジェクトの学習状態統計データを生成することを含むことを特徴とする
請求項１２に記載の方法。
ビデオ処理装置であって、
ビデオを取得するように構成され、ここで、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むビデオ取得モジュールと、
前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも１種類の学習行動を検出するように構成される検出モジュールと、
前記ターゲットオブジェクトが少なくとも１種類の学習行動を実行していることを検出した場合、前記少なくとも１種類の学習行動を少なくとも部分的に含むビデオフレーム及び／又は前記ターゲットオブジェクトが前記少なくとも１種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュールと、を備えることを特徴とする、ビデオ処理装置。
電子デバイスであって、
プロセッサと、
プロセッサが実行可能な命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリに記憶されている命令を呼び出して請求項１乃至１２のいずれか一項に記載の方法を実行するように構成されることを特徴とする、電子デバイス。
コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、請求項１乃至１３のいずれか一項に記載の方法が実現される、コンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが電子デバイスで実行される場合、前記電子デバイスにおけるプロセッサは、請求項１乃至１３のいずれか一項に記載の方法を実現するように実行する、コンピュータプログラム。