JP2022537475A - ビデオ処理方法及び装置、電子デバイスと記憶媒体 - Google Patents
ビデオ処理方法及び装置、電子デバイスと記憶媒体 Download PDFInfo
- Publication number
- JP2022537475A JP2022537475A JP2021538705A JP2021538705A JP2022537475A JP 2022537475 A JP2022537475 A JP 2022537475A JP 2021538705 A JP2021538705 A JP 2021538705A JP 2021538705 A JP2021538705 A JP 2021538705A JP 2022537475 A JP2022537475 A JP 2022537475A
- Authority
- JP
- Japan
- Prior art keywords
- target object
- video
- target
- learning
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 230000006399 behavior Effects 0.000 claims abstract description 190
- 238000000034 method Methods 0.000 claims abstract description 156
- 238000001514 detection method Methods 0.000 claims description 200
- 230000008569 process Effects 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 48
- 230000008451 emotion Effects 0.000 claims description 42
- 230000008921 facial expression Effects 0.000 claims description 42
- 230000003993 interaction Effects 0.000 claims description 38
- 210000001508 eye Anatomy 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 18
- 238000009877 rendering Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000012800 visualization Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 210000005252 bulbus oculi Anatomy 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 241001310793 Podium Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000011895 specific detection Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本開示は、ビデオ処理方法及び装置、電子デバイスと記憶媒体に関する。前記方法は、ビデオを取得することであって、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むことと、前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出することと、前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又は前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することと、を含む。【選択図】図1
Description
(関連出願への相互参照)
本開示は、2020年5月22日に中国特許庁に提出された、出願番号が202010442733.6であり、出願名称が「ビデオ処理方法及び装置、電子デバイスと記憶媒体」である中国特許出願に基づいて優先権を主張し、その全ての内容が参照により本開示に組み込まれる。
本開示は、2020年5月22日に中国特許庁に提出された、出願番号が202010442733.6であり、出願名称が「ビデオ処理方法及び装置、電子デバイスと記憶媒体」である中国特許出願に基づいて優先権を主張し、その全ての内容が参照により本開示に組み込まれる。
本開示は、コンピュータ視覚分野に関し、特にビデオ処理方法及び装置、電子デバイスと記憶媒体に関する。
ティーチングプロセスでは、教師が授業のために精力を集中する必要があるため、機関又は教師は、学生の受講状態を把握することが困難であり、親も学校での学生の表現を理解することができない。学生が本当に授業を受けているか否か及び真剣に受講しているか否か、教室内のインタラクティブ表現が如何であるかは、すべて定量的に評価できない。
したがって、どのようにティーチング品質を保証するとともに、ティーチングプロセスでの各学生の学習状態を把握するかは、現在の解決すべき問題となっている。
本開示は、ビデオ処理のソリューションを提供する。
本開示の一態様によるビデオ処理方法は、
ビデオを取得することであって、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むことと、前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出することと、前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又は前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することと、を含む。
ビデオを取得することであって、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むことと、前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出することと、前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又は前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することと、を含む。
本開示の一態様によるビデオ処理装置は、
ビデオを取得するように構成され、ここで、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むビデオ取得モジュールと、
前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出するように構成される検出モジュールと、
前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又は前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュールと、を備える。
ビデオを取得するように構成され、ここで、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むビデオ取得モジュールと、
前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出するように構成される検出モジュールと、
前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又は前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュールと、を備える。
本開示の一態様による電子デバイスは、
プロセッサと、プロセッサが実行可能な命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、上記のビデオ処理方法を実行するように構成される。
プロセッサと、プロセッサが実行可能な命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、上記のビデオ処理方法を実行するように構成される。
本開示の一態様によるコンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラム命令がプロセッサによって実行されると、上記のビデオ処理方法が実現される。
本開示の一態様によるコンピュータプログラムは、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子デバイスで実行される場合、前記電子デバイスにおけるプロセッサが上記のビデオ処理方法を実現するように実行する。
本開示の実施例では、ターゲットオブジェクトの少なくとも1種類の学習行動が検出された場合、学習行動を含むビデオフレームを用いて直感的な学習状態情報を生成し、また、学習行動の持続時間に基づいて、定量的な学習状態情報を生成することができ、上記の方式により、評価値付きの学習状態情報を柔軟に得ることができ、教師又は親などの関係者や機関が学生の学習状態を効果的かつ正確に把握することに便利である。
以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本開示を制限するものではないことを理解すべきである。以下の図面に基づく例示的な実施例への詳細な説明によれば、本開示の他の特徴及び態様は明らかになる。
ここでの添付図面は本明細書に組み込まれて本明細書の一部を構成し、これらの図面は、本開示と一致する実施例を示し、明細書と共に本開示の技術案を説明することに用いられる。
以下に図面を参照しながら本開示の各種の例示的な実施例、特徴と態様を詳しく説明する。図面における同じ符号は、機能が同じ又は類似する素子を表す。図面に実施例の様々な態様が示されているが、特に指摘しない限り、図面は一定の比例で描かれる必要はない ここで用語「例示的」は、「例、実施例又は説明のために使用する」という意味である。ここで「例示的」として説明されるいかなる実施例は、他の実施例よりも好ましく又は有利なものと解釈される必要はない。
本明細書では「及び/又は」という用語は、関連付けられたオブジェクトの関連関係を説明するためのものだけであり、3種類の関係が存在できることを示し、例えば、A及び/又はBは、Aが単独で存在すること、A及びBが同時に存在すること、Bが単独で存在することの3つの状況を示すことができる。また、本明細書では「少なくとも1種類」という用語は、複数種類のうちのいずれか1種類又は複数種類のうちの少なくとも2種類の任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1種類を含むことは、A、BとCからなるセットから選択された任意の1つ又は複数の要素を含むことを示すことができる。
また、本開示をより良く説明するために、以下の具体的な実施形態において多くの詳細が示されている。当業者は、いくつかの詳細がなくても、本開示が同様に実施できることを理解すべきである。一部の実施例では、本開示の要旨を明らかにするように、当業者がよく知っている方法、手段、素子と回路を詳細に説明しない。
図1は本開示の一実施例によるビデオ処理方法を示すフローチャートである。当該方法は、ビデオ処理装置に適用することができ、ビデオ処理装置は、端末デバイス、サーバー又は他の処理デバイスなどであってもよい。ここで、端末デバイスは、ユーザデバイス(UE:User Equipment)、移動デバイス、ユーザ端末、端末、セルラー電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載デバイス、ウェアラブルデバイスなどであってもよい。一例では、当該データ処理方法は、クラウドサーバー又はローカルサーバーに適用でき、クラウドサーバーは、パブリッククラウドサーバーであってもよいし、プライベートクラウドサーバーであってもよく、実際の状況に応じて柔軟に選択さればいい。
一部の可能な実現方式では、当該ビデオ処理方法は、プロセッサがメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことで実現されてもよい。
図1に示すように、1つの可能な実現方式では、前記ビデオ処理方法は、以下のステップを含む。
ステップS11において、ビデオを取得し、ここで、ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含む。
ステップS12において、ビデオに基づいて、ティーチングコースを視聴しているプロセスにおけるターゲットオブジェクトの少なくとも1種類の学習行動を検出する。
ステップS13において、ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又はターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成する。
ここで、ターゲットオブジェクトは、学習状態情報が取得される任意のオブジェクト、即ち学習状態評価が要求されるオブジェクトであってもよく、その具体的な実現形態は、実際の状況に応じて柔軟に確定されてもよい。1つの可能な実現方式では、ターゲットオブジェクトは、学生、例えば小学生、中学生又は大学生などであってもよく、1つの可能な実現方式では、ターゲットオブジェクトは、職業教育及びトレーニングに参加する成人、又は高齢大学で学ぶ高齢者など研修している成人であってもよい。
本開示の実施例では、ビデオは、ターゲットオブジェクトがティーチングコースを視聴するプロセスで録画したビデオであってもよく、ここで、ティーチングコースの実現形態は限定されず、予め録画されたコースビデオであってもよいし、ライブコースであってもよく、又は教師がその場で授業するコースなどであってもよく、ビデオ内の少なくとも一部のビデオフレームは、ターゲットオブジェクトを含むことができ、即ち録画されたビデオ内のターゲットオブジェクトの出現状況は実際の状況に応じて柔軟に決定されてもよい。1つの可能な実現方式では、ターゲットオブジェクトは、常にビデオ内にいることができ、1つの可能な実現方式では、ターゲットオブジェクトは、ある時点又はある期間においてビデオフレーム内に現れないことなどもできる。
ターゲットオブジェクトがティーチングコースを視聴するというシーンは、実際の状況に応じて柔軟に決定されてもよく、1つの可能な実現方式では、このシーンは、オンラインシーンであってもよく、即ちターゲットオブジェクトは、ネットワーク教室などのオンライン教育方式でティーチングコースを視聴することなどがあり、1つの可能な実現方式では、このシーンは、オフラインシーンであってもよく、即ちターゲットオブジェクトは、教師がその場で教えているティーチングコースを伝統的な面対面授業方式で視聴し、又はターゲットオブジェクトは、教室などの特定の教学場所で、ビデオ又は他のマルチメディア形態で再生されたティーチングコースを視聴することなどがある。
ビデオの具体的な実現形態は、ビデオ処理方法の適用シーンに応じて柔軟に決定されてもよい。1つの可能な実現方式では、ビデオは、ターゲットオブジェクトがオンライン教室で学習するプロセスでリアルタイムに録画したビデオ、又はターゲットオブジェクトが教室で授業を受けるプロセスで、教室に配置されたカメラで収集したリアルタイムなビデオなどのリアルタイムなビデオであってもよく、1つの可能な実現方式では、ビデオは、ターゲットオブジェクトがオンライン教室で学習した後に録画した、ターゲットオブジェクトが学習する再生ビデオ、又はターゲットオブジェクトが教室で授業を受けた後に、教室に配置されたカメラで収集した完全な教室学習ビデオなどの録画ビデオであってもよい。
説明を容易にするために、後続の各々の開示される実施例は、ビデオが、ターゲットオブジェクトがオンライン教室で学習するプロセスでリアルタイムに録画したビデオであることを例として、ビデオ処理プロセスを説明する。他の応用シーンにおけるビデオ処理プロセスについて、後続の各々の開示される実施例を参照して柔軟に拡張することができ、ここでは説明を省略する。
ステップS11で上記の各々の実施例に記載されたビデオを取得した後、ステップS112で、ティーチングコースを視聴するプロセスでのターゲットオブジェクトの少なくとも1種類の学習行動を検出することができる。ここで、検出された学習行動の種類及び数は、実際の状況に応じて柔軟に決定されてもよく、下記の各々の開示される実施例に限定されない。1つの可能な実現方式では、ターゲットオブジェクトが実行する学習行動は、少なくとも1種類のターゲットジェスチャーを実行すること、ターゲット情緒を表現すること、ティーチングコースの展示領域に注目すること、他のオブジェクトとの少なくとも1種類のインタラクション行動を生成すること、ビデオ内の少なくとも一部のビデオフレームに現れないこと、目を閉じること、及びティーチングコースの展示領域でのアイコンタクトのうちの少なくとも1種類を含むことができる。
ここで、ターゲットジェスチャーは、ターゲットオブジェクトがティーチングコースを視聴しているプロセスにおいて発生する可能性のあるいくつかの予め設定されたジェスチャーを反映するものであってもよく、その具体的な実現形態は、実際の状況に応じて柔軟に設定されてもよく、詳細は、後文に開示される各実施例を参照するので、ここでは詳しく説明しない。
ターゲット情緒は、ターゲットオブジェクトがティーチングコースを視聴するプロセスでティーチングコースに対する実感を反映するいくつかの情緒であってもよく、その具体的な実現形態は、同様に実際の状況に応じて柔軟に設定されてもよく、ここでは詳しく説明しない。
ティーチングコースの展示領域に注目することは、ティーチングコースを視聴するプロセスでのターゲットオブジェクトの注目度を体現することができ、ここで、展示領域の具体的な領域範囲は、実際の状況に応じて柔軟に設定されてもよく、下記の各々の開示される実施例に限定されない。1つの可能な実現方式では、展示領域は、オンライン教室でのティーチングコースビデオの展示領域であってもよく、例えば、学生がコンピュータ、携帯電話又はタブレットなどの端末デバイスでオンラインで学習するプロセスにおいて、展示領域は、これらの端末デバイスのティーチングコースを再生するスクリーンなどであってもよく、1つの可能な実現方式では、展示領域は、オフライン教室での教師の授業領域、例えば教室内の教壇又は黒板などの位置であってもよい。
他のオブジェクトとの少なくとも1種類のインタラクション行動は、ターゲットオブジェクトがティーチングコースを視聴するプロセスでのティーチングコースにおける関連する他のオブジェクトとの学習に関連するインタラクションであってもよく、ここで、他のオブジェクトの実現形態は、実際の状況に応じて柔軟に決定されてもよく、1つの可能な実現形態では、他のオブジェクトは、授業オブジェクト、例えば教師などであってもよく、1つの可能な実現形態では、他のオブジェクトは、ティーチングプロセスでのターゲットオブジェクト以外の学習オブジェクト、例えばターゲットオブジェクトの同学などであってもよく、他のオブジェクトとのインタラクション行動は、オブジェクトによって柔軟に変化することができ、1つの可能な実現方式では、他のオブジェクトが授業教師である場合、他のオブジェクトとのインタラクションは、教師が与える小さな赤い花を受け取ったり、名前で褒めたりするなどの教師が与える奨励を受け取ることを含むことができ、1つの可能な実現方式では、他のオブジェクトが授業教師である場合、他のオブジェクトとのインタラクションは、教師の質問に答えたり、教師の点呼に合わせて発言したりすることなどを含むことができ、1つの可能な実現方式では、他のオブジェクトが同学である場合、他のオブジェクトとのインタラクションは、グループ協力、グループ検討又はグループ学習などを含むことができる。
ビデオ内の少なくとも一部のビデオフレームに現れないことは、学習オブジェクトがある時点又はある期間においてティーチングコースを離れることなどであってもよく、例えば、ターゲットオブジェクトがオンラインで学習するプロセスでは、個人的な理由で現在のオンライン学習デバイスを離れたり、現在のオンライン学習デバイスの撮影範囲を離れたりすることなどがある。
目を閉じることは、ターゲットオブジェクトがティーチングコースを視聴するプロセスで目を閉じる操作であってもよく、ティーチングコースの展示領域でのアイコンタクトは、ティーチングコースの展示領域を見ることであってもよく、それに応じて、ビデオ内の、ティーチングコースの展示領域でのターゲットオブジェクトのアイコンタクトの状況に応じて、ターゲットオブジェクトがティーチングコースの展示領域を見ていないことなどをさらに確定することもできる。
上記の開示された実施例に記載された様々な学習行動により、ターゲットオブジェクトの学習プロセスに対して全面的かつ柔軟な行動検出を行うことができ、それによって、検出により得られる学習状態情報の全面性と正確性を向上させ、ターゲットオブジェクトの学習状態をより柔軟かつ正確に把握する。
具体的には、ステップS12で上記の開示された実施例における様々な学習行動に対してどの種類又はどのいくつかの種類の検出を実行するかは、実際の状況に応じて柔軟に設定されてもよい。1つの可能な実現方式では、上記の開示された実施例に記載された各種類の学習行動を同時に検出することができ、具体的な検出方式及びプロセスについては下記に開示される各実施例を詳細に参照することができ、ここでは詳しく説明しない。
ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又はターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することができる。ここで、学習状態情報の具体的な実現形態は、学習行動の種類、及びそれに対応して実行される操作に応じて柔軟に決定されてもよい。1つの可能な実現方式では、少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレームに基づいて学習状態情報を生成する場合、学習状態情報は、ビデオフレームからなる情報を含むことができ、1つの可能な実現方式では、ターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づく場合、学習状態情報は、デジタル形態のデータ情報であってもよく、1つの可能な実現方式では、学習状態情報は、ビデオフレーム情報とデータ情報の2つの形態の情報を同時に含むことができ、1つの可能な実現方式では、学習状態情報は、他の状態の情報などを含むこともできる。具体的には、どのように学習状態情報を生成するか、及び学習状態情報の実現形態については、後文に開示される各実施例を参照することができ、ここでは詳しく説明しない。
本開示の実施例では、ターゲットオブジェクトの少なくとも1種類の学習行動が検出された場合、学習行動を含むビデオフレームを用いて直感的な学習状態情報を生成し、及び学習行動の持続時間に基づいて、定量的な学習状態情報を生成することができ、上記の方式により、評価値付きの学習状態情報を柔軟に得ることができ、教師又は親などの関係者や機関が学生の学習状態を効果的かつ正確に把握することに便利である。
上記の開示された実施例に記載されるように、ビデオは、ターゲットオブジェクトがティーチングコースを視聴しているプロセスに録画したビデオであり、ターゲットオブジェクトがティーチングコースを視聴するシーンは、実際の状況に応じて柔軟に決定されてもよく、したがって、それに応じて、ステップS11におけるビデオを取得する方式はシーンによって柔軟に変化することができる。1つの可能な実現方式では、ターゲットオブジェクトがティーチングコースを視聴するシーンはオンラインシーンである場合、即ちターゲットオブジェクトがオンライン教室によってティーチングコースを視聴することができる場合、ビデオを取得する方式は、ビデオ処理装置とターゲットオブジェクトがオンライン学習を行うデバイスが同じ装置である場合に、ターゲットオブジェクトがオンライン学習を行うデバイスによって、ターゲットオブジェクトがティーチングコースを視聴しているプロセスに対してビデオ収集を行うこと、ビデオ処理装置とターゲットオブジェクトがオンライン学習を行うデバイスが異なる装置である場合に、ターゲットオブジェクトがオンライン学習を行うデバイスによって、ターゲットオブジェクトがティーチングコースを視聴しているプロセスに対してビデオ収集を行い、リアルタイム及び/又は非リアルタイムでビデオ処理装置に伝送すること、を含むことができる。1つの可能な実現方式では、ターゲットオブジェクトがティーチングコースを視聴するシーンがオフラインシーンである場合、即ちターゲットオブジェクトが面対面授業に参加する場合又は特定のティーチングシーンでティーチングコースを視聴するなどの場合、ビデオを取得する方式は、オフラインで配置された画像収集デバイス(例えば一般的なカメラ、セキュリティニーズに応じて配置された撮影デバイスなど)によってターゲットオブジェクトのビデオを収集することを含むことができる。さらに、オフラインで配置された画像収集デバイスがビデオ処理を行い、即ちビデオ処理装置として用いられる可能な場合、ステップS11でのビデオを取得するプロセスは既に完了され、オフラインで配置された画像収集デバイスがビデオ処理を行う可能でない場合、オフラインで配置された画像収集デバイスで収集されたビデオをビデオ処理装置にリアルタイム及び/又は非リアルタイムで伝送することができる。
上記の開示された各実施例に記載されるように、ステップS12でターゲットオブジェクトに対して学習行動の検出を行う方式は、実際の状況に応じて柔軟に決定されてもよい。1つの可能な実現方式では、ステップS12は、以下のステップを含むことができる。
ステップS121において、ビデオに対してターゲットオブジェクトの検出を行い、ターゲットオブジェクトを含むビデオフレームを得る。
ステップS122において、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行う。
上記の開示された実施例から、1つの可能な実現方式において、ビデオに対してターゲットオブジェクトの検出を行うことで、ビデオのうちのターゲットオブジェクトを含むビデオフレームを確定することができることがわかる。どのビデオフレームにターゲットオブジェクトが含まれるかを確定した後、ターゲットオブジェクトを含むビデオフレーム内のターゲットオブジェクトに対して、少なくとも1種類の学習行動の検出を行うことができる。
ここで、ターゲットオブジェクトの検出方式は、実際の状況に応じて柔軟に決定されてもよく、下記の実施例に限定されない。1つの可能な実現方式では、顔検出又は顔追跡などの方式により、ビデオ内のターゲットオブジェクトを検出することができる。1つの可能な実現方式では、顔検出又は顔追跡などの方式によりビデオフレームを検出した後、複数のオブジェクトが検出される可能性があり、この場合、検出した顔画像をさらにスクリーニングし、1つ又は複数のオブジェクトをターゲットオブジェクトとして選定することができ、具体的なスクリーニング方式は、実際の状況に応じて柔軟に設定されてもよく、本開示の実施例で限定されない。
1つの可能な実現方式では、ターゲットオブジェクトを含むビデオフレームが得られた後、ステップS122により、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うことができる。ステップS122の実現方式は、学習行動によって柔軟に変化することができ、詳細は、以下に開示される各実施例を参照するので、ここでは詳しく説明しない。ターゲットオブジェクトの複数種類の学習行動を検出する必要がある場合、複数種類の方式を同時に用いて組み合わせて、複数種類の学習行動の検出を実現することができる。
1つの可能な実現方式では、ビデオに対してターゲットオブジェクトの検出を行った後、ティーチングコースを視聴しているプロセスにおけるターゲットオブジェクトの学習行動への検出を完了させることができる。即ち、ビデオに対してターゲットオブジェクトの検出を行うことにより、上記の開示された実施例に記載されたビデオ内の少なくとも一部のビデオフレーム内に現れないという学習行動を確定することができる。さらに、ターゲットオブジェクトが検出されていないビデオフレームによって学習状態情報を得て、又はターゲットオブジェクトが検出されていないビデオフレームによって、ターゲットオブジェクトがビデオ内の少なくとも一部のビデオフレームに現れない時間を学習状態情報として統計する。
本開示の実施例では、ビデオに対してターゲットオブジェクトの検出を行うことにより、ターゲットオブジェクトを含むビデオフレームを得て、また、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行い、上記のプロセスを通じて、ビデオに対するターゲットオブジェクトの検出により、ターゲットオブジェクトの少なくとも1種類の学習行動をより意図的に検出することができ、それによって、学習行動の検出がより正確になり、後続の得られた学習状態情報の正確性と信頼性がさらに向上させる。
上記に開示された各実施例に記載されるように、ステップS122の実現方式は、学習行動によって柔軟に変化することができる。1つの可能な実現方式では、学習行動は、少なくとも1種類のターゲットジェスチャーを実行することを含むことができる。
この場合、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うことは、
ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類のターゲットジェスチャーの検出を行うことと、
少なくとも1種類のターゲットジェスチャーを含む、連続するビデオフレームの数が第1閾値を超えることを検出した場合、ターゲットジェスチャーを含むビデオフレーム内の少なくとも1フレームをジェスチャー開始フレームとして記録することと、
ジェスチャー開始フレームの後のビデオフレームのうち、ターゲットジェスチャーがない連続するビデオフレームの数が第2閾値を超える場合、ターゲットジェスチャーがないビデオフレームのうちの少なくとも1フレームをジェスチャー終了フレームとして記録することと、
ジェスチャー開始フレームとジェスチャー終了フレームの数に基づいて、ビデオ内の前記ターゲットオブジェクトが少なくとも1種類のターゲットジェスチャーを実行する回数及び/又は時間を確定することと、を含むことができる。
ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類のターゲットジェスチャーの検出を行うことと、
少なくとも1種類のターゲットジェスチャーを含む、連続するビデオフレームの数が第1閾値を超えることを検出した場合、ターゲットジェスチャーを含むビデオフレーム内の少なくとも1フレームをジェスチャー開始フレームとして記録することと、
ジェスチャー開始フレームの後のビデオフレームのうち、ターゲットジェスチャーがない連続するビデオフレームの数が第2閾値を超える場合、ターゲットジェスチャーがないビデオフレームのうちの少なくとも1フレームをジェスチャー終了フレームとして記録することと、
ジェスチャー開始フレームとジェスチャー終了フレームの数に基づいて、ビデオ内の前記ターゲットオブジェクトが少なくとも1種類のターゲットジェスチャーを実行する回数及び/又は時間を確定することと、を含むことができる。
上記の開示された実施例から、学習行動が少なくとも1種類のターゲットジェスチャーを実行することを含む場合、ターゲットオブジェクトのビデオフレームに対して行われる学習行動の検出は、ターゲットジェスチャーの検出を含むことができることがわかる。
ここで、ターゲットジェスチャーが具体的にどのジェスチャーを含むかは、実際の状況に応じて柔軟に設定されてもよく、下記の開示された実施例に限定されない。例示的に、ターゲットジェスチャーは、挙手ジェスチャー、賞讃ジェスチャー、OKジェスチャー及び勝利ジェスチャーの1種類又は複数種類を含む。
1つの可能な実現方式では、ターゲットジェスチャーは、ティーチングコースを視聴するプロセスで、ターゲットオブジェクトが受講状況に応じて反映した、学習に関連するジェスチャー、例えば質問に答えるための挙手ジェスチャー、授業内容又は授業教師に対する賞讃を表すための賞讃ジェスチャー(親指を立てるなど)、授業内容に対する理解又は賛同を表すためのOKジェスチャー及び授業教師とのインタラクションを行うための勝利ジェスチャー(例えばYeahジェスチャーなど)などを含むことができる。
具体的には、ターゲットオブジェクトを含むビデオフレームに対する少なくとも1種類のターゲットジェスチャーの検出方式は、実際の状況に応じて柔軟に決定されてもよく、下記の実施例に限定されない。1つの可能な実現方式では、ジェスチャー識別の関連アルゴリズムにより、ターゲットジェスチャーの検出を実現することができ、例えば、ビデオフレームにおけるターゲットオブジェクトの手部のキーポイント又は手部検出ブロックに対応する画像領域を識別することができ、手部のキーポイント又は手部検出ブロックに対応する画像領域に基づいてジェスチャー検出を行い、ジェスチャー検出結果に基づいてターゲットオブジェクトがターゲットジェスチャーを実行しているか否かを確定する。1つの可能な実現方式では、ジェスチャー検出機能を備えたニューラルネットワークによりターゲットジェスチャーの検出を実現することができる。ジェスチャー検出機能を備えたニューラルネットワークの具体的な構造及び実現方式は、実際の状況に応じて柔軟に設定されてもよく、ターゲットジェスチャーが複数種類のジェスチャーを含む場合、1つの可能な実現方式では、ターゲットオブジェクトを含むビデオフレームを、複数のジェスチャーを同時に検出できるニューラルネットワークに入力して、ターゲットジェスチャーの検出を実現することができ、1つの可能な実現方式では、ターゲットオブジェクトを含むビデオフレームを、単一のジェスチャー検出機能を備えた複数のニューラルネットワークにそれぞれ入力して、複数のターゲットジェスチャーの検出を実現することもできる。
上記に開示された任意の実施例によるターゲットジェスチャー検出プロセスでは、少なくとも1種類のターゲットジェスチャーを含む、連続するビデオフレームの数が第1閾値を超えることを検出した場合、ターゲットジェスチャーを含む、これらの連続するビデオフレームから、少なくとも1フレームをタジェスチャー開始フレームとして選定することができる。ここで、第1閾値の数は、実際の状況に応じて柔軟に設定されてもよく、異なるターゲットジェスチャーに対応する第1閾値の数は、同じであってもよいし、異なってもよく、例えば、挙手ジェスチャーに対応する第1閾値は、6に設定されてもよく、賞讃ジェスチャーに対応する第1閾値は、7に設定されてもよく、挙手ジェスチャーを含む、連続するビデオフレームの数が6以上であることを検出した場合、挙手ジェスチャーを含むビデオフレームから、少なくとも1フレームを挙手ジェスチャーのジェスチャー開始フレームとして選定することができ、賞讃ジェスチャーの連続するビデオフレームの数が7以上であることを検出した場合、賞讃ジェスチャーを含むビデオフレームから少なくとも1フレームを賞讃ジェスチャーのジェスチャー開始フレームとして選定することができる。1つの可能な実現方式では、ターゲットジェスチャーの検出を容易にするために、異なるターゲットジェスチャーに対応する第1閾値は、同じ値に設定されてもよく、一例では、第1閾値の数は、6に設定されてもよい。
ジェスチャー開始フレームの選定方式は、同様に実際の状況に応じて柔軟に設定されてもよく、1つの可能な実現方式では、検出された、ターゲットジェスチャーを含む、連続するビデオフレーム内の第1フレームを当該ターゲットジェスチャーのジェスチャー開始フレームとして用いることができ、1つの可能な実現方式では、ジェスチャー検出の誤差を減らすために、検出された、ターゲットジェスチャーを含む、連続するビデオフレーム内の第1フレームの後のあるフレームを当該ターゲットジェスチャーのジェスチャー開始フレームとして用いることもできる。
ジェスチャー開始フレームが確定された後、ジェスチャー開始フレームの後のビデオフレームからジェスチャー終了フレームを確定し、即ちジェスチャー開始フレーム内のターゲットジェスチャーの終了時間を確定することができる。具体的な確定方式は、実際の状況に応じて柔軟に選択されてもよく、下記の開示された実施例に限定されない。1つの可能な実現方式では、ジェスチャー開始フレームを検出した後のビデオフレームのうち、ジェスチャー開始フレーム内のターゲットジェスチャーがない連続するビデオフレームの数が第2閾値を超えることを検出した場合、ターゲットジェスチャーがない連続するビデオフレームのうちの少なくとも1フレームをジェスチャー終了フレームとして記録することができる。ここで、第2閾値の値は、同様に実際の状況に応じて柔軟に設定されてもよく、異なるターゲットジェスチャーに対応する第2閾値の値は、同じでも異なってもよく、具体的な設定方式については第1閾値を参照することができ、ここでは説明を省略する。一例では、異なるターゲットジェスチャーに対応する第2閾値の値は、同じであってもよく、例えば10に設定されてもよく、即ちジェスチャー開始フレームの後に、連続する10フレームにジェスチャー開始フレーム内のターゲットジェスチャーが含まれないことを検出した場合、ターゲットオブジェクトがターゲットジェスチャーの実行を終了すると考えられてもよい。この場合、ターゲットジェスチャーがない連続するビデオフレームから、少なくとも1フレームをジェスチャー終了フレームとして選択することができ、選定方式については同様にジェスチャー開始フレームを参照することができ、一例では、ターゲットジェスチャーがない連続するビデオフレーム内の最後のフレームをジェスチャー終了フレームとして用いることができ、一例では、ターゲットジェスチャーがない連続するビデオフレームのうちの最後のフレームよりも前のあるフレームをジェスチャー終了フレームとして用いることもできる。1つの可能な実現方式では、ジェスチャー開始フレームを検出した後に、ターゲットオブジェクトがないあるフレーム又はいくつかのフレームのビデオフレームが存在すると、ターゲットオブジェクトがないあるフレーム又はいくつかのビデオフレームをジェスチャー終了フレームとして用いることができる。
ジェスチャー開始フレームとジェスチャー終了フレームが確定された後、ビデオフレームに含まれるジェスチャー開始フレームとジェスチャー終了フレームの数に基づいて、ターゲットオブジェクトがあるターゲットジェスチャー又はいくつかのターゲットジェスチャーを実行する回数を確定することができ、さらに、あるターゲットジェスチャー又はいくつかのターゲットジェスチャーを実行する持続時間などを確定することもできる。具体的にどのようなターゲットジェスチャーに関連する内容を確定するかは、ステップS13での学習状態情報のニーズに応じて柔軟に決定されてもよく、詳細は、後続に開示される各実施例を参照するので、ここでは詳しく説明しない。
ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類のターゲットジェスチャーの検出を行い、検出状況に応じてジェスチャー開始フレームとジェスチャー終了フレームを確定することにより、ビデオ内のターゲットオブジェクトが少なくとも1種類のターゲットジェスチャーを実行する回数及び/又は時間をさらに確定し、上記のプロセスにより、ビデオ内のターゲットオブジェクトが学習状態に応じてフィードバックしたジェスチャーに対して全面的かつ正確な検出を行うことができ、これにより、後続の得られる学習状態情報の全面性と精度が向上し、さらにターゲットオブジェクトの学習状態を正確に把握することができる。
1つの可能な実現方式では、学習行動は、ターゲット情緒を表現することを含むことができる。
この場合、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うことは、
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び/又は微笑値検出を行うことと、
ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第1ターゲット表情を示すこと又は微笑値の検出結果がターゲット微笑値を超えることを検出した場合、検出されたビデオフレームを第1検出フレームとして用いることと、
連続する第1検出フレームの数が第3閾値を超えることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定することと、を含むことができる。
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び/又は微笑値検出を行うことと、
ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第1ターゲット表情を示すこと又は微笑値の検出結果がターゲット微笑値を超えることを検出した場合、検出されたビデオフレームを第1検出フレームとして用いることと、
連続する第1検出フレームの数が第3閾値を超えることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定することと、を含むことができる。
ここで、ターゲット情緒は、実際のニーズに応じて設定された任意の情緒であってもよく、例えば、ターゲットオブジェクトが学習に専心していることを示す愉快情緒、又はターゲットオブジェクトの学習状態が悪いことを示す退屈情緒などであってもよい。下記に開示される各実施例は、ターゲット情緒が愉快情緒であることを例として説明し、ターゲット情緒が他の情緒である場合については後続の各々の開示される実施例を参照して対応する拡張を行うことができる。
上記の開示された実施例から、学習行動がターゲット情緒を表現することを含む場合、表情検出及び/又は微笑値検出により、ターゲットオブジェクトの学習行動の検出を実現することができることが分かる。1つの可能な実現方式では、表情検出又は微笑値検出のみにより、ターゲット情緒を表現するという学習行動の検出を実現することができ、1つの可能な実現方式では、表情検出と微笑値検出により、ターゲットオブジェクトがターゲット情緒を表現するか否かを共同で確定することができる。後続の各々の開示される実施例は、表情検出と微笑値検出により、ターゲットオブジェクトがターゲット情緒を表現するか否かを共同で確定することを、例として説明し、その他の実現方式について、後続に開示される各実施例を参照して対応する拡張を行うことができ、ここでは説明を省略する。
ここで、表情検出は、ターゲットオブジェクトによって示される表情に対する検出を含むことができ、例えば、ターゲットオブジェクトがどの表情を示すかを検出することができ、具体的な表情の区分は、実際の状況に応じて柔軟に設定されてもよく、1つの可能な実現方式では、表情を、愉快、落ち着き及びその他などに分けることができ、微笑値検出は、ターゲットオブジェクトの微笑の強さの検出を含むことができ、例えば、ターゲットオブジェクトの微笑幅を検出することができ、微笑値の検出結果は、値でフィードバックされてもよく、例えば、微笑値の検出結果は、[0,100]の間に設定されてもよく、値が大きいほど、ターゲットオブジェクトの微笑強度又は微笑幅が大きくなることを示すことなどがある。具体的な表情検出と微笑値検出の方式は、実際の状況に応じて柔軟に決定されてもよく、ターゲットオブジェクトの表情又は微笑程度を検出できるいかなる方式は、対応する検出方式として用いられてもよく、下記の各々の開示される実施例に限定されない。1つの可能な実現方式では、表情識別ニューラルネットワークによってターゲットオブジェクトの表情検出を実現することができ、1つの可能な実現方式では、微笑値検出ニューラルネットワークによってターゲットオブジェクトの微笑値検出を実現することができる。具体的には、表情識別ニューラルネットワークと微笑値検出ニューラルネットワークの構造及び実現方式は、本開示の実施例で限定されなく、いかなる訓練により表情識別機能を実現するニューラルネットワーク及び訓練により微笑値検出機能を実現するニューラルネットワークの両方は、本開示の実施例に適用することができる。1つの可能な実現方式では、ビデオ内のターゲットオブジェクトの顔のキーポイント及び口部のキーポイントを検出することにより、表情検出と微笑値検出をそれぞれ実現することがもできる。
具体的には、表情検出と微笑値検出がどの検出結果を達成した場合、ターゲットオブジェクトがターゲット情緒を生み出すことを確定するかについては、その実現方式は、実際の状況に応じて柔軟に設定されてもよい。1つの可能な実現方式では、ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第1ターゲット表情を示すことが検出されたと考えてもよく、又は、微笑値の検出結果がターゲット微笑値を超える場合、当該ビデオフレーム内のターゲットオブジェクトがターゲット情緒を示すと考えてもよく、この場合、当該ビデオフレームを第1検出フレームとして用いることができる。ここで、第1ターゲット表情の具体的な表情種類は、実際の状況に応じ柔軟に決定されてもよく、下記の開示された実施例に限定されない。1つの可能な実現方式では、愉快を第1ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの表情が愉快であるビデオフレームのすべてを第1検出フレームとして用いることができる。1つの可能な実現方式では、愉快と落ち着きの両方を第1ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの表情の愉快又は落ち着きのビデオフレームの両方を第1検出フレームとして用いることができる。同様に、ターゲット微笑値の具体的な値も実際の状況に応じて柔軟に設定されてもよく、ここで具体的に限定されない。したがって、1つの可能な実現方式では、微笑値の検出結果がターゲット微笑値を超えるビデオフレームを、第1検出フレームとして用いることもできる。
1つの可能な実現方式では、あるビデオフレームが第1検出フレームであることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定する。1つの可能な実現方式では、検出の正確性を向上させ、検出誤差の学習行動の検出結果への影響を低減するために、連続する第1検出フレームの数が第3閾値を超えることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定することができる。ここで、連続するビデオフレーム内の各フレームが第1検出フレームであるビデオフレームシーケンスを、連続する第1検出フレームとして用いることができる。第3閾値の数は、実際の状況に応じて柔軟に設定されてもよく、その値は、第1閾値又は第2閾値と同じであっても異なってもよく、一例では、第3閾値の数は6であってもよく、即ち連続する6フレームがすべて第1検出フレームであることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したと考えてもよい。
さらに、ターゲットオブジェクトがターゲット情緒を生み出したことを確定した後、連続する第1検出フレームから1フレームをターゲット情緒開始フレームとして選定し、次にターゲット情緒開始フレームの後に、連続する10フレームにおいて、ターゲットオブジェクトの表情が第1ターゲット表情であることが検出されない場合、又は連続する10フレームにおいてターゲットオブジェクトの微笑値検出結果が第3閾値を超えない場合、又はあるフレーム又はいくつかのフレームにおいてターゲットオブジェクトが検出されない場合、ターゲット情緒終了フレームをさらに確定し、次にターゲット情緒開始フレーム又はターゲット情緒終了フレームに基づいて、ターゲットオブジェクトがターゲット情緒を生み出す回数及び/又は時間などを確定することができ、具体的なプロセスにつてはターゲットジェスチャーの対応するプロセスを参照することができ、ここでは説明を省略する。
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び/又は微笑値検出を行い、表情検出及び微笑値検出の結果に基づいて、第1検出フレームを確定することにより、連続する第1検出フレームの数が第3閾値を超えることが検出された場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定し、上記のプロセスにより、ターゲットオブジェクトの表情及び微笑程度に基づいて、学習プロセスでのターゲットオブジェクトの情緒を柔軟に確定することができ、これにより、学習プロセスでのターゲットオブジェクトの情緒状態をより全面的及び正確に感知し、より正確な学習状態情報を生成することができる。
1つの可能な実現方式では、学習行動は、ティーチングコースの展示領域に注目することを含むことができ、
この場合、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動を検出することは、
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行うことと、
ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第2ターゲット表情を示しかつ顔角度がターゲット顔角度範囲内にあることを検出した場合、検出されたビデオフレームを第2検出フレームとして用いることと、
連続する第2検出フレームの数が第4閾値を超えることが検出された場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定することと、を含むことができる。
この場合、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動を検出することは、
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行うことと、
ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第2ターゲット表情を示しかつ顔角度がターゲット顔角度範囲内にあることを検出した場合、検出されたビデオフレームを第2検出フレームとして用いることと、
連続する第2検出フレームの数が第4閾値を超えることが検出された場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定することと、を含むことができる。
ここで、ティーチングコースの展示領域の実現形態については上記の各々の開示される実施例を参照することができ、ここでは説明を省略する。
上記の開示された実施例から、学習行動がティーチングコースの展示領域に注目することを含む場合、表情検出及び/又は顔角度検出により、ターゲットオブジェクトの学習行動検出を実現することができることが分かる。1つの可能な実現方式では、顔角度検出だけで、ティーチングコースの展示領域に注目するという学習行動の検出を実現することもできる。後続の各々の開示される実施例は、表情検出と顔角度検出により、ターゲットオブジェクトがティーチングコースの展示領域に注目するか否かを確定することを例として説明するが、その他の実現方式については、後続の各々の開示される実施例を参照して対応する拡張を行うことができ、ここでは説明を省略する。
ここで、表情検出の実現方式については上記の各々の開示される実施例を参照することができ、ここでは説明を省略する。顔角度検出は、顔の向き角度などに対する検出であってもよい。具体的な顔角度検出方式は、実際の状況に応じて柔軟に決定されてもよく、ターゲットオブジェクトの顔角度を検出できるいかなる方式は、顔角度検出の検出方式として用いられてもよく、下記の各々の開示される実施例に限定されない。1つの可能な実現方式では、顔角度検出ニューラルネットワークにより、ターゲットオブジェクトの顔角度検出を実現することができる。具体的には、顔角度検出ニューラルネットワークの構造及び実現方式は、本開示の実施例で限定されなく、訓練により顔角度検出機能を実現するいかなるニューラルネットワークは本開示の実施例に適用することができる。1つの可能な実現方式では、ビデオ内のターゲットオブジェクトの顔のキーポイントを検出することにより、ターゲットオブジェクトの顔角度を確定することもできる。顔角度検出により検出できる顔の角度の形式も実際の状況に応じて柔軟に決定されてもよく、1つの可能な実現方式では、ターゲットオブジェクトの顔のヨー角とピッチ角を検出することにより、ターゲットオブジェクトの顔角度を確定することができる。
具体的には、表情検出と顔角度検出がどの検出結果を達成した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目することを確定するかについては、その実現方式は、実際の状況に応じて柔軟に設定されてもよい。1つの可能な実現方式では、ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第2ターゲット表情を示すことが検出されたと考えてもよく、かつ検出された顔角度がターゲット顔角度範囲内にある場合、当該ビデオフレーム内のターゲットオブジェクトがティーチングコースの展示領域に注目すると考え、この場合、当該ビデオフレームを第2検出フレームとして用いることができる。ここで、第2ターゲット表情の具体的な表情種類は、実際の状況に応じ柔軟に決定されてもよく、上記の開示された実施例に記載される第1ターゲット表情と同じであってもよいし、上記の開示された実施例に記載された第1ターゲット表情と異なってもよく、下記の開示された実施例に限定されない。1つの可能な実現方式では、落ち着きを第2ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの表情が落ち着きでありかつ顔角度がターゲット顔角度範囲にあるビデオフレームを第2検出フレームとして用いることができる。1つの可能な実現方式では、他の表情のすべてを第2ターゲット表情として用いることができ、即ち検出されたターゲットオブジェクトの顔角度がターゲット顔角度範囲にあり、かつ表情が「他」ではないビデオフレームのすべてを第2検出フレームとして用いることができる。同様に、ターゲット顔角度範囲の具体的な範囲値も実際の状況に応じて柔軟に設定されてもよく、ここで具体的に限定されない。1つの可能な実現方式では、当該ターゲット顔角度範囲は、静的であってもよく、一例では、教師が授業中に移動する可能性のある全体的な位置(例えばオフラインシーンにおける教師がいる教壇領域など)をターゲット顔角度範囲として用いることができ、一例では、ターゲットオブジェクトがティーチングコースを視聴するプロセスで注目する可能のある固定領域(例えばオンラインシーンにおけるターゲットオブジェクトが注目するスクリーンなど)をターゲット顔角度範囲として用いることができる。1つの可能な実現方式では、当該ターゲット顔角度範囲も動的であってもよく、一例では、教師が授業中に移動する現在の位置に基づいてターゲット顔角度範囲を柔軟に確定することができ、即ち教師の移動に伴い、ターゲット顔角度範囲の値を動的に変更することができる。
1つの可能な実現方式では、あるビデオフレームが第2検出フレームであることを検出した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定することができる。1つの可能な実現方式では、検出の正確性を向上させ、検出誤差の学習行動の検出結果への影響を低減するために、連続する第2検出フレームの数が第4閾値を超えることを検出した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定することができる。ここで、連続するビデオフレーム内の各フレームが第2検出フレームであるビデオフレームシーケンスを、連続する第2検出フレームとして用いることができる。第4閾値の数は、実際の状況に応じて柔軟に設定されてもよく、その値は、第1閾値、第2閾値又は第3閾値と同じであってもよいし、異なってもよく、一例では、第4閾値の数は6であってもよく、即ち連続する6フレームがすべて第2検出フレームであることが検出された場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していると考えることができる。
さらに、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定した後、連続する第2検出フレームから1フレームを注目開始フレームとして選定し、次に注目開始フレームの後に、連続する10フレームにおいてターゲットオブジェクトの表情が第2ターゲット表情であることが検出されない場合、又は連続する10フレームにおいてターゲットオブジェクトの顔角度がターゲット顔角度範囲内にあっていない場合、又はあるフレーム又はいくつかのフレームにおいてターゲットオブジェクトが検出されない場合、注目終了フレームをさらに確定し、次に注目開始フレーム又は注目終了フレームに基づいて、ターゲットオブジェクトがティーチングコースの展示領域に注目している回数及び及び/又は時間などを確定することができ、具体的なプロセスにつては、ターゲットジェスチャー及びターゲット情緒の対応するプロセスを参照することができ、ここでは説明を省略する。
ターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行い、表情検出及び顔角度検出の結果に基づいて、第2検出フレームを確定することにより、連続する第2検出フレームの数が第4閾値を超えることが検出された場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定し、上記のプロセスにより、ターゲットオブジェクトの表情及び顔角度に基づいて、ターゲットオブジェクトがティーチングコースの展示領域に注目しているか否かを柔軟に確定することができ、これにより、学習プロセスでのターゲットオブジェクトの精力集中状況をより全面的及び正確に感知し、より正確な学習状態情報を生成することができる。
1つの可能な実現方式では、学習行動は、他のオブジェクトとの少なくとも1種類のインタラクション行動を実行することをさらに含むことができる。インタラクション行動の実現方式については、上記の各々の開示される実施例を参照することができ、ここでは説明を省略する。この場合、ターゲットオブジェクトを含むビデオフレームに対するインタラクション行動の検出方式は、実際の状況に応じて柔軟に決定されてもよく、1つの可能な実現方式では、インタラクション行動がオンラインインタラクション行動である場合、例えば、教師がオンライン教室で与えた小さな赤い花を受け取った場合、又はオンライン教室での教師の点呼に合わせて発言する場合、インタラクション行動の検出方式は、他のオブジェクトから転送された信号に基づいて、ターゲットオブジェクトがインタラクション行動を実行するか否かを直接確定することであってもよい。1つの可能な実現方式では、インタラクション行動がオフラインインタラクション行動である場合、例えば、ターゲットオブジェクトが教師によって点呼されて発言する場合、ターゲットオブジェクトがインタラクション行動を実行するか否かを検出する方式は、ターゲットオブジェクトのターゲット行動を識別することにより、ターゲットオブジェクトがインタラクション行動を実行するか否かを確定することを含むことができ、ここで、ターゲット行動は、インタラクション行動の実際の状況に応じて柔軟に設定されてもよく、例えば、ターゲット行動は、立ち上がって発言すること、又は顔が他のオブジェクトに向けかつ発言時間が一定の時間値を超えることなどを含むことができる。
1つの可能な実現方式では、学習行動は、ビデオ内の少なくとも一部のビデオフレームに現れないことをさらに含むことができ、この場合、ステップS12は、
ビデオに対してターゲットオブジェクトの検出を行い、ターゲットオブジェクトを含むビデオフレームを得て、ビデオのうちのターゲットオブジェクトを含むビデオフレーム以外のビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用いることと
ターゲットオブジェクトが検出されないビデオフレームの数が予め設定されたビデオフレームの数を超える場合、学習行動がビデオ内の少なくとも一部のビデオフレームに現れないとの行動を含むことを検出することとを含むことができる。
ビデオに対してターゲットオブジェクトの検出を行い、ターゲットオブジェクトを含むビデオフレームを得て、ビデオのうちのターゲットオブジェクトを含むビデオフレーム以外のビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用いることと
ターゲットオブジェクトが検出されないビデオフレームの数が予め設定されたビデオフレームの数を超える場合、学習行動がビデオ内の少なくとも一部のビデオフレームに現れないとの行動を含むことを検出することとを含むことができる。
ここで、ビデオに対するターゲットオブジェクトの検出方式については、上記に開示された各実施例を詳細に参照するが、ここでは説明を省略する。1つの可能な実現方式では、ビデオ内の各ビデオフレームには、ターゲットオブジェクトを含むビデオフレームに加えて、ターゲットオブジェクトがないビデオフレームも存在する可能性があり、したがって、ターゲットオブジェクトがないこれらのビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用い、ターゲットオブジェクトが検出されないビデオフレームの数が予め設定されたビデオフレーム数を超える場合、「ビデオ内の少なくとも一部のビデオフレームに現れない」という学習行動が検出されたことを確認することができる。予め設定されたビデオフレーム数は、実際の状況に応じて柔軟に設定されてもよく、1つの可能な実現方式では、予め設定されたビデオフレーム数を0に設定することができ、即ち、ターゲットオブジェクトが検出されないビデオフレームがビデオに含まれる場合、ビデオ内の少なくとも一部のビデオフレームにこの学習行動が現れないことを検出したと考え、1つの可能な実現方式では、予め設定されたビデオフレーム数も0よりも大きい数であってもよく、具体的にどのように設定するかは、実際の状況に応じて柔軟に決定されてもよい。
1つの可能な実現方式では、学習行動は、目を閉じることをさらに含むことができ、この場合での学習行動の検出方式は、目を閉じることの検出であってもよい、目を閉じることの検出の具体的なプロセスは、実際の状況に応じて柔軟に設定されてもよく、一例では、目を閉じることの検出機能を備えたニューラルネットワークによって実現されてもよく、一例では、目及び眼球内のキーポイントを検出することにより、ターゲットオブジェクトが目を閉じているか否かなどを確定することもでき、例えば、眼球内のキーポイントが検出された場合、ターゲットオブジェクトが目を開いていることを確定し、目のキーポイントが僅かに検出され、眼球内のキーポイントが検出されない場合、ターゲットオブジェクトが目を閉じることを確定する。1つの可能な実現方式では、学習行動は、ティーチングコースの展示領域でのアイコンタクトをさらに含むことができ、この場合での学習行動の検出方式につては上記の開示された実施例におけるティーチングコースの展示領域に注目するプロセスを参照することができ、具体的な検出方式は、柔軟に変化することができ、例えば、ターゲットオブジェクトに対して、目を閉じることの検出及び顔角度検出を同時に行うことができ、顔角度がターゲット顔角度範囲内にありかつ目を閉じないビデオフレームを第3検出フレームとして用い、次に第3検出フレームの数がある設定された閾値を超える場合、ターゲットオブジェクトがティーチングコースの展示領域内でアイコンタクトを行うことを認定することなどがある。
上記の開示された実施例の様々な実施形態の任意の組み合わせにより、ターゲットオブジェクトの少なくとも1種類の学習行動に対する検出を実現した後、ターゲットオブジェクトが少なくとも1種類の学習行動を実行することを検出された場合、ステップS13により学習状態情報を生成することができる。ステップS13の具体的な実施形態は限定されず、検出された学習行動の実際の状況に応じて柔軟に変化することができ、下記の各々の開示される実施例に限定されない。
上記の開示された実施例におけるステップS13の実際の内容から、ステップS13における学習状態情報を生成するプロセスにおいて、以下のいくつかの生成方式があり得ることが分かり、例えば、少なくとも1種類の学習行動を含むビデオフレームに基づいて学習状態情報を生成することができ、又はターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて学習状態情報を生成することができ、又は、上記の2つの状況を組み合わせて、少なくとも1種類の学習行動を含むビデオフレームに基づいて一部の学習状態情報を生成し、また、ターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて別の学習状態情報を生成することができる。学習行動のビデオフレームに基づいて学習状態情報を生成することができるだけでなく、ターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて学習状態情報を生成することができる場合、具体的にどの学習行動に応じてそれに対応するどの学習状態情報を生成するかについて、そのマッピング方式は、実際の状況に応じて柔軟に設定されてもよい。1つの可能な実現方式では、一部の積極的な学習行動を、学習行動を含むビデオフレームに基づいて学習状態情報を生成するというプロセスに対応させることができ、例えば、ターゲットオブジェクトが少なくとも1種類のターゲットジェスチャーを実行すること、積極的なターゲット情緒を示すこと、ティーチングコースの展示領域に注目すること、及び他のオブジェクトとの少なくとも1種類のインタラクション行動を実行することなどの場合、上記の学習行動を含むビデオフレームに基づいて、学習状態情報を生成することができ、1つの可能な実現方式では、ターゲットオブジェクトがビデオ内の一部のビデオフレームに現れないこと、目を閉じること又はティーチングコースの展示領域内でアイコンタクトを行わないことなどの一部の消極的な学習行動の場合、上記学習行動の持続時間に基づいて学習状態情報を生成することができる。
1つの可能な実現方式では、少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレームに基づいて、学習状態情報を生成することは、
ビデオフレームのうちの少なくとも1種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得するステップS1311と、
ターゲットビデオフレームセット内の少なくとも1つのビデオフレームに対して顔の品質の検出を行い、顔の品質が顔の品質の閾値よりも大きいビデオフレームをターゲットビデオフレームとして用いるステップS1312と、
ターゲットビデオフレームに基づいて、学習状態情報を生成するステップS1313と、を含むことができる。
ビデオフレームのうちの少なくとも1種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得するステップS1311と、
ターゲットビデオフレームセット内の少なくとも1つのビデオフレームに対して顔の品質の検出を行い、顔の品質が顔の品質の閾値よりも大きいビデオフレームをターゲットビデオフレームとして用いるステップS1312と、
ターゲットビデオフレームに基づいて、学習状態情報を生成するステップS1313と、を含むことができる。
ここで、少なくとも1種類の学習行動を含むビデオフレームは、学習行動の検出プロセスにおいて、ターゲットオブジェクトがその中の少なくとも1種類の行動を実行していることが検出されたビデオフレームであってもよく、例えば、上記の開示された実施例で記載された第1検出フレーム、第2検出フレーム及び第3フレームなどであってもよく、又はジェスチャー開始フレームとジェスチャー終了フレームの間のターゲットジェスチャーを含むビデオフレームなどであってもよい。
少なくとも1種類の学習行動を含むビデオフレームが確定された後、どのようにターゲットビデオフレームセットを取得するかについて、その実現方式は柔軟に決定されてもよい。1つの可能な実現方式では、学習行動の種類に従って、各種類の学習行動を含む各ビデオフレームをそれぞれ取得し、それによって各種類の学習行動のターゲットビデオフレームセットを構成することができ、1つの可能な実現方式では、学習行動の種類に従って、各種類の学習行動を含む一部のフレームなどをそれぞれ取得し、次に各種類の学習行動の一部のフレームに基づいて当該種類の学習行動のターゲットビデオフレームセットを得ることもでき、具体的にどの部分のフレームを選択するかについて、その選択方式は柔軟に決定されてもよい。
学習行動に対応するターゲットビデオフレームセットが得られた後、ステップS1312により、ターゲットビデオフレームセットからターゲットビデオフレームを選択して取得することができる。ステップS1312から、1つの可能な実現方式において、ターゲットビデオフレームセット内のビデオフレームに対して顔の品質の検出を行い、次に顔の品質が顔の品質の閾値よりも大きいビデオフレームをターゲットビデオフレームとして用いることができることが分かる。
ここで、顔の品質の検出方式は、実際の状況に応じて柔軟に設定されてもよく、下記の開示された実施例に限定されず、1つの可能な実現方式では、ビデオフレーム内の顔に対して顔の識別を行ってビデオフレーム内の顔の完全性を確定することにより、顔の品質を確定することができ、1つの可能な実現方式では、ビデオフレームにおける顔の明瞭さに基づいて顔の品質を確定することもでき、1つの可能な実現方式では、ビデオフレームにおける顔の完全性、明瞭さ及び輝度などの複数のパラメータに基づいてビデオフレームにおける顔の品質を総合的に判断することもでき、1つの可能な実現方式では、ビデオフレームを顔品質ニューラルネットワークに入力することにより、ビデオフレームにおける顔の品質を取得することができ、顔品質ニューラルネットワークは、顔品質のスコアラベルを含む大量の顔ピクチャーによって訓練されて得られてもよく、その具体的な実現形態は、実際の状況に柔軟に選択されてもよく、本開示の実施例において限定されない。
顔品質の閾値の具体的な値は、実際の状況に応じて柔軟に決定されてもよく、本開示の実施例において限定されない。1つの可能な実現方式では、各種類の学習行動のために異なる顔品質の閾値をそれぞれ設定することができ、1つの可能な実現方式では、各種類の学習行動のために同じ顔の閾値をそれぞれ設定することもできる。1つの可能な実現方式では、顔品質の閾値をターゲットビデオフレームセット内の顔品質の最大値に設定することもでき、この場合、各種類の学習行動での顔品質の最も高いビデオフレームをターゲットビデオフレームとして直接用いることができる。
一部の可能な実現方式では、複数種類の学習行動を同時に含むいくつかのビデオフレームが存在する可能性があり、この場合、複数種類の学習行動を含むビデオフレームを処理する方式は、実際の状況に応じて、柔軟に変化することができる。1つの可能な実現方式では、これらのビデオフレームをそれぞれ各種類の学習行動に帰属させ、次に各種類の学習行動に対応するビデオフレームセットからステップS1312に従って選択し、ターゲットビデオフレームを取得することができ、1つの可能な実現方式では、複数種類の学習行動を同時に含むビデオフレームをターゲットビデオフレームとして直接選定することもできる。
上記の任意の実施例によりターゲットビデオフレームが確定された後、ステップS1313により、ターゲットビデオフレームに基づいて学習状態情報を生成することができる。ステップS1313の実現方式は、実際の状況に応じて柔軟に選択されてもよく、詳細は、以下に開示される各実施例を参照するので、ここでは詳しく説明しない。
本開示の実施例では、ビデオフレームのうちの少なくとも1種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得することにより、各種類の学習行動のターゲットビデオフレームセットに基づいて、顔の品質が高いビデオフレームをターゲットビデオフレームとして選定し、次にターゲットビデオフレームに基づいて学習状態情報を生成する。上記のプロセスにより、生成された学習状態情報は、顔の品質が高くかつ学習行動を含むビデオフレームに基づいて取得された情報であってもよく、正確性がより高くなり、それによってターゲットオブジェクトの学習状態をより正確に把握することができる。
上記の開示された実施例に記載されるように、ステップS1313の実現方式は、柔軟に変化することができる。1つの可能な実現方式では、ステップS1313は、
ターゲットビデオフレーム内の少なくとも1フレームを学習状態情報として用いること、及び/又は、
少なくとも1フレームのターゲットビデオフレーム内におけるターゲットオブジェクトの位置する領域を識別し、ターゲットオブジェクトの位置する領域に基づいて、学習状態情報を生成することを含むことができる。
ターゲットビデオフレーム内の少なくとも1フレームを学習状態情報として用いること、及び/又は、
少なくとも1フレームのターゲットビデオフレーム内におけるターゲットオブジェクトの位置する領域を識別し、ターゲットオブジェクトの位置する領域に基づいて、学習状態情報を生成することを含むことができる。
上記の開示された実施例から、1つの可能な実現方式において、ターゲットビデオフレーム内の少なくとも1フレームを学習状態情報として直接用いることができることが分かり、一例では、取得されたターゲットビデオフレームをさらに選定することができ、この選定はランダムにしてもよいし、一定の条件によってしても良い、次に、選定されたターゲットビデオフレームを直接に学習状態情報とし、一例では、取得された各ターゲットビデオフレームを直接に学習状態情報として用いることもできる。
1つの可能な実現方式では、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域をさらに識別し、それによってターゲットオブジェクトの位置する領域に基づいて学習状態情報を生成することもできる。ここで、ターゲットオブジェクトの領域を識別する方式は、本開示の実施例において限定されず、1つの可能な実現方式では、上記の開示された実施例で記載された、ターゲットオブジェクトの検出機能を備えたニューラルネットワークによって実現されてもよい。ターゲットビデオフレーム内のターゲットオブジェクトの領域が確定された後、さらにターゲットビデオフレームに対して対応する処理を行い、学習状態情報を取得することができる。ここで、処理方式は、柔軟に決定されてもよく、一例では、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域の画像を学習状態情報として用いることができ、一例では、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域以外の背景領域をレンダリングし、例えば他のステッカーを追加したり、背景領域にモザイクを追加したり、背景領域の画像を置き換えたりすることなど、ターゲットオブジェクトの現在の背景が表示されない学習状態情報を取得することもでき、これにより、ターゲッオブジェクトのプライバシーをより保護することができ、ステッカーなどのレンダリング方法により、学習状態情報の多様性と美しさを向上させることもできる。
ターゲットビデオ内の少なくとも1フレームを学習状態情報とすることにより、及び/又は、ターゲットビデオフレーム内におけるターゲットオブジェクトの位置する領域に基づいて学習状態情報を生成し、上記の方式により、最終的に取得された学習状態情報をより柔軟にすることができ、それによってターゲットオブジェクトのニーズに応じて、ターゲットオブジェクトをより目立つ学習状態情報、又はターゲットオブジェクトのプライバシーをより保護したりする学習状態情報を取得することができる。
上記の各々の開示された実施例は、任意に組み合わせられて、学習行動を含むビデオフレームを基にして生成された学習状態情報を取得することができ、例えば、表1は本開示の一実施例による学習状態情報の生成ルールを示している。
ここで、M、N、X、Y、Zはいずれも正の整数であり、具体的な値が実際のニーズに応じて設定されてもよい。そして、表1における異なる行にあるMなどのパラメータは、同じ又は異なってもよく、上記のMなどのパラメータは、僅かに概略的な説明として用いられ、本開示の内容を限定するものではない。
ここで、素晴らしい瞬間とは、ターゲットオブジェクトの積極的な学習行動に対応する時点である。表1から、一例において、ターゲットオブジェクトが挙手などのターゲットジェスチャーを実行すること、愉快というターゲット情緒を生み出すこと、又はティーチングコースの展示領域に精力を集中して注目していること及び教師によって点呼されて発言することなどのインタラクションなどの学校行動が検出された場合、ビデオに対して一定のデータ処理を行い、データ処理の後、ビデオフレームに対してさらに画像処理を行い、これによりターゲットビデオフレームを学習状態情報として取得することができる。
1つの可能な実現方式では、ターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することは、
ターゲットオブジェクトが少なくとも1種類の学習行動を実行する時間が時間閾値以上であることが検出された場合、少なくとも1種類の学習行動の持続時間を記録するステップS1321と、
少なくとも1種類の学習行動に対応する持続時間を学習状態情報として用いるステップS1322と、を含むことができる。
ターゲットオブジェクトが少なくとも1種類の学習行動を実行する時間が時間閾値以上であることが検出された場合、少なくとも1種類の学習行動の持続時間を記録するステップS1321と、
少なくとも1種類の学習行動に対応する持続時間を学習状態情報として用いるステップS1322と、を含むことができる。
ここで、時間閾値は、実際の状況に応じて柔軟に設定されたある値であってもよく、異なる種類の学習行動の時間閾値は同じでも異なってもよい。ターゲットオブジェクトが一定の時間内である種類の学習行動を実行していることを検出した場合、ターゲットオブジェクトがこれらの学習行動を実行する時間を統計して、学習状態情報として教師又は親にフィードバックすることができる。具体的な統計条件及びどの学習行動の下で時間を統計するかについて、その実現方式はすべて実際の状況に応じて柔軟に設定されてもよい。
1つの可能な実現方式では、ターゲットオブジェクトがビデオに現れない(例えば、ビデオに誰もいないこと、ビデオフレームに誰かがいるが、彼らがターゲットオブジェクトであるか否かを確定できないこと、又はカメラに誰かがいるがターゲットオブジェクトではないこと)時間が一定の時間長を超えること、ターゲットオブジェクトが目を閉じること又はターゲットオブジェクトがティーチングコースの展示領域を見ないことが検出された場合、これらの学習行動の時間長を統計してそれを学習状態情報として用いることができる。
本開示の実施例では、ターゲットオブジェクトが少なくとも1種類の学習行動を実行する時間が時間閾値以上であることを検出した場合、少なくとも1種類の学習行動の持続時間を記録して学習状態情報として用い、上記のプロセスにより、学習状態情報を定量化し、ターゲットオブジェクトの学習状態をより直感的かつ正確に把握することができる。
1つの可能な実現方式では、本開示の実施例で提供されるビデオ処理方法は、
ビデオ内の少なくとも一部のビデオフレーム内の背景領域をレンダリングすることであって、ここで、背景領域は、ビデオフレーム内のターゲットオブジェクト以外の領域であることをさらに含むことができる。
ビデオ内の少なくとも一部のビデオフレーム内の背景領域をレンダリングすることであって、ここで、背景領域は、ビデオフレーム内のターゲットオブジェクト以外の領域であることをさらに含むことができる。
ここで、背景領域の分割方式及び背景領域のレンダリング方式については、上記の開示された実施例における、ターゲットビデオフレーム内のターゲットオブジェクトの位置する領域に対する識別及び認識後のレンダリングプロセスを参照でき、ここでは説明を省略する。背景領域をレンダリングするプロセスでは、一例で、現在のビデオ処理装置での予め設定されたユニバーサルテンプレートによってレンダリングすることができ、一例で、非ビデオ処理装置のデータベース内の他のテンプレート又はカスタムテンプレートを呼び出すことによりレンダリングすることもでき、例えば、非ビデオ処理装置のクラウドサーバーから他の背景テンプレートなどを呼び出して、ビデオ内の背景領域をレンダリングすることなどができる。
ビデオ内の少なくとも一部のビデオフレーム内の背景領域をレンダリングすることにより、ビデオ内のターゲットオブジェクトのプライバシーを保護し、適切なビデオ収集位置がないため、ターゲットオブジェクトのプライバシーが漏洩される可能性を低減させることができると共に、ターゲットオブジェクトがティーチングコースを視聴するプロセスの興味性を高めることもできる。
1つの可能な実現方式では、本開示の実施例で提供されるビデオ処理方法は、
少なくとも1つのターゲットオブジェクトの学習状態情報を統計して、少なくとも1つのターゲットオブジェクトの統計結果を取得することと、
少なくとも1つのターゲットオブジェクトの統計結果に基づいて、学習状態の統計データを生成することとをさらに含むことができる。
少なくとも1つのターゲットオブジェクトの学習状態情報を統計して、少なくとも1つのターゲットオブジェクトの統計結果を取得することと、
少なくとも1つのターゲットオブジェクトの統計結果に基づいて、学習状態の統計データを生成することとをさらに含むことができる。
本開示の実施例では、1つのビデオに含まれるターゲットオブジェクトは、1つであってもよいし、複数であってもよく、また、本開示の実施例におけるビデオ処理方法は、単一のビデオを処理するために用いられてもよいし、複数のビデオを処理するために用いられてもよい。したがって、それに応じて、1つのターゲットオブジェクトの学習状態情報を取得することができ、複数のターゲットオブジェクトの学習状態情報を取得することもできる。この場合、少なくとも1つのターゲットオブジェクトの学習状態情報を統計して、少なくとも1つのターゲットオブジェクトの統計結果を取得することができる。ここで、統計結果は、ターゲットオブジェクトの学習状態情報だけでなく、ターゲットオブジェクトがティーチングコースを視聴することに関連する他の情報も含むことができる。例えば、1つの可能な実現方式では、ステップS12の前に、即ちターゲットオブジェクトに対して学習行動の検出を行う前に、ターゲットオブジェクトのチェックインデータを取得することもできる。ターゲットオブジェクトのチェックインデータは、ターゲットオブジェクトの身元情報及びチェックイン時間などを含むことができ、具体的なチェックインデータの取得方式は、ターゲットオブジェクトの実際のチェックイン方式に応じて柔軟に決定されてもよく、本開示の実施例で限定されない。
少なくとも1つのターゲットオブジェクトの統計結果が取得された後、少なくとも1つの統計結果に基づいて学習状態の統計データを生成することができる。具体的には、学習状態の統計データの生成方式及び内容は、統計結果の実現形態に応じて柔軟に変化することができる。詳細については、以下に開示される各実施例を参照するが、ここでは詳しく説明しない。
本開示の実施例では、少なくとも1つのターゲットオブジェクトの学習状態情報を統計することにより、少なくとも1つのターゲットオブジェクトの統計結果を取得し、それによって少なくとも1つのターゲットオブジェクトの統計結果に基づいて学習状態の統計データを生成し、上記のプロセスにより、複数のターゲットオブジェクトの学習状態に対して総合的な評価を効果的に行うことができ、これにより、教師は、教室全体の全体的な学習状況を把握しやすくなり、他の関係者は、ターゲットオブジェクトの現在の学習位置などをより全面的に了解することもできる。
1つの可能な実現方式では、少なくとも1つの前記ターゲットオブジェクトの統計結果に基づいて、学習状態の統計データを生成することは、
少なくとも1つのターゲットオブジェクトが属するカテゴリに基づいて、少なくとも1つのカテゴリに含まれるターゲットオブジェクトの統計結果を取得し、少なくとも1つのカテゴリの学習状態の統計データを生成することであって、ここで、ターゲットオブジェクトが属するカテゴリは、ターゲットオブジェクトが参加するコース、ターゲットオブジェクトが登録した機関及びターゲットオブジェクトが用いるデバイスのうちの少なくとも1種類を含むこと、及び/又は、
少なくとも1つのターゲットオブジェクトの統計結果に対して可視化処理を行い、少なくとも1つのターゲットオブジェクトの学習状態の統計データを生成することを含む。
少なくとも1つのターゲットオブジェクトが属するカテゴリに基づいて、少なくとも1つのカテゴリに含まれるターゲットオブジェクトの統計結果を取得し、少なくとも1つのカテゴリの学習状態の統計データを生成することであって、ここで、ターゲットオブジェクトが属するカテゴリは、ターゲットオブジェクトが参加するコース、ターゲットオブジェクトが登録した機関及びターゲットオブジェクトが用いるデバイスのうちの少なくとも1種類を含むこと、及び/又は、
少なくとも1つのターゲットオブジェクトの統計結果に対して可視化処理を行い、少なくとも1つのターゲットオブジェクトの学習状態の統計データを生成することを含む。
ここで、ターゲットオブジェクトが属するカテゴリは、ターゲットオブジェクトの身元に応じて分けられたカテゴリであってもよく、例えば、ターゲットオブジェクトが属するカテゴリは、ターゲットオブジェクトが参加するコース、ターゲットオブジェクトが登録した機関、及びターゲットオブジェクトが用いるデバイスの少なくとも1種類を含むことができ、ここで、ターゲットオブジェクトが参加するコースは、上記の開示された実施例で記載されたターゲットオブジェクトが視聴するティーチングコースであってもよく、ターゲットオブジェクトが登録した機関は、ターゲットオブジェクトがいる教育機関、又はターゲットオブジェクトがいる学年又はターゲットオブジェクトがいるクラスなどであってもよく、ターゲットオブジェクトが用いるデバイスは、オンラインシーンで、ターゲットオブジェクトがオンラインコースに参加するために用いられる端末デバイスなどであってもよい。
本開示の実施例では、ターゲットオブジェクトが属するカテゴリに従って少なくとも1つのカテゴリに含まれるターゲットオブジェクトの統計結果を取得することができ、即ち、ターゲットオブジェクトが属するカテゴリにおける少なくとも1つの統計結果をまとめて当該カテゴリにおける全体的な学習状態の統計データを取得することができる。例えば、用いられるデバイス、コース、教育機関などのカテゴリに従って分けて、同じデバイスでの異なるターゲットオブジェクトの統計結果、同じコースでの異なるターゲットオブジェクトの統計結果、及び同じ教育機関での異なるターゲットオブジェクトの統計結果などをそれぞれ取得することができる。一例では、これらの統計結果をレポートの形態で表示することができる。一例では、レポート内の各カテゴリにおける統計結果は、各ターゲットオブジェクトの全体的な学習状態情報だけでなく、各ターゲットオブジェクトの具体的な学習状態情報、例えばティーチングコースの展示領域に注目する時間長、微笑の時間長などを含むことができ、その他、ティーチングコースの視聴に関連する他の情報、例えばターゲットオブジェクトのチェックイン時間、チェックイン回数、ターゲットオブジェクト及び予め設定されたデータベース内の顔マッチング状況、チェックインデバイス及びチェックインコースなどを含むこともできる。
その他、少なくとも1つのターゲットオブジェクトの統計結果に対して可視化処理を行って、少なくとも1つのターゲットオブジェクトの学習状態の統計データを取得することができる。ここで、可視化処理の方式は、実際の状況に応じて柔軟に決定されてもよく、例えば、データをグラフ又はビデオなどの形態に整理することができる。学習状態の統計データに含まれる内容は、実際の状況に応じて柔軟に決定されてもよく、例えば、ターゲットオブジェクトの全体的な学習状態情報、ターゲットオブジェクトが視聴しているティーチングコースの名前及びターゲットオブジェクトの具体的な学習状態情報などを含むことができ、具体的にどのデータを含むかは、実際の状況に応じて柔軟に設定されてもよい。一例では、ターゲットオブジェクトの身元、ターゲットオブジェクトによって視聴されるティーチングコースの名前、ターゲットオブジェクトのティーチングコースの展示領域に注目する時間長、ターゲットオブジェクトの注目程度の強さ、ターゲットオブジェクトと他のターゲットオブジェクトの間のデータ比較結果、ターゲットオブジェクトのインタラクション回数及びターゲットオブジェクトの情緒などの内容を、可視化されたレポートに整理して、ターゲットオブジェクト又はターゲットオブジェクトの他の関係者、例えばターゲットオブジェクトの親などに送信することができる。
一例では、可視化処理後の学習状態の統計データには、ピクチャーとビデオ以外、「授業科目がXXであり、学生Aの専心時間長が30分間であり、集中力が高く、クラスメートの10%の集中力よりも高く、インタラクション回数が3回であり、微笑が5回であり、ここで表彰して、引き続き努力することを望む」又は「授業科目がXXであり、学生Bの集中力が低く、挙手などのジェスチャーのインタラクション頻度が低く、親が細心の注意を払い、子供の学習習慣をリアルタイムで調整することを勧める」などのような文字内容も含まれても良い。
本開示の実施例では、少なくとも1つのターゲットオブジェクトが属するカテゴリを取得することにより、少なくとも1つのカテゴリの学習状態の統計データを生成し、及び/又は、少なくとも1つのターゲットオブジェクトの統計結果に対して可視化処理を行うことにより、少なくとも1つのターゲットオブジェクトの学習状態の統計データを生成する。上記のプロセスにより、異なるデータ統計方式で、ターゲットオブジェクトの学習状態をより直感的かつ全面的に把握することができる。
図2は本開示の実施例によるビデオ処理装置を示すブロック図である。図に示すように、前記ビデオ処理装置20は、ビデオを取得するように構成され、ここで、ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むビデオ取得モジュール21と、
ビデオに基づいて、ティーチングコースを視聴するプロセスでのターゲットオブジェクトの少なくとも1種類の学習行動を検出するように構成される検出モジュール22と、
ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又はターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュール23と、を備えることができる。
ビデオに基づいて、ティーチングコースを視聴するプロセスでのターゲットオブジェクトの少なくとも1種類の学習行動を検出するように構成される検出モジュール22と、
ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又はターゲットオブジェクトが少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュール23と、を備えることができる。
1つの可能な実現方式では、学習行動は、少なくとも1種類のターゲットジェスチャーを実行すること、ターゲット情緒を表現すること、ティーチングコースの展示領域に注目すること、他のオブジェクトとの少なくとも1種類のインタラクション行動を生成すること、ビデオ内の少なくとも一部のビデオフレームに現れないこと、目を閉じること、及びティーチングコースの展示領域でのアイコンタクトのうちの少なくとも1種類を含む。
1つの可能な実現方式では、検出モジュールは、ビデオに対してターゲットオブジェクトの検出を行って、ターゲットオブジェクトを含むビデオフレームを取得し、ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うように構成される。
1つの可能な実現方式では、学習行動は、少なくとも1種類のターゲットジェスチャーを実行することを含み、検出モジュールは、さらにターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類のターゲットジェスチャーを検出し、少なくとも1種類のターゲットジェスチャーを含む、連続するビデオフレームの数が第1閾値を超えることを検出した場合、ターゲットジェスチャーを含むビデオフレーム内の少なくとも1フレームをジェスチャー開始フレームとして記録し、ジェスチャー開始フレームの後のビデオフレームのうち、ターゲットジェスチャーがない連続するビデオフレームの数が第2閾値を超える場合、ターゲットジェスチャーがないビデオフレームのうちの少なくとも1フレームをジェスチャー終了フレームとして記録し、ジェスチャー開始フレームとジェスチャー終了フレームの数に基づいて、ビデオ内のターゲットオブジェクトが少なくとも1種類のターゲットジェスチャーを実行する回数及び/又は時間を確定するように構成される。
1つの可能な実現方式では、学習行動は、ターゲット情緒を表現することを含み、検出モジュールは、さらにターゲットオブジェクトを含むビデオフレームに対して表情検出及び/又は微笑値検出を行い、ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第1ターゲット表情を示すこと又は微笑値の検出結果がターゲット微笑値を超えることを検出した場合、検出されたビデオフレームを第1検出フレームとして用い、連続する第1検出フレームの数が第3閾値を超えることを検出した場合、ターゲットオブジェクトがターゲット情緒を生み出したことを確定するように構成される。
1つの可能な実現方式では、学習行動は、ティーチングコースの展示領域に注目することを含み、検出モジュールは、さらにターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行い、ビデオフレーム内のターゲットオブジェクトが少なくとも1種類の第2ターゲット表情を示しかつ顔角度がターゲット顔角度範囲内にあることを検出した場合、検出されたビデオフレームを第2検出フレームとして用い、連続する第2検出フレームの数が第4閾値を超えることを検出した場合、ターゲットオブジェクトがティーチングコースの展示領域に注目していることを確定するために用いられる。
1つの可能な実現方式では、生成モジュールは、ビデオのうちの少なくとも1種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得し、ターゲットビデオフレームセットの少なくとも1つのビデオフレームに対して顔の品質の検出を行い、顔の品質が顔品質の閾値よりも大きいビデオフレームをターゲットビデオフレームとして用い、ターゲットビデオフレームに基づいて学習状態情報を生成するように構成される。
1つの可能な実現方式では、生成モジュールは、さらにターゲットビデオフレーム内の少なくとも1フレームを学習状態情報として用いるように構成され、及び/又は、少なくとも1フレームのターゲットビデオフレーム内のターゲットオブジェクトの位置する領域を識別し、ターゲットオブジェクトの位置する領域に基づいて、学習状態情報を生成するように構成される。
1つの可能な実現方式では、検出モジュールは、ビデオに対してターゲットオブジェクトの検出を行い、ターゲットオブジェクトを含むビデオフレームを取得し、ビデオのうちのターゲットオブジェクトを含むビデオフレーム以外のビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用い、ターゲットオブジェクトが検出されないビデオフレームの数が予め設定されたビデオフレームの数を超える場合、学習行動がビデオ内の少なくとも一部のビデオフレームに現れないとの行動を含むことを検出するように構成される。
1つの可能な実現方式では、生成モジュールは、ターゲットオブジェクトが少なくとも1種類の学習行動を実行する時間が時間閾値以上であることを検出した場合、少なくとも1種類の学習行動の持続時間を記録し、少なくとも1種類の学習行動に対応する持続時間を学習状態情報として用いるように構成される。
1つの可能な実現方式では、装置は、さらにビデオ内の少なくとも一部のビデオフレームの背景領域をレンダリングするために用いられ、ここで、背景領域は、ビデオフレーム内のターゲットオブジェクト以外の領域である。
1つの可能な実現方式では、装置は、さらに少なくとも1つのターゲットオブジェクトの学習状態情報を統計し、少なくとも1つのターゲットオブジェクトの統計結果を取得し、少なくとも1つのターゲットオブジェクトの統計結果に基づいて、学習状態の統計データを生成するために用いられる。
1つの可能な実現方式では、装置は、さらに少なくとも1つのターゲットオブジェクトが属するカテゴリに基づいて、少なくとも1つのカテゴリに含まれるターゲットオブジェクトの統計結果を取得し、少なくとも1つのカテゴリの学習状態の統計データを生成するように構成され、ここで、ターゲットオブジェクトが属するカテゴリが、前記ターゲットオブジェクトが参加するコース、ターゲットオブジェクトが登録した機関及びターゲットオブジェクトが用いるデバイスのうちの少なくとも1種類を含み、及び/又は、少なくとも1つのターゲットオブジェクトの統計結果に対して可視化処理を行って、少なくとも1つのターゲットオブジェクトの学習状態の統計データを生成するように構成される。
本出願の異なる実施例は、論理に違反することなく、互いに組み合わせられてもよく、異なる実施例の説明において重点が置かれており、重点として説明されない部分については、他の実施例の記載を参照することができる。
本開示の一部の実施例では、本開示の実施例によって提供される装置が備えた機能又はそれに含まれるモジュールは、上記の方法の実施例で説明される方法を実行するために用いられてもよく、その具体的な実現と技術的効果については上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは説明を省略する。
適用シーンの例
学生が学習する方式は、通常、教師が授業し、学生が受講することであり、教室がインタラクションと興味性を欠き、学生が受講に興味を持っていることが容易ではなく、学生のリアルタイムな表現によって学生に対して積極的な激励を形成することができない。同時に、機関又は教師は、学生の受講状態を把握できず、親も学校での子供の表現を理解できず、特にエピデミックの影響を受けるため、学生がオンラインで授業を受ける時間が非常に多く、しかしながら、学生が本当に授業を受けているか否か及び真剣に受講しているか否か、教室でのインタラクション表現が如何であるかは、すべて定量的に評価できない。したがって、どのように学生の学習状態を効果的に把握するかは、現在の解決すべき問題となっている。
学生が学習する方式は、通常、教師が授業し、学生が受講することであり、教室がインタラクションと興味性を欠き、学生が受講に興味を持っていることが容易ではなく、学生のリアルタイムな表現によって学生に対して積極的な激励を形成することができない。同時に、機関又は教師は、学生の受講状態を把握できず、親も学校での子供の表現を理解できず、特にエピデミックの影響を受けるため、学生がオンラインで授業を受ける時間が非常に多く、しかしながら、学生が本当に授業を受けているか否か及び真剣に受講しているか否か、教室でのインタラクション表現が如何であるかは、すべて定量的に評価できない。したがって、どのように学生の学習状態を効果的に把握するかは、現在の解決すべき問題となっている。
本開示の適用例で1つの学習システムが提供され、当該システムは、上記の開示された実施例に記載されたビデオ処理方法により、学生の学習状態を効果的に把握することができる。
図3は本開示による一適用例を示す概略図である。図に示すように、一例では、学習システムは、ユーザ端、教育用ソフトウェアサービス(SaaS:Software-as-a-Service)バックグラウンド及びインタラクション教室バックグラウンドなどの3つの部分で構成されてもよい。ここで、学生は、ユーザ端によってティーチングコースを視聴し、ユーザ端は、学習用のハードウェアデバイス(例えば図におけるWindowsシステム又はIOSシステム及びSDKがインストールされたクライアント)と、学生がオンライン教室にログインするためのアプリケーションプログラム(即ち図におけるユーザAPP)との2つの部分を含むことができる。教育SaaSバックグラウンドは、学生がいる教育機関のサーバーによって構築されたプラットフォームであってもよく、インタラクション教室バックグラウンドは、異なる教育機関のデータをまとめてデータメンテナンスを行うサーバーによって構築されたプラットフォームであってもよく、教育SaaSバックグラウンド又はインタラクション教室バックグラウンドに関わらず、いずれもAPIインターフェースを介して、ユーザ端とのデータインタラクションを行うことができる。これにより、上記に開示された各実施例で記載された学習状態情報の生成及び学習状態の統計データの生成が実現される。
本開示の適用例では、学習状態情報の生成プロセスは、
ユーザ端が、学生がティーチングコースを視聴するプロセスのビデオを収集し、収集されたビデオを処理することにより、各学生の学習状態情報を取得し、教育SaaSバックグラウンド及びインタラクション教室バックグラウンドが、APIインターフェースを介して、異なるユーザ端で生成された学習状態情報を呼び出し、これらの学習状態情報に対して、上記の開示された実施例で記載された任意の方式で統計処理を行い、学習状態の統計データを生成することを含むことができる。
ユーザ端が、学生がティーチングコースを視聴するプロセスのビデオを収集し、収集されたビデオを処理することにより、各学生の学習状態情報を取得し、教育SaaSバックグラウンド及びインタラクション教室バックグラウンドが、APIインターフェースを介して、異なるユーザ端で生成された学習状態情報を呼び出し、これらの学習状態情報に対して、上記の開示された実施例で記載された任意の方式で統計処理を行い、学習状態の統計データを生成することを含むことができる。
一例では、ユーザ端が収集されたビデオを処理し、各学生の学習状態情報を取得するプロセスは、以下のことを含むことができる。
A.学生が授業を受ける素晴らしい瞬間(即ち上記の開示された実施例で記載された積極的な学習行動)を取得する。
一例では、一定のルールを定義して、学生の素晴らしいビデオハイライトを作成することができ、学生の表現を短いビデオ又は一部の素晴らしいピクチャーに編集して親に提供することができ、このようにして、親は、学生の受講表現をリアルタイムで評価することができ、効果が高いと、学生が引き続き関連するコースに参加するように励ます可能性がある。
一例では、学生の素晴らしい瞬間の取得は、学生のチェックインが成功した後に行われてもよく、後の素晴らしい瞬間のビデオ又はピクチャーは、バックグラウンド又はクラウドにアップロードされ、同時に、学生がアップロードされた素晴らしい瞬間の内容をリアルタイムで見ることができるか否かを選択することもできる。一例では、素晴らしい瞬間の定義ルールは、少なくとも1種類のターゲットジェスチャーを生み出すことを含むことができ、ターゲットジェスチャーは、挙手、賞賛、OKジェスチャー及びYeahジェスチャーなどを含むことができ、一定時間の範囲内で、学生が上記のジェスチャーを実行していることが検出された場合、ジェスチャーを含むビデオに対してピクチャー又はビデオフレームの抽出を行うことができる。愉快のターゲット情緒を表現し、一定時間の範囲内に学生の表情が愉快であることが検出され、かつ微笑値があるターゲット微笑値(例えば99点)に達した場合、愉快ラベルが付いたビデオフレーム又はターゲット微笑値に達したビデオフレームに対してピクチャー又はビデオフレームの抽出を行うことができる。ティーチングコースの展示領域に注目し、一定時間の範囲内で学生の顔の向きがずっと正のままであると、即ちheadposeがある閾値範囲内にあると、この時間範囲内のビデオに対してピクチャー又はビデオフレームの抽出を行うことができる。
B.学生の学習状況に対して(上記の開示された実施例で記載された消極的な学習行動に対して)学習状況検出を行う。
一例では、学生が画面内にない可能性がある場合、又は専心しない場合、学習状況検出により、データを親にリアルタイムでプッシュできるため、親が早めに子供に注意を払い、子供の悪い学習習慣をタイムリーに正すことが容易になり、補助的な監督の役割を果たす。
一例では、学生に対する学習状況検出のプロセスは、学生のチェックインが成功した後に行われてもよく、例えば、カメラの前にどのくらいの時間範囲内に誰も現れないか、画面を見ないこと、目を閉じることなどの場合、その人の集中度が低いと判断し、この場合、学生が上記の学習行動を実行する時間長を統計して、それを学習状況検出の結果として用いて、対応する学習状態データを取得することができる。具体的な学習状況検出の配置ルールについては上記の各々の開示された実施例を参照することができ、ここで説明を省略する。
上記の各々の開示された例により、素晴らしい瞬間及び学習状況検出を含む学習状態情報を取得することができ、さらに、教育SaaSバックグラウンド及びインタラクション教室バックグラウンドがAPIインターフェースを介して、異なるユーザ端で生成された学習状態情報を呼び出し、学習状態の統計データを生成するというプロセスは、以下のことを含むことができる。
C.レポートを生成する(即ち上記の開示された実施例における少なくとも1つのカテゴリの学習状態の統計データを生成する)。
1つの例では、バックグラウンド又はクラウドAPIでは、デバイス、コース、機関など異なる方面で、学生のチェックイン情報及び学習状態情報を見ることができ、主なデータ指標は、チェックイン時間、チェックイン回数、顔ライブラリの顔とマッチングした状況(即ち上記の開示された実施例におけるターゲットオブジェクトと予め設定されたデータベース内の顔とのマッチング状況)、チェックインデバイス、チェックインコース、専心時間長さ及び微笑時間長さなどを含むことができる。
D.レポートを分析する(即ち上記の開示された実施例における可視化処理により少なくとも1つのターゲットオブジェクトの学習状態の統計データを生成する)。
1つの例では、教育SaaSバックグラウンド又はインタラクション教室バックグラウンドでは、オンライン教室での学生の表現状況を1つの完全な学習状況分析レポートに統括に整理することができる。レポートは、可視化されたグラフィカルインターフェースによって学生の受講状況を説明し、さらに、バックグラウンドは、より良い状況を選択して親又は教師にプッシュすることもでき、それによって機関の教師が学生の状況を分析し、子供たちが彼らの学習行動を改善するように徐々に支援するために用いられてもよい。
上記のプロセスに加えて、学習システムは、学生がユーザ端で学習するプロセスにおいて、学生の学習ビデオに対して背景分割処理を行うこともできる。一例では、ユーザ端は、ライブ放送に適す位置背景がなく又はプライバシー保護のために学生が背景画面を表示したくない場合に対して、背景分割機能を提供することができる。一例では、ユーザ端のSDKは、いくつかの異なる背景テンプレートをサポートすることができ、例えば、いくつかの汎用テンプレートを予め設定することができ、一例では、学生は、ユーザ端を介してインタラクション教室バックグラウンドからカスタマイズテンプレートを呼び出すこともできる。一例では、SDKは、背景テンプレートプレビューインターフェースをユーザ端のAPPに提供することができ、これは、学生がAPPを介して、呼び出す可能なカスタマイズテンプレートをプレビューすることに便利であり、学生は、授業を受けるプロセスにおいて、ユーザ端でのAPP上の背景分割されたステッカーを用いてライブ放送の背景をレンダリングすることもでき、一例では、学生がステッカーに満足していない場合、それを手動でトリガーして閉じることもできる。ユーザ端のAPPは、学生がステッカーを用いるデータを対応するバックグラウンド(教育SaaSバックグラウンド又はインタラクション教室バックグラウンド)に報告することができ、対応するバックグラウンドは、学生がどんな背景ステッカーを使用するか及び使用量などの情報を分析して追加の学習状態情報などとして用いることができる。
本開示の適用例で提供された学習システムは、オンライン教室に適用できるだけでなく、オンライン会議などの他の関連分野にも拡張されて適用することができる。
本開示で記載された上記の各方法の実施例が原理論理に反することなく、いずれも互いに組合わせられて、組み合わせた実施例を形成することができることを理解でき、紙幅に限定されるため、本開示で説明を省略する。
当業者は、具体的な実施形態の上記の方法において、各ステップの書き込み順序が厳密な実行順序を意味するものではなく、実施プロセスに対する制限を構成せず、各ステップの具体的な実行順序がその機能及び可能な内部論理で確定されるべきである。
本開示の実施例によるコンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラム命令がプロセッサに実行されると上記の方法が実現される。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体又は不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。
本開示の実施例はさらに電子デバイスを提供する。前記電子デバイスは、プロセッサと、プロセッサが実行可能な命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、上記方法を実行するように構成される。
本開示の実施例によるコンピュータプログラムは、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子デバイスで実行されると、前記電子デバイスにおけるプロセッサが上記の方法を実現するように実行する。
実際の応用において、上記のメモリは、揮発性メモリ(volatile memory)、例えばRAM、又は不揮発性メモリ(non-volatile memory)、例えばROM、フラッシュメモリ(flash memory)、ハードディスク(HDD:Hard Disk Drive)又はソリッドステートドライブ(SSD:Solid-State Drive)、又は上記のタイプのメモリの組み合わせであってもよく、プロセッサに命令及びデータを提供する。
上記プロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。異なるデバイスについて、上記のプロセッサ機能を実現するための電子機器が他のものであってもよいことを理解でき、本開示の実施例において具体的に限定されない。
電子デバイスは、端末、サーバー又は他の形態のデバイスとして提供されてもよい。
上記の実施例と同じ技術的考えに基づき、本開示の実施例は、さらに、プロセッサによって実行される時に上記の方法を実現するコンピュータプログラムを提供する。
図4は本開示の実施例による電子デバイス800のブロック図である。例えば、電子デバイス800は、移動電話、コンピュータ、デジタル放送端末、メッセージ送受信デバイス、ゲームコンソール、タブレットデバイス、医療デバイス、フィットネスデバイス、パーソナルデジタルアシスタント等の端末であってもよい。
図4を参照すると、電子デバイス800は、処理ユニット802、メモリ804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インターフェース812、センサーユニット814、及び通信ユニット816のうちの一つ又は複数を備えることができる。
処理ユニット802は、一般的に電子デバイス800の全体動作、例えば、表示、電話コール、データ通信、カメラの動作及び記録動作と関連する動作を制御する。処理ユニット802は、一つ又は複数のプロセッサ820を含んで命令を実行し、上記の方法の全て又は一部のステップを完成するようにすることができる。また、処理ユニット808と他のユニットとのインタラクションを容易にするために、処理ユニット802は、ユニット一つ又は複数のモジュールを含むことができる。例えば、マルチメディアユニット808と処理ユニット802の間のインタラクションを容易にするために、処理ユニット802は、マルチメディアモジュールユニットを含むことができる。
メモリ804は、様々なタイプのデータを記憶して電子デバイス800での動作をサポートするように構成される。これらのデータの例は、電子デバイス800で動作するいずれかのアプリケーションプログラム又は方法のための命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクなどの任意のタイプの揮発性又は不揮発性記憶装置又はそれらの組み合わせにより実現されてもよい。
電源ユニット806は、電子デバイス800の様々なユニットに電力を供給する。電源ユニット806は、電源管理システム、一つ又は複数の電源、及び電子デバイス800のための電力の生成、管理及び割り当てに関連する他のユニットを含むことができる。
マルチメディアユニット808は、前記電子デバイス800とユーザの間に1つの出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは、液晶ディスプレイ(LCD)とタッチパネル(TP)を含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するために、タッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライドとタッチパネル上のジェスチャーをセンシングするように、一つ又は複数のタッチセンサーを含む。前記タッチセンサーは、タッチ又はスライド動作の境界をセンシングするだけでなく、前記タッチ又はスライド動作に関連する持続時間及び圧力を検出することができる。一部の実施例において、マルチメディアユニット808は、1つのフロントカメラ及び/又はリアカメラを含む。電子デバイス800が動作モード、例えば撮影モード又はビデオモードにある場合、フロントカメラ及び/又はリアカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及び/又はリアカメラは、1つの固定された光学レンズシステムであってもよく、又は焦点距離及び光学ズーム能力を持っている。
オーディオユニット810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオユニット810は、1つのマイクロホン(MIC)を含み、電子デバイス800が動作モード、例えばコールモード、記録モードと音声識別モードにある場合、マイクロホンは、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶又は通信ユニット816を介して送信されることができる。一部の実施例において、オーディオユニット810は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース812は処理ユニット802と周辺インターフェースモジュールの間にインターフェースを提供し、上記周辺インターフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、音量ボタン、スタートボタンとロックボタンを含むことができるがこれらに限定されない。
センサーユニット814は、電子デバイス800に様々態様の状態評価を提供するための1つ又は複数のセンサーを含む。例えば、センサーユニット814は、電子デバイス800のオン/オフ状態、ユニットの相対的位置決めを検出することができ、例えば前記ユニットが電子デバイス800のディスプレイ及びキーパッドであり、センサーユニット814は、さらに電子デバイス800又は電子デバイス800の1つのユニットの位置変化、ユーザと電子デバイス800との接触の有無、電子デバイス800の方位又は加速/減速と電子デバイス800の温度変化を検出することができる。センサーユニット814は、いかなる物理的接触がない時に近くの物体の存在を検出するための近接センサーを含むことができる。センサーユニット814は、さらにイメージングアプリケーションに用いられる光センサー、例えばCMOS又はCCDイメージセンサーを含むことができる。一部の実施例において、当該センサーユニット814は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。
通信ユニット816は、電子デバイス800と他のデバイスの間の有線又は無線方式の通信を容易にするように構成される。電子デバイス800は、通信規格に基づく無線ネットワーク、例えばWiFi、2G、3G、4G又は5G又はそれらの組み合わせにアクセスすることができる。1つの例示的な実施例では、通信ユニット816は、放送チャネルを介して外部の放送管理システムからの放送信号又は放送関係者情報を受信する。1つの例示的な実施例では、前記通信ユニット816は、さらに近距離通信を容易にするための近距離通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線通信協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現されてもよい。
例示的実施例では、電子デバイス800は、上記方法を実行するために、一つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、ディジタル信号処理装置(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現されてもよい。
例示的実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えば、コンピュータプログラム命令を含むメモリ804が提供され、上記のコンピュータプログラム命令は、上記の方法を完了するために電子デバイス800のプロセッサ820によって実行されてもよい。
図5は本開示の実施例による電子デバイス1900のブロック図である。例えば、電子デバイス1900は、サーバーとして提供されてもよく、図5を参照すると、電子デバイス1900は、1つ又は複数のプロセッサを含む処理ユニット1922と、処理ユニット1922で実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932に代表されるメモリリソースとを備える。メモリ1932に記憶されているアプリケーションプログラムは、1つ又は1つ以上の1グループの命令に対応するモジュールを含むことができる。また、処理ユニット1922は、上記の方法を実行するために命令を実行するように構成される。
電子デバイス1900は、さらに電子デバイス1900の電源管理を実行するように構成される1つの電源ユニット1926と、電子デバイス1900をネットワークに接続するように構成される有線又は無線ネットワークインターフェース1950と、入出力(I/O)インターフェース1958とを備えることができる。電子デバイス1900は、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又は類似するものなどのメモリ1932に記憶されたオペレーティングシステムに基づいて動作することができる。
例示的実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えば、コンピュータプログラム命令を含むメモリ1932がさらに提供され、上記のコンピュータプログラム命令は、上記方法を完了するために電子デバイス1900の処理ユニット1922によって実行されてもよい。
本開示は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の様々な態様を実現させるためのコンピュータ読み取り可能なプログラム命令をロードしているコンピュータ読み取り可能な記憶媒体を含むことができる。
コンピュータ読み取り可能な記憶媒体は、命令実行デバイスによって用いられる命令を保持及び記憶することができる有形デバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス又は上記のデバイスの任意の適切な組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM:Random Access Memory)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリースティック、フロッピーディスク、機械的コーディングデバイス、例えば命令を記憶しているパンチカード又は溝内突出構造、及び上記のいずれかの適切な組み合わせを含む。ここで用いられるコンピュータ読み取り可能な憶媒体は、無線電波又は他の自由に伝播する電磁波、導波路又は他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを通る光パルス)、又は電線を介して伝送される電気信号などの瞬時信号そのものとして解釈されるべきではない。
ここで説明されるコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から各コンピューティング/処理デバイスにダウンロードされてもよく、又はインターネット、ローカルエリアネットワーク、広域ネットワーク及び/又はワイヤレスネットワークなどのネットワークを介して外部コンピュータ又は外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバーを含むことができる。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、各コンピューティング/プロセッシングデバイスのコンピュータ読み取り可能な記憶媒体に記憶するために当該コンピュータ読み取り可能なプログラム命令を転送する。
本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、器械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたはターゲットコードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト向けプログラミング言語、及び「C」言語などの従来の手続き型プログラミング言語又は類似するプログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、ユーザのコンピュータで完全に実行されたり、ユーザのコンピュータで部分的に実行されたり、1つの独立したソフトウェアパッケージとして実行されたり、ユーザのコンピュータで部分的に実行されたり、遠隔のコンピュータで部分的に実行されたり、又は遠隔のコンピュータ又はサーバーで完全に実行されたりすることができる。遠隔のコンピュータに係る場合、遠隔のコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい(例えばインターネットサービスプロバイダーによってインターネットを介して接続される)。一部の実施例では、コンピュータ読み取り可能なプログラム命令の状態人員情報を用いて、電子回路、例えばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)をパーソナライズしてカスタマイズすることにより、当該電子回路がコンピュータ読み取り可能なプログラム命令を実行できるため、本開示の様々な態様が実現される。
ここで本開示の各態様は、本開示の実施例による方法、装置(システム)とコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。フローチャート及び/又はブロック図の各ブロック、並びにフローチャート及び/又はブロック図の各ブロックの組み合わせがすべてコンピュータ読み取り可能なプログラム命令によって実現されてもよいことを理解すべきである。
これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサに提供されてもよく、これにより、これらの命令がコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行される場合、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現するデバイスを生じるように、マシンが生じる。これらのコンピュータ読み取り可能なプログラム命令をコンピュータ読み取り可能な記憶媒体に記憶することができ、これらの命令により、コンピュータ、プログラマブルデータ処理装置及び/又は他のデバイスが特定の方式で動作し、これにより、命令を記憶しているコンピュータ読み取り可能な媒体は、一つの製品を含み、その製品は、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作の各態様を実現する命令を含む。
コンピュータ読み取り可能なプログラム命令をコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードすることもでき、これにより、コンピュータ、他のプログラマブルデータ処理装置又は他のデバイスで一連の操作ステップを実行して、コンピュータで実現されるプロセスを生成し、それによってコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスで実行される命令により、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作が実現される。
図面におけるフローチャート及びブロック図には本開示の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能と操作が示されている。この点において、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができ、前記モジュール、プログラムセグメント又は命令の一部は、所定の論理機能を実現するための1つ又は複数の実行可能な命令を含む。いくつかの代替実現では、ブロックで表記された機能は、図面で表記されたものとは異なる順序で発生することもできる。例えば、2つの連続するブロックは、実際には基本的に並行して実行されてもよく、それらは、関連する機能によって逆の順序で実行されてもよい場合もある。注意すべきこととして、ブロック及び/又はフローチャートの各ブロック、及びブロック及び/又はフローチャートのブロックの組み合わせは、所定の機能又は動作を実行するための専用の、ハードウェアに基づくシステムで実現されてもよく、又は専用ハードウェアとコンピュータ命令の組み合わせで実現されてもよい。
以上に本開示の各実施例について説明したが、上記の説明は、例示的であり、網羅的ではなく、かつ開示される各実施例に限定されない。説明される各実施例の範囲及び精神から逸脱することなく、多くの修正及び変更は、当業者にとって明らかである。本明細書で用いられている用語の選択は、各実施例の原理、実際の応用又は市場における技術に対する改善を最もよく解釈すること、又は当業者が本明細書で開示される各実施例を理解することを可能にすることを目的とする。
Claims (17)
- ビデオ処理方法であって、
ビデオを取得することであって、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むことと、
前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出することと、
前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又は前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することと、を含むことを特徴とする、ビデオ処理方法。 - 前記学習行動は、少なくとも1種類のターゲットジェスチャーを実行すること、ターゲット情緒を表現すること、前記ティーチングコースの展示領域に注目すること、他のオブジェクトとの少なくとも1種類のインタラクション行動を実行すること、前記ビデオ内の少なくとも一部のビデオフレームに現れないこと、目を閉じること、及び前記ティーチングコースの展示領域でのアイコンタクト、のうちの少なくとも1種類を含むことを特徴とする
請求項1に記載の方法。 - 前記ビデオに基づいて、前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出することは、
前記ビデオに対してターゲットオブジェクトの検出を行い、前記ターゲットオブジェクトを含むビデオフレームを取得することと、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うことと、を含むことを特徴とする
請求項1又は2に記載の方法。 - 前記学習行動は、少なくとも1種類のターゲットジェスチャーを実行することを含み、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うことは、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類のターゲットジェスチャーの検出を行うことと、
少なくとも1種類の前記ターゲットジェスチャーを含む、連続するビデオフレームの数が第1閾値を超えることを検出した場合、前記ターゲットジェスチャーを含むビデオフレーム内の少なくとも1フレームをジェスチャー開始フレームとして記録することと、
ジェスチャー開始フレームの後のビデオフレームのうち、前記ターゲットジェスチャーがない連続するビデオフレームの数が第2閾値を超える場合、前記ターゲットジェスチャーがないビデオフレームのうちの少なくとも1フレームをジェスチャー終了フレームとして記録することと、
前記ジェスチャー開始フレームと前記ジェスチャー終了フレームの数に基づいて、前記ビデオ内の前記ターゲットオブジェクトが少なくとも1種類のターゲットジェスチャーを実行する回数及び/又は時間を確定することと、を含むことを特徴とする
請求項3に記載の方法。 - 前記学習行動は、ターゲット情緒を表現することを含み、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うことは、
前記ターゲットオブジェクトを含むビデオフレームに対して表情検出及び/又は微笑値検出を行うことと、
ビデオフレーム内の前記ターゲットオブジェクトが少なくとも1種類の第1ターゲット表情を示すこと又は微笑値の検出結果がターゲット微笑値を超えることを検出した場合、検出されたビデオフレームを第1検出フレームとして用いることと、
連続する前記第1検出フレームの数が第3閾値を超えることを検出した場合、前記ターゲットオブジェクトが前記ターゲット情緒を生み出したことを確定することと、を含むことを特徴とする
請求項3又は4に記載の方法。 - 前記学習行動は、前記ティーチングコースの展示領域に注目することを含み、
前記ターゲットオブジェクトを含むビデオフレームに対して少なくとも1種類の学習行動の検出を行うことは、
前記ターゲットオブジェクトを含むビデオフレームに対して表情検出及び顔角度検出を行うことと、
ビデオフレーム内の前記ターゲットオブジェクトが少なくとも1種類の第2ターゲット表情を示しかつ顔角度がターゲット顔角度範囲内にあることを検出した場合、検出されたビデオフレームを第2検出フレームとして用いることと、
連続する前記第2検出フレームの数が第4閾値を超えることを検出した場合、前記ターゲットオブジェクトが前記ティーチングコースの展示領域に注目することを確定することと、を含むことを特徴とする
請求項3乃至5のいずれか一項に記載の方法。 - 前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレームに基づいて、学習状態情報を生成することは、
前記ビデオフレームのうちの少なくとも1種類の学習行動を含むビデオフレームをターゲットビデオフレームセットとして取得することと、
前記ターゲットビデオフレームセット内の少なくとも1つのビデオフレームに対して顔の品質の検出を行い、顔の品質が顔品質閾値よりも大きいビデオフレームをターゲットビデオフレームとして用いることと、
前記ターゲットビデオフレームに基づいて、前記学習状態情報を生成することと、を含むことを特徴とする
請求項1乃至6のいずれか一項に記載の方法。 - 前記ターゲットビデオフレームに基づいて、前記学習状態情報を生成することは、
前記ターゲットビデオフレーム内の少なくとも1フレームを学習状態情報として用いること、及び/又は、
少なくとも1フレームの前記ターゲットビデオフレームにおける前記ターゲットオブジェクトの位置する領域を識別し、前記ターゲットオブジェクトの位置する領域に基づいて、前記学習状態情報を生成することを含むことを特徴とする
請求項7に記載の方法。 - 前記ビデオに基づいて、前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出することは、
前記ビデオに対してターゲットオブジェクトの検出を行い、前記ターゲットオブジェクトを含むビデオフレームを取得し、前記ビデオ内の、前記ターゲットオブジェクトを含むビデオフレーム以外のビデオフレームを、ターゲットオブジェクトが検出されないビデオフレームとして用いることと、
ターゲットオブジェクトが検出されない前記ビデオフレームの数が予め設定されたビデオフレーム数を超える場合、前記学習行動が前記ビデオ内の少なくとも一部のビデオフレームに現れないとの行動を含むことを検出することと、を含むことを特徴とする
請求項1又は2に記載の方法。 - 前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成することは、
前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行する時間が時間閾値以上であることを検出した場合、少なくとも1種類の前記学習行動の持続時間を記録することと、
少なくとも1種類の前記学習行動に対応する前記持続時間を前記学習状態情報として用いることと、を含むことを特徴とする
請求項1乃至9のいずれか一項に記載の方法。 - 前記方法は、
前記ビデオ内の少なくとも一部のビデオフレームの背景領域をレンダリングすることであって、ここで、前記背景領域は、前記ビデオフレーム内の前記ターゲットオブジェクト以外の領域であることをさらに含むことを特徴とする
請求項1乃至10のいずれか一項に記載の方法。 - 前記方法は、
少なくとも1つの前記ターゲットオブジェクトの学習状態情報を統計して、少なくとも1つの前記ターゲットオブジェクトの統計結果を得ることと、
少なくとも1つの前記ターゲットオブジェクトの統計結果に基づいて、学習状態統計データを生成することとをさらに含むことを特徴とする
請求項1乃至11のいずれか一項に記載の方法。 - 少なくとも1つの前記ターゲットオブジェクトの統計結果に基づいて、学習状態統計データを生成することは、
少なくとも1つの前記ターゲットオブジェクトが属するカテゴリに基づいて、少なくとも1つの前記カテゴリに含まれるターゲットオブジェクトの統計結果を取得し、少なくとも1つのカテゴリの学習状態統計データを生成することであって、ここで、前記ターゲットオブジェクトが属するカテゴリは、前記ターゲットオブジェクトが参加したコース、前記ターゲットオブジェクトが登録した機関及び前記ターゲットオブジェクトが用いるデバイスのうちの少なくとも1種類を含むこと、及び/又は、
少なくとも1つの前記ターゲットオブジェクトの統計結果に対して可視化処理を行い、少なくとも1つの前記ターゲットオブジェクトの学習状態統計データを生成することを含むことを特徴とする
請求項12に記載の方法。 - ビデオ処理装置であって、
ビデオを取得するように構成され、ここで、前記ビデオ内の少なくとも一部のビデオフレームがターゲットオブジェクトを含むビデオ取得モジュールと、
前記ビデオに基づいて、ティーチングコースを視聴しているプロセスにおける前記ターゲットオブジェクトの少なくとも1種類の学習行動を検出するように構成される検出モジュールと、
前記ターゲットオブジェクトが少なくとも1種類の学習行動を実行していることを検出した場合、前記少なくとも1種類の学習行動を少なくとも部分的に含むビデオフレーム及び/又は前記ターゲットオブジェクトが前記少なくとも1種類の学習行動を実行する持続時間に基づいて、学習状態情報を生成するように構成される生成モジュールと、を備えることを特徴とする、ビデオ処理装置。 - 電子デバイスであって、
プロセッサと、
プロセッサが実行可能な命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリに記憶されている命令を呼び出して請求項1乃至12のいずれか一項に記載の方法を実行するように構成されることを特徴とする、電子デバイス。 - コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、請求項1乃至13のいずれか一項に記載の方法が実現される、コンピュータ読み取り可能な記憶媒体。
- コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが電子デバイスで実行される場合、前記電子デバイスにおけるプロセッサは、請求項1乃至13のいずれか一項に記載の方法を実現するように実行する、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010442733.6 | 2020-05-22 | ||
CN202010442733.6A CN111553323A (zh) | 2020-05-22 | 2020-05-22 | 视频处理方法及装置、电子设备和存储介质 |
PCT/CN2020/137690 WO2021232775A1 (zh) | 2020-05-22 | 2020-12-18 | 视频处理方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022537475A true JP2022537475A (ja) | 2022-08-26 |
Family
ID=72000950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021538705A Pending JP2022537475A (ja) | 2020-05-22 | 2020-12-18 | ビデオ処理方法及び装置、電子デバイスと記憶媒体 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2022537475A (ja) |
KR (1) | KR20210144658A (ja) |
CN (1) | CN111553323A (ja) |
TW (1) | TW202145131A (ja) |
WO (1) | WO2021232775A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553323A (zh) * | 2020-05-22 | 2020-08-18 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN112270231A (zh) * | 2020-10-19 | 2021-01-26 | 北京大米科技有限公司 | 一种确定目标视频属性特征的方法、存储介质、电子设备 |
CN112287844B (zh) * | 2020-10-30 | 2023-04-18 | 北京市商汤科技开发有限公司 | 学情分析方法及装置、电子设备和存储介质 |
CN112652200A (zh) * | 2020-11-16 | 2021-04-13 | 北京家有课堂科技有限公司 | 人机交互系统、方法、服务器、交互控制设备及存储介质 |
TWI759016B (zh) * | 2020-12-17 | 2022-03-21 | 正文科技股份有限公司 | 檢定受測人之學習狀態的方法及檢定受測人之學習狀態的系統 |
CN112598551B (zh) * | 2020-12-24 | 2022-11-29 | 北京市商汤科技开发有限公司 | 行为指导方案生成方法、装置、计算机设备和存储介质 |
CN112613780B (zh) * | 2020-12-29 | 2022-11-25 | 北京市商汤科技开发有限公司 | 一种学习报告生成的方法、装置、电子设备及存储介质 |
CN112866808B (zh) * | 2020-12-31 | 2022-09-06 | 北京市商汤科技开发有限公司 | 一种视频处理方法、装置、电子设备及存储介质 |
CN112990723B (zh) * | 2021-03-24 | 2021-11-30 | 食安快线信息技术(深圳)有限公司 | 基于用户学习行为深度分析的在线教育平台学生学习力分析反馈方法 |
CN113052088A (zh) * | 2021-03-29 | 2021-06-29 | 北京大米科技有限公司 | 一种图像处理的方法、装置、可读存储介质和电子设备 |
CN114663261B (zh) * | 2022-05-18 | 2022-08-23 | 火焰蓝(浙江)信息科技有限公司 | 适用于培训考核系统的数据处理方法 |
CN114677751B (zh) * | 2022-05-26 | 2022-09-09 | 深圳市中文路教育科技有限公司 | 学习状态的监控方法、监控装置及存储介质 |
CN116128453B (zh) * | 2023-02-18 | 2024-05-03 | 广州市点易资讯科技有限公司 | 一种线上课程巡检方法、系统、设备及介质 |
CN117636219A (zh) * | 2023-12-04 | 2024-03-01 | 浙江大学 | 一种家庭同胞互动过程中的协作状态分析方法及其系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097311A (ja) * | 2011-11-04 | 2013-05-20 | Zenrin Datacom Co Ltd | 学習支援装置、学習支援方法および学習支援プログラム |
WO2018097177A1 (ja) * | 2016-11-24 | 2018-05-31 | 株式会社ガイア・システム・ソリューション | エンゲージメント測定システム |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
JP6636670B1 (ja) * | 2019-07-19 | 2020-01-29 | 株式会社フォーサイト | 学習システム、学習講義提供方法、およびプログラム |
CN110991381A (zh) * | 2019-12-12 | 2020-04-10 | 山东大学 | 一种基于行为和语音智能识别的实时课堂学生状态分析与指示提醒系统和方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160148515A1 (en) * | 2014-11-20 | 2016-05-26 | MyChild, Inc. | Web and mobile parent engagement and learning management system |
CN109815795A (zh) * | 2018-12-14 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于人脸监测的课堂学生状态分析方法及装置 |
CN110033400A (zh) * | 2019-03-26 | 2019-07-19 | 深圳先进技术研究院 | 一种课堂监控分析系统 |
CN111553323A (zh) * | 2020-05-22 | 2020-08-18 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN112287844B (zh) * | 2020-10-30 | 2023-04-18 | 北京市商汤科技开发有限公司 | 学情分析方法及装置、电子设备和存储介质 |
-
2020
- 2020-05-22 CN CN202010442733.6A patent/CN111553323A/zh active Pending
- 2020-12-18 KR KR1020217021262A patent/KR20210144658A/ko not_active Application Discontinuation
- 2020-12-18 JP JP2021538705A patent/JP2022537475A/ja active Pending
- 2020-12-18 WO PCT/CN2020/137690 patent/WO2021232775A1/zh active Application Filing
-
2021
- 2021-01-07 TW TW110100570A patent/TW202145131A/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097311A (ja) * | 2011-11-04 | 2013-05-20 | Zenrin Datacom Co Ltd | 学習支援装置、学習支援方法および学習支援プログラム |
WO2018097177A1 (ja) * | 2016-11-24 | 2018-05-31 | 株式会社ガイア・システム・ソリューション | エンゲージメント測定システム |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
JP6636670B1 (ja) * | 2019-07-19 | 2020-01-29 | 株式会社フォーサイト | 学習システム、学習講義提供方法、およびプログラム |
CN110991381A (zh) * | 2019-12-12 | 2020-04-10 | 山东大学 | 一种基于行为和语音智能识别的实时课堂学生状态分析与指示提醒系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021232775A1 (zh) | 2021-11-25 |
CN111553323A (zh) | 2020-08-18 |
TW202145131A (zh) | 2021-12-01 |
KR20210144658A (ko) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022537475A (ja) | ビデオ処理方法及び装置、電子デバイスと記憶媒体 | |
CN112287844B (zh) | 学情分析方法及装置、电子设备和存储介质 | |
US9734410B2 (en) | Systems and methods for analyzing facial expressions within an online classroom to gauge participant attentiveness | |
JP6165846B2 (ja) | 目のトラッキングに基づくディスプレイの一部の選択的強調 | |
CN107316520B (zh) | 视频教学互动方法、装置、设备及存储介质 | |
CN106599251A (zh) | 展示主播排名的方法和装置 | |
US9955116B2 (en) | Utilizing eye tracking to determine attendee engagement | |
CN110598632B (zh) | 目标对象的监测方法及装置、电子设备和存储介质 | |
CN106993229A (zh) | 互动属性展示方法及装置 | |
US20220417566A1 (en) | Method and apparatus for data interaction in live room | |
CN111556279A (zh) | 即时会话的监控方法和通信方法 | |
CN108833991A (zh) | 视频字幕显示方法及装置 | |
WO2021218194A1 (zh) | 数据处理方法及装置、电子设备和存储介质 | |
US20230222932A1 (en) | Methods, systems, and media for context-aware estimation of student attention in online learning | |
Merkt et al. | Pushing the button: Why do learners pause online videos? | |
CN107807762A (zh) | 界面展示方法及装置 | |
Nassauer et al. | Video data analysis: How to use 21st century video in the social sciences | |
CN111629222A (zh) | 一种视频处理方法、设备及存储介质 | |
Albraheem et al. | Third eye: An eye for the blind to identify objects using human-powered technology | |
CN113591515B (zh) | 专注度处理方法、装置及存储介质 | |
US20230370565A1 (en) | Visual image management | |
CN111144255B (zh) | 一种教师的非语言行为的分析方法及装置 | |
TWM605427U (zh) | 遠距面試系統 | |
Brem et al. | SmileAtMe: rating and recommending funny images via smile detection | |
CN115712369A (zh) | 对终端应用的解锁处理方法、装置、智能设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210630 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230322 |