JP2022075661A - Information extraction apparatus - Google Patents

Information extraction apparatus Download PDF

Info

Publication number
JP2022075661A
JP2022075661A JP2022013826A JP2022013826A JP2022075661A JP 2022075661 A JP2022075661 A JP 2022075661A JP 2022013826 A JP2022013826 A JP 2022013826A JP 2022013826 A JP2022013826 A JP 2022013826A JP 2022075661 A JP2022075661 A JP 2022075661A
Authority
JP
Japan
Prior art keywords
unit
extraction device
information
information extraction
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022013826A
Other languages
Japanese (ja)
Other versions
JP7130290B2 (en
Inventor
渉三 神谷
Shiyouzo Kamiya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Imbesideyou Inc
Original Assignee
Imbesideyou Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/JP2020/040324 external-priority patent/WO2022091230A1/en
Application filed by Imbesideyou Inc filed Critical Imbesideyou Inc
Priority to JP2022013826A priority Critical patent/JP7130290B2/en
Publication of JP2022075661A publication Critical patent/JP2022075661A/en
Application granted granted Critical
Publication of JP7130290B2 publication Critical patent/JP7130290B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information extraction apparatus capable of reducing the load due to arithmetic processing.
SOLUTION: In a home individual tutoring system, a classroom video distribution apparatus 10, which is an information extraction apparatus, includes: an extraction unit which extracts a specific frame group in accordance with a predetermined specific condition designated from the outside, from a video image formed of a plurality of frames; an imaging unit which images a predetermined subject and acquires the video image; a sound collection unit which collects ambient sound including the subject; and a waveform registration unit which registers a predetermined waveform in advance. When waveform data of the sound collected by the sound collection unit coincides with the waveform data registered on the waveform registration unit, a frame group corresponding to the above waveform is extracted, as a specific frame group, from the video image.
SELECTED DRAWING: Figure 4
COPYRIGHT: (C)2022,JPO&INPIT

Description

本開示は、情報抽出装置に関する。 The present disclosure relates to an information extraction device.

近年、各種コンテンツの配信を受ける配信サービスが普及しつつある。 In recent years, distribution services that receive distribution of various contents are becoming widespread.

特許文献1には、ユーザが配信を希望する音楽コンテンツの曲名等がわからないときでも、捜索対象である楽曲の鼻歌を入力することで、所望の音楽コンテンツを検出する処理を可能にした技術が開示されている。 Patent Document 1 discloses a technique that enables a process of detecting a desired music content by inputting a humming song of the music to be searched even when the user does not know the song title or the like of the music content desired to be distributed. Has been done.

特開2002-55994号公報Japanese Patent Application Laid-Open No. 2002-55994

ところで、特許文献1に記載の技術は、配信されるコンテンツが音楽コンテンツに限られるため、それ以外のあらゆる動画コンテンツに対して捜索対象を検出する処理を行うには、コンピュータによる膨大な演算処理が必要となる。 By the way, in the technique described in Patent Document 1, since the content to be distributed is limited to music content, a huge amount of arithmetic processing by a computer is required to perform a process of detecting a search target for all other video contents. You will need it.

そこで、本開示は、このような状況に鑑みてなされたものであり、演算処理に伴う負荷を軽減し得る情報抽出装置を提供することを一つの目的とする。 Therefore, the present disclosure has been made in view of such a situation, and one object of the present invention is to provide an information extraction device capable of reducing the load associated with arithmetic processing.

上記課題を解決するための本発明の主たる発明は、複数のフレームから構成される動画像から、外部から指示される所定の特定条件に従って特定のフレーム群を抽出する抽出部を備えることを特徴とする。 The main invention of the present invention for solving the above-mentioned problems is characterized by comprising an extraction unit for extracting a specific frame group from a moving image composed of a plurality of frames according to a predetermined specific condition instructed from the outside. do.

本開示によれば、演算処理に伴う負荷を軽減し得る。 According to the present disclosure, the load associated with the arithmetic processing can be reduced.

本開示の第1の実施形態に係る在宅個別指導システム1の構成例を示す概念図である。It is a conceptual diagram which shows the structural example of the home tutoring system 1 which concerns on 1st Embodiment of this disclosure. 本開示の第1の実施形態に係る教室映像配信装置10を実現するコンピュータのハードウェア構成例を示す図である。It is a figure which shows the hardware configuration example of the computer which realizes the classroom video distribution apparatus 10 which concerns on 1st Embodiment of this disclosure. 本開示の第1の実施形態に係る受講生端末20を実現するコンピュータのハードウェア構成例を示す図である。It is a figure which shows the hardware configuration example of the computer which realizes the student terminal 20 which concerns on 1st Embodiment of this disclosure. 本開示の第1の実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。It is a figure which shows the software configuration example of the classroom video distribution apparatus 10 which concerns on 1st Embodiment of this disclosure. 本開示の第1の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。It is a flowchart explaining the process flow of the classroom image distribution method by 1st Embodiment of this disclosure. 本開示の第2の実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。It is a figure which shows the software configuration example of the classroom video distribution apparatus 10 which concerns on the 2nd Embodiment of this disclosure. 本開示の第2の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。It is a flowchart explaining the process flow of the classroom image distribution method by the 2nd Embodiment of this disclosure. 本開示の第3の実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。It is a figure which shows the software configuration example of the classroom video distribution apparatus 10 which concerns on 3rd Embodiment of this disclosure. 本開示の第3の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。It is a flowchart explaining the process flow of the classroom image distribution method by the 3rd Embodiment of this disclosure. 本開示の第4の実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。It is a figure which shows the software configuration example of the classroom video distribution apparatus 10 which concerns on 4th Embodiment of this disclosure. 本開示の第4の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。It is a flowchart explaining the process flow of the classroom image distribution method by 4th Embodiment of this disclosure.

本開示の実施形態の内容を列記して説明する。本開示は、以下のような構成を備える。
[項目1]
複数のフレームから構成される動画像を取得する取得部と、
当該動画像内に含まれる所定のデータを特定するための特定条件を記憶する記憶部と、
当該特定条件に従って、前記動画像から特定のフレーム群を複数抽出する抽出部と、
抽出された前記特定のフレーム群同士を連結する連結部と、
連結された複数のフレーム群を含むダイジェスト情報を出力する出力部と、を備える、
情報抽出装置。
[項目2]
項目1に記載の情報抽出装置であって、
所定の波形データを予め登録する波形登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる音の波形データと前記登録されている波形データとが一致するか否かであって、
前記抽出部は、両波形データが一致した場合に、当該一致した波形に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
[項目3]
項目2に記載の情報抽出装置であって、
動画内に含まれる前記音を音声認識によりテキスト情報に変換する変換部を更に備え、
前記変換部は、前記特定のフレーム群とその前後所定フレーム数とを含む補助フレーム群に対応する前記音を変換する、
情報抽出装置。
[項目4]
項目2又は項目3に記載の情報抽出装置であって、
前記被写体を含む周囲の音が示す情報には、会話情報と非会話情報とが混在する、
情報抽出装置。
[項目5]
項目4に記載の情報抽出装置であって、
前記会話情報には、ポジティブな感情を示すワードと、ネガティブな感情を示すワードの少なくとも何れかが含まれる、
情報抽出装置。
[項目6]
項目4又は項目5に記載の情報抽出装置であって、
前記非会話情報には、舌打ち、溜め息、相槌の少なくとも何れかを示す情報が含まれる、
情報抽出装置。
[項目7]
項目1に記載の情報抽出装置であって、
顔の表情に関する所定の顔評価値を予め登録する顔情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる顔の表情から算出される顔評価値と前記登録されている顔評価値とが一致するか否かであって、
前記抽出部は、両顔評価値が一致した場合に、当該一致した顔評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
[項目8]
項目7に記載の情報抽出装置であって、
前記顔評価値には、前記人物の幸福感、退屈感又は緊張感の度合いを評価した評価値が含まれる、
情報抽出装置。
[項目9]
項目7又は項目8に記載の情報抽出装置であって、
前記顔評価値には、前記人物の表情、前記人物の視線の向き、前記人物の顔の向きを評価した評価値が含まれる、
情報抽出装置
[項目10]
項目1に記載の情報抽出装置であって、
人物の動作に関する所定の動作評価値を予め登録する動作情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる人物から算出される動作評価値と前記登録されている動作評価値とが一致するか否かであって、
前記抽出部は、両動作評価値が一致した場合に、当該一致した動作評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
[項目11]
項目10に記載の情報抽出装置であって、
前記動作評価値には、前記人物の身振り、手振り、ジェスチャ、ボディランゲージの少なくとも何れかの動作を評価した評価値が含まれる、
情報抽出装置。

[項目12]
項目1に記載の情報抽出装置であって、
所定の生体情報に関する生体評価値を予め登録する生体情報登録部と、を備え、
前記特定条件は、前記動画像内に含まれる人物から算出可能な生体評価値と、前記登録されている生体評価値とが一致するか否かであって、
前記抽出部は、両生体評価値が一致した場合に、当該一致した生体評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
[項目13]
項目12に記載の情報抽出装置であって、
前記生体評価値には、前記人物の血圧、脈拍、脈圧の少なくとも何れかが含まれる、
情報抽出装置。
[項目14]
項目1乃至項目13の何れか一項に記載の情報抽出装置であって、
前記特定のフレーム群に対して、当該特定のフレーム群と時系列的に前後に連続する追加フレームを追加するフレーム追加部を備えている、
情報抽出装置。
[項目15]
項目1乃至項目14の何れかに記載の情報抽出装置によって抽出されたダイジェスト情報に含まれる少なくとも顔画像又は音声を所定のフレーム単位ごとに識別する識別手段と、
識別した前記顔画像に関する評価値を算出する評価手段とを更に備える、
ビデオミーティング評価端末。
[項目16]
項目15に記載のビデオミーティング評価端末であって、
ビデオミーティング評価端末は、前記評価値の時系列によるグラフ情報を提供する、
ビデオミーティング評価端末。
[項目17]
項目15又は項目16に記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記顔画像を複数の異なる観点によって評価した複数の評価値を算出する、
ビデオミーティング評価端末。
[項目18]
項目15乃至項目17のいずれかに記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記動画像に含まれる音声と共に前記評価値を算出する、
ビデオミーティング評価端末。
[項目19]
項目15乃至項目18のいずれかに記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記動画像内に含まれる前記顔画像以外の対象物と共に前記評価値を算出する、
ビデオミーティング評価端末。
The contents of the embodiments of the present disclosure will be listed and described. The present disclosure comprises the following configurations.
[Item 1]
An acquisition unit that acquires a moving image composed of multiple frames,
A storage unit that stores specific conditions for specifying predetermined data contained in the moving image, and a storage unit.
An extraction unit that extracts a plurality of specific frame groups from the moving image according to the specific conditions, and an extraction unit.
A connecting portion that connects the extracted specific frame groups to each other,
It includes an output unit that outputs digest information including a plurality of concatenated frame groups.
Information extraction device.
[Item 2]
The information extraction device according to item 1.
Further equipped with a waveform registration unit for pre-registering predetermined waveform data,
The specific condition is whether or not the waveform data of the sound included in the moving image and the registered waveform data match.
When both waveform data match, the extraction unit extracts a frame group corresponding to the matched waveform from the moving image as the specific frame group.
Information extraction device.
[Item 3]
The information extraction device according to item 2.
It also has a conversion unit that converts the sound contained in the video into text information by voice recognition.
The conversion unit converts the sound corresponding to the auxiliary frame group including the specific frame group and a predetermined number of frames before and after the specific frame group.
Information extraction device.
[Item 4]
The information extraction device according to item 2 or item 3.
Conversational information and non-conversational information are mixed in the information indicated by the surrounding sounds including the subject.
Information extraction device.
[Item 5]
The information extraction device according to item 4.
The conversation information includes at least one of a word indicating a positive emotion and a word indicating a negative emotion.
Information extraction device.
[Item 6]
The information extraction device according to item 4 or item 5.
The non-conversational information includes information indicating at least one of a tongue-and-groove, a sigh, and an aizuchi.
Information extraction device.
[Item 7]
The information extraction device according to item 1.
Further equipped with a face information registration unit that registers a predetermined facial evaluation value regarding facial expressions in advance.
The specific condition is whether or not the face evaluation value calculated from the facial expression included in the moving image matches the registered face evaluation value.
When both face evaluation values match, the extraction unit extracts a frame group corresponding to the matched face evaluation values from the moving image as the specific frame group.
Information extraction device.
[Item 8]
The information extraction device according to item 7.
The face evaluation value includes an evaluation value for evaluating the degree of happiness, boredom, or tension of the person.
Information extraction device.
[Item 9]
The information extraction device according to item 7 or item 8.
The face evaluation value includes an evaluation value that evaluates the facial expression of the person, the direction of the line of sight of the person, and the direction of the face of the person.
Information extraction device [Item 10]
The information extraction device according to item 1.
Further equipped with an operation information registration unit for pre-registering a predetermined motion evaluation value related to the motion of a person.
The specific condition is whether or not the motion evaluation value calculated from the person included in the moving image and the registered motion evaluation value match.
When both motion evaluation values match, the extraction unit extracts a frame group corresponding to the matched motion evaluation values from the moving image as the specific frame group.
Information extraction device.
[Item 11]
The information extraction device according to item 10.
The motion evaluation value includes an evaluation value that evaluates at least one motion of the person's gesture, hand gesture, gesture, or body language.
Information extraction device.

[Item 12]
The information extraction device according to item 1.
It is equipped with a biometric information registration unit that pre-registers biometric evaluation values related to predetermined biometric information.
The specific condition is whether or not the biometric evaluation value that can be calculated from the person included in the moving image and the registered biometric evaluation value match.
When both bio-evaluation values match, the extraction unit extracts a frame group corresponding to the matched bio-evaluation values from the moving image as the specific frame group.
Information extraction device.
[Item 13]
The information extraction device according to item 12.
The biometric evaluation value includes at least one of the blood pressure, pulse, and pulse pressure of the person.
Information extraction device.
[Item 14]
The information extraction device according to any one of items 1 to 13.
A frame addition unit for adding additional frames that are continuous in time series with the specific frame group is provided for the specific frame group.
Information extraction device.
[Item 15]
An identification means for identifying at least a face image or a sound included in the digest information extracted by the information extraction device according to any one of items 1 to 14 for each predetermined frame unit.
Further provided with an evaluation means for calculating an evaluation value for the identified face image.
Video meeting evaluation terminal.
[Item 16]
The video meeting evaluation terminal according to item 15,
The video meeting evaluation terminal provides graph information in chronological order of the evaluation values.
Video meeting evaluation terminal.
[Item 17]
The video meeting evaluation terminal according to item 15 or item 16.
The video meeting evaluation terminal calculates a plurality of evaluation values obtained by evaluating the face image from a plurality of different viewpoints.
Video meeting evaluation terminal.
[Item 18]
The video meeting evaluation terminal according to any one of items 15 to 17.
The video meeting evaluation terminal calculates the evaluation value together with the sound included in the moving image.
Video meeting evaluation terminal.
[Item 19]
The video meeting evaluation terminal according to any one of items 15 to 18.
The video meeting evaluation terminal calculates the evaluation value together with an object other than the face image contained in the moving image.
Video meeting evaluation terminal.

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Preferred embodiments of the present disclosure will be described in detail below with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.

本開示では、デジタル通信回線を介して学習塾・教育機関と生徒・受講生宅を結び、各生徒・受講生は自宅に居ながら学習塾・教育機関で講義されている講義映像を視聴して、学習塾・教育機関の授業を受けられる在宅個別指導システムに情報抽出装置を適用する例を説明する。 In this disclosure, the learning school / educational institution is connected to the student / student's home via a digital communication line, and each student / student can watch the lecture video given at the learning school / educational institution while staying at home. , An example of applying an information extraction device to a home-based tutoring system that allows students to take classes at a cram school / educational institution will be described.

<第1の実施形態>
図1は、本開示の第1の実施形態に係る在宅個別指導システム1の構成例を示す概念図である。図示するように、この在宅個別指導システム1では、遠隔授業を行う講師Tの教室側に設けられた教室映像配信装置10と、それぞれの在宅で指導を受ける受講生群(受講生A、B、C)に夫々関連する受講生端末20A、20B、20Cと、がネットワークNWを介して通信可能に接続されている。なお以下では、受講生端末20A、20B、20Cを特に区別して説明する必要がない場合には、単に受講生端末20と略記する。同様に、受講生A、B、Cを特に区別して説明する必要がない場合には、単に受講生と略記する。
<First Embodiment>
FIG. 1 is a conceptual diagram showing a configuration example of a home-based individual guidance system 1 according to the first embodiment of the present disclosure. As shown in the figure, in this home-based individual guidance system 1, the classroom video distribution device 10 provided on the classroom side of the instructor T who conducts distance lessons and the student group (students A, B, who receive guidance at each home). The student terminals 20A, 20B, and 20C related to C) are connected to each other so as to be communicable via the network NW. In the following, when it is not necessary to distinguish and explain the student terminals 20A, 20B, and 20C, they are simply abbreviated as the student terminals 20. Similarly, when it is not necessary to distinguish and explain students A, B, and C, they are simply abbreviated as students.

教室映像配信装置10は、請求の範囲に記載された情報抽出装置の一例となる。なお、本構成は一例であり、ある構成が他の構成を兼ね備えていたり、他の構成が含まれていたりしてもよい。なお、ここでは受講生A、B、Cの3名の場合を示しているが、講師が同時に指導できる人数又はネットワークNWの接続回線数等に応じて、さらに多人数としてもよい。 The classroom video distribution device 10 is an example of the information extraction device described in the claims. It should be noted that this configuration is an example, and a certain configuration may have another configuration or may include another configuration. Although the case of three students A, B, and C is shown here, the number may be further increased depending on the number of people that the instructor can teach at the same time or the number of connected lines of the network NW.

本実施形態において、「講師」とは、教授、教諭、教師を含む概念である。「教室」とは、学習塾、カルチャーセンター、教育機関(例えば、初等・中等・高等教育機関、高等学校、高等専門学校、専門学校、短期大学、四年制大学、大学院など、文部科学省に登録されている学校)を含む概念である。「受講生」とは、生徒、学生、聴講生を含む概念である。 In this embodiment, the "lecturer" is a concept including a professor, a teacher, and a teacher. "Classroom" refers to the Ministry of Education, Culture, Sports, Science and Technology, including cram schools, culture centers, educational institutions (for example, primary, secondary and higher education institutions, high schools, technical colleges, vocational schools, junior colleges, four-year universities, graduate schools, etc.) It is a concept that includes registered schools). "Student" is a concept that includes students, students, and auditors.

本実施形態においてネットワークNWはインターネットを想定している。ネットワークNWは、例えば、公衆電話回線網、携帯電話回線網、無線通信網、イーサネット(登録商標)などにより構築される。 In this embodiment, the network NW assumes the Internet. The network NW is constructed by, for example, a public telephone line network, a mobile phone line network, a wireless communication network, Ethernet (registered trademark), and the like.

<ハードウェア構成>
図2は、本実施形態に係る教室映像配信装置10を実現するコンピュータのハードウェア構成例を示す図である。コンピュータは、少なくとも、通信部11と、撮像部12と、収音部13と、モニタ14と、メモリ15と、ストレージ16と、入出力部17と、制御部18等を備える。これらはバス19を通じて相互に電気的に接続される。
<Hardware configuration>
FIG. 2 is a diagram showing a hardware configuration example of a computer that realizes the classroom video distribution device 10 according to the present embodiment. The computer includes at least a communication unit 11, an image pickup unit 12, a sound collection unit 13, a monitor 14, a memory 15, a storage 16, an input / output unit 17, a control unit 18, and the like. These are electrically connected to each other through the bus 19.

通信部11は、教室映像配信装置10をネットワークNWに接続する。通信部11は、例えば、有線LAN(Local Area Network)、無線LAN、Wi-Fi(Wireless Fidelity、登録商標)、赤外線通信、Bluetooth(登録商標)、近距離または非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。 The communication unit 11 connects the classroom video distribution device 10 to the network NW. The communication unit 11 may use, for example, a wired LAN (Local Area Network), wireless LAN, Wi-Fi (Wireless Fidelity, registered trademark), infrared communication, Bluetooth (registered trademark), short-range or non-contact communication, or the like. Communicate directly with the device or via a network access point.

撮像部12は、CMOS又はCCDなどの撮像素子を用いて電子撮影する機能を有する。撮像部12は、受講生に対する講義を行う講師Tを被写体として撮像して、講師映像を取得する。撮像部12は、講師Tが講義を進行する際に使用する黒板又はホワイトボードに記載した画像も撮像できる構成とするとよいが、黒板又はホワイトボードの為に独立したカメラを設けてもよい。 The image pickup unit 12 has a function of electronically photographing using an image pickup element such as CMOS or CCD. The image pickup unit 12 takes an image of the instructor T who gives a lecture to the students as a subject, and acquires the instructor image. The image pickup unit 12 may be configured to be able to capture an image described on the blackboard or whiteboard used by the instructor T when proceeding with the lecture, but an independent camera may be provided for the blackboard or whiteboard.

収音部13は、講師Tを含む周囲の音を収音する。収音部13は、講師Tの音声を含む周囲の音を取得するためのマイクロフォン等を備える。さらに、収音部13は、取得した音を電気信号に変換する等の適宜処理を行い得る。 The sound collecting unit 13 collects ambient sounds including the instructor T. The sound collecting unit 13 is provided with a microphone or the like for acquiring ambient sounds including the voice of the instructor T. Further, the sound collecting unit 13 can perform appropriate processing such as converting the acquired sound into an electric signal.

モニタ14は、受講生端末20から送信される受講生映像と、撮像部12で取得される講師映像とを一覧可能な状態で表示し得る。もちろん、モニタ14は、受講生映像のみを単独で表示してもよく、講師映像のみを単独で表示してもよい。 The monitor 14 can display the student image transmitted from the student terminal 20 and the instructor image acquired by the imaging unit 12 in a listable state. Of course, the monitor 14 may display only the student video alone, or may display only the lecturer video alone.

メモリ15は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリ又はHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ15は、制御部18のワークエリア等として使用され、また、教室映像配信装置10の起動時に実行されるBIOS(Basic Input/Output System)、及び各種設定情報等を格納する。 The memory 15 includes a main storage configured by a volatile storage device such as a DRAM (Dynamic Random Access Memory) and an auxiliary storage configured by a non-volatile storage device such as a flash memory or an HDD (Hard Disk Drive). .. The memory 15 is used as a work area or the like of the control unit 18, and also stores a BIOS (Basic Input / Output System) executed when the classroom video distribution device 10 is started, various setting information, and the like.

ストレージ16は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ16に構築されていてもよい。 The storage 16 stores various programs such as application programs. A database storing data used for each process may be built in the storage 16.

入出力部17は、例えば、キーボード、マウス、タッチパネル等の情報入力機器である。 The input / output unit 17 is an information input device such as a keyboard, a mouse, and a touch panel.

制御部18は、教室映像配信装置10全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部18は、CPU(Central Processing Unit)等のプロセッサであり、ストレージ16に格納されメモリ15に展開されたプログラム等を実行して各情報処理を実施する。 The control unit 18 is an arithmetic unit that controls the operation of the entire classroom video distribution device 10, controls the transmission and reception of data between each element, and performs information processing necessary for application execution and authentication processing. For example, the control unit 18 is a processor such as a CPU (Central Processing Unit), and executes each information processing by executing a program or the like stored in the storage 16 and expanded in the memory 15.

バス19は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。 The bus 19 is commonly connected to each of the above elements and transmits, for example, an address signal, a data signal, and various control signals.

図3は、本実施形態に係る受講生端末20を実現するコンピュータのハードウェア構成例を示す図である。コンピュータは、少なくとも、通信部21と、撮像部22と、収音部23と、モニタ24と、メモリ25と、ストレージ26と、入出力部27と、制御部28等を備える。これらはバス29を通じて相互に電気的に接続される。本実施形態に係る受講生端末20を実現するコンピュータ等のハードウェア構成は、図2に示す教室映像配信装置10のハードウェア構成例と同様であるため、相違点のみ説明する。 FIG. 3 is a diagram showing a hardware configuration example of a computer that realizes the student terminal 20 according to the present embodiment. The computer includes at least a communication unit 21, an image pickup unit 22, a sound collection unit 23, a monitor 24, a memory 25, a storage 26, an input / output unit 27, a control unit 28, and the like. These are electrically connected to each other through the bus 29. Since the hardware configuration of the computer or the like that realizes the student terminal 20 according to the present embodiment is the same as the hardware configuration example of the classroom video distribution device 10 shown in FIG. 2, only the differences will be described.

通信部21は、受講生端末20をネットワークNWに接続する。 The communication unit 21 connects the student terminal 20 to the network NW.

撮像部22は、講義を受講する受講生を被写体として撮像して、受講生映像を取得する。 The image pickup unit 22 takes an image of the student taking the lecture as a subject and acquires the student image.

収音部23は、受講生を含む周囲の音を収音する。音声データを送受するために、受講生端末20においては、マイク付きヘッドフォンを設けてもよいが、当該端末に内蔵されたマイク並びにスピーカを用いてもよい。 The sound collecting unit 23 collects the surrounding sounds including the students. In order to send and receive audio data, the student terminal 20 may be provided with headphones with a microphone, but may also use a microphone and a speaker built in the terminal.

モニタ24は、教室映像配信装置10から送信される講師映像と、撮像部22で取得される受講生映像とを一覧可能な状態で表示し得る。もちろん、モニタ24は、講師映像のみを単独で表示してもよく、受講生映像のみを単独で表示してもよい。 The monitor 24 can display the instructor video transmitted from the classroom video distribution device 10 and the student video acquired by the imaging unit 22 in a listable state. Of course, the monitor 24 may display only the instructor image alone, or may display only the student image alone.

制御部28は、受講生端末20全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。 The control unit 28 is an arithmetic unit that controls the operation of the entire student terminal 20, controls the transmission and reception of data between each element, and performs information processing necessary for application execution and authentication processing.

<ソフトウェア構成>
図4は、本実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。教室映像配信装置10は、抽出部101と、波形登録部102と、変換部103と、表示部104と、フレーム切り出し部105と、生成部106と、を備える。
<Software configuration>
FIG. 4 is a diagram showing a software configuration example of the classroom video distribution device 10 according to the present embodiment. The classroom video distribution device 10 includes an extraction unit 101, a waveform registration unit 102, a conversion unit 103, a display unit 104, a frame cutting unit 105, and a generation unit 106.

抽出部101と、波形登録部102と、変換部103と、表示部104と、フレーム切り出し部105と、生成部106とは、制御部18がストレージ16に記憶されているプログラムをメモリ15に読み出して実行することにより実現され得る。 The extraction unit 101, the waveform registration unit 102, the conversion unit 103, the display unit 104, the frame cutting unit 105, and the generation unit 106 read the program stored in the storage 16 by the control unit 18 into the memory 15. It can be realized by executing.

抽出部101は、撮像部12で取得される講師映像と、撮像部22で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部13又は収音部23で収音された音を組み合わせて教室映像を生成する。ここでの講師映像又は受講生映像は、請求の範囲に記載された複数のフレームの一例となる。また、教室映像は、請求の範囲に記載された動画像の一例となる。教室映像は、テキストデータ、数値データ、図形データ、画像データ、動画データ、音声データ等、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。 The extraction unit 101 appropriately selects and synthesizes the instructor image acquired by the imaging unit 12 and the student image acquired by the imaging unit 22, and also collects sound by the sound collecting unit 13 or the sound collecting unit 23. Generate a classroom video by combining the sounds. The instructor video or student video here is an example of a plurality of frames described in the claims. In addition, the classroom video is an example of a moving image described in the claims. Classroom video is text data, numerical data, graphic data, image data, video data, audio data, etc., or a combination thereof, and is a target for storage, editing, searching, etc., as an individual unit between systems or users. Exchangeable items, including items similar to these.

抽出部101は、かかる教室映像から、外部から指示される所定の特定条件に従って特定のフレーム群を抽出する機能を有する。例えば、外部からの指示は、合成する教室映像の項目、画像の配置・画像の占有面積等を指示するものであり得る。外部からの指示は、例えば、講師T自身が講義の途中で映像構成を編集可能な簡便な操作であることが好ましい。 The extraction unit 101 has a function of extracting a specific frame group from the classroom image according to a predetermined specific condition instructed from the outside. For example, the instruction from the outside may indicate the item of the classroom image to be synthesized, the arrangement of the image, the occupied area of the image, and the like. It is preferable that the instruction from the outside is, for example, a simple operation in which the lecturer T himself can edit the video composition in the middle of the lecture.

波形登録部102は、所定の波形データを予め登録する機能を有する。所定の特定条件とは、例えば、収音部13又は収音部23により収音された音の波形データと、波形登録部102に登録されている波形データとが一致するか否かであってよく、もちろん、他の条件であってもよい。本実施形態において波形登録部102に登録されている波形データは、講義におけるその場全体の雰囲気を評価するために用いられ得る。 The waveform registration unit 102 has a function of pre-registering predetermined waveform data. The predetermined specific condition is, for example, whether or not the waveform data of the sound collected by the sound collecting unit 13 or the sound collecting unit 23 and the waveform data registered in the waveform registration unit 102 match. Well, of course, other conditions may be used. The waveform data registered in the waveform registration unit 102 in the present embodiment can be used to evaluate the atmosphere of the entire place in the lecture.

抽出部101は、所定の特定条件が満たされた場合、例えば、両波形データが一致した場合に、当該一致した波形に対応するフレーム群を特定のフレーム群として前記教室映像から抽出する。 When a predetermined specific condition is satisfied, for example, when both waveform data match, the extraction unit 101 extracts a frame group corresponding to the matched waveform as a specific frame group from the classroom image.

変換部103は、収音部13が収音した音を音声認識によりテキストに変換する機能を有する。このテキストとは、任意の文字列のことである。変換部103は、音声認識に成功した場合は、生成したテキストを含む音声認識結果を出力する。音声認識結果に、音声認識が成功したことを示す成功情報を含めてもよい。 The conversion unit 103 has a function of converting the sound collected by the sound collecting unit 13 into text by voice recognition. This text is any character string. If the voice recognition is successful, the conversion unit 103 outputs the voice recognition result including the generated text. The speech recognition result may include success information indicating that the speech recognition was successful.

表示部104は、変換部103により変換されたテキストをモニタ14又はモニタ24に表示する機能を有する。講師T又は受講生A、B、Cを含む周囲の音が示す情報には、会話情報と非会話情報とが混在する。会話情報には、例えば、ポジティブな感情を示すワードと、ネガティブな感情を示すワードの少なくとも何れかが含まれる。 The display unit 104 has a function of displaying the text converted by the conversion unit 103 on the monitor 14 or the monitor 24. Conversational information and non-conversational information are mixed in the information indicated by the surrounding sounds including the instructor T or the students A, B, and C. Conversational information includes, for example, at least one of a word indicating positive emotions and a word indicating negative emotions.

ポジティブな感情を示すワードの一例としては、講師が受講生を褒めたり、応援したり、励ましたりする内容として、「よく頑張ったね」「努力したね」「すごいね」「素晴らしいね」「立派だね」「偉いね」等を挙げることができる。 As an example of a word that shows positive emotions, the instructor praises, cheers, and encourages the students, "You did your best," "You worked hard," "Wow," "Great," and "Great." You can mention "ne", "great" and so on.

一方、ネガティブな感情を示すワードの一例としては、講師が受講生を貶したり、非難したり、誹謗したりする内容として、「そんなんじゃダメだ」「お前はダメだ」「なにやってんのよ」「落ちるぞ」「バカ」等を挙げることができる。 On the other hand, as an example of a word that shows negative emotions, the instructor may despise, blame, or despise the student, saying, "That's no good," "You're no good," "What are you doing?" "Zo", "stupid" and so on.

非会話情報は、会話情報以外のテキスト情報である。非会話情報には、舌打ち、溜め息、相槌の少なくとも何れかを示す情報が含まれる。これらの非会話情報は、講義を受講する受講生の感情を判断するための判断基準となり得る。受講生の感情は、例えば、「幸福感」、「退屈感」、「緊張感」の3つに分類され得る。 Non-conversational information is textual information other than conversational information. Non-conversational information includes information indicating at least one of tongue-and-groove, sighing, and aizuchi. These non-conversational information can be a criterion for judging the emotions of the students who take the lecture. The student's emotions can be classified into, for example, "happiness", "boring", and "tension".

フレーム切り出し部105は、抽出部101により抽出された特定のフレーム群に対して、少なくとも時系列的に前後に連続するフレーム群を切り出す機能を有する。フレーム切り出し部105は、例えば、各ワードがどのような文脈で使用されたかを示す文脈情報を取得するために適用可能な任意のフレームレートを用いて、前後に連続するフレーム群を切り出すことができる。ここでの文脈情報とは、例えば、単語前後の任意範囲の文字列、単語間の共起関係等を示す情報である。 The frame cutting unit 105 has a function of cutting out a frame group that is continuous back and forth at least in time series with respect to a specific frame group extracted by the extraction unit 101. The frame cutting unit 105 can cut out a group of consecutive frames before and after using, for example, an arbitrary frame rate applicable for acquiring context information indicating in what context each word was used. .. The context information here is, for example, information indicating an arbitrary range of character strings before and after a word, a co-occurrence relationship between words, and the like.

生成部106は、抽出部101により抽出された特定のフレーム群に対して、その前後に連続する先行フレーム群と後続フレームを連結して、ダイジェスト動画を生成する機能を有する。 The generation unit 106 has a function of connecting a preceding frame group and a succeeding frame that are continuous before and after the specific frame group extracted by the extraction unit 101 to generate a digest moving image.

次に、このように構成された在宅個別指導システム1の動作について説明する。図5は、本開示の第1の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。 Next, the operation of the home-based individual guidance system 1 configured in this way will be described. FIG. 5 is a flowchart illustrating a processing flow of the classroom video distribution method according to the first embodiment of the present disclosure.

ここでは、教室を運営する運営者等が、講師が受講生に対して不適切な発言・問題発言をしていないかどうかをチェックする場面を例に挙げて説明する。具体的に、予め登録された講師の声でネガティブな感情を示すワードとして「バカ」を表す波形データを用いて、ダイジェスト動画を生成する場面を例に説明する。 Here, an example will be given in which the operator of the classroom checks whether the instructor has made inappropriate or problematic remarks to the students. Specifically, a scene in which a digest moving image is generated using waveform data representing "stupid" as a word indicating negative emotions in the voice of a pre-registered instructor will be described as an example.

まず、講義が開始される時刻になると、各受講生A、B、Cは受講生端末20A、20B、20CをネットワークNW経由で在宅個別指導システム1に接続して、講師Tの講義開始を待つ。講師Tは、教室映像配信装置10が備えるモニタ14を見て各受講生A、B、Cが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部12並びに撮像部22による撮像動作が開始されるとともに、収音部13並びに収音部23による収音動作が開始される(ステップS100)。 First, at the time when the lecture starts, each student A, B, C connects the student terminals 20A, 20B, 20C to the home-based individual guidance system 1 via the network NW, and waits for the lecture start of the lecturer T. .. The instructor T looks at the monitor 14 provided in the classroom video distribution device 10 to determine whether or not each student A, B, and C is ready to attend, and if the student is ready to attend, the lecturer T starts the lecture. That is, the image pickup operation by the image pickup unit 12 and the image pickup unit 22 is started, and the sound collection operation by the sound collection unit 13 and the sound collection unit 23 is started (step S100).

そして、抽出部101は、撮像部12で取得される講師映像と、撮像部22で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部13又は収音部23で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークNW経由で受講生端末20A、20B、20Cに配信する(ステップS102)。 Then, the extraction unit 101 appropriately selects and synthesizes the instructor image acquired by the imaging unit 12 and the student image acquired by the imaging unit 22, and collects the sound collecting unit 13 or the sound collecting unit 23. A classroom video is generated by combining the sounds, and the generated classroom video is distributed to the student terminals 20A, 20B, and 20C via the network NW (step S102).

次に、講師が「バカ」と発声すると、その音声は収音部13で収音されて、その音声データを含む教室映像が特定のフレーム群として抽出部101によって抽出される(ステップS104)。 Next, when the instructor utters "stupid", the voice is picked up by the sound collecting unit 13, and the classroom image including the voice data is extracted by the extracting unit 101 as a specific frame group (step S104).

フレーム切り出し部105は、その教室映像の前後において例えば10秒~20秒程度の時間間隔で連なるフレーム群を切り出す(ステップS106)。 The frame cutting unit 105 cuts out a group of frames connected at time intervals of, for example, about 10 seconds to 20 seconds before and after the classroom image (step S106).

そして、生成部106は、これらのフレーム群を連結したダイジェスト動画を生成すると共に、当該ダイジェスト動画 に基づいて、講師の音声データに対して所定の音響分析を施す(ステップS108)。 Then, the generation unit 106 generates a digest moving image in which these frame groups are connected, and performs a predetermined acoustic analysis on the voice data of the instructor based on the digest moving image (step S108).

この音響分析によれば、「バカ」というワードがどういう文脈で使われたかを把握することができる。 This acoustic analysis gives us an idea of the context in which the word "stupid" was used.

例えば、(受講生以外の第三者に対して)「こういうバカなことを言ってる人はダメだよね」という文脈で講師において「バカ」というワードが使われた場合には、講師は受講生のことをバカと言ったわけではないことが把握できる。 For example, if the instructor uses the word "stupid" in the context of "a person who is saying such stupid things is not good" (to a third party other than the student), the instructor is a student. I can understand that I didn't call it stupid.

また例えば、「俺はバカだから」と文脈で講師において「バカ」というワードが使われた場合には、講師は自身のことをバカと言っていることが把握できる。 Also, for example, if the word "stupid" is used in the instructor in the context of "because I am stupid", it can be understood that the instructor is calling himself stupid.

かくして、教室を運営する運営者等は、「バカ」というワードとその前後の文脈をテキスト文章として例えばレポート形式で取得し得るので、講師が受講生に対して不適切な発言・問題発言をしていないかどうかを容易にチェックできる。 Thus, the operator who operates the classroom can obtain the word "stupid" and the context before and after it as a text sentence, for example, in the form of a report, so that the instructor makes inappropriate or problematic statements to the students. You can easily check if it is not.

すなわち、予め登録済みの波形データを用いた照合により、演算処理に伴う負荷を軽減しながらも、教室映像内において講師が不適切な発言・問題発言を引き起こす可能性の高い状況を含む特徴的なシーンをピンポイントで引き出すことが可能となる。例えば、講義時間(例えば90分)に対して、講師によるネガティブな感情を示すワードの発声回数が比較的大きい所定の回数(例えば10回)に至るような場合には、講師の人間性を判断することも可能になる。もちろん、講師によるポジティブな感情を示すワードの発声回数も講師の人間性を判断する材料になり得る。さらには、講師の側に限らず、受講生の側においても、講師からの発話に対する舌打ちの回数、溜め息の回数、相槌の回数は、受講生がどのような感情を抱いているかを判断する材料となり得る。 That is, it is characteristic that the instructor is likely to cause inappropriate remarks / problem remarks in the classroom video while reducing the load associated with the arithmetic processing by collation using the waveform data registered in advance. It is possible to pull out the scene pinpoint. For example, when the number of times a word indicating negative emotions is uttered by the instructor reaches a predetermined number of times (for example, 10 times) with respect to the lecture time (for example, 90 minutes), the human nature of the instructor is judged. It will also be possible to do. Of course, the number of times the instructor utters a word that shows positive emotions can also be a factor in judging the instructor's humanity. Furthermore, not only on the side of the instructor, but also on the side of the students, the number of tongue-and-grooves, the number of sighs, and the number of aizuchis for the utterances from the instructor are materials for judging what kind of feelings the students have. Can be.

<第2の実施形態>
以下、図6及び図7に基づいて、第2の実施形態に係る在宅個別指導システムについて説明する。この実施形態では、上述した第1実施形態で説明した要素と同一の要素について同じ符号を付し、詳細な説明を省略する。
<Second embodiment>
Hereinafter, the home-based individual guidance system according to the second embodiment will be described with reference to FIGS. 6 and 7. In this embodiment, the same elements as those described in the first embodiment described above are designated by the same reference numerals, and detailed description thereof will be omitted.

上記の第1実施形態に係る在宅個別指導システムでは、既に述べたように、予め登録済みの波形データを用いた照合により、教室映像の中から特定のフレーム群を抽出していたが、第2の実施形態に係る在宅個別指導システムでは、人物の顔の表情に関する評価値に基づいて、教室映像の中から特定のフレーム群を抽出する処理が行われる。 In the home-based individual guidance system according to the first embodiment described above, as described above, a specific frame group is extracted from the classroom video by collation using the waveform data registered in advance, but the second In the home-based individual guidance system according to the embodiment, a process of extracting a specific frame group from the classroom video is performed based on the evaluation value regarding the facial expression of the person.

<ソフトウェア構成>
図6は、本実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。教室映像配信装置10は、抽出部101と、フレーム切り出し部105と、生成部106と、顔検出部107と、算出部108と、顔情報登録部109と、を備える。
<Software configuration>
FIG. 6 is a diagram showing a software configuration example of the classroom video distribution device 10 according to the present embodiment. The classroom video distribution device 10 includes an extraction unit 101, a frame cutting unit 105, a generation unit 106, a face detection unit 107, a calculation unit 108, and a face information registration unit 109.

顔検出部107は、例えば、メモリ15に格納されている教室映像を構成する複数のフレームの夫々について、人物の顔検出を行う機能を有する。例えば、顔検出部107は、教室映像の中から特徴点を抽出して、講師T又は各受講生A、B、Cの顔領域、顔領域の大きさ・顔面積等を検出する。 The face detection unit 107 has, for example, a function of detecting the face of a person for each of a plurality of frames constituting the classroom image stored in the memory 15. For example, the face detection unit 107 extracts feature points from the classroom image and detects the face area of the instructor T or each student A, B, C, the size of the face area, the face area, and the like.

特徴点としては、例えば、眉、目、鼻、唇の各端点、顔の輪郭点、頭頂点、顎の下端点等が挙げられる。そして、顔検出部107は、顔領域の位置情報を特定する。例えば、顔検出部107は、画像の横方向をX軸とし、縦方向をY軸として、顔領域に含まれる画素のX座標及びY座標を算出する。さらに、顔検出部107は、上述した特徴点を用いた演算処理によって、検出した講師又は各受講生の表情・年齢などを判別し得る。 The characteristic points include, for example, the end points of the eyebrows, eyes, nose, and lips, the contour points of the face, the apex of the head, and the lower end points of the chin. Then, the face detection unit 107 specifies the position information of the face region. For example, the face detection unit 107 calculates the X-coordinates and Y-coordinates of the pixels included in the face region with the horizontal direction of the image as the X-axis and the vertical direction as the Y-axis. Further, the face detection unit 107 can determine the facial expression, age, etc. of the detected instructor or each student by the arithmetic processing using the above-mentioned feature points.

算出部108は、教室映像を構成する複数のフレームの夫々について、講師T又は各受講生A、B、Cの顔に関する評価値を算出する機能を有する。算出部108において算出される各評価値は、以下に示す所定の評価値(1)~(6)が含まれる。これらの評価値(1)~(6)は、顔情報登録部109に予め登録される。 The calculation unit 108 has a function of calculating evaluation values regarding the faces of the instructor T or each student A, B, and C for each of the plurality of frames constituting the classroom image. Each evaluation value calculated by the calculation unit 108 includes predetermined evaluation values (1) to (6) shown below. These evaluation values (1) to (6) are registered in advance in the face information registration unit 109.

(1)笑顔の度合い
算出部108は、顔検出部107が検出した顔のそれぞれについて、例えば、パターンマッチングなどの公知技術を用いて、笑顔の度合いを評価値として算出する。本実施形態では、度合いの一例として、「0:笑顔なし」、「1:微笑」、「2:普通笑い」、「3:大笑い」 までの4段階で笑顔の度合いを示す。
(1) The smile degree calculation unit 108 calculates the degree of smile as an evaluation value for each of the faces detected by the face detection unit 107 by using a known technique such as pattern matching. In the present embodiment, as an example of the degree, the degree of smile is shown in four stages of "0: no smile", "1: smile", "2: normal laugh", and "3: big laugh".

(2)視線の向き
算出部108は、顔検出部107が検出した顔のそれぞれについて、公知の技術を用いて、視線の向きを評価値として算出する。本実施形態では、一例として、「0:視線正面」、「1:視線左右方向」、「2:視線右方向」、「3:視線検出不可」の4種類で視線の向きを示す。
(2) The line-of-sight direction calculation unit 108 calculates the line-of-sight direction as an evaluation value for each of the faces detected by the face detection unit 107 using a known technique. In the present embodiment, as an example, the direction of the line of sight is shown by four types of "0: front of the line of sight", "1: left and right direction of the line of sight", "2: right direction of the line of sight", and "3: line of sight cannot be detected".

(3)顔の向き
算出部108は、顔検出部107が検出した顔のそれぞれについて、公知の技術を用いて、顔の向きを評価値として算出する。本実施形態では、一例として、「0:顔向き正面」、「1:顔向き左方向」、「2:顔向き右方向」、「3:検出不可」の4種類で顔の向きを示す。
(3) The face orientation calculation unit 108 calculates the face orientation as an evaluation value for each of the faces detected by the face detection unit 107 using a known technique. In the present embodiment, as an example, the orientation of the face is indicated by four types of "0: front facing the face", "1: left facing the face", "2: right facing the face", and "3: undetectable".

(4)顔面積
算出部108は、顔検出部107が検出した顔のそれぞれについて、顔部分の面積を評価値として算出する。
(4) The face area calculation unit 108 calculates the area of the face portion as an evaluation value for each of the faces detected by the face detection unit 107.

(5)年齢
算出部108は、顔検出部107が検出した顔のそれぞれについて、公知の技術を用いて、その人物の年齢を評価値として算出する。
(5) The age calculation unit 108 calculates the age of the person as an evaluation value for each of the faces detected by the face detection unit 107 by using a known technique.

(6)目つぶり度合い
算出部108は、顔検出部107が検出した顔のそれぞれについて、公知の技術を用いて、目つぶり度合いを評価値として算出する。本実施形態では、一例として、「0:目つぶりなし」、「1:一部目つぶりあり」、「2:両目目つぶり」、「3:目つぶり検出不可」の4種類で目つぶり度合いを示す。
(6) The eye-blurring degree calculation unit 108 calculates the eye-blurring degree as an evaluation value for each of the faces detected by the face detection unit 107 by using a known technique. In this embodiment, as an example, the degree of eye contact is determined by four types: "0: no eye contact", "1: partly eye contact", "2: both eye eye contact", and "3: eye contact not detected". show.

これらの評価値(1)~(6)は、講義を受講する受講生の感情を判断するための判断基準となり得る。受講生の感情は、例えば、「幸福感」、「退屈感」、「緊張感」の3つに分類され得る。 These evaluation values (1) to (6) can be used as criteria for judging the emotions of the students who take the lecture. The student's emotions can be classified into, for example, "happiness", "boring", and "tension".

抽出部101は、所定の特定条件が満たされた場合、例えば、算出部108により算出された評価値と、顔情報登録部109に予め登録されている評価値とが一致した場合に、当該一致した評価値に対応するフレーム群を特定のフレーム群として前記教室映像から抽出する。 The extraction unit 101 matches when a predetermined specific condition is satisfied, for example, when the evaluation value calculated by the calculation unit 108 and the evaluation value registered in advance in the face information registration unit 109 match. The frame group corresponding to the evaluated evaluation value is extracted from the classroom image as a specific frame group.

次に、このように構成された在宅個別指導システムの動作について説明する。図7は、本開示の第2の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。 Next, the operation of the home-based tutoring system configured in this way will be described. FIG. 7 is a flowchart illustrating a processing flow of the classroom video distribution method according to the second embodiment of the present disclosure.

ここでは、教室を運営する運営者等が、受講生Aである子供を塾などに預ける保護者等からの要望であって、受講生Aの学習態度・学習状況を把握したいという要望に応える場面を例に挙げて説明する。 Here, the operator who manages the classroom responds to the request from the guardian who entrusts the child who is student A to a cram school etc. and wants to grasp the learning attitude and learning situation of student A. Will be described as an example.

まず、講義が開始される時刻になると、各受講生A、B、Cは受講生端末20A、20B、20CをネットワークNW経由で在宅個別指導システムに接続して、講師Tの講義開始を待つ。講師Tは、教室映像配信装置10が備えるモニタ14を見て各受講生A、B、Cが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部12並びに撮像部22による撮像動作が開始されるとともに、収音部13並びに収音部23による収音動作が開始される(ステップS200)。 First, at the time when the lecture starts, each student A, B, C connects the student terminals 20A, 20B, 20C to the home tutoring system via the network NW, and waits for the lecture start of the lecturer T. The instructor T looks at the monitor 14 provided in the classroom video distribution device 10 to determine whether or not each student A, B, and C is ready to attend, and if the student is ready to attend, the lecturer T starts the lecture. That is, the image pickup operation by the image pickup unit 12 and the image pickup unit 22 is started, and the sound collection operation by the sound collection unit 13 and the sound collection unit 23 is started (step S200).

そして、抽出部101は、撮像部12で取得される講師映像と、撮像部22で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部13又は収音部23で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークNW経由で受講生端末20A、20B、20Cに配信する(ステップS202)。 Then, the extraction unit 101 appropriately selects and synthesizes the instructor image acquired by the imaging unit 12 and the student image acquired by the imaging unit 22, and collects the sound collecting unit 13 or the sound collecting unit 23. A classroom video is generated by combining the sounds, and the generated classroom video is distributed to the student terminals 20A, 20B, and 20C via the network NW (step S202).

次に、顔検出部107は、教室映像について、受講生Aの顔検出を行う(ステップS204)。顔検出の具体的な手法については、公知技術と同様であるため説明を省略する。 Next, the face detection unit 107 detects the face of the student A in the classroom image (step S204). Since the specific method of face detection is the same as the known technique, the description thereof will be omitted.

そして、算出部108は、顔検出部107が検出した受講生Aの顔について、公知の技術を用いて、顔の向きを評価値として算出する(ステップS206)。続いて、抽出部101は、算出部108により算出された評価値が、顔情報登録部109に予め登録されている評価値「1:顔向き左方向」、「2:顔向き右方向」の何れかと一致した場合に、当該一致した評価値に対応するフレーム群を特定のフレーム群として教室映像から抽出する(ステップS208)。 Then, the calculation unit 108 calculates the face of the student A detected by the face detection unit 107 with the orientation of the face as an evaluation value using a known technique (step S206). Subsequently, in the extraction unit 101, the evaluation values calculated by the calculation unit 108 are the evaluation values "1: face facing left" and "2: face facing right" registered in advance in the face information registration unit 109. When any of them match, the frame group corresponding to the matched evaluation value is extracted from the classroom video as a specific frame group (step S208).

すなわち、受講生Aの顔の向きが正面ではなく左方向又は右方向を向いているような場合には、受講生Aの講義に対する集中度が低下していることが推認され得る。 That is, when the face of the student A is facing left or right instead of the front, it can be inferred that the degree of concentration of the student A on the lecture is reduced.

フレーム切り出し部105は、受講生Aの顔が正面を向いていない教室映像の前後において例えば10秒~20秒程度の時間間隔で連なるフレーム群を切り出す(ステップS210)。 The frame cutting unit 105 cuts out a group of frames connected at time intervals of, for example, about 10 seconds to 20 seconds before and after the classroom image in which the face of the student A is not facing the front (step S210).

そして、生成部106は、これらのフレーム群を連結したダイジェスト動画を生成すると共に、当該ダイジェスト動画に基づいて、講師の音声データに対して所定の音響分析を施す(ステップS212)。かかる音響分析によれば、受講生Aの顔が正面を向いていないときに、講師Tが発話しているワードが何であるかのみをフラグで管理できる。これにより、受講生Aの講義に対する集中度が低下した要因となり得るワードを、教室を運営する運営者等が収集できるとともに、受講生Aの学習態度・学習状況を把握したいという保護者等の要望に対しても効率的に応えることができる。 Then, the generation unit 106 generates a digest moving image in which these frame groups are connected, and performs a predetermined acoustic analysis on the voice data of the instructor based on the digest moving image (step S212). According to such an acoustic analysis, when the face of the student A is not facing the front, only what the word spoken by the instructor T can be managed by the flag. As a result, the managers of the classrooms can collect words that can be a factor in reducing the concentration of student A's lectures, and parents and others want to understand the learning attitude and learning situation of student A. Can also be responded to efficiently.

もちろん、受講生Aの講義に対する集中度の判定は、受講生Aの顔の向きに限らず、受講生Aの視線の向きによっても行い得る。すなわち、受講生Aの視線の向きが正面ではなく左方向又は右方向を向いているような場合には、受講生Aの講義に対する集中度が低下していることが推認され得る。 Of course, the determination of the degree of concentration of the student A on the lecture can be made not only by the direction of the student A's face but also by the direction of the student A's line of sight. That is, when the line of sight of the student A is directed to the left or right instead of the front, it can be inferred that the degree of concentration of the student A on the lecture is reduced.

本実施形態に係る在宅個別指導システムには、さらに以下のような使用例が考えられる。 The following usage examples can be further considered for the home-based individual guidance system according to this embodiment.

具体的に、受講生Aが満足感・幸福感・充実感といったポジティブな感情を抱いたシーンのみを集めて編集した動画を受講生Aの保護者等に向けたダイジェスト動画として生成し得る。 Specifically, a video edited by collecting only scenes in which student A has positive emotions such as satisfaction, happiness, and fulfillment can be generated as a digest video for the parents of student A.

かかるダイジェスト動画を生成し得る具体的な処理の一例としては、まず、算出部108は、顔検出部107が検出した受講生Aの顔について、公知の技術を用いて、笑顔の度合いを評価値として算出することができる。続いて、抽出部101は、算出部108により算出された度合いが、顔情報登録部109に予め登録されている度合い「2:普通笑い」、「3:大笑い」の何れかと一致した場合に、当該一致した評価値に対応するフレーム群を特定のフレーム群として教室映像から抽出することができる。 As an example of a specific process capable of generating such a digest moving image, first, the calculation unit 108 evaluates the degree of smile on the face of the student A detected by the face detection unit 107 by using a known technique. Can be calculated as. Subsequently, the extraction unit 101 determines that the degree calculated by the calculation unit 108 matches any of the degrees "2: normal laughter" and "3: big laughter" registered in advance in the face information registration unit 109. The frame group corresponding to the matching evaluation value can be extracted from the classroom video as a specific frame group.

さらに、フレーム切り出し部105は、受講生Aの笑顔の度合いが「2:普通笑い」、「3:大笑い」の何れかであるときの教室映像の前後において例えば10秒~20秒程度の時間間隔で連なるフレーム群を切り出すことができる。そして、最後に、生成部106は、これらのフレーム群を連結したダイジェスト動画を、受講生Aの保護者等に向けたダイジェスト動画として生成する。 Further, the frame cutting section 105 has a time interval of, for example, about 10 to 20 seconds before and after the classroom image when the degree of smile of student A is either "2: normal laughter" or "3: big laughter". You can cut out a series of frames with. Finally, the generation unit 106 generates a digest video in which these frame groups are connected as a digest video for the guardian or the like of the student A.

<第3の実施形態>
以下、図8及び図9に基づいて、第3の実施形態に係る在宅個別指導システムについて説明する。この実施形態では、上述した第1実施形態で説明した要素と同一の要素について同じ符号を付し、詳細な説明を省略する。
<Third embodiment>
Hereinafter, the home-based individual guidance system according to the third embodiment will be described with reference to FIGS. 8 and 9. In this embodiment, the same elements as those described in the first embodiment described above are designated by the same reference numerals, and detailed description thereof will be omitted.

上記の第1実施形態に係る在宅個別指導システムでは、既に述べたように、予め登録済みの波形データを用いた照合により、教室映像の中から特定のフレーム群を抽出していたが、第3の実施形態に係る在宅個別指導システムでは、人物の動作に関する動作情報に基づいて、教室映像の中から特定のフレーム群を抽出する処理が行われる。 In the home-based individual guidance system according to the first embodiment described above, as described above, a specific frame group is extracted from the classroom video by collation using the waveform data registered in advance, but the third In the home-based individual guidance system according to the embodiment, a process of extracting a specific frame group from the classroom video is performed based on the motion information related to the motion of the person.

<ソフトウェア構成>
図8は、本実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。教室映像配信装置10は、抽出部101と、フレーム切り出し部105と、生成部106と、特定部110と、動作情報登録部111と、を備える。
<Software configuration>
FIG. 8 is a diagram showing a software configuration example of the classroom video distribution device 10 according to the present embodiment. The classroom video distribution device 10 includes an extraction unit 101, a frame cutting unit 105, a generation unit 106, a specific unit 110, and an operation information registration unit 111.

特定部110は、例えば、メモリ15に格納されている教室映像を構成する複数のフレームの夫々について、人物の動作に関する動作情報を特定する機能を有する。この動作情報は、例えば、人物の動作を複数の姿勢の連続として捉えた情報であって、様々な姿勢に対応する人体の骨格を形成する各関節の情報を含み得る。動作情報には、例えば、人物の身振り、手振り、ジェスチャ、ボディランゲージの少なくとも何れかが含まれる。 The specifying unit 110 has, for example, a function of specifying motion information regarding the motion of a person for each of a plurality of frames constituting a classroom image stored in the memory 15. This motion information is, for example, information that captures the motion of a person as a series of a plurality of postures, and may include information on each joint forming the skeleton of the human body corresponding to various postures. The motion information includes, for example, at least one of a person's gesture, hand gesture, gesture, and body language.

特定部110は、例えば、人体パターンを用いたパターンマッチングにより、教室映像を構成する複数のフレームから、人体の骨格を形成する各関節の座標を得る。座標取得の具体的な手法については、公知技術と同様であるため説明を省略する。そして、この座標系で表される各関節の座標が、例えば、1フレーム分の骨格情報となり得る。さらに、複数フレーム分の骨格情報が所定の動作情報となり得る。 For example, the specific unit 110 obtains the coordinates of each joint forming the skeleton of the human body from a plurality of frames constituting the classroom image by pattern matching using the human body pattern. Since the specific method for acquiring coordinates is the same as the known technique, the description thereof will be omitted. Then, the coordinates of each joint represented by this coordinate system can be, for example, skeleton information for one frame. Further, the skeleton information for a plurality of frames can be predetermined operation information.

かかる所定の動作情報は、動作情報登録部111に予め登録されている。すなわち、動作情報登録部111は、様々な姿勢に対応する動作情報を、例えば、公知の人工知能技術を用いた機械学習により予め記憶している。例えば、本実施形態において、受講生が手を振る動きに対応するジェスチャは、講義の内容に納得ができなかったり、引っかかるところがあったりする受講生が講師に対して補充説明を求めるジェスチャパターンとして機械学習済みであるとする。 Such predetermined operation information is registered in advance in the operation information registration unit 111. That is, the motion information registration unit 111 stores motion information corresponding to various postures in advance by machine learning using, for example, a known artificial intelligence technique. For example, in the present embodiment, the gesture corresponding to the movement of the student waving is a machine as a gesture pattern in which the student asks the instructor for a supplementary explanation because the content of the lecture is not convincing or there is a place where the student gets caught. It is assumed that it has been learned.

抽出部101は、所定の特定条件が満たされた場合、例えば、特定部110により特定された動作情報と、動作情報登録部111に予め登録されている動作情報とが一致した場合に、当該一致した動作情報に対応するフレーム群を特定のフレーム群として教室映像から抽出する。 The extraction unit 101 matches when a predetermined specific condition is satisfied, for example, when the operation information specified by the specific unit 110 and the operation information registered in advance in the operation information registration unit 111 match. The frame group corresponding to the motion information is extracted from the classroom image as a specific frame group.

次に、このように構成された在宅個別指導システムの動作について説明する。図9は、本開示の第3の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。 Next, the operation of the home-based tutoring system configured in this way will be described. FIG. 9 is a flowchart illustrating a processing flow of the classroom video distribution method according to the third embodiment of the present disclosure.

ここでは、講義の内容に納得ができない受講生Aが講師に対して補充説明を求める状況を含むシーンを教室映像からピックアップする場面を例に挙げて説明する。 Here, a scene in which a student A who is not satisfied with the content of the lecture picks up a scene including a situation in which a supplementary explanation is requested from the instructor from the classroom video will be described as an example.

まず、講義が開始される時刻になると、各受講生A、B、Cは受講生端末20A、20B、20CをネットワークNW経由で在宅個別指導システムに接続して、講師Tの講義開始を待つ。講師Tは、教室映像配信装置10が備えるモニタ14を見て各受講生A、B、Cが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部12並びに撮像部22による撮像動作が開始されるとともに、収音部13並びに収音部23による収音動作が開始される(ステップS300)。 First, at the time when the lecture starts, each student A, B, C connects the student terminals 20A, 20B, 20C to the home tutoring system via the network NW, and waits for the lecture start of the lecturer T. The instructor T looks at the monitor 14 provided in the classroom video distribution device 10 to determine whether or not each student A, B, and C is ready to attend, and if the student is ready to attend, the lecturer T starts the lecture. That is, the image pickup operation by the image pickup unit 12 and the image pickup unit 22 is started, and the sound collection operation by the sound collection unit 13 and the sound collection unit 23 is started (step S300).

そして、抽出部101は、撮像部12で取得される講師映像と、撮像部22で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部13又は収音部23で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークNW経由で受講生端末20A、20B、20Cに配信する(ステップS302)。 Then, the extraction unit 101 appropriately selects and synthesizes the instructor image acquired by the imaging unit 12 and the student image acquired by the imaging unit 22, and collects the sound collecting unit 13 or the sound collecting unit 23. A classroom video is generated by combining the sounds, and the generated classroom video is distributed to the student terminals 20A, 20B, and 20C via the network NW (step S302).

次に、特定部110は、人体パターンを用いたパターンマッチングにより、教室映像を構成する複数のフレームから、受講生Aの骨格を形成する各関節の座標を得る。さらに、特定部110は、各関節の座標に基づいて、複数フレーム分の骨格情報を受講生Aのジェスチャとして特定する(ステップS304)。 Next, the specific unit 110 obtains the coordinates of each joint forming the skeleton of the student A from a plurality of frames constituting the classroom image by pattern matching using the human body pattern. Further, the specifying unit 110 specifies the skeleton information for a plurality of frames as the gesture of the student A based on the coordinates of each joint (step S304).

続いて、抽出部101は、特定部110により特定されたジェスチャが、動作情報登録部111において機械学習済みのジェスチャパターン(受講生Aが講師に対して補充説明を求めるジェスチャパターン)と一致した場合に、当該一致したジェスチャに対応するフレーム群を特定のフレーム群として教室映像から抽出する(ステップS306)。 Subsequently, in the extraction unit 101, when the gesture specified by the specific unit 110 matches the machine-learned gesture pattern (gesture pattern in which the student A asks the instructor for supplementary explanation) in the operation information registration unit 111. In addition, the frame group corresponding to the matching gesture is extracted from the classroom video as a specific frame group (step S306).

フレーム切り出し部105は、受講生A講師に対して補充説明を求める教室映像の前後において例えば10秒~20秒程度の時間間隔で連なるフレーム群を切り出す(ステップS308)。 The frame cutting unit 105 cuts out a group of frames connected at time intervals of, for example, about 10 seconds to 20 seconds before and after the classroom video requesting the student A instructor for supplementary explanation (step S308).

そして、生成部106は、これらのフレーム群を連結したダイジェスト動画を生成する(ステップS310)。 Then, the generation unit 106 generates a digest moving image in which these frame groups are connected (step S310).

かくして、受講生Aが講師に対して補充説明を求めるジェスチャパターンが既に登録済みの状態であるので、今後上記フローと同様の状況があれば、動作情報登録部111に保持されているジェスチャパターンに従った照合により、教室映像の中から特定のフレーム群をピックアップしてくれば、演算処理に伴う負荷を増やさなくとも同様のダイジェスト動画を生成することが可能となる。 Thus, since the gesture pattern in which student A asks the instructor for supplementary explanation has already been registered, if there is a situation similar to the above flow in the future, the gesture pattern held in the operation information registration unit 111 will be used. By picking up a specific frame group from the classroom video by the matching, it is possible to generate the same digest video without increasing the load associated with the arithmetic processing.

<第4の実施形態>
以下、図10及び図11に基づいて、第4の実施形態に係る在宅個別指導システムについて説明する。この実施形態では、上述した第1実施形態で説明した要素と同一の要素について同じ符号を付し、詳細な説明を省略する。
<Fourth Embodiment>
Hereinafter, the home-based individual guidance system according to the fourth embodiment will be described with reference to FIGS. 10 and 11. In this embodiment, the same elements as those described in the first embodiment described above are designated by the same reference numerals, and detailed description thereof will be omitted.

上記の第1実施形態に係る在宅個別指導システムでは、既に述べたように、予め登録済みの波形データを用いた照合により、教室映像の中から特定のフレーム群を抽出していたが、第4の実施形態に係る在宅個別指導システムでは、人物の生体情報に基づいて、教室映像の中から特定のフレーム群を抽出する処理が行われる。 In the home-based tutoring system according to the first embodiment described above, as described above, a specific frame group is extracted from the classroom video by collation using the waveform data registered in advance. In the home-based individual guidance system according to the embodiment, a process of extracting a specific frame group from the classroom video is performed based on the biological information of the person.

<ソフトウェア構成>
図10は、本実施形態に係る教室映像配信装置10のソフトウェア構成例を示す図である。教室映像配信装置10は、抽出部101と、フレーム切り出し部105と、生成部106と、生体情報検出部112と、生体情報登録部113と、を備える。
<Software configuration>
FIG. 10 is a diagram showing a software configuration example of the classroom video distribution device 10 according to the present embodiment. The classroom video distribution device 10 includes an extraction unit 101, a frame cutting unit 105, a generation unit 106, a biological information detection unit 112, and a biological information registration unit 113.

生体情報検出部112は、例えば、メモリ15に格納されている教室映像を構成する複数のフレームの夫々について、人物の生体情報を検出する機能を有する。人物の生体情報には、人物の血圧、脈拍、脈圧の少なくとも何れかが含まれる。これら所定の生体情報は、各フレームに映り込んだ講師又は受講生の顔領域を一般的な顔検知技術等によって抽出したのちに、血流方向に沿って複数の領域に分割し、各領域における血流を示す色画像の時系列変化に基づいて取得することができる。 The biological information detection unit 112 has, for example, a function of detecting the biological information of a person for each of a plurality of frames constituting the classroom image stored in the memory 15. The biological information of a person includes at least one of the person's blood pressure, pulse, and pulse pressure. These predetermined biometric information is obtained by extracting the face area of the instructor or student reflected in each frame by a general face detection technique or the like, and then dividing the face area into a plurality of areas along the blood flow direction in each area. It can be acquired based on the time-series change of the color image showing the blood flow.

かかる所定の生体情報は、生体情報登録部113に予め登録されている。すなわち、生体情報登録部113は、例えば緊張の有無等の精神状態、体調の良否等の身体状態の検知に用いる生体情報を、例えば、公知の人工知能技術を用いた機械学習により予め記憶している。例えば、本実施形態において、受講生Aにおいてミリ秒単位での表情の変化、瞳孔の開き、脈拍の速さ(脈拍数)、顔面の紅潮、発汗具合等、受講生Aが無意識に支配されている情動を読み取り得る生体情報が学習済みであるとする。 Such predetermined biometric information is registered in advance in the biometric information registration unit 113. That is, the biological information registration unit 113 previously stores biological information used for detecting a mental state such as the presence or absence of tension and a physical state such as good or bad physical condition by machine learning using, for example, a known artificial intelligence technique. There is. For example, in the present embodiment, the student A is unconsciously controlled by the change of facial expression in milliseconds, the opening of the pupil, the speed of the pulse (pulse rate), the flushing of the face, the degree of sweating, and the like. It is assumed that the biometric information that can read the emotions that are present has been learned.

抽出部101は、所定の特定条件が満たされた場合、例えば、生体情報検出部112により検出された生体情報と、生体情報登録部113に予め登録されている生体情報とが一致した場合に、当該一致した生体情報に対応するフレーム群を特定のフレーム群として教室映像から抽出する。 The extraction unit 101 satisfies a predetermined specific condition, for example, when the biological information detected by the biological information detection unit 112 and the biological information registered in advance in the biological information registration unit 113 match. The frame group corresponding to the matched biological information is extracted from the classroom image as a specific frame group.

次に、このように構成された在宅個別指導システムの動作について説明する。図11は、本開示の第4の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。 Next, the operation of the home-based tutoring system configured in this way will be described. FIG. 11 is a flowchart illustrating a processing flow of the classroom video distribution method according to the fourth embodiment of the present disclosure.

ここでは、人間には肉体的安全を保つために遺伝的に備わっているバイアスがあり、見慣れないもの、理解しにくいものに対しては瞬間的に異常を感じるという知見のもとで、受講生Aが緊張状態に陥ったシーンを教室映像からピックアップする場面を例に挙げて説明する。 Here, students are based on the knowledge that human beings have a genetic bias to maintain physical safety, and that they momentarily feel abnormalities for things that are unfamiliar or difficult to understand. An example of a scene in which A is in a tense state is picked up from a classroom image.

まず、講義が開始される時刻になると、各受講生A、B、Cは受講生端末20A、20B、20CをネットワークNW経由で在宅個別指導システムに接続して、講師Tの講義開始を待つ。講師Tは、教室映像配信装置10が備えるモニタ14を見て各受講生A、B、Cが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部12並びに撮像部22による撮像動作が開始されるとともに、収音部13並びに収音部23による収音動作が開始される(ステップS400)。 First, at the time when the lecture starts, each student A, B, C connects the student terminals 20A, 20B, 20C to the home tutoring system via the network NW, and waits for the lecture start of the lecturer T. The instructor T looks at the monitor 14 provided in the classroom video distribution device 10 to determine whether or not each student A, B, and C is ready to attend, and if the student is ready to attend, the lecturer T starts the lecture. That is, the image pickup operation by the image pickup unit 12 and the image pickup unit 22 is started, and the sound collection operation by the sound collection unit 13 and the sound collection unit 23 is started (step S400).

そして、抽出部101は、撮像部12で取得される講師映像と、撮像部22で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部13又は収音部23で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークNW経由で受講生端末20A、20B、20Cに配信する(ステップS402)。 Then, the extraction unit 101 appropriately selects and synthesizes the instructor image acquired by the imaging unit 12 and the student image acquired by the imaging unit 22, and collects the sound collecting unit 13 or the sound collecting unit 23. A classroom video is generated by combining the sounds, and the generated classroom video is distributed to the student terminals 20A, 20B, and 20C via the network NW (step S402).

次に、生体情報検出部112は、公知の技術を用いて、教室映像を構成する複数のフレームの夫々について、受講生Aの脈拍数を検出する(ステップS404)。 Next, the biological information detection unit 112 detects the pulse rate of the student A for each of the plurality of frames constituting the classroom image by using a known technique (step S404).

続いて、抽出部101は、生体情報検出部112により検出された脈拍数が、生体情報登録部113において機械学習済みの脈拍数(受講生Aが緊張状態にある脈拍数)と一致した場合に、当該一致した脈拍数に対応するフレーム群を特定のフレーム群として教室映像から抽出する(ステップS406)。 Subsequently, in the extraction unit 101, when the pulse rate detected by the biological information detection unit 112 matches the pulse rate that has been machine-learned in the biological information registration unit 113 (the pulse rate in which the student A is in a tense state). , The frame group corresponding to the matched pulse rate is extracted from the classroom video as a specific frame group (step S406).

フレーム切り出し部105は、受講生Aが緊張状態にある教室映像の前後において例えば10秒~20秒程度の時間間隔で連なるフレーム群を切り出す(ステップS408)。 The frame cutting unit 105 cuts out a group of frames connected at time intervals of, for example, about 10 seconds to 20 seconds before and after the classroom image in which the student A is in a tense state (step S408).

そして、生成部106は、これらのフレーム群を連結したダイジェスト動画を生成する(ステップS410)。 Then, the generation unit 106 generates a digest moving image in which these frame groups are connected (step S410).

かくして、受講生Aが緊張状態にある脈拍数が既に登録済みの状態であるので、今後上記フローと同様の状況があれば、生体情報登録部113に保持されている脈拍数に従った照合により、教室映像の中から特定のフレーム群をピックアップしてくれば、演算処理に伴う負荷を増やさなくとも同様のダイジェスト動画を生成することが可能となる。 Thus, since the pulse rate in which the student A is in a tense state has already been registered, if there is a situation similar to the above flow in the future, the collation according to the pulse rate held in the biometric information registration unit 113 will be performed. By picking up a specific frame group from the classroom video, it is possible to generate a similar digest video without increasing the load associated with the arithmetic processing.

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。 Although the preferred embodiments of the present disclosure have been described in detail with reference to the accompanying drawings, the technical scope of the present disclosure is not limited to such examples. It is clear that anyone with ordinary knowledge in the technical field of the present disclosure may come up with various modifications or modifications within the scope of the technical ideas set forth in the claims. Is, of course, understood to belong to the technical scope of the present disclosure.

上述した各実施形態では、遠隔授業を支援する在宅個別指導システムに情報抽出装置を適用する例について述べた。しかし、これに限らない。例えば、会議、講演会等のように、開始時刻および終了時刻が事前に決められており、主として教室、会議室などの特定の空間で行われる各種イベントを支援するシステムに情報抽出装置を適用してもよい。 In each of the above-described embodiments, an example of applying an information extraction device to a home-based tutoring system that supports distance learning has been described. However, it is not limited to this. For example, the information extraction device is applied to a system that supports various events held in a specific space such as a classroom or a conference room, where the start time and end time are predetermined, such as a conference or a lecture. You may.

本明細書において説明した装置は、単独の装置として実現されてもよく、一部または全部がネットワークで接続された複数の装置(例えばクラウドサーバ)等により実現されてもよい。例えば、教室映像配信装置10のストレージ16又は制御部18は、互いにネットワークで接続された異なるサーバにより実現されてもよい。 The device described in the present specification may be realized as a single device, or may be realized by a plurality of devices (for example, a cloud server) which are partially or wholly connected by a network. For example, the storage 16 or the control unit 18 of the classroom video distribution device 10 may be realized by different servers connected to each other by a network.

本明細書において説明した装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る教室映像配信装置10の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。 The series of processes by the apparatus described herein may be implemented using software, hardware, or any combination of software and hardware. It is possible to create a computer program for realizing each function of the classroom video distribution device 10 according to the present embodiment and implement it on a PC or the like. It is also possible to provide a computer-readable recording medium in which such a computer program is stored. The recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like. Further, the above computer program may be distributed, for example, via a network without using a recording medium.

また、本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。 Further, the processes described with reference to the flowcharts in the present specification may not necessarily be executed in the order shown in the drawings. Some processing steps may be performed in parallel. Further, additional processing steps may be adopted, and some processing steps may be omitted.

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。 In addition, the effects described herein are merely explanatory or exemplary and are not limited. That is, the techniques according to the present disclosure may have other effects apparent to those skilled in the art from the description herein, in addition to or in place of the above effects.

1 在宅個別指導システム
10 教室映像配信装置(情報抽出装置)
101 抽出部
102 波形登録部
103 変換部
104 表示部
105 フレーム切り出し部
106 生成部
107 顔検出部
108 算出部
109 顔情報登録部
110 特定部
111 動作情報登録部
112 生体情報検出部
113 生体情報登録部
NW ネットワーク
1 Home-based individual guidance system 10 Classroom video distribution device (information extraction device)
101 Extraction unit 102 Waveform registration unit 103 Conversion unit 104 Display unit 105 Frame cutting unit 106 Generation unit 107 Face detection unit 108 Calculation unit 109 Face information registration unit 110 Specific unit 111 Operation information registration unit 112 Biological information detection unit 113 Biological information registration unit NW network

Claims (19)

複数のフレームから構成される動画像を取得する取得部と、
当該動画像内に含まれる所定のデータを特定するための特定条件を記憶する記憶部と、
当該特定条件に従って、前記動画像から特定のフレーム群を複数抽出する抽出部と、
抽出された前記特定のフレーム群同士を連結する連結部と、
連結された複数のフレーム群を含むダイジェスト情報を出力する出力部と、を備える、
情報抽出装置。
An acquisition unit that acquires a moving image composed of multiple frames,
A storage unit that stores specific conditions for specifying predetermined data contained in the moving image, and a storage unit.
An extraction unit that extracts a plurality of specific frame groups from the moving image according to the specific conditions, and an extraction unit.
A connecting portion that connects the extracted specific frame groups to each other,
It includes an output unit that outputs digest information including a plurality of concatenated frame groups.
Information extraction device.
請求項1に記載の情報抽出装置であって、
所定の波形データを予め登録する波形登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる音の波形データと前記登録されている波形データとが一致するか否かであって、
前記抽出部は、両波形データが一致した場合に、当該一致した波形に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
The information extraction device according to claim 1.
Further equipped with a waveform registration unit for pre-registering predetermined waveform data,
The specific condition is whether or not the waveform data of the sound included in the moving image and the registered waveform data match.
When both waveform data match, the extraction unit extracts a frame group corresponding to the matched waveform from the moving image as the specific frame group.
Information extraction device.
請求項2に記載の情報抽出装置であって、
動画内に含まれる前記音を音声認識によりテキスト情報に変換する変換部を更に備え、
前記変換部は、前記特定のフレーム群とその前後所定フレーム数とを含む補助フレーム群に対応する前記音を変換する、
情報抽出装置。
The information extraction device according to claim 2.
It also has a conversion unit that converts the sound contained in the video into text information by voice recognition.
The conversion unit converts the sound corresponding to the auxiliary frame group including the specific frame group and a predetermined number of frames before and after the specific frame group.
Information extraction device.
請求項2又は請求項3に記載の情報抽出装置であって、
前記被写体を含む周囲の音が示す情報には、会話情報と非会話情報とが混在する、
情報抽出装置。
The information extraction device according to claim 2 or 3.
Conversational information and non-conversational information are mixed in the information indicated by the surrounding sounds including the subject.
Information extraction device.
請求項4に記載の情報抽出装置であって、
前記会話情報には、ポジティブな感情を示すワードと、ネガティブな感情を示すワードの少なくとも何れかが含まれる、
情報抽出装置。
The information extraction device according to claim 4.
The conversation information includes at least one of a word indicating a positive emotion and a word indicating a negative emotion.
Information extraction device.
請求項4又は請求項5に記載の情報抽出装置であって、
前記非会話情報には、舌打ち、溜め息、相槌の少なくとも何れかを示す情報が含まれる、
情報抽出装置。
The information extraction device according to claim 4 or 5.
The non-conversational information includes information indicating at least one of a tongue-and-groove, a sigh, and an aizuchi.
Information extraction device.
請求項1に記載の情報抽出装置であって、
顔の表情に関する所定の顔評価値を予め登録する顔情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる顔の表情から算出される顔評価値と前記登録されている顔評価値とが一致するか否かであって、
前記抽出部は、両顔評価値が一致した場合に、当該一致した顔評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
The information extraction device according to claim 1.
Further equipped with a face information registration unit that registers a predetermined facial evaluation value regarding facial expressions in advance.
The specific condition is whether or not the face evaluation value calculated from the facial expression included in the moving image matches the registered face evaluation value.
When both face evaluation values match, the extraction unit extracts a frame group corresponding to the matched face evaluation values from the moving image as the specific frame group.
Information extraction device.
請求項7に記載の情報抽出装置であって、
前記顔評価値には、前記人物の幸福感、退屈感又は緊張感の度合いを評価した評価値が含まれる、
情報抽出装置。
The information extraction device according to claim 7.
The face evaluation value includes an evaluation value for evaluating the degree of happiness, boredom, or tension of the person.
Information extraction device.
請求項7又は請求項8に記載の情報抽出装置であって、
前記顔評価値には、前記人物の表情、前記人物の視線の向き、前記人物の顔の向きを評価した評価値が含まれる、
情報抽出装置
The information extraction device according to claim 7 or 8.
The face evaluation value includes an evaluation value that evaluates the facial expression of the person, the direction of the line of sight of the person, and the direction of the face of the person.
Information extraction device
請求項1に記載の情報抽出装置であって、
人物の動作に関する所定の動作評価値を予め登録する動作情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる人物から算出される動作評価値と前記登録されている動作評価値とが一致するか否かであって、
前記抽出部は、両動作評価値が一致した場合に、当該一致した動作評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
The information extraction device according to claim 1.
Further equipped with an operation information registration unit for pre-registering a predetermined motion evaluation value related to the motion of a person.
The specific condition is whether or not the motion evaluation value calculated from the person included in the moving image and the registered motion evaluation value match.
When both motion evaluation values match, the extraction unit extracts a frame group corresponding to the matched motion evaluation values from the moving image as the specific frame group.
Information extraction device.
請求項10に記載の情報抽出装置であって、
前記動作評価値には、前記人物の身振り、手振り、ジェスチャ、ボディランゲージの少なくとも何れかの動作を評価した評価値が含まれる、
情報抽出装置。
The information extraction device according to claim 10.
The motion evaluation value includes an evaluation value that evaluates at least one motion of the person's gesture, hand gesture, gesture, or body language.
Information extraction device.
請求項1に記載の情報抽出装置であって、
所定の生体情報に関する生体評価値を予め登録する生体情報登録部と、を備え、
前記特定条件は、前記動画像内に含まれる人物から算出可能な生体評価値と、前記登録されている生体評価値とが一致するか否かであって、
前記抽出部は、両生体評価値が一致した場合に、当該一致した生体評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
The information extraction device according to claim 1.
It is equipped with a biometric information registration unit that pre-registers biometric evaluation values related to predetermined biometric information.
The specific condition is whether or not the biometric evaluation value that can be calculated from the person included in the moving image and the registered biometric evaluation value match.
When both bio-evaluation values match, the extraction unit extracts a frame group corresponding to the matched bio-evaluation values from the moving image as the specific frame group.
Information extraction device.
請求項12に記載の情報抽出装置であって、
前記生体評価値には、前記人物の血圧、脈拍、脈圧の少なくとも何れかが含まれる、
情報抽出装置。
The information extraction device according to claim 12.
The biometric evaluation value includes at least one of the blood pressure, pulse, and pulse pressure of the person.
Information extraction device.
請求項1乃至請求項13の何れか一項に記載の情報抽出装置であって、
前記特定のフレーム群に対して、当該特定のフレーム群と時系列的に前後に連続する追加フレームを追加するフレーム追加部を備えている、
情報抽出装置。
The information extraction device according to any one of claims 1 to 13.
A frame addition unit for adding additional frames that are continuous in time series with the specific frame group is provided for the specific frame group.
Information extraction device.
請求項1乃至請求項14の何れかに記載の情報抽出装置によって抽出されたダイジェスト情報に含まれる少なくとも顔画像又は音声を所定のフレーム単位ごとに識別する識別手段と、
識別した前記顔画像に関する評価値を算出する評価手段とを更に備える、
ビデオミーティング評価端末。
An identification means for identifying at least a face image or a sound included in the digest information extracted by the information extraction device according to any one of claims 1 to 14 for each predetermined frame unit.
Further provided with an evaluation means for calculating an evaluation value for the identified face image.
Video meeting evaluation terminal.
請求項15に記載のビデオミーティング評価端末であって、
ビデオミーティング評価端末は、前記評価値の時系列によるグラフ情報を提供する、
ビデオミーティング評価端末。
The video meeting evaluation terminal according to claim 15.
The video meeting evaluation terminal provides graph information in chronological order of the evaluation values.
Video meeting evaluation terminal.
請求項15又は請求項16に記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記顔画像を複数の異なる観点によって評価した複数の評価値を算出する、
ビデオミーティング評価端末。
The video meeting evaluation terminal according to claim 15 or 16.
The video meeting evaluation terminal calculates a plurality of evaluation values obtained by evaluating the face image from a plurality of different viewpoints.
Video meeting evaluation terminal.
請求項15乃至請求項17のいずれかに記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記動画像に含まれる音声と共に前記評価値を算出する、
ビデオミーティング評価端末。
The video meeting evaluation terminal according to any one of claims 15 to 17.
The video meeting evaluation terminal calculates the evaluation value together with the sound included in the moving image.
Video meeting evaluation terminal.
請求項15乃至請求項18のいずれかに記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記動画像内に含まれる前記顔画像以外の対象物と共に前記評価値を算出する、
ビデオミーティング評価端末。
The video meeting evaluation terminal according to any one of claims 15 to 18.
The video meeting evaluation terminal calculates the evaluation value together with an object other than the face image contained in the moving image.
Video meeting evaluation terminal.
JP2022013826A 2020-10-27 2022-02-01 information extractor Active JP7130290B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022013826A JP7130290B2 (en) 2020-10-27 2022-02-01 information extractor

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/040324 WO2022091230A1 (en) 2020-10-27 2020-10-27 Information extraction device
JP2021572314A JPWO2022091230A1 (en) 2020-10-27 2020-10-27
JP2022013826A JP7130290B2 (en) 2020-10-27 2022-02-01 information extractor

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021572314A Division JPWO2022091230A1 (en) 2020-10-27 2020-10-27

Publications (2)

Publication Number Publication Date
JP2022075661A true JP2022075661A (en) 2022-05-18
JP7130290B2 JP7130290B2 (en) 2022-09-05

Family

ID=87888398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022013826A Active JP7130290B2 (en) 2020-10-27 2022-02-01 information extractor

Country Status (1)

Country Link
JP (1) JP7130290B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11686695B2 (en) 2018-01-05 2023-06-27 Hahn-Schickard-Gesellschaft für angewandte Forschung e.V. Evaluation arrangement for a thermal gas sensor, methods and computer programs

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255150A (en) * 1995-03-17 1996-10-01 Toshiba Corp Information public offering device and multimodal information input/output system
JP2006079533A (en) * 2004-09-13 2006-03-23 Fuji Xerox Co Ltd Information processor, information processing method, and computer program
JP2007097668A (en) * 2005-09-30 2007-04-19 Fujifilm Corp State appreciation device, program and method
JP2009182762A (en) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> Image editing apparatus, image editing program, and computer readable memory medium in which program thereof recorded
JP2012208630A (en) * 2011-03-29 2012-10-25 Mizuho Information & Research Institute Inc Speech management system, speech management method and speech management program
JP2013031009A (en) * 2011-07-28 2013-02-07 Fujitsu Ltd Information processor, digest generating method, and digest generating program
JP2013183280A (en) * 2012-03-01 2013-09-12 Nikon Corp Information processing device, imaging device, and program
JP2017229060A (en) * 2016-06-22 2017-12-28 富士ゼロックス株式会社 Methods, programs and devices for representing meeting content
JP2018068618A (en) * 2016-10-28 2018-05-10 株式会社東芝 Emotion estimating device, emotion estimating method, emotion estimating program, and emotion counting system
JP2019061594A (en) * 2017-09-28 2019-04-18 株式会社野村総合研究所 Conference support system and conference support program
JP2019068300A (en) * 2017-10-02 2019-04-25 シャープ株式会社 Digest data generation device, digest data reproduction device, digest data generation system, digest data generation method, and program
JP2019110420A (en) * 2017-12-18 2019-07-04 トヨタ自動車株式会社 Moving image editing device
CN111107442A (en) * 2019-11-25 2020-05-05 北京大米科技有限公司 Method and device for acquiring audio and video files, server and storage medium

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255150A (en) * 1995-03-17 1996-10-01 Toshiba Corp Information public offering device and multimodal information input/output system
JP2006079533A (en) * 2004-09-13 2006-03-23 Fuji Xerox Co Ltd Information processor, information processing method, and computer program
JP2007097668A (en) * 2005-09-30 2007-04-19 Fujifilm Corp State appreciation device, program and method
JP2009182762A (en) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> Image editing apparatus, image editing program, and computer readable memory medium in which program thereof recorded
JP2012208630A (en) * 2011-03-29 2012-10-25 Mizuho Information & Research Institute Inc Speech management system, speech management method and speech management program
JP2013031009A (en) * 2011-07-28 2013-02-07 Fujitsu Ltd Information processor, digest generating method, and digest generating program
JP2013183280A (en) * 2012-03-01 2013-09-12 Nikon Corp Information processing device, imaging device, and program
JP2017229060A (en) * 2016-06-22 2017-12-28 富士ゼロックス株式会社 Methods, programs and devices for representing meeting content
JP2018068618A (en) * 2016-10-28 2018-05-10 株式会社東芝 Emotion estimating device, emotion estimating method, emotion estimating program, and emotion counting system
JP2019061594A (en) * 2017-09-28 2019-04-18 株式会社野村総合研究所 Conference support system and conference support program
JP2019068300A (en) * 2017-10-02 2019-04-25 シャープ株式会社 Digest data generation device, digest data reproduction device, digest data generation system, digest data generation method, and program
JP2019110420A (en) * 2017-12-18 2019-07-04 トヨタ自動車株式会社 Moving image editing device
CN111107442A (en) * 2019-11-25 2020-05-05 北京大米科技有限公司 Method and device for acquiring audio and video files, server and storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11686695B2 (en) 2018-01-05 2023-06-27 Hahn-Schickard-Gesellschaft für angewandte Forschung e.V. Evaluation arrangement for a thermal gas sensor, methods and computer programs
US11874242B2 (en) 2018-01-05 2024-01-16 Habn-Schickard-Gesellschaft für angewandte Forschung e.V. Evaluation arrangement for a thermal gas sensor, methods and computer programs

Also Published As

Publication number Publication date
JP7130290B2 (en) 2022-09-05

Similar Documents

Publication Publication Date Title
US11241789B2 (en) Data processing method for care-giving robot and apparatus
US11151997B2 (en) Dialog system, dialog method, dialog apparatus and program
JP2018014094A (en) Virtual robot interaction method, system, and robot
CN108648535A (en) A kind of tutoring system and its operation method based on the mobile terminals VR technology
CN107480766B (en) Method and system for content generation for multi-modal virtual robots
CN117055724B (en) Working method of generating teaching resource system in virtual teaching scene
JP2016100033A (en) Reproduction control apparatus
JP7096626B2 (en) Information extraction device
CN115494941A (en) Meta-universe emotion accompanying virtual human realization method and system based on neural network
WO2022193635A1 (en) Customer service system, method and apparatus, electronic device, and storage medium
CN109754653A (en) A kind of method and system of individualized teaching
JP2022075661A (en) Information extraction apparatus
JP7119615B2 (en) Server, sound data evaluation method, program, communication system
JP2007030050A (en) Robot control device, robot control system, robot device and robot control method
JP4651981B2 (en) Education information management server
WO2022091230A1 (en) Information extraction device
JPWO2017051577A1 (en) Emotion induction system and emotion induction method
WO2021131954A1 (en) Information processing device, information processing method, and program
JP7418106B2 (en) Information processing device, information processing method and program
JP6637917B2 (en) Education support system and education support method
WO2019146199A1 (en) Information processing device and information processing method
KR101747896B1 (en) Device and method for bidirectional preschool education service
US20240202634A1 (en) Dialogue training device, dialogue training system, dialogue training method, and computer-readable medium
WO2022091970A1 (en) Online meeting support system and online meeting support program
CN112307877A (en) Information processing method, information processing apparatus, and computer-readable storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220426

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220817

R150 Certificate of patent or registration of utility model

Ref document number: 7130290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150