JP2009267621A - Communication apparatus - Google Patents
Communication apparatus Download PDFInfo
- Publication number
- JP2009267621A JP2009267621A JP2008112788A JP2008112788A JP2009267621A JP 2009267621 A JP2009267621 A JP 2009267621A JP 2008112788 A JP2008112788 A JP 2008112788A JP 2008112788 A JP2008112788 A JP 2008112788A JP 2009267621 A JP2009267621 A JP 2009267621A
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- terminal
- detection
- nodding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、通信装置に関する。 The present invention relates to a communication device.
近年、通信網を介して接続された複数の通信端末を用いて会議を行う遠隔会議システムが普及している。このような遠隔会議システムにおいては、発話者と聴取者が直接対面していないため、発話者が聴取者の反応を感じることが困難であり、自身の声が相手に届いているかを不安に感じる場合がある。特許文献1には、通信会議を円滑に進めることができるように、参加者が自己の感情や動作をボタンで入力すると、離れた場所にいるロボットが入力に応じた動きをするシステムが提案されている。このシステムにおいては、参加者が「うなずく」というボタンを押下すると、離れた場所でロボットがうなずくようになっている。また、特許文献2には、ビデオ映像を表示しているディスプレイを遠隔操作でかたむけて、参加者がうなずいているように見せるシステムが提案されている。このシステムでは、参加者が「うなずく」ボタンを押下すると、離れた場所のディスプレイが傾くようになっている。特許文献1や2に記載の技術によれば、聴取者がうなずいた旨を発話者が認識することができる。
In recent years, a remote conference system that performs a conference using a plurality of communication terminals connected via a communication network has become widespread. In such a teleconference system, since the speaker and the listener are not directly facing each other, it is difficult for the speaker to feel the listener's reaction, and he / she feels uneasy whether his / her voice reaches the other party. There is a case.
また、特許文献3には、会議参加者の物理現象を記録しておき、索引付けを行うことによって、後に会議映像を見る者にとって有用な会議映像を提供する装置が提案されている。この装置においては、参加者の「うなずき」動作をバックチャネルとして認識し、記録するようになっている。また、特許文献4には、ユーザの言語情報を元にロボットの動きを制御するシステムが提案されている。特許文献4に記載の技術によれば、「うなずき」をユーザ言語情報取得部にて取得し、その結果を元に、「楽しい」動きをロボットに実行させることができる。
しかしながら、上述の特許文献1乃至4に記載の技術では、聴取者がうなずいた旨を認識することができるものの、聴取者が話の内容を理解しているか否かを認識することは困難であった。
本発明は上述した背景に鑑みてなされたものであり、複数の通信端末間で通信によって会議等を行う際に、聴取者が話の内容を理解しているかを認識し易くすることのできる技術を提供することを目的とする。
However, although the techniques described in
The present invention has been made in view of the above-described background, and can make it easy for a listener to recognize whether or not the content of a talk is understood when a conference or the like is performed by communication between a plurality of communication terminals. The purpose is to provide.
上記課題を解決するために、本発明は、収音手段によって収音された聴取者の音声を表す音声データ及び撮影手段によって撮影された前記聴取者の映像を表す映像データの少なくともいずれか一方を含むデータを取得するデータ取得手段と、前記データ取得手段により取得されたデータを解析し、解析結果を予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記聴取者のうなずき動作として検出する検出手段と、前記検出手段によって検出されるうなずき動作の検出の頻度を算出する算出手段と、前記算出手段によって算出された頻度を表す頻度データを出力する出力手段とを具備することを特徴とする通信装置を提供する。 In order to solve the above problems, the present invention provides at least one of audio data representing a listener's voice collected by a sound collecting means and video data representing a video of the listener photographed by a photographing means. Data acquisition means for acquiring data, and analyzing the data acquired by the data acquisition means, comparing the analysis result with a predetermined matching pattern, and the result of the matching satisfying a predetermined condition of the listener Detecting means for detecting as a nodding action, calculating means for calculating the frequency of detection of the nodding action detected by the detecting means, and output means for outputting frequency data representing the frequency calculated by the calculating means. A communication device is provided.
本発明の好ましい態様において、前記頻度と理解度との対応関係を記憶する対応関係記憶手段と、前記対応関係記憶手段を参照して、前記算出手段によって算出された頻度に対応する理解度を特定する理解度特定手段とを具備し、前記出力手段は、前記理解度特定手段によって特定された理解度を示す理解度データを出力してもよい。 In a preferred aspect of the present invention, the correspondence storage means for storing the correspondence between the frequency and the understanding level, and the understanding level corresponding to the frequency calculated by the calculation means are identified with reference to the correspondence storage means. Understanding level specifying means, and the output means may output understanding level data indicating the level of understanding specified by the understanding level specifying means.
また、本発明の更に好ましい態様において、前記算出手段は、前記検出手段によって検出されるうなずき動作の検出の頻度を、予め定められた時間単位で算出してもよい。 Further, in a further preferred aspect of the present invention, the calculating means may calculate the frequency of detection of the nodding motion detected by the detecting means in a predetermined time unit.
また、本発明の更に好ましい態様において、前記照合パターンを、地域を識別する識別データ毎に記憶する照合パターン記憶手段と、前記地域を識別する識別データを取得する識別データ取得手段と、前記識別データ取得手段により取得された識別データに対応する照合パターンを前記照合パターン記憶手段から読み出す照合パターン読出手段とを具備し、前記検出手段は、前記照合パターン読出手段により読み出された照合パターンを前記解析結果と照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出してもよい。 Further, in a further preferred aspect of the present invention, a collation pattern storage unit that stores the collation pattern for each identification data that identifies a region, an identification data acquisition unit that obtains identification data that identifies the region, and the identification data Collating pattern reading means for reading a matching pattern corresponding to the identification data acquired by the acquiring means from the matching pattern storage means, and the detecting means analyzes the matching pattern read by the matching pattern reading means The result may be collated, and the collation result satisfying a predetermined condition may be detected as the nodding operation.
また、本発明の更に好ましい態様において、前記データ取得手段は、前記データを、通信ネットワークを介して接続された複数の端末からそれぞれ受信し、前記算出手段は、前記検出手段によって検出されるうなずき動作の検出の頻度を、前記端末毎に算出してもよい。 Further, in a further preferred aspect of the present invention, the data acquisition means receives the data from each of a plurality of terminals connected via a communication network, and the calculation means is a nodding operation detected by the detection means. May be calculated for each of the terminals.
また、本発明の更に好ましい態様において、前記検出手段によって検出されるうなずき動作の検出の頻度を、予め定められた単位時間毎に統計する統計手段と、前記統計手段による統計結果に応じて、基準となるうなずき動作のタイミングを基準タイミングとして算出する基準タイミング算出手段と、前記複数の端末のなかから、前記検出手段によって検出されたうなずき動作の検出のタイミングと前記基準タイミング算出手段によって算出された基準タイミングとの差分が予め定められた閾値以上である端末を特定する端末特定手段と、前記端末特定手段による特定結果を示す特定データを出力する特定データ出力手段とを具備してもよい。 Further, in a further preferred aspect of the present invention, a statistical means for statistically detecting the frequency of detection of the nod motion detected by the detection means for each predetermined unit time, and a reference according to a statistical result by the statistical means A reference timing calculating means for calculating the timing of the nodding operation as a reference timing, and a timing for detecting the nodding action detected by the detecting means from among the plurality of terminals and a reference calculated by the reference timing calculating means You may provide the terminal specific means which specifies the terminal whose difference with timing is more than a predetermined threshold value, and the specific data output means which outputs the specific data which shows the specific result by the said terminal specific means.
また、本発明の更に好ましい態様において、前記データ取得手段は、前記聴取者の映像を表す映像データを含むデータを取得し、前記検出手段は、前記データ取得手段により取得された映像データを解析して顔画像の検出を行う顔画像検出手段と、前記顔画像検出手段により検出された顔画像の位置及び方向を検出することによって顔の動きの検出を行う動き検出手段と、前記動き検出手段によって検出された顔の動きを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出するうなずき動作検出手段とを具備してもよい。 Further, in a further preferred aspect of the present invention, the data acquisition means acquires data including video data representing the video of the listener, and the detection means analyzes the video data acquired by the data acquisition means. A face image detecting means for detecting a face image, a motion detecting means for detecting a face motion by detecting a position and a direction of the face image detected by the face image detecting means, and the motion detecting means. Nodding motion detection means for collating the detected face movement with a predetermined collation pattern and detecting a collation result satisfying a predetermined condition as the nodding motion may be provided.
また、本発明の別の好ましい態様において、前記データ取得手段は、前記聴取者の音声を表す音声データを含むデータを取得し、前記検出手段は、前記データ取得手段により取得された音声データを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出してもよい。 In another preferable aspect of the present invention, the data acquisition unit acquires data including audio data representing the voice of the listener, and the detection unit preliminarily stores the audio data acquired by the data acquisition unit. Matching with a predetermined matching pattern and detecting that the matching result satisfies a predetermined condition may be detected as the nodding operation.
本発明によれば、複数の通信端末間で通信によって会議等を行う際に、聴取者が話の内容を理解しているかを認識し易くすることができる。 ADVANTAGE OF THE INVENTION According to this invention, when a meeting etc. are performed by communication between several communication terminals, it can make it easy to recognize whether the listener understands the content of the talk.
<構成>
図1は、この発明の一実施形態である遠隔会議システム1の構成を示すブロック図である。この遠隔会議システム1は、各地に設置された複数の端末10a,10b,10c…が、インターネット等の通信網20に接続されて構成される。なお、以下の説明においては、説明の便宜上、端末10a,10b,10c…を各々区別する必要がない場合には、これらを「端末10」と称して説明する。遠隔会議の参加者が端末10を用いて通信を行うことで、遠隔会議が実現される。
<Configuration>
FIG. 1 is a block diagram showing a configuration of a
図2は、端末10の構成の一例を示すブロック図である。図において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスを介して端末10の各部を制御する。記憶部12は、制御部11によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネルを備え、制御部11による制御の下に各種の画像を表示する。操作部14は、端末10の利用者による操作に応じた信号を出力する。マイクロホン15は、収音し、収音した音声を表す音声信号(アナログ信号)を出力する。音声処理部16は、マイクロホン15が出力する音声信号(アナログ信号)をA/D変換によりデジタルデータに変換する。また、音声処理部16は、供給されるデジタルデータをD/A変換によりアナログ信号に変換してスピーカ17に供給する。スピーカ17は、音声処理部16から出力されるアナログ信号に応じた強度で放音する。通信部18は、他の端末10との間で通信網20を介して通信を行うための通信手段である。撮影部19は、撮影し、撮影した映像を表す映像データを出力する。
FIG. 2 is a block diagram illustrating an example of the configuration of the
なお、この実施形態では、マイクロホン15とスピーカ17とが端末10に含まれている場合について説明するが、音声処理部16に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良い。同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続する構成としてもよい。また、この実施形態では、マイクロホン15から音声処理部16へ入力されるオーディオ信号及び音声処理部16からスピーカ17へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部16にてA/D変換やD/A変換を行う必要はない。表示部13や撮影部19についても同様であり、外部出力端子や外部入力端子を設け、外部モニタや外部撮影装置を接続する構成としても良い。
In this embodiment, the case where the
記憶部12は、図示のように、カウントテーブル記憶領域121を有している。カウントテーブル記憶領域121には、会議の参加者がうなずいたときの動作又は音声(以下「うなずき動作」と称する)の検出の回数や頻度を示すカウントデータが、自端末10に接続されている他の端末10毎に記憶される。図3は、カウントテーブルの内容の一例を示す図である。図示のように、このテーブルは、「端末ID」と「カウントデータ」との各項目が互いに関連付けて構成されている。これらの項目のうち、「端末ID」の項目には、端末10を識別する端末IDが記憶される。「カウントデータ」の項目には、対応する端末IDの示す端末10から送信されてくるデータからうなずき動作が検出された回数や頻度を示すカウントデータが記憶される。
The
<動作>
次に、本実施形態の動作について説明する。端末10は、マイクロホン15で収音した音声を表す音声データと撮影部19で撮影した映像を表す映像データとを含むデータ(以下「会議データ」と称する)を、他の端末10に送信するとともに、他の端末10から送信されてくる会議データを受信し、受信した会議データに含まれる音声データをスピーカ17から音として放音するとともに、受信した会議データに含まれる映像データを表示部13に出力して映像を表示させる。これにより遠隔会議が実現される。
<Operation>
Next, the operation of this embodiment will be described. The terminal 10 transmits data including audio data representing the sound collected by the
このとき、端末10の制御部11は、マイクロホン15で収音された音声を表す音声データ及び撮影部19によって撮影された映像を表す映像データのうちの少なくともいずれか一方を解析し、解析結果を予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを参加者のうなずき動作として検出する。この動作例では、制御部11は、撮影部19から出力される映像データを解析して顔画像検出を行うことにより、参加者のうなずき動作を検出する。具体的には、まず、制御部11は、映像データを解析して顔画像の検出を行う。次いで、制御部11は、検出した顔画像の位置及び方向を検出することによって参加者の顔の動きの検出を行う。次いで、制御部11は、検出された顔の動きのパターンを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものをうなずき動作として検出する。この照合パターンとしては、うなずき動作における顔の動きの特徴を表すデータを用いればよい。この照合パターンは、端末10の記憶部12の所定の記憶領域に予め記憶しておくようにしてもよく、また、所定のサーバ装置等から取得するようにしてもよい。
At this time, the
制御部11は、うなずき動作が検出された回数をカウントし、カウント結果を示すカウントデータを、カウントテーブル記憶領域121に記憶されたテーブルに記憶する。すなわち、制御部11は、うなずき動作が検出される毎に、カウントテーブル記憶領域121に記憶されたカウントデータの値を更新する。
The
また、制御部11は、予め定められた単位時間毎に、カウント結果を示すカウントデータを、通信中の他の端末10に対して送信するとともに、他の端末10から送信されてくるカウントデータを受信する。制御部11は、他の端末10から送信されてくるカウントデータをカウントテーブル記憶領域121に記憶されたテーブルに記憶する。すなわち、制御部11は、他の端末10からカウントデータを受信する毎に、カウントテーブル記憶領域121に記憶された端末10毎のカウントデータの値を更新する。
In addition, the
また、制御部11は、遠隔会議が行われている最中において、うなずき動作のカウント結果を表示部13に表示させる。図4は、表示部13に表示される画面の一例を示す図である。図4に示す例においては、遠隔会議に参加している参加者(すなわち他の端末10の利用者)の映像A1,A2,A3,A4がそれぞれ表示されるとともに、各映像A1,A2,A3,A4の近傍に、カウントデータの示す内容を表す画像B1,B2,B3,B4がそれぞれ表示される。制御部11は、所定単位時間毎に表示部13に、カウントデータに対応するデータを表示部13に出力し、表示部13は、制御部11から供給されるデータに応じて表示内容を更新する。すなわち、遠隔会議が行われている最中において、各参加者のうなずき動作の検出の頻度や回数を示す画像が表示されるとともに、その表示がリアルタイムで更新される。
Further, the
遠隔会議の参加者は、表示部13に表示される画面を確認することで、どの参加者がどのような頻度でうなずく動作を行っているかを確認することができる。一般的に、うなずき動作は、認知した内容に対して肯定的な理解を示したときに発生するので、おおまかにうなずき回数が参加者の内容理解度に比例すると考えられる。そのため、本実施形態によれば、表示部13に表示される画面を参照することで、各参加者の理解度を推定することができる。
The participant of the remote conference can confirm which participant is performing a nodding operation at what frequency by confirming the screen displayed on the
このように、計測されたうなずき動作のカウント結果は、リアルタイムに他の参加者の端末10に送信され、各参加者のビデオ映像の脇に表示される。他の端末10においては、他の端末10の制御部11は、受信されたカウントデータに応じた画像を表示する。なお、画像を表示するに代えて、音声メッセージを出力するようにしてもよい。これにより、他の端末10の利用者は、自身のうなずきの回数や他の参加者のうなずき回数を、遠隔会議の最中に把握することができる。
Thus, the count result of the measured nodding action is transmitted to the other participant's terminal 10 in real time, and displayed beside each participant's video image. In another terminal 10, the
また、制御部11は、参加者のうなずき動作のカウント結果を、会議中の時間軸に沿って記憶する。図5は、制御部11が行うカウント処理の内容の一例を示す図である。図において、横軸は時刻を示し、縦軸はうなずき動作の回数を示す。制御部11は、検出されるうなずき動作の回数を、予め定められた時間単位で算出し、算出結果を記憶部12の所定の記憶領域に記憶する。この算出処理は、他の端末10毎のそれぞれ個別に算出するようにしてもよく、また、複数の端末10をまとめて全体として算出するようにしてもよい。また、図5に示すような、カウント結果を時間軸に沿って算出した結果を示す画像を、自端末10又は他の端末10の表示部13に表示するようにしてもよい。
Moreover, the
さて、遠隔会議を終えると、会議の参加者は、操作部14を用いて、会議が終了した旨を入力する。制御部11は、操作部14から出力される信号に応じて、会議が終了したか否かを判定する。会議が終了したと判定すると、制御部11は、カウントしたうなずき動作の回数(以下「うなずき回数」という)を集計して、どの参加者のうなずき回数が多かったか、どの時間帯のうなずき回数が高かったか、全体のうなずき回数はどれくらいか、話し手(講師)による理解度の違いはあるのかどうか、を計算する。
Now, when the remote conference is finished, the participant of the conference uses the
図6は、うなずき動作の検出の回数を端末10毎に算出した場合の統計結果の一例を示す図である。図6に示す例では、うなずき動作の検出回数が、端末10の利用者毎に統計されている。制御部11は、利用者の操作に応じて、図6に例示するような画像を表示部13に表示させる。会議の参加者は、表示される画面をみることで、どの参加者のうなずき回数が多かったか、等を把握することができる。また、図6に示す例に限らず、制御部11が、所定の時間帯毎のうなずき回数の統計をとるようにしてもよく、また、遠隔講義等を行う場合には、講師(発話者)毎のうなずき回数の統計をとって、どの講師による講義に対するうなずき回数が多いかを算出するようにしてもよい。
FIG. 6 is a diagram illustrating an example of a statistical result when the number of detections of the nodding operation is calculated for each terminal 10. In the example illustrated in FIG. 6, the number of detections of the nodding operation is statistically calculated for each user of the terminal 10. The
このように本実施形態では、端末10は、参加者の顔のビデオ映像をリアルタイムに信号処理し、顔の位置及び方向の検出・顔の動きの検出を行い、参加者のうなずきの回数をカウントする。カウントした結果はリアルタイムに他の参加者に送信することもできるし、保存した回数を後でチェックすることもできる。このように、参加者のうなずき回数をビデオ映像の処理によって計測し、画面表示などの方法で参加者にフィードバックすることで、会議の理解度や会議参加の積極性を推し量ることができる。参加者は、うなずきの回数をリアルタイムに知ることができる。 As described above, in the present embodiment, the terminal 10 processes the video image of the participant's face in real time, detects the position and direction of the face, detects the movement of the face, and counts the number of times the participant nods. To do. The counted result can be transmitted to other participants in real time, and the number of times saved can be checked later. Thus, by measuring the number of nods of participants by processing video images and feeding them back to the participants by screen display or the like, it is possible to estimate the degree of understanding of the conference and the aggressiveness of the conference. Participants can know the number of nods in real time.
また、本実施形態では、うなずきの回数を記録しておき、後で集計することができる。うなずき回数を保存しておき、後で集計することによって、参加者別の理解度の違いや、時間帯別の理解度の違い(ある特定の部分の説明は全体のうなずきが少なければ、その部分は理解されていないとわかる)、話者(講師)別の理解度の違いなどを把握することができる。 In this embodiment, the number of nods can be recorded and tabulated later. By storing the number of nods and counting them later, differences in understanding by participant and differences in understanding by time zone (explaining a specific part if there is little overall nod, Can understand the difference in understanding level by speaker (instructor).
<変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(1)上述の実施形態では、本発明に係る通信端末を用いて遠隔会議を行う場合について説明したが、本発明はこれに限らず、例えば、通信ネットワークを介して講義や講演を行う場合においても本発明を適用することができる。
<Modification>
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, It can implement with another various form. An example is shown below. In addition, you may combine each following aspect suitably.
(1) In the above-described embodiment, the case where a remote conference is performed using the communication terminal according to the present invention has been described. However, the present invention is not limited to this, and for example, when a lecture or lecture is performed via a communication network. The present invention can also be applied.
(2)上述の実施形態において、制御部11が、うなずき動作の回数から理解度を算出するようにしてもよい。この場合は、うなずき頻度と理解度との対応関係を記憶部12の対応関係記憶領域122(図1に鎖線で図示)に記憶しておく。図7は、対応関係記憶領域122に記憶された対応関係の内容の一例を示す図である。図7において、横軸はうなずき動作の検出頻度を示し、縦軸は理解度を示す。上述したように、うなずき動作は、認知した内容に対して肯定的な理解を示したときに発生するので、おおまかにうなずき回数が参加者の内容理解度に比例すると考えられる。制御部11は、対応関係記憶領域122に記憶された対応関係を参照して、算出したうなずき頻度に対応する理解度を特定し、特定した理解度を示すデータを表示部13等に出力する。具体的には、例えば、表示部13に「理解度xx%」といったメッセージを表示したり、理解度を示す音声メッセージをスピーカ17から放音したりしてもよい。このようにすることにより、会議の参加者は、各参加者の理解度を把握し易くなる。
(2) In the above-described embodiment, the
うなずき回数と理解度との対応関係は、図7に例示するものに限らず、例えば、対応関係を示すテーブル等であってもよい。また、制御部11が、予め定められたアルゴリズムに従ってうなずき回数を理解度に変換するようにしてもよい(例えば、ある一定時間内に5回以上うなずいたら理解度100%、等)。要は、うなずき回数と理解度との対応関係を参照して、制御部11が、算出した回数に対応する理解度を特定するようにすればよい。
The correspondence between the number of nods and the degree of comprehension is not limited to that illustrated in FIG. 7, but may be, for example, a table indicating the correspondence. Further, the
(3)上述の実施形態において、肯定的な理解をうなずき動作で表現しない国(例えば、インドやブルガリアは、Yesを首を横に傾けることで表現する、等)において遠隔会議を実施する場合は、制御部11が、上述の実施形態に係るうなずき動作以外の顔の動きを検知するようにしてもよい。この場合は、地域(国等)を識別する地域識別データと、その地域において肯定的な理解を示す動作又は音声の特徴を表す照合パターンとを対応付けて記憶部12の所定の記憶領域(以下「照合パターン記憶領域」という)に予め記憶しておき、端末10の利用者が、操作部14を操作して自身の属する地域を識別する地域識別データを入力するようにすればよい。制御部11は、操作部14から出力される信号に応じて、入力された地域識別データに対応する照合パターンを照合パターン記憶領域から読み出し、読み出した照合パターンを用いて、他の端末10から受信される会議データに含まれる映像データ又は音声データからうなずき動作を検出するようにすればよい。このようにすることにより、肯定的な理解をどのような動作によって検出するかを、会議の参加者の地域に応じて切り替えることができる。
(3) In the above-described embodiment, when a remote conference is implemented in a country that does not express a positive understanding with a nodding action (for example, India or Bulgaria expresses Yes by tilting its head sideways). The
(4)上述の実施形態において、うなずきのタイミングをはずす参加者を検出するようにしてもよい。この場合は、例えば、制御部11が、端末10毎のうなずき動作の検出タイミングを統計し、統計結果に応じて基準となるうなずき動作のタイミング(以下「基準タイミング」)を算出する。次いで、制御部11が端末10のそれぞれについて、うなずき動作が検出されるタイミングと基準タイミングとの差分が予め定められた閾値以上である端末10を、タイミングがずれている参加者の端末であると特定し、特定結果を示すデータを表示部13等に出力するようにしてもよい。このようにすることにより、各参加者は、うなずくタイミングが他の人とずれていることを把握することができ、また、どの参加者がずれているかを把握することができる。
(4) In the above-described embodiment, a participant who removes the timing of nodding may be detected. In this case, for example, the
(5)上述の実施形態において、参加者のそれぞれでうなずく頻度が異なる場合がある。例えば、頻繁にうなずき動作を行う傾向のある者や、話を理解しているもののそれほど頻繁にうなずかない傾向のある者もいる。そこで、制御部11が、参加者毎にうなずき動作の検出回数や検出頻度の重み付けを行うようにしてもよい。この場合は、参加者を識別する参加者ID(又は端末10を識別する端末ID)と重み付け係数とを対応付けて記憶部12の所定の領域に予め記憶しておき、制御部11が、記憶された対応関係を参照して、端末10毎の検出されたうなずき回数に重み付け係数を乗算し、重み付けした結果を表示部13等に表示するようにしてもよい。このようにすることで、参加者毎の理解度をより把握し易くすることができる。
(5) In the above-described embodiment, the nodding frequency may be different for each participant. For example, there are those who tend to nod frequently, and those who understand the story but tend to nod so often. Therefore, the
(6)上述の実施形態では、端末10の制御部11は、他の端末10から受信する映像データを画像解析することによって参加者のうなずき動作を検出したが、うなずき動作の検出の態様はこれに限らず、他の端末10から受信される音声データを音声解析することによってうなずき音声を検出するようにしてもよい。この場合は、例えば、端末10の記憶部12にうなずきやあいづちを表す音声(以下「うなずき音声」という)又はうなずき音声の特徴を表す照合パターンを予め記憶しておき、制御部11が、受信された音声データを記憶部12に記憶された照合パターンと照合し、両者の一致度に応じてうなずき音声を検出するようにしてもよい。また、うなずき音声の検出の態様としては、例えば、制御部11が、受信した音声データを音声解析し、単語として認識されなかった箇所をうなずき音声として検出するようにしてもよい。
(6) In the above-described embodiment, the
(7)上述の実施形態では、図4に示すように、各参加者の画像の近傍に、うなずき動作の検出結果を示す画像を表示するようにしたが、表示の態様は上述したものに限らず、例えば、検出結果を示す画像を半透明にして各参加者の画像に重畳して表示するようにしてもよい。また、上述の実施形態においては、端末10は、表示部13にカウント結果を示す画像を表示することによってカウント結果を参加者に報知したが、報知の態様はこれに限らず、例えば、音声メッセージを出力することによって報知してもよく、また、カウント結果を示すデータを電子メール形式で受講者のメール端末に送信するといった形態であってもよい。また、カウント結果を示す情報を記録媒体に出力して記憶させるようにしてもよく、この場合、参加者はコンピュータを用いてこの記録媒体から情報を読み出させることで、それらを参照することができる。また、カウント結果を所定の用紙に印刷出力してもよい。要は参加者に対して何らかの手段でメッセージ乃至情報を伝えられるように、カウント結果を示す情報を出力するものであればよい。
(7) In the above-described embodiment, as shown in FIG. 4, an image indicating the detection result of the nodding motion is displayed in the vicinity of each participant's image, but the display mode is not limited to that described above. Instead, for example, an image showing the detection result may be made translucent and displayed superimposed on each participant's image. In the above-described embodiment, the terminal 10 notifies the participant of the count result by displaying an image indicating the count result on the
また、端末10が、カウント結果を音で報知する場合において、端末10毎に音を異ならせるようにしてもよい。このようにすることで、端末10毎(すなわち参加者毎)の理解度を把握し易くすることができる。また、端末10が、カウント数に応じて音を異ならせるようにしてもよい。この場合は、例えば、制御部11が、カウント数が多いほど音圧を大きくするように制御してもよい。
Further, when the terminal 10 notifies the count result by sound, the sound may be different for each terminal 10. By doing in this way, it is possible to easily grasp the degree of understanding for each terminal 10 (that is, for each participant). Further, the terminal 10 may vary the sound according to the count number. In this case, for example, the
(8)上述の実施形態では、複数の端末10のそれぞれが、その端末10の利用者のうなずき回数やうなずき頻度を算出するようにしたが、これに代えて、複数の端末10と通信ネットワークを介して接続されたサーバ装置が、複数の端末10のそれぞれに対応する利用者のうなずき回数やうなずき頻度を算出するようにしてもよい。この場合は、サーバ装置の制御部が、通信ネットワークを介して接続された複数の端末10から会議データを受信し、受信された端末10毎の会議データをそれぞれ解析して、うなずき動作の検出の頻度を端末10毎に算出し、算出結果を示すデータを、端末10のそれぞれに送信するようにすればよい。
(8) In the above-described embodiment, each of the plurality of
(9)上述の実施形態において端末10の制御部11によって実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で端末10にダウンロードさせることも可能である。
(9) The program executed by the
1…遠隔会議システム、10…端末、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロホン、16…音声処理部、17…スピーカ、18…通信部、19…撮影部、20…通信網、121…カウントテーブル記憶領域、122…対応関係記憶領域。
DESCRIPTION OF
Claims (8)
前記データ取得手段により取得されたデータを解析し、解析結果を予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記聴取者のうなずき動作として検出する検出手段と、
前記検出手段によって検出されるうなずき動作の検出の頻度を算出する算出手段と、
前記算出手段によって算出された頻度を表す頻度データを出力する出力手段と
を具備することを特徴とする通信装置。 Data acquisition means for acquiring data including at least one of audio data representing the sound of the listener collected by the sound collection means and video data representing the video of the listener photographed by the photographing means;
Analyzing the data acquired by the data acquisition means, comparing the analysis result with a predetermined collation pattern, and detecting the collation result satisfying a predetermined condition as a nodding operation of the listener;
Calculating means for calculating the frequency of detection of the nod motion detected by the detecting means;
Output means for outputting frequency data representing the frequency calculated by the calculating means.
前記対応関係記憶手段を参照して、前記算出手段によって算出された頻度に対応する理解度を特定する理解度特定手段と
を具備し、
前記出力手段は、前記理解度特定手段によって特定された理解度を示す理解度データを出力する
ことを特徴とする請求項1に記載の通信装置。 Correspondence storage means for storing the correspondence between the frequency and the degree of understanding;
An understanding level specifying means for specifying an understanding level corresponding to the frequency calculated by the calculating means with reference to the correspondence relationship storing means,
The communication device according to claim 1, wherein the output unit outputs understanding level data indicating the understanding level specified by the understanding level specifying unit.
ことを特徴とする請求項1又は2に記載の通信装置。 The communication device according to claim 1, wherein the calculating unit calculates a frequency of detection of a nodding motion detected by the detecting unit in a predetermined time unit.
前記地域を識別する識別データを取得する識別データ取得手段と、
前記識別データ取得手段により取得された識別データに対応する照合パターンを前記照合パターン記憶手段から読み出す照合パターン読出手段と
を具備し、
前記検出手段は、前記照合パターン読出手段により読み出された照合パターンを前記解析結果と照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出する
ことを特徴とする請求項1乃至3のいずれか1項に記載の通信装置。 A collation pattern storage means for storing the collation pattern for each identification data for identifying a region;
Identification data acquisition means for acquiring identification data for identifying the area;
A verification pattern reading unit that reads a verification pattern corresponding to the identification data acquired by the identification data acquisition unit from the verification pattern storage unit;
The detection unit is configured to collate the collation pattern read by the collation pattern reading unit with the analysis result, and detect the collation result satisfying a predetermined condition as the nodding operation. 4. The communication device according to any one of items 3.
前記算出手段は、前記検出手段によって検出されるうなずき動作の検出の頻度を、前記端末毎に算出する
ことを特徴とする請求項1乃至4のいずれか1項に記載の通信装置。 The data acquisition means receives the data from each of a plurality of terminals connected via a communication network,
The communication device according to any one of claims 1 to 4, wherein the calculation unit calculates a frequency of detection of a nodling motion detected by the detection unit for each terminal.
前記統計手段による統計結果に応じて、基準となるうなずき動作のタイミングを基準タイミングとして算出する基準タイミング算出手段と、
前記複数の端末のなかから、前記検出手段によって検出されたうなずき動作の検出のタイミングと前記基準タイミング算出手段によって算出された基準タイミングとの差分が予め定められた閾値以上である端末を特定する端末特定手段と、
前記端末特定手段による特定結果を示す特定データを出力する特定データ出力手段と
を具備することを特徴とする請求項5に記載の通信装置。 Statistical means for statistically detecting the frequency of detection of the nod motion detected by the detection means for each predetermined unit time;
Reference timing calculating means for calculating a reference nodding operation timing as a reference timing according to a statistical result by the statistical means;
A terminal that identifies a terminal in which a difference between a detection timing of a nod motion detected by the detection unit and a reference timing calculated by the reference timing calculation unit is equal to or greater than a predetermined threshold among the plurality of terminals. Specific means,
The communication apparatus according to claim 5, further comprising: specific data output means for outputting specific data indicating a specific result by the terminal specifying means.
前記検出手段は、
前記データ取得手段により取得された映像データを解析して顔画像の検出を行う顔画像検出手段と、
前記顔画像検出手段により検出された顔画像の位置及び方向を検出することによって顔の動きの検出を行う動き検出手段と、
前記動き検出手段によって検出された顔の動きを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出するうなずき動作検出手段とを具備する
ことを特徴とする請求項1乃至6のいずれか1項に記載の通信装置。 The data acquisition means acquires data including video data representing the video of the listener;
The detection means includes
Face image detection means for analyzing the video data acquired by the data acquisition means and detecting a face image;
A motion detection means for detecting a face motion by detecting the position and direction of the face image detected by the face image detection means;
Nodding motion detection means for collating face motion detected by the motion detection means with a predetermined collation pattern, and detecting a collation result satisfying a predetermined condition as the nodding motion. The communication device according to any one of claims 1 to 6.
前記検出手段は、前記データ取得手段により取得された音声データを予め定められた照合パターンと照合し、照合結果が所定の条件を満たすものを前記うなずき動作として検出する
ことを特徴とする請求項1乃至6のいずれか1項に記載の通信装置。 The data acquisition means acquires data including audio data representing the audio of the listener,
The detection unit is configured to collate the voice data acquired by the data acquisition unit with a predetermined collation pattern, and detect a collation result satisfying a predetermined condition as the nodding operation. The communication device according to any one of 1 to 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008112788A JP2009267621A (en) | 2008-04-23 | 2008-04-23 | Communication apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008112788A JP2009267621A (en) | 2008-04-23 | 2008-04-23 | Communication apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009267621A true JP2009267621A (en) | 2009-11-12 |
Family
ID=41392943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008112788A Pending JP2009267621A (en) | 2008-04-23 | 2008-04-23 | Communication apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009267621A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011228998A (en) * | 2010-04-21 | 2011-11-10 | Nippon Telegr & Teleph Corp <Ntt> | Remote conference apparatus, remote conference method, and remote conference program |
JP2012089000A (en) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | Teleconference method, teleconference system and teleconference program |
JP2016053891A (en) * | 2014-09-04 | 2016-04-14 | Kddi株式会社 | Confirmation device and program |
JP2017112545A (en) * | 2015-12-17 | 2017-06-22 | 株式会社イトーキ | Conference support system |
JP2017201479A (en) * | 2016-05-06 | 2017-11-09 | 日本ユニシス株式会社 | Communication supporting system |
WO2018135292A1 (en) * | 2017-01-20 | 2018-07-26 | 富士通株式会社 | Image processing program, image processing method, and image processing device |
JP2019505111A (en) * | 2015-12-04 | 2019-02-21 | スリング メディア,インク. | Processing multiple media streams |
JP2019186780A (en) * | 2018-04-12 | 2019-10-24 | 富士通株式会社 | User support program, user support apparatus, and user support method |
-
2008
- 2008-04-23 JP JP2008112788A patent/JP2009267621A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011228998A (en) * | 2010-04-21 | 2011-11-10 | Nippon Telegr & Teleph Corp <Ntt> | Remote conference apparatus, remote conference method, and remote conference program |
JP2012089000A (en) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | Teleconference method, teleconference system and teleconference program |
JP2016053891A (en) * | 2014-09-04 | 2016-04-14 | Kddi株式会社 | Confirmation device and program |
JP2019505111A (en) * | 2015-12-04 | 2019-02-21 | スリング メディア,インク. | Processing multiple media streams |
JP2017112545A (en) * | 2015-12-17 | 2017-06-22 | 株式会社イトーキ | Conference support system |
JP2017201479A (en) * | 2016-05-06 | 2017-11-09 | 日本ユニシス株式会社 | Communication supporting system |
WO2018135292A1 (en) * | 2017-01-20 | 2018-07-26 | 富士通株式会社 | Image processing program, image processing method, and image processing device |
JP2018116654A (en) * | 2017-01-20 | 2018-07-26 | 富士通株式会社 | Image processing program, image processing method, and image processing device |
US11093735B2 (en) | 2017-01-20 | 2021-08-17 | Fujitsu Limited | Image processing method, image processing apparatus, and non-transitory computer-readable storage medium storing program for image processing having gesture recognition |
JP2019186780A (en) * | 2018-04-12 | 2019-10-24 | 富士通株式会社 | User support program, user support apparatus, and user support method |
JP7056339B2 (en) | 2018-04-12 | 2022-04-19 | 富士通株式会社 | User support programs, user support devices and user support methods |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021232775A1 (en) | Video processing method and apparatus, and electronic device and storage medium | |
JP2009267621A (en) | Communication apparatus | |
CN107316520B (en) | Video teaching interaction method, device, equipment and storage medium | |
JP2009258175A (en) | Lecture system and tabulation system | |
EP3739573B1 (en) | Information processing device, information processing method, and program | |
WO2017018012A1 (en) | Information processing system, information processing method, and storage medium | |
CN108847214A (en) | Method of speech processing, client, device, terminal, server and storage medium | |
JP2010074494A (en) | Conference support device | |
WO2022024354A1 (en) | Reaction analysis system | |
CN114339149A (en) | Electronic device and learning supervision method | |
US11620997B2 (en) | Information processing device and information processing method | |
US11189289B2 (en) | Information processing device, information processing method, and information processing system | |
CN105608469A (en) | Image resolution determination method and device | |
JP7452299B2 (en) | Conversation support system, conversation support method and program | |
CN112580390B (en) | Security monitoring method and device based on intelligent sound box, sound box and medium | |
US20200075025A1 (en) | Information processing apparatus and facilitation support method | |
WO2022196165A1 (en) | Communication system, output device, communication method, output method, and output program | |
JP2020042709A (en) | System for evaluating similarity of psychological state in audience | |
WO2022181287A1 (en) | Image storage device, method, and non-transitory computer readable medium | |
JP7465012B2 (en) | Video meeting evaluation terminal, video meeting evaluation system and video meeting evaluation program | |
JP7471683B2 (en) | Reaction notification system | |
WO2022145039A1 (en) | Video meeting evaluation terminal, video meeting evaluation system and video meeting evaluation program | |
WO2023032058A1 (en) | Video session evaluation terminal, video session evaluation system, and video session evaluation program | |
US11935329B2 (en) | Video analysis program | |
WO2022145041A1 (en) | Video meeting evaluation terminal, video meeting evaluation system, and video meeting evaluation program |