JP2014175944A - Television conference apparatus, control method of the same, and program - Google Patents
Television conference apparatus, control method of the same, and program Download PDFInfo
- Publication number
- JP2014175944A JP2014175944A JP2013048379A JP2013048379A JP2014175944A JP 2014175944 A JP2014175944 A JP 2014175944A JP 2013048379 A JP2013048379 A JP 2013048379A JP 2013048379 A JP2013048379 A JP 2013048379A JP 2014175944 A JP2014175944 A JP 2014175944A
- Authority
- JP
- Japan
- Prior art keywords
- video conference
- user
- face
- conference apparatus
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 28
- 238000003384 imaging method Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Position Input By Displaying (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、テレビ会議装置、テレビ会議装置の制御方法、及びプログラムに関する。 The present invention relates to a video conference apparatus, a video conference apparatus control method, and a program.
インターネット等の通信ネットワークを介して、遠隔地等と会議を行うテレビ会議システムが知られている。このようなテレビ会議システムでは、1つのテレビ会議装置を複数の利用者で利用することが想定されており、一部の利用者はテレビ会議装置やリモコンに手が届かない場所に位置する場合がある。従来は、このようにテレビ会議装置やリモコンに手が届かない利用者はテレビ会議装置の操作が困難であった。 2. Description of the Related Art A video conference system that performs a conference with a remote place via a communication network such as the Internet is known. In such a video conference system, it is assumed that a single video conference device is used by a plurality of users, and some users may be located in a place where they cannot reach the video conference device or the remote control. is there. Conventionally, it has been difficult for a user who cannot reach the video conference device or the remote controller to operate the video conference device.
また、音声認識によりテレビ会議装置の操作を行なう場合には、テレビ会議中の発言等により誤操作の恐れがあった。特許文献1には、音声認識開始スイッチを操作したときにのみ、音声制御が可能な音声認識電気機器が開示されている。
Further, when the video conference apparatus is operated by voice recognition, there is a risk of erroneous operation due to a speech during the video conference.
特許文献1に開示の技術では、テレビ会議装置やリモコンから離れた利用者が操作できないという従来技術の問題点を解決できない。
本発明の実施の形態は、上記問題点を鑑みてなされたものであって、テレビ会議装置やリモコンに手が届かない利用者にも操作可能なテレビ会議装置を提供することを目的とする。
The technique disclosed in
Embodiments of the present invention have been made in view of the above-described problems, and an object of the present invention is to provide a video conference apparatus that can be operated by a user who cannot reach a video conference apparatus or a remote controller.
上記課題を解決するため、本願請求項1は、テレビ会議装置を利用する一又は複数の利用者の画像データを取得する撮像手段と、前記利用者の音声データを取得する音声入力手段と、前記画像データより前記利用者の顔の向き及び視線の方向のうち少なくとも一つを解析する解析手段と、前記解析手段の解析結果に基づいて前記利用者の前記テレビ会議装置の操作の意図を推定する推定手段と、を有し、前記推定手段の推定結果に基づいて前記操作を行う。 In order to solve the above-described problem, claim 1 of the present application includes an imaging unit that acquires image data of one or a plurality of users who use a video conference device, a voice input unit that acquires the voice data of the users, Analyzing means for analyzing at least one of the user's face direction and line-of-sight direction from image data, and estimating the user's intention to operate the video conference device based on the analysis result of the analyzing means An estimation unit, and performs the operation based on an estimation result of the estimation unit.
本実施の形態によれば、テレビ会議装置やリモコンに手が届かない利用者にも操作可能なテレビ会議装置を提供することができる。 According to the present embodiment, it is possible to provide a video conference device that can be operated even by a user who cannot reach the video conference device or the remote controller.
以下に、本発明の実施の形態について、添付の図面を参照して説明する。
<システムの構成>
図1は、本発明の一実施形態に係るテレビ会議システム100の構成例を示す図である。テレビ会議システム100は、ネットワーク104に接続されたテレビ会議装置101、102、103及びサーバ105を備える。サーバ105は、例えば、テレビ会議装置101からの映像や音声のデータを受信し、所望のテレビ会議装置、例えばテレビ会議装置102、103等に送信する役割を担う。また、この時に、サーバ105がテレビ会議装置101〜103から得られたデータをエンコードしたり、テレビ会議装置101〜103から得られたエンコードされたデータをデコードしたりする機能を備えていても良い。尚、図1の構成は一例であって、テレビ会議システムを構成するテレビ会議装置の数は2つ以上の任意の数であって良い。さらに、サーバ105を介さずに、テレビ会議装置同士をつなげるピアツーピアの接続環境でも良い。
Embodiments of the present invention will be described below with reference to the accompanying drawings.
<System configuration>
FIG. 1 is a diagram illustrating a configuration example of a
テレビ会議装置101、102、103は、例えば、サーバ105を介して、テレビ会議装置間で通信を行い、画像や音声を送受信できる。これにより、テレビ会議装置101の利用者は、テレビ会議装置102や103の利用者と、リアルタイムに送受信される画像や音声を介してテレビ会議を行うことができる。
<装置の構成>
(ハードウェア構成)
図2に本実施の形態に係るテレビ会議装置101のハードウェア構成の例を示す。尚、テレビ会議システム100を構成する他のテレビ会議装置102及び103は、必ずしも同じ構成である必要はない。
For example, the
<Device configuration>
(Hardware configuration)
FIG. 2 shows an example of the hardware configuration of the
テレビ会議装置101は、コンピュータ等で構成されるテレビ会議装置本体200、表示装置210、1つ又は複数のマイク212を備える。また、テレビ会議装置本体200は、CPU(Central Processing Unit)201、メモリ202、制御部203、画像処理部204、音声処理部205、ネットワークインタフェース(以下、ネットワークI/Fと称す)206、撮像素子インタフェース(以下、撮像素子I/Fと称す)207、カメラ208、画像出力インタフェース(以下、画像出力I/Fと称す)209、音声入出力インタフェース(以下、音声入出力I/Fと称す)214、スピーカ213、システムバス214を備える。尚、上記構成はあくまでも一例であって、本発明の範囲を限定するものではない。例えば、カメラ208やスピーカ213はテレビ会議装置本体200とは別に設けられていても良いし、また表示装置210に内蔵されていても良い。また、テレビ会議装置本体200が複数のマイク212の少なくとも1つを有していても良い。さらに、撮像素子I/F207は画像処理部204に含まれていても良いし、音声入出力I/F214は音声処理部205に含まれていても良い。
The
CPU201は、例えばメモリ202からプログラムやデータを読み出し、処理を実行することで、テレビ会議装置101が備える各機能を実現する演算装置である。メモリ202は、例えばRAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)等の記憶部である。メモリ202は、CPU201により実行される様々な処理に必要とされる各種ソフトウエアやデータ、画像データ、音声データ等を格納する。
The
制御部203は、テレビ会議装置101全体の制御を行う。画像処理部204は、画像データ又は画像信号に対して各種画像処理を行う。音声処理部205は、音声データ又は音声信号に対して各種音声処理を行う。尚、画像処理部204、音声処理部205は、DSP(Digital Signal Processor)等のプロセッサを含んでいても良い。ネットワークI/F206は、テレビ会議装置101をネットワーク104に接続するためのインタフェースで、ネットワーク104を介して、他のテレビ会議装置102、103等とデータの送受信を行う。
The
撮像素子I/F207は、撮像用のカメラ208から出力される画像信号を所定の画像データとして取り込むインタフェースである。表示装置210は、例えば、LCD(Liquid Crystal Display)モニタや、プロジェクタ等の表示装置である。表示装置210は、音声出力用のスピーカ213を備えていても良い。画像出力I/F209は、表示装置210に通信先の画像や、メニュー画面、設定画面等の各種画像を出力するインタフェースである。
音声入出力I/F211は、音声入力用のマイク212を介して入力された音声信号を所定の音声データとして取り込む。また、出力する音声データをスピーカ213で再生可能な音声信号に変換する。システムバス214は、アドレスバス、データバス及び各種制御信号を伝達する。
(機能構成)
図3は、本実施の形態におけるテレビ会議装置101の機能構成を示す図である。テレビ会議装置101は、撮像手段301、解析手段302、推定手段303、制御手段304、音声入力手段305、音声出力手段306、音声認識手段307、音量制御手段308を有する。
The image sensor I / F 207 is an interface that captures an image signal output from the
The voice input / output I / F 211 takes in a voice signal input via a
(Functional configuration)
FIG. 3 is a diagram illustrating a functional configuration of the
撮像手段301は、テレビ会議装置101の利用者等の画像データを取得する手段で、例えば、図2のカメラ208等を含む。解析手段302は、撮像手段301が取得した画像データ又は画像信号の画像処理を行い、テレビ会議装置101の利用者のそれぞれについて、顔の向き又は視線のうち少なくとも一つを解析する。推定手段303は、解析手段302の解析結果に基づいて、各利用者のテレビ会議装置101への操作の意図を推定する。解析手段302及び推定手段303は、例えば、図2の画像処理部204に含まれる。また、解析手段302及び推定手段303は、CPU201等で動作するプログラムによって各機能が実現されるものであっても良い。
The
制御手段304は、推定手段303の推定結果に基づいて、テレビ会議装置101の制御を行う手段で、例えば、図2の制御部203やCPU201で動作するプログラム等を含む。尚、必要に応じて、例えば、推定手段303等が、制御手段304を介さずに、音声認識手段307等を制御しても良い。音声入力手段305は、テレビ会議装置101の利用者等の音声データを取得する手段で、例えば、図2のマイク212を含む。音声認識手段307は、音声入力手段305が取得した音声データ又は音声信号の音声処理を行い、音声データ又は音声信号を予め登録された単語パターン及び制御内容と比較し、制御内容を認識する。音声認識手段307は、例えば、図2の音声処理部205に含まれる。或いは、CPU201等で動作するプログラムによって機能が実現されるものであっても良い。
The
音声出力手段306は、テレビ会議装置101の音声出力を行う手段で、例えば、図2のスピーカ213を含む。音量制御手段308は、制御手段304や音声認識手段307等の制御により、音声出力手段306から出力される音量や、音声入力手段305から入力される音声のレベルを調整する。音量制御手段308は、例えば、図2の音声入出力I/F211や音声処理部205等に含まれる。
The
次に、テレビ会議装置101を使用する際の各部の配置の一例を図4に示す。会議テーブル406の上に、図4に示す通り、カメラ208を備えたテレビ会議装置本体200、表示装置210、複数のマイク212a、212bが配置されている。また、会議テーブル406の周りには、利用者401、402、403、404が、表示装置210及びカメラ208が見える位置に座っているものとする。さらに、テレビ会議装置101は、テレビ会議装置101を操作するためのリモコン405をさらに有していても良い。
Next, FIG. 4 shows an example of the arrangement of each unit when the
テレビ会議装置101は、カメラ208に対する各利用者の顔の向き又は視線の方向に基づいて、各利用者の操作の意図を推定する。例えば、利用者の顔の向き又は視線がカメラ208の方向を向いている場合には、利用者が音声によるテレビ会議装置101の操作を意図していると判断する。このとき、テレビ会議装置101は、音声認識処理を開始させ、その認識結果に対応するテレビ会議装置101の制御を行う。
The
以上の構成により、例えば図4において、テレビ会議装置本体200やリモコン405から離れた利用者401、403においても、カメラ208に向かって指示することにより、テレビ会議装置101の音声による操作を行うことができる。
<動作の説明>
次に、本実施の形態に係るテレビ会議装置101の動作について説明する。
[第1の実施の形態]
図5に、第1の実施の形態に係るフローチャートを示す。テレビ会議装置101は、撮像手段301により一又は複数の利用者の画像データを取得する。(ステップS501)次に、解析手段302は、この画像データより、各利用者について、顔の向き及び視線のうち少なくとも一つを解析する。(ステップS502)
尚、各利用者の顔の向きや視線の方向の解析は、一般的な顔認識技術や視線解析技術によるもので良い。ここでは、顔認識技術や視線解析技術の一例について、概要のみ説明する。まず、利用者の顔の向きについては、撮像手段301が取得した画像データより、例えば、パターン認識の技術を応用して、各利用者の顔、目、鼻、口、等の構成要素を抽出し、抽出された構成要素の位置関係から顔の向きを判断する。或いは、目の位置関係や角度から顔の向きを算出しても良い。また、視線の解析については、例えば、上記各利用者の虹彩の位置を検出し、各利用者の目、鼻、口等の構成要素から虹彩までの距離と、上記顔の向きとにより、各利用者の視線を解析する。
With the above configuration, for example, in FIG. 4, even the
<Description of operation>
Next, the operation of the
[First Embodiment]
FIG. 5 shows a flowchart according to the first embodiment. The
It should be noted that the analysis of each user's face direction and line-of-sight direction may be performed by a general face recognition technique or line-of-sight analysis technique. Here, only an outline of an example of the face recognition technique and the line-of-sight analysis technique will be described. First, with regard to the orientation of the user's face, components such as the face, eyes, nose and mouth of each user are extracted from the image data acquired by the
尚、これらの方法は、あくまでも一例であって、本発明の範囲を限定するものではない。他の方法によって、各利用者の顔の向きや視線の方向を検出するものであっても良い。 These methods are merely examples and do not limit the scope of the present invention. Other methods may be used to detect the face direction and line-of-sight direction of each user.
次に、推定手段303は、解析手段302の解析結果に基づいて、各利用者の操作の意図を推定する。例えば、図4において、各利用者は、テレビ会議中は通常、表示装置210を見ている。つまり、テレビ会議中、各利用者は表示装置210に表示された相手方や、提示された資料等を確認するため、表示装置210に視線が向いている。この状況で、利用者のいずれかが、カメラ208又はテレビ会議装置本体200に視線を向け、発声した場合、それは通信先のテレビ会議参加者への発言ではなく、テレビ会議装置101の操作を意図していると考えられる。従って、本実施の形態では、推定手段303は、カメラ208に対する各利用者の顔の向き又は視線の方向がカメラ208やテレビ会議装置本体200の方向を向いているかどうかを判定する。(ステップS503)利用者のうちの少なくとも一人の顔の向き又は視線の方向がカメラ208やテレビ会議装置本体200の方向を向いている場合には、推定手段303は、利用者が音声認識によるテレビ会議装置101の操作を意図していると判断する。
Next, the
また、より好適な例として、利用者の顔の向き又は視線の方向が、所定の時間(例えば、5秒)を越えてカメラ208やテレビ会議装置本体200の方向を向いている場合に、利用者が音声認識による操作を意図していると判断しても良い。これにより、利用者がたまたまカメラ208やテレビ会議装置本体200を見てしまったときに、誤って音声認識処理が開始してしまうことを防止することができる。
Further, as a more preferable example, it is used when the user's face direction or line-of-sight direction is facing the direction of the
推定手段303が、利用者の顔の向き又は視線の向きがカメラ208の方向を向いていると判断した場合、音声認識手段307は、音声入力手段305で取得した音声データの音声認識処理を行う。(ステップS504)その後、音声認識処理の結果に基づいて、テレビ会議装置101の制御を行う。(ステップS505)尚、音声処理については、後述する。
When the
また、好適な例として、音声認識手段307が音声認識処理を行っている間、各ユーザに表示、音声メッセージ、効果音等によってその旨を通知する手段を有すると良い。これにより、各ユーザは、テレビ会議装置101が音声認識処理を行っていることが判るので、誤操作を招くような発言を控えることができる。一方、推定手段303が、利用者の顔の向き又は視線の方向がカメラ208又は撮像手段301の方向と一致しないと判断した場合には、ステップS501に戻り、再度、ステップS501〜S503の処理を行う。
As a preferred example, while the voice recognition means 307 is performing voice recognition processing, it is preferable to have means for notifying each user by a display, a voice message, a sound effect or the like. Accordingly, each user can know that the
以上の動作により、各利用者はテレビ会議装置101やリモコン405の操作を行うことなく、音声制御によるテレビ会議装置101の操作を行えるようになる。
(画像処理)
ここで、解析手段302及び推定手段303の画像処理の一例について、具体的な例をあげて説明する。図6は、解析手段302及び推定手段303の画像処理の動作の一例を示すフローチャートである。解析手段302は、撮像手段301が取得した画像データに人の顔が検出されると、その利用者の顔方向を取得する。(ステップS601)また、同時に撮像範囲に占める顔の面積の割合から、撮像手段301と利用者との距離を取得する。(ステップS602)さらに、必要に応じて、カメラ208と利用者又は、カメラ208とテレビ会議装置本体200との角度を取得する。(ステップS603)
次に、取得された使用者との距離と、カメラ208と利用者又はテレビ会議装置本体200との角度から、推定手段303は、カメラ208に対する顔の位置と、その顔の位置においてカメラ208の方向を向いた場合の顔の方向である参照用顔方向との関係を示す複数のテーブルの中から、使用するテーブルを選択する。(S604)
ここで、上記テーブルについて説明する。図7に近距離用のテーブルのイメージを示す。4つのマス目は、カメラ208で取得した画像における顔の位置に対応している。また、マス目毎に、顔がカメラ208の方向を向いた場合の顔の方向を示す参照用顔方向のデータが格納されている。従って、例えば、カメラ208で取得した画像の左上に映っている人物の顔の方向と、図7のA列1行目のマス目の参照用顔方向が一致した場合には、その人物は、カメラ208の方向を向いていると判断できる。
With the above operation, each user can operate the
(Image processing)
Here, an example of the image processing of the
Next, based on the acquired distance from the user and the angle between the
Here, the table will be described. FIG. 7 shows an image of a short distance table. The four squares correspond to the face positions in the image acquired by the
尚、カメラ208と利用者との距離に応じて、撮像範囲に占める顔の面積の割合は異なる。例えば、カメラ208と利用との距離が離れている場合には、撮像範囲に占める顔の面積の割合は小さくなるので、図8に示すように、マス目の小さい遠距離用のテーブルを使用する。一方、カメラ208と利用者との距離が近くなり、遠距離用テーブルのマス目に顔が収まらない場合には、図9に示す中距離用のテーブル又は図8の近距離用のテーブルを選択する。
Note that the ratio of the area of the face in the imaging range varies depending on the distance between the
例えば、撮像手段301で取得した画像データが図10のようであったとする。ここで、左前に映っている人物の顔の向きを判定する場合には、顔の面積から、図9の中距離用のテーブルを選択すると良い。この場合、顔の位置は、図9の中距離用テーブルのA列、2行目に該当するので、当該テーブルから対応する参照用顔方向を取得することができる。この参照用顔方向と、図10の左前に映っている人物の顔の方向が一致した場合には、この人物はカメラ208の方向を向いていると判断できる。
For example, assume that the image data acquired by the
また、画像データの顔の位置と、カメラ208の方向を向いたときの顔の向きは、利用者とカメラ208との角度によっても変わってくる。例えば、カメラ208が利用者に対して斜め方向に設置されている場合には、例えば、図11に示すように、利用者がカメラ208を見たときの顔の方向が変わってくると考えられる。そのため、利用者とカメラ208の角度に応じて、複数のテーブルを用意しておくと良い。
Further, the position of the face of the image data and the orientation of the face when facing the direction of the
尚、利用者とカメラ208との角度については、テレビ会議装置101が特定の会議室に常時設置されている場合には、設置時に設定を行うものであっても良い。また、テレビ会議装置本体200の位置が固定で、テレビ会議装置本体200とカメラ208との角度が変更できる場合には、テレビ会議装置本体200とカメラ208との角度に基づいて求めても良い。または、テレビ会議開始時に、一人又は複数の利用者がカメラ208の方向を向いて、設定操作を行うことにより、最適なテーブルを選択するものであっても良い。さらに、テレビが会議中に利用者が表示装置210を見ているときの顔の方向に基づいて、解析手段302が算出するものであっても良い。
Note that the angle between the user and the
尚、画像データ上の顔がテーブルの複数のエリアに跨る場合も有り得るが、その場合は、例えば顔の中心が納まるエリアに顔が有るものとして処理すれば良い
ここで図6に戻ってフローチャートの説明を続ける。ステップS604において、推定手段303は、使用するテーブルを選択した後、上記テーブルより、顔位置に対応するカメラ208の方向を見ている場合の顔方向の情報である参照用顔方向を決定する。(ステップS605)次に、利用者の顔方向と、参照用顔方向が一致するかどうかを比較する。(ステップS606)尚、ここで「一致する」とは、完全に100%一致している場合だけではなく、その差が所定の範囲内であり、実質的に同じ方向を向いていると判断できる場合を含む。
Note that the face on the image data may extend over a plurality of areas of the table. In this case, for example, the processing may be performed assuming that the face is in the area where the center of the face is contained. Returning to FIG. Continue the explanation. In step S604, the
ここで、利用者の顔方向と、参照用顔方向が一致した場合には、音声認識処理を開始する。(S607)一方、利用者の顔方向と、参照用顔方向が一致しない場合には、ステップS601に戻って再度処理を行う。 Here, when the user's face direction matches the reference face direction, the voice recognition process is started. (S607) On the other hand, if the user's face direction does not match the reference face direction, the process returns to step S601 and the process is performed again.
以上、図6の画像処理によれば、利用者の視線解析を行わずに、顔方向の解析だけで、処理を行うことができる。尚、上記動作はあくまでも一例であって、本発明の範囲を限定するものではない。例えば、カメラ208と利用者との角度に応じた複数のテーブルを予め用意する代わりに、基準となるテーブルに基づいて、角度に応じたテーブルを算出するものであっても良い。または、距離、角度に応じた複数のテーブルを有する変わりに、例えば、会議開始時に、各利用者がカメラ208の方向を向いて、所定の操作を行うことにより、新たにテーブルを作成するものであっても良い。
(音声処理)
次に、音声認識手段307の音声認識処理について、具体的な例をあげて説明する。図12に、第1の実施の形態における音声認識処理のフローチャートを示す。また、図13に、音声認識手段307の機能構成を示す。図13において、音声認識手段307は、音響分析手段1301、単語認識手段1302、制御認識手段1303、単語パターン記憶手段1304、単語−制御信号対応記憶手段1305を有している。音響分析手段1301は、音声入力手段305で取得された音声データ又は音声信号の音響解析を行う。(図12のステップ1201及びステップS1202)音響分析手段1301で解析された音声データ又は音声信号は、単語認識手段1302において、単語パターン記憶手段1304に記憶された単語パターンと照合される。(図12のステップS1203)
音響分析手段1301で解析された音声データ又は音声信号が単語パターン記憶手段1304に記憶された単語パターンと一致すると、その一致した単語情報が制御認識手段1303に入力される。制御認識手段1303は、単語−制御信号対応記憶手段1305に記憶された、単語情報と制御内容の組み合わせの情報に基づいて、入力された単語情報に対応する制御内容を判断又は実行する。上記構成により、音声認識手段307は、音声入力手段305から入力された音声データ又は音声信号を解析し、入力された音声データ又は音声信号に対応する制御内容の有無を判断し、対応する制御内容がある場合には、入力された音声データに対応する制御内容に対応する制御信号を送出する。(図12のステップS1204)
上記動作により、音声入力手段305から入力された音声が、予め登録された音声データと一致した場合に、音声によるテレビ会議装置101の操作が行われる。
As described above, according to the image processing in FIG. 6, it is possible to perform the processing only by analyzing the face direction without performing the user's line-of-sight analysis. The above operation is merely an example, and does not limit the scope of the present invention. For example, instead of preparing in advance a plurality of tables corresponding to the angle between the
(Audio processing)
Next, the voice recognition process of the
When the voice data or voice signal analyzed by the
With the above operation, when the voice input from the
以上、本実施の形態によれば、テレビ会議装置本体200やリモコン405に手が届かない利用者が、テレビ会議装置101の操作を行えるようになる。また、操作が必要なときに、カメラ208やカメラ208を備えたテレビ会議装置本体200の方向を向くことにより音声認識処理を起動できるので、テレビ会議中の発言等により、意図しない操作が行われることを効果的に防止できる。さらに、音声認識手段307が音声認識処理を行っている間、その旨を利用者に通知する手段を設けることによって、会議中の発言等による誤動作をより効果的に防止できる。
As described above, according to this embodiment, a user who cannot reach the video conference apparatus
尚、上記構成は、あくまでも一例であって、本発明の範囲を限定するものではない。例えば、図13の単語パターン記憶手段1304及び単語−制御信号対応記憶手段1305は、図2のメモリ202上に有していても良いし、クラウド上(例えば、インターネット等のネットワーク上にあるサーバ)に有していても良い。また、図12のステップS1204において、制御認識手段1303が制御信号を送出する代わりに、図3の制御手段304がテレビ会議装置101の制御を行っても良い。
[第2の実施の形態]
次に、第2の実施の形態について説明する。
図4において、例えば、利用者402が利用者401に向かって話をしている場合には、通信先のテレビ会議装置の利用者に話しかける意図はなく、利用者401にのみ話をしたい内容を話していることが考えられる。従来は、このような場合、利用者402が小さな声で話をしていても、マイク212aのゲインが自動的に上がることにより、通信先のテレビ会議利用者に、意図せず会話内容が伝わってしまうことがあった。本実施の形態は、このような問題に対応するものである。
In addition, the said structure is an example to the last, Comprising: The scope of the present invention is not limited. For example, the word
[Second Embodiment]
Next, a second embodiment will be described.
In FIG. 4, for example, when the
図14に、本実施の形態に係るフローチャートを示す。図5で示したステップS501からステップS505の動作は第1の実施の形態と同じである。ここでは、第1の実施の形態と異なる点を中心に説明する。 FIG. 14 shows a flowchart according to the present embodiment. The operations from step S501 to step S505 shown in FIG. 5 are the same as those in the first embodiment. Here, the description will focus on the differences from the first embodiment.
ステップS503において、利用者の顔の向き又は視線の方向が撮像手段301の方向と一致しないと判断された場合、利用者の顔の向き又は視線の方向が撮像手段301の方向に対して、予め定められた範囲内にあるかどうかを判断する。(ステップS1401)
利用者のうちの少なくとも一人の顔の向き又は視線の方向が撮像手段301の方向に対して、予め定められた範囲内にない場合には、利用者がマイク212a及びマイク212bの音量の調整を意図していると判断し、マイク212a及びマイク212bの音量の自動調整を行う。(ステップS1402)
具体的には、テレビ会議装置101は、マイク212a及びマイク212bからの音声入力レベルに基づいて、通信先のテレビ会議装置102、103へ送出する音声信号の音量を調整する。
In step S <b> 503, when it is determined that the orientation of the user's face or the direction of the line of sight does not match the direction of the
If the direction of the face or the line of sight of at least one of the users is not within a predetermined range with respect to the direction of the
Specifically, the
例えば、マイク212aから予め定められた値よりも大きい音声入力レベルがある場合には、通信先のテレビ会議装置利用者への発言と考えられるので、通信先への音量の調整は行わない。一方、マイク212aから予め定められた値よりも小さい音声信号の入力が有る場合には、通信先のテレビ会議装置利用者への発言ではないと判断し、通信先への音声信号の音量を下げる又は消音する。また、マイクaから音声入力が無い場合には、利用者が単に別の方向を見ただけと判断し、通信先への音声の調整は行わなくても良い。
For example, if there is an audio input level greater than a predetermined value from the
マイク212bについても、同様に制御を行う。これにより、声の小さい会話は通信先の利用者には届かず、声が大きい通信先への発言等は、通常通り通信先の利用者に届けることができる。 The microphone 212b is similarly controlled. Thus, a conversation with a low voice does not reach the user at the communication destination, and a speech or the like to the communication destination with a high voice can be delivered to the user at the communication destination as usual.
一方、ステップS1401において、利用者の顔の向き又は視線の方向が撮像手段301の方向に対して、予め定められた範囲内にある場合には、ステップS501に戻り処理を継続する。
On the other hand, if it is determined in step S1401 that the user's face orientation or line-of-sight direction is within a predetermined range with respect to the direction of the
尚、ステップS1401の「予め定められた範囲」については、システムや利用者の要求に応じて任意に設定可能である。例えば、推定手段303によって、利用者の両目が検出可能な範囲を上記予め定められた範囲としても良い。また、推定手段303によって、利用者の顔の向き又は視線の方向が検出できた場合に、顔の向き又は視線の方向が上記予め定められた範囲内にあると判断しても良い。或いは、推定手段303が、利用者がカメラ208に対して所定の角度を越えて横を向いたと判断した場合に、上記予め定められた範囲内にないと判断しても良い。
Note that the “predetermined range” in step S1401 can be arbitrarily set according to the request of the system or the user. For example, the range that can be detected by both of the eyes of the user by the
以上、本実施の形態によれば、利用者が小さな声で話をしている場合に、通信先のテレビ会議装置利用者に意図せず会話内容が伝わることを低減できる。
[その他の実施の形態]
各利用者の画像データを取得するカメラ208として、従来のテレビ会議装置が備えるようなテレビ会議参加者撮影用のカメラを利用可能である。しかし、上記テレビ会議参加者用のカメラとは別に、カメラ208を備えても良い(例えば、図14のカメラ208)。この場合、この場合、カメラ208が取得した画像データは、通信先等に表示されないので、カメラ208のレンズとして、例えば魚眼レンズやパノラマ用360度レンズを採用することができる。
As described above, according to the present embodiment, when the user is speaking with a small voice, it is possible to reduce the unintentional transmission of the conversation contents to the video conference device user of the communication destination.
[Other embodiments]
As the
101 テレビ会議装置
200 テレビ会議装置本体
210 表示装置
212、212a、212b マイク
208 カメラ
301 撮像手段
302 解析手段
303 推定手段
305 音声入力手段
307 音声認識手段
DESCRIPTION OF
Claims (10)
前記利用者の音声データを取得する音声入力手段と、
前記画像データより前記利用者の顔の向き及び視線の方向のうち少なくとも一つを解析する解析手段と、
前記解析手段の解析結果に基づいて前記利用者の前記テレビ会議装置の操作の意図を推定する推定手段と、を有し、
前記推定手段の推定結果に基づいて前記操作を行うテレビ会議装置。 Imaging means for acquiring image data of one or a plurality of users using the video conference device;
Voice input means for acquiring voice data of the user;
Analyzing means for analyzing at least one of the face direction and the line-of-sight direction of the user from the image data;
An estimation means for estimating an intention of the user to operate the video conference device based on an analysis result of the analysis means,
A video conference apparatus that performs the operation based on an estimation result of the estimation means.
前記画像データより前記利用者のそれぞれについて顔の向き及び視線のうち少なくとも一つを解析するステップと、
前記解析手段の解析結果に基づいて前記利用者それぞれの前記テレビ会議装置の操作の意図を推定するステップと、
前記推定手段の推定結果に基づいて前記操作を行うステップと、
を有するテレビ会議装置の制御方法。 Acquiring image data of one or more users of the video conference device;
Analyzing at least one of face orientation and line of sight for each of the users from the image data;
Estimating the user's intention to operate the video conference device based on the analysis result of the analysis means;
Performing the operation based on an estimation result of the estimation means;
A control method for a video conference apparatus.
テレビ会議装置の一又は複数の利用者の画像データを取得する手順と、
前記画像データより前記利用者のそれぞれについて顔の向き及び視線のうち少なくとも一つを解析する手順と、
前記解析手段の解析結果に基づいて前記利用者それぞれの前記テレビ会議装置の操作の意図を推定する手順と、
前記推定手段の推定結果に基づいて前記操作を行う手順と、
を実行させるためのプログラム。 On the computer,
A procedure for acquiring image data of one or more users of the video conference device;
A procedure for analyzing at least one of the orientation and line of sight of each of the users from the image data;
A procedure for estimating an intention of an operation of each of the users on the video conference device based on an analysis result of the analysis means;
A procedure for performing the operation based on an estimation result of the estimation means;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013048379A JP6149433B2 (en) | 2013-03-11 | 2013-03-11 | Video conference device, video conference device control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013048379A JP6149433B2 (en) | 2013-03-11 | 2013-03-11 | Video conference device, video conference device control method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014175944A true JP2014175944A (en) | 2014-09-22 |
JP6149433B2 JP6149433B2 (en) | 2017-06-21 |
Family
ID=51696769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013048379A Expired - Fee Related JP6149433B2 (en) | 2013-03-11 | 2013-03-11 | Video conference device, video conference device control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6149433B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017068468A (en) * | 2015-09-29 | 2017-04-06 | キヤノン株式会社 | Information processing device, information processing method, and program |
JP2017084090A (en) * | 2015-10-28 | 2017-05-18 | シャープ株式会社 | Customer service system |
KR20190086229A (en) | 2018-01-12 | 2019-07-22 | 인천대학교 산학협력단 | Electrode having multi-layer structure for secondary battery and method for preparing the same |
JP2020144209A (en) * | 2019-03-06 | 2020-09-10 | シャープ株式会社 | Speech processing unit, conference system and speech processing method |
JP7438868B2 (en) | 2020-02-03 | 2024-02-27 | 清水建設株式会社 | Conversation support system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09116879A (en) * | 1995-10-20 | 1997-05-02 | Ricoh Co Ltd | Audio visual communication terminal equipment |
JP2012014394A (en) * | 2010-06-30 | 2012-01-19 | Nippon Hoso Kyokai <Nhk> | User instruction acquisition device, user instruction acquisition program and television receiver |
-
2013
- 2013-03-11 JP JP2013048379A patent/JP6149433B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09116879A (en) * | 1995-10-20 | 1997-05-02 | Ricoh Co Ltd | Audio visual communication terminal equipment |
JP2012014394A (en) * | 2010-06-30 | 2012-01-19 | Nippon Hoso Kyokai <Nhk> | User instruction acquisition device, user instruction acquisition program and television receiver |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017068468A (en) * | 2015-09-29 | 2017-04-06 | キヤノン株式会社 | Information processing device, information processing method, and program |
JP2017084090A (en) * | 2015-10-28 | 2017-05-18 | シャープ株式会社 | Customer service system |
KR20190086229A (en) | 2018-01-12 | 2019-07-22 | 인천대학교 산학협력단 | Electrode having multi-layer structure for secondary battery and method for preparing the same |
JP2020144209A (en) * | 2019-03-06 | 2020-09-10 | シャープ株式会社 | Speech processing unit, conference system and speech processing method |
JP7438868B2 (en) | 2020-02-03 | 2024-02-27 | 清水建設株式会社 | Conversation support system |
Also Published As
Publication number | Publication date |
---|---|
JP6149433B2 (en) | 2017-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102312124B1 (en) | Devices with enhanced audio | |
US11418758B2 (en) | Multiple simultaneous framing alternatives using speaker tracking | |
US9473741B2 (en) | Teleconference system and teleconference terminal | |
EP2352290B1 (en) | Method and apparatus for matching audio and video signals during a videoconference | |
JP6149433B2 (en) | Video conference device, video conference device control method, and program | |
KR20180048982A (en) | Devices for video-conferences | |
US11451593B2 (en) | Persistent co-presence group videoconferencing system | |
JP2017034312A (en) | Communication device, communication system, and program | |
US20140253670A1 (en) | Information processing device, display control system, and computer program product | |
JP7095356B2 (en) | Communication terminal and conference system | |
JP6435701B2 (en) | Control device | |
US20220353462A1 (en) | Managing a call on a communication system with an external display device | |
JP2006339869A (en) | Apparatus for integrating video signal and voice signal | |
JP2017103641A (en) | Information processing apparatus, conference system, information processing method and program | |
CN217546174U (en) | Intelligent conference system | |
US11202148B1 (en) | Smart audio with user input | |
JP6500366B2 (en) | Management device, terminal device, transmission system, transmission method and program | |
JP6544209B2 (en) | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM | |
US20120300126A1 (en) | Electronic apparatus and tv phone method | |
JP2017168903A (en) | Information processing apparatus, conference system, and method for controlling information processing apparatus | |
US11627361B2 (en) | Method to acoustically detect a state of an external media device using an identification signal | |
US12028178B2 (en) | Conferencing session facilitation systems and methods using virtual assistant systems and artificial intelligence algorithms | |
US20220303149A1 (en) | Conferencing session facilitation systems and methods using virtual assistant systems and artificial intelligence algorithms | |
TW201906404A (en) | Method of switching videoconference signals and the related videoconference system | |
JP2017092950A (en) | Information processing apparatus, conference system, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170508 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6149433 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |