JP2015159461A - Communication device, communication system, image segmentation method, and program - Google Patents
Communication device, communication system, image segmentation method, and program Download PDFInfo
- Publication number
- JP2015159461A JP2015159461A JP2014033891A JP2014033891A JP2015159461A JP 2015159461 A JP2015159461 A JP 2015159461A JP 2014033891 A JP2014033891 A JP 2014033891A JP 2014033891 A JP2014033891 A JP 2014033891A JP 2015159461 A JP2015159461 A JP 2015159461A
- Authority
- JP
- Japan
- Prior art keywords
- image
- area
- communication device
- sound
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、通信装置、通信システム、画像切り出し方法及びプログラムに関する。 The present invention relates to a communication device, a communication system, an image clipping method, and a program.
従来、映像供給装置に接続される映像出力装置と、反射部材と、スクリーンとを有し、映像出力装置からコンテンツを投影する出力光を反射部材によって反射し、この反射部材によって反射された出力光を当該コンテンツの輪郭の形状に形成されたスクリーンに投影することにより、閲覧者に対して印象を高めた表示を行うことができる映像出力装置搭載機器が知られている(例えば、特許文献1参照)。 2. Description of the Related Art Conventionally, an image output device connected to an image supply device, a reflection member, and a screen, output light that projects content from the image output device is reflected by the reflection member, and output light reflected by the reflection member Is projected on a screen formed in the shape of the outline of the content, and there is known a video output device-equipped device that can perform a display with a higher impression on the viewer (for example, see Patent Document 1). ).
しかしながら、特許文献1に記載の映像出力装置搭載機器では、コンテンツ表示用に表示対象の人物等の画像(静止画像やできるだけ動かないで撮影した動画像)を撮影し、それに合わせて表示手段としてのスクリーンを作成していた。そのため、このような装置は、ビデオ通話用の通信装置として相手側の通信装置から送られてくる話者の画像を表示するには適さなかった。特に、スクリーンには一人の画像しか表示されないため、例えば、通話に参加している人物が複数人である場合、どの人を表示対象として切り出すのかが問題となる。
However, the video output device-equipped device described in
本発明の課題は、相手側通信装置への表示対象として切り出す画像領域を容易に決定できるようにすることである。 An object of the present invention is to make it possible to easily determine an image region to be cut out as a display target on a counterpart communication device.
上記課題を解決するため、請求項1に記載の発明は、
相手側の通信装置と画像及び音声を送受信する通信装置であって、
前記相手側の通信装置に送信するための画像を撮影する撮影手段と、
音声を取得する音声取得手段と、
前記音声取得手段により取得された音声の方向を検出する検出手段と、
前記検出された音声の方向に基づいて前記撮影手段により取得された撮影画像から切り出す画像領域を決定する決定手段と、
を備える。
In order to solve the above-mentioned problem, the invention described in
A communication device that transmits and receives images and sound to and from a communication device on the other side,
Photographing means for photographing an image to be transmitted to the communication device on the other side;
Audio acquisition means for acquiring audio;
Detecting means for detecting the direction of the sound acquired by the sound acquiring means;
Determining means for determining an image region to be cut out from the captured image acquired by the imaging means based on the direction of the detected sound;
Is provided.
本発明によれば、相手側通信装置への表示対象として切り出す画像領域を容易に決定することが可能となる。 According to the present invention, it is possible to easily determine an image region to be cut out as a display target on the counterpart communication device.
以下、添付図面を参照して本発明に係る好適な実施形態を詳細に説明する。なお、本発明は、図示例に限定されるものではない。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The present invention is not limited to the illustrated example.
[通信システム100の構成]
図1は、本発明の実施形態における通信システム100の全体構成を示す図である。図1に示すように、通信システム100は、複数のデジタルサイネージ装置1が通信ネットワークNを介して接続可能に構成されている。なお、本実施形態においては、通信ネットワークNはインターネットであることとして説明するが、これに限定されず、例えば、電話回線としてもよい。
[Configuration of Communication System 100]
FIG. 1 is a diagram showing an overall configuration of a
[デジタルサイネージ装置1の構成]
図2は、本実施形態における通信装置としてのデジタルサイネージ装置1の主制御構成を示すブロック図である。デジタルサイネージ装置1は、通信ネットワークNを介して他のデジタルサイネージ装置1とのビデオ通話が可能である。
[Configuration of Digital Signage Device 1]
FIG. 2 is a block diagram showing a main control configuration of the
図2に示すように、デジタルサイネージ装置1は、コンテンツの映像光を照射する投影部21と、投影部21から照射された映像光を背面で受けて前面に投影するスクリーン部22とを備えている。
As shown in FIG. 2, the
まず、投影部21について説明する。
投影部21は、制御部23と、プロジェクタ24と、記憶部25と、通信部26と、を備えている。プロジェクタ24、記憶部25、通信部26は、図1に示すように制御部23に接続されている。
First, the
The
制御部23は、記憶部25に記憶されている各種のプログラムを実行して所定の演算や各部の制御を行うCPU(Central Processing Unit)とプログラム実行時の作業領域となるメモリとを備えている(いずれも図示略)。制御部23は、記憶部25のプログラム記憶部251に記憶されているプログラムとの協働により、検出手段、決定手段、切り出し手段、送信制御手段、音声出力制御手段として機能する。また、撮像部30との協働により移動検出手段として機能する。
The
プロジェクタ24は、制御部23から出力された画像データを映像光に変換してスクリーン部22の背面に向けて照射する投影装置である。プロジェクタ24は、例えば、アレイ状に配列された複数個(XGAの場合、横1024画素×縦768画素)の微小ミラーの各傾斜角度を個々に高速でオン/オフ動作して表示動作することでその反射光により光像を形成する表示素子であるDMD(デジタルマイクロミラーデバイス)を利用したDLP(Digital Light Processing)(登録商標)プロジェクタが適用可能である。
The
記憶部25は、HDD(Hard Disk Drive)や不揮発性の半導体メモリ等により構成される。記憶部25には、図1に示すように、プログラム記憶部251、電話帳記憶部252等が設けられている。
The
プログラム記憶部251には、制御部23で実行されるシステムプログラムや各種処理プログラム、これらのプログラムの実行に必要なデータ等が記憶されている。
電話帳記憶部252には、予め登録された電話番号と名前とが対応付けて記憶されている。
The
The telephone
通信部26は、モデム、ルータ、ネットワークカード等により構成され、外部機器との通信を行う。
The
次に、スクリーン部22について説明する。
図3は、スクリーン部22の概略構成を示す正面図である。図3に示すようにスクリーン部22には、画像形成部27と、画像形成部27を支持する台座28とが備えられている。
Next, the
FIG. 3 is a front view illustrating a schematic configuration of the
画像形成部27は、映像光の照射方向に対して略直交するように配置された、例えばアクリル板などの人型に成形された一枚の透光板29に、フィルム状のフレネルレンズが積層された背面投影用のフィルムスクリーンが貼付されて構成されたスクリーンである。この画像形成部27は、表示手段を構成している。
The
画像形成部27の上部には、例えばカメラなどの撮像部30が設けられている。この撮像部30が画像形成部27に対向する空間の画像を撮影して撮影画像を生成し、制御部23に出力する。撮像部30は、図示は省略するが、光学系及び撮像素子を備えるカメラと、カメラを制御する撮像制御部とを備えている。撮像素子は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal-oxide Semiconductor)等のイメージセンサであり、光学系を通過した光学像を2次元の画像信号に変換する。撮像部30は、撮影手段として機能する。
An
台座28には、音声取得部31と、操作部32と、音声出力部33と、が設けられている。
The
音声取得部31は、指向性マイクロフォンを複数備え、各マイクロフォンにより音声を取得して電気信号に変換し、制御部23に出力する。
The
操作部32には、発信ボタン32a、応答ボタン32b、通話終了ボタン32c、操作パネル32d等が設けられている。発信ボタン32aは、ビデオ通話の発信を指示するためのボタンである。応答ボタン32bは、ビデオ通話への応答を指示するためのボタンである。通話終了ボタン32cは、ビデオ通話の終了を指示するためのボタンである。操作パネル32dは、LCD(Liquid Crystal Display)等の表示部と、LCDの表面を覆うように透明電極を格子状に配置したタッチパネルとにより構成され、電話帳記憶部252に記憶されている電話帳等を表示して、手指等により選択された電話番号の位置情報を検出して制御部23に出力する。
The
音声出力部33は、音声出力手段としてのスピーカ33a〜33eを備え、制御部23からの指示に従って音声を出力する。
The
撮像部30、音声取得部31、操作部32、音声出力部33は、図2に示すように制御部23に接続されている。
The
[通信システム100の動作]
次に、通信システム100のデジタルサイネージ装置1におけるビデオ通話動作について説明する。
何れかのデジタルサイネージ装置1において、操作パネル32dによりビデオ通話の相手先の電話番号が選択され、発信ボタン32aが押下されると、制御部23は、通信部26により通信ネットワークNを介して相手先のデジタルサイネージ装置1に接続要求を送信する。
相手先のデジタルサイネージ装置1において、通信部26により接続要求が着信(受信)されると、制御部23は、着信を通知するための着信音を音声出力部33に出力させる。応答ボタン32bが押下されると、制御部23は、通信部26により通信ネットワークNを介して発信元に接続応答を送信する。これにより、2つのデジタルサイネージ装置1間でセッションが確立し、通話回線が接続され、ビデオ通話状態となる。ビデオ通話状態では、後述する通話処理が実行され、発信側及び受信側の通話参加者は、それぞれのデジタルサイネージ装置1の画像形成部27に対向して画像形成部27に写っている相手側の通話参加者を見ながら通話を行う。
[Operation of Communication System 100]
Next, the video call operation in the
In any
When the connection request is received (received) by the
通話回線が接続された何れかのデジタルサイネージ装置1において、通話終了ボタン32cが押下されると、制御部23は、通信部26により通信ネットワークNを介して回線切断要求を相手先のデジタルサイネージ装置1に送信する。相手先のデジタルサイネージ装置1に回線切断応答が届いた時点でセッションが終了し、通話回線が切断される。
When the
図4に、ビデオ通話状態において発信側及び受信側のデジタルサイネージ装置1において実行される通話処理のフローチャートを示す。通話処理は、デジタルサイネージ装置1のそれぞれにおいて、制御部23と記憶部25のプログラム記憶部251に記憶されているプログラムとの協働により実行される。
FIG. 4 shows a flowchart of call processing executed in the
なお、本願において「切り出す」とは、実際に領域を切り出すことの他、相手側のデジタルサイネージ装置1において切り出し対象の領域を特定可能とすることを含み、例えば、切り出し対象の領域以外の領域を黒に置き換えたり、切り出し対象の領域の位置情報を撮影画像に対応付けたりすることを含むものとする。
In addition, in the present application, “cut out” includes, in addition to actually cutting out an area, including enabling to specify a region to be cut out in the
まず、制御部23は、撮像部30により撮影画像を取得させ(ステップS1)、取得された撮影画像に基づいて通話参加者の初期位置を取得する処理を行う(ステップS2)。具体的には、取得された撮影画像から顔領域を認識し、認識された顔領域が1つの場合にはその顔領域の中心を通話参加者の初期位置としてメモリに記憶する。顔領域が複数認識された場合は、撮影画像の最も中心に近い位置から検出された顔領域の中心を通話参加者の初期位置としてメモリに記憶する。なお、顔領域の認識及び顔領域を含む人物領域の認識は、公知の画像処理技術を用いて行うことができるので説明を省略する。
First, the
次いで、制御部23は、通信部26により相手側画像及び/又は相手側音声が受信されたか否かを判断する(ステップS3)。ここで、相手側画像は、相手側のデジタルサイネージ装置1で撮影された画像(即ち、相手側のデジタルサイネージ装置1の画像形成部27に対向している通話参加者の撮影画像)のうち、一の通話参加者を表示対象としてその通話参加者の領域を切り出した画像である。
Next, the
通信部26により相手側画像及び/又は相手側音声が受信されていないと判断した場合(ステップS3;NO)、制御部23は、ステップS5の処理に移行する。通信部26により相手側画像及び/又は相手側音声が受信されたと判断した場合(ステップS3;YES)、制御部23は、受信した相手側画像を画像形成部27の形状に合うようにフィッティングしてプロジェクタ24により画像形成部27に表示(投影)させるとともに、受信した相手側音声を音声出力部33により出力させ(ステップS4)、ステップS5の処理に移行する。
When it is determined that the other party image and / or the other party voice is not received by the communication unit 26 (step S3; NO), the
ここで、通信システム100において、各デジタルサイネージ装置1の制御部23は、後述するステップS8において、図5(a)に示すように、音声取得部31の周囲の予め定められた範囲(前側180°の範囲)を複数(ここでは5つ)の方向によって分割し、その分割した複数の範囲毎の音声の大きさのレベル(以下、音声レベルという)を検出する。そして、後述するステップS9で説明するように、相手側のデジタルサイネージ装置1に音声を送信する場合には、上記複数の範囲毎の音声レベルを示す情報を合わせて送信する。即ち、相手側のデジタルサイネージ装置1からは、音声とともに、音声の検出を行った複数の範囲毎、即ち、方向毎の音声レベルを示す情報が送信されてくる。そこで、制御部23は、ステップS4において音声を出力する際には、音声の検出を行った複数の範囲のそれぞれの音声レベルに基づいて、スピーカ33a〜33eから出力する音量に偏りを持たせて調整して出力する。具体的には、スピーカ33a〜33eは、それぞれ相手側のデジタルサイネージ装置1において音声を検出した複数の範囲(範囲1〜5)に対応しており、制御部23は、音声レベルが大きい範囲に対応するスピーカほど受信した音声を大きい音量で出力させる。
Here, in the
ステップS5において、制御部23は、撮像部30により撮影画像を取得させ(ステップS5)、移動検出処理を実行する(ステップS6)。
ここで、上述のように、例えば、相手側の通話参加者が複数人であり、中心でない位置にいる人物が話者となった場合、ステップS4においては、話者が存在する範囲の方向に対応するスピーカから大きな音声が出力されることとなる。そうすると、画像形成部27には相手側の通話参加者のうち一人の画像しか表示されないため、画像形成部27の前にいる自装置側の通話参加者は、少なくとも顔(頭)を移動させてより大きな音声が出力されている方向にいる人物を覗き込む動作を行ってその方向の人物を見ようとする。
そこで、ステップS6においては移動検出処理を行って、ステップS5で取得した撮影画像に基づいて、画像形成部27に対向している通話参加者(複数人の場合は、撮影画像の中心に顔領域の中心が最も近い通話参加者)の顔の中心がステップS1において取得した初期位置から移動したか否かを検出する。移動が検出された場合は、覗き込み動作があったことを示す情報として初期位置からの移動量及び移動方向を示す角度変更情報(詳細後述)を相手側のデジタルサイネージ装置1に送信することで、相手側のデジタルサイネージ装置1で表示対象の領域を切り出す際に、音声の方向(音声レベルが最も大きい範囲)に存在する通話参加者(即ち、話者)が切り出されるようにする。
なお、本実施形態においては、図6に示すように、画像形成部27の右側(画像形成部27を見ている人物Aから見て左側)から大きな声が聞こえた場合、人物Aは少なくとも顔を右側に移動させて覗き込み動作を行うことを前提として説明するが、これに限定されるものではない。
In step S5, the
Here, as described above, for example, when there are a plurality of call participants on the other side and a person who is not at the center is a speaker, in step S4, the speaker is in the direction of the range where the speaker exists. A loud sound is output from the corresponding speaker. Then, since only one image of the other party's call participant is displayed on the
Therefore, in step S6, a movement detection process is performed, and based on the photographed image acquired in step S5, a call participant facing the image forming unit 27 (in the case of a plurality of persons, a face region at the center of the photographed image). It is detected whether the center of the face of the call participant whose center is closest is moved from the initial position acquired in step S1. When movement is detected, by transmitting to the
In the present embodiment, as shown in FIG. 6, when a loud voice is heard from the right side of the image forming unit 27 (left side as viewed from the person A looking at the image forming unit 27), the person A is at least a face. However, the present invention is not limited to this.
図7に、ステップS6において実行される移動検出処理のフローチャートを示す。移動検出処理は、制御部23とプログラム記憶部251に記憶されているプログラムとの協働により実行される。
FIG. 7 shows a flowchart of the movement detection process executed in step S6. The movement detection process is executed in cooperation with the
まず、制御部23は、撮像部30により取得された撮影画像から顔領域を認識し、認識した顔領域の中心位置を検出する(ステップS601)。複数の顔領域が認識された場合は、撮影画像の中心に最も近い顔領域の中心位置を検出する。ここでは、ステップS2で初期位置が取得された通話参加者の顔領域の中心位置を検出している。
First, the
次いで、制御部23は、検出した顔の中心位置とメモリに記憶されている初期位置に基づいて、通話参加者(初期位置が取得された通話参加者)の移動が検出されたか否かを判断する(ステップS602)。具体的には、制御部23は、検出した顔の中心位置とメモリに記憶されている初期位置がずれている場合に、通話参加者が移動したことを検出する。
Next, the
通話参加者の移動が検出されたと判断した場合(ステップS602;YES)、制御部23は、初期位置に対する検出した顔の中心位置の上下、左右方向のそれぞれの成分のずれ量(移動量)を、初期位置、撮像部30のレンズの中心、及びステップS601で検出した顔の中心位置の3点で形成される角度θとして算出し、角度変更情報として取得する(ステップS603)。なお、上下方向の角度θは、上方向への移動の場合をプラス、下方向への移動の場合をマイナスとする。左右方向の角度θは、撮像部30からみて右方向への移動の場合をプラス、左方向への移動の場合をマイナスとする。各方向の角度θは、撮影画像上の中心及び各位置の座標、撮影画像のサイズや画角等に基づいて求めることができる。
If it is determined that the movement of the call participant has been detected (step S602; YES), the
そして、制御部23は、通信部26により角度変更情報を相手側のデジタルサイネージ装置1に送信し(ステップS604)、移動検出処理を終了し、図4のステップS7に移行する。
And the
一方、通話参加者の移動が検出されていないと判断した場合(ステップS602;NO)、制御部23は、移動なしを通知する情報を通信部26により相手側のデジタルサイネージ装置1に送信し(ステップS605)、移動検出処理を終了し、図4のステップS7に移行する。
On the other hand, when it is determined that the movement of the call participant is not detected (step S602; NO), the
図4のステップS7において、制御部23は、音声取得部31の各マイクロフォンにより音声信号を取得させ(ステップS7)、取得された音声信号に基づいて音声の方向を検出し(ステップS8)、取得された音声信号に基づく音声データと方向毎の音声レベルを示す情報を通信部26により相手側のデジタルサイネージ装置1に送信する(ステップS9)。
ここで、ステップS8において、制御部23は、音声取得部31の各マイクロフォンにより取得された音声信号に基づいて、例えば、図5(a)に示すように音声取得部31を中心として周囲180°(前面側)の範囲を方向によって複数(ここでは5つ)の範囲に分割した各範囲毎の音声レベルを検出する。そして、最も音声レベルの大きい範囲の方向を音声の方向として検出する。なお、音声の方向を検出する際に分割する範囲の数は、音声取得部31の指向性マイクロフォンの数等に基づいて決定される。
In step S7 of FIG. 4, the
Here, in step S8, the
次いで、制御部23は、所定値(所定の音声レベル)以上の音声が取得されたか否かを判断する(ステップS10)。所定値以上の音声が取得されたと判断した場合(ステップS10;YES)、制御部23は、ステップS5で取得された撮影画像を音声の検出を行った複数の範囲に対応するように分割する(ステップS11)。
Next, the
例えば、図5(a)に示すように音声の方向を検出した範囲が範囲1〜5である場合、撮影画像は、図5(b)に示すように、範囲1〜5のそれぞれに対応する(範囲1〜5のそれぞれが写る)領域1〜領域5に分割される。なお、下部に示す数値は、各分割領域1〜5の範囲を撮像部30のレンズの中心を0°とした角度で示したものであるが、一例であり、これに限定されるものではない。
For example, when the range in which the direction of sound is detected is in the
次いで、制御部23は、撮影画像における、音声の方向に対応する、即ち、音声レベルの最も大きい範囲に対応する分割領域に顔認識処理を行い、顔領域が含まれているか否かを判断する(ステップS12)。音声の方向に対応する撮影画像の分割領域に顔領域が含まれていると判断した場合(ステップS12;YES)、制御部23は、ステップS14に移行する。音声の方向に対応する撮影画像の分割領域に顔領域が含まれていないと判断した場合(ステップS12;NO)、制御部23は、この分割領域に隣接した分割領域に顔認識処理を行い、隣接した分割領域に顔領域があるか否かを判断する(ステップS13)。隣接した分割領域に顔領域があると判断した場合(ステップS13;YES)、制御部23は、ステップS14の処理に移行する。
Next, the
ステップS14において、制御部23は、音声の方向に対応する分割領域又はその隣接領域(音声の方向に対応する分割領域に顔領域が存在しない場合)から認識された顔領域を含む人物領域を切り出し位置候補として決定し、メモリに記憶する(ステップS14)。なお、顔領域が複数認識された場合は、何れか一つ、例えば、撮影画像の中心に近い顔領域を含む人物領域を切り出し位置候補として決定する。
In step S <b> 14, the
次いで、制御部23は、通信部26により相手側のデジタルサイネージ装置1から角度変更情報が受信されたか否かに基づいて、相手側の通話参加者が覗き込み動作を行ったか否かを判断する(ステップS15)。相手側のデジタルサイネージ装置1から角度変更情報が受信された場合、相手側の通話参加者が覗き込み動作を行ったと判断する。
Next, based on whether or not the angle change information is received from the other-side
相手側の通話参加者が覗き込み動作を行ったと判断した場合(ステップS15;YES)、制御部23は、受信した角度変更情報に基づいて、覗き込みの方向が切り出し位置候補を含む分割領域に対応する方向であるか否かを判断する(ステップS16)。
例えば、左右方向の角度変更情報がプラスである場合、撮影画像における切り出し位置候補を含む分割領域が領域4又は領域5である場合に、覗き込みの方向が切り出し位置候補を含む分割領域に対応する方向であると判断される。左右方向の角度変更情報がマイナスである場合、撮影画像における切り出し位置候補を含む分割領域が領域1又は領域2である場合に、覗き込みの方向が切り出し位置候補を含む分割領域に対応する方向であると判断される。
When it is determined that the call participant on the other side has performed the peeping operation (step S15; YES), the
For example, when the angle change information in the left-right direction is positive, when the divided area including the cutout position candidate in the captured image is the area 4 or the area 5, the peeping direction corresponds to the divided area including the cutout position candidate. It is determined that the direction. When the angle change information in the left-right direction is negative, when the divided region including the cutout position candidate in the captured image is the
覗き込みの方向が切り出し位置候補を含む分割領域に対応する方向であると判断した場合(ステップS16;YES)、制御部23は、覗き込みの角度(即ち、移動量)が切り出し位置候補を含む分割領域に到達しているか否かを判断する(ステップS17)。
例えば、相手側のデジタルサイネージ装置1から受信した角度変更情報における左右方向の角度θが、撮影画像における切り出し位置候補を含む分割領域の範囲内に相当する角度か又は分割領域の範囲内の角度を超えている場合は、覗き込みの角度が切り出し位置候補を含む分割領域に到達していると判断する。例えば、切り出し位置候補を含む分割領域が音声の方向に対応する分割領域である場合、覗き込みの角度が音声の方向に対応する分割領域の最小角度(0に近いほうの角度)を超える場合に、覗き込みの角度が切り出し位置候補を含む分割領域に到達していると判断する。
When it is determined that the peeping direction is the direction corresponding to the divided region including the cutout position candidate (step S16; YES), the
For example, the angle θ in the left-right direction in the angle change information received from the other-side
覗き込みの角度が切り出し位置候補を含む分割領域に到達していると判断した場合(ステップS17;YES)、制御部23は、切り出し位置候補を切り出し位置として決定し(ステップS18)、ステップS20に移行する。
When it is determined that the peeping angle has reached the divided region including the cutout position candidate (step S17; YES), the
一方、ステップS10において、音声レベルが所定値以上の音声がないと判断した場合(ステップS10;NO)、ステップS13において、隣接した分割領域に顔領域が存在しないと判断した場合(ステップS13;NO)、ステップS15において、相手側の通話参加者の覗き込み動作がないと判断した場合(ステップS15;NO)、ステップS16において、覗き込みの方向が切り出し位置候補を含む分割領域に対応する方向ではないと判断した場合(ステップS16;NO)、又は、ステップS17において、覗き込みの角度が切り出し位置候補を含む分割領域に到達していないと判断した場合(ステップS17;NO)、制御部23は、撮影画像の中心に最も近い人物の領域(撮影画像の中心に最も中心が近い顔領域を含む人物領域)を切り出し位置として決定し(ステップS19)、ステップS20に移行する。
On the other hand, when it is determined in step S10 that there is no sound whose sound level is equal to or higher than the predetermined value (step S10; NO), when it is determined in step S13 that no face area exists in the adjacent divided area (step S13; NO). ) When it is determined in step S15 that there is no peeping operation of the other party on the call (step S15; NO), in step S16, the peeping direction is in the direction corresponding to the divided area including the cutout position candidate. If it is determined that there is not (step S16; NO), or if it is determined in step S17 that the peeping angle has not reached the divided region including the cutout position candidate (step S17; NO), the
ステップS20において、制御部23は、撮影画像から決定された切り出し位置の画像を切り出して通信部26により相手側のデジタルサイネージ装置1に送信し(ステップS20)、ステップS3の処理に戻る。
相手側のデジタルサイネージ装置1との通信が切断されるまで、制御部23はステップS3〜ステップS20の処理を繰り返し実行する。
In step S20, the
Until the communication with the
以上説明したように、通信システム100によれば、デジタルサイネージ装置1のそれぞれの制御部23は、音声取得部31により取得された音声の方向を検出し、検出された音声の方向に基づいて、画像形成部27に対向している通話参加者の撮影画像から切り出す画像領域を決定し、決定された画像領域を撮影画像から切り出して通信部26により相手側のデジタルサイネージ装置1に送信する。
As described above, according to the
従って、相手側のデジタルサイネージ装置1への表示対象として切り出す画像領域を音声の方向に基づいて容易に決定することが可能となる。
Therefore, it is possible to easily determine an image area to be cut out as a display target on the other party's
具体的に、制御部23は、撮影画像における検出された音声の方向に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を撮影画像から切り出す領域として決定する。
更に具体的には、制御部23は、音声取得部31の周囲の予め定められた範囲を複数の方向によって分割し、その分割した複数の範囲毎の音声の大きさのレベルを検出し、撮影画像を分割した複数の範囲に対応する複数の領域に分割する。そして、撮影画像における音声レベルが最も大きい範囲に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を撮影画像から切り出す領域として決定する。
従って、音声の方向に対応する領域に存在する人物領域、即ち、話者の領域を相手側のデジタルサイネージ装置1への表示対象として切り出す画像領域に容易に決定することが可能となる。
Specifically, the
More specifically, the
Accordingly, it is possible to easily determine a person area existing in an area corresponding to the direction of the voice, that is, an image area to be cut out as a display target on the
また、制御部23は、撮影画像における音声の大きさのレベルが最も大きい範囲に対応する領域から顔領域が認識されなかった場合に、その領域に隣接する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を撮影画像から切り出す領域として決定する。従って、音声の方向から人物が検出されなくても隣接する領域の人物を切り出す領域として決定することが可能となる。
Further, when the face area is not recognized from the area corresponding to the range where the level of the sound volume in the captured image is the largest, the
また、各デジタルサイネージ装置1は、相手側のデジタルサイネージ装置1で音声の検出を行った複数の範囲のそれぞれに対応して設けられた複数のスピーカ33a〜33eを有し、制御部23は、スピーカ33a〜33eのそれぞれに対し、相手側のデジタルサイネージ装置1から受信した音声を対応する範囲の音声の大きさのレベルに応じた音量で出力させる。従って、相手側のデジタルサイネージ装置1で取得された音声の方向に応じて偏りを持たせて音声を再生することが可能となる。
In addition, each
また、各デジタルサイネージ装置1は、画像形成部27に対向している通話参加者の移動方向及び移動量を検出し、検出された移動方向及び移動量の情報を相手側のデジタルサイネージ装置1に送信する。従って、相手側のデジタルサイネージ装置1に対し、通話参加者が覗き込み動作を行ったことを知らせることができる。
また、各デジタルサイネージ装置1は、相手側のデジタルサイネージ装置1の通話参加者の移動方向が、自装置の音声取得部31により取得された音声の大きさのレベルが最も大きい範囲に対応する方向であり、かつ、移動量が音声の方向に応じて予め定められた閾値を超えている場合に、撮影画像における音声の大きさのレベルが最も大きい範囲に対応する領域に含まれる人物の画像領域を撮影画像から切り出す領域として決定する。従って、相手側が覗き込み動作等を行って、音声の方向に対応する話者への表示対象の切り替えを望んだ場合に、表示対象を音声の方向に応じて切り替えることができる。
Also, each
Further, each
なお、上記実施形態における記述内容は、本発明に係るデジタルサイネージ装置の好適な一例であり、これに限定されるものではない。 In addition, the description content in the said embodiment is a suitable example of the digital signage apparatus which concerns on this invention, and is not limited to this.
例えば、上記実施形態においては、検出された音声の方向への覗き込み動作があり、かつ、覗き込みの角度が音声の方向に応じた閾値を超えている場合(覗き込みの角度が音声の方向に対応する分割領域に到達している場合)に、撮影画像における音声の方向に対応する分割領域に存在する人物領域を切り出し位置として決定することとしたが、これに限定されない。例えば、覗き込み動作の有無にかかわらず、単に、検出された音声の方向に対応する分割領域に存在する人物領域を切り出し位置として決定することとしてもよい。また、覗き込み動作の方向が音声の方向に対応している場合に、検出された音声の方向に対応する分割領域に存在する人物領域を切り出し位置として決定することとしてもよい。このようにしても、相手側が覗き込み動作等を行って、音声の方向に対応する話者への表示対象の切り替えを望んだ場合に、表示対象を音声の方向に応じて切り替えることができる。 For example, in the above embodiment, when there is a peeping operation in the detected voice direction and the peeping angle exceeds a threshold corresponding to the voice direction (the peeping angle is the voice direction) The person area existing in the divided area corresponding to the direction of the sound in the captured image is determined as the cutout position. However, the present invention is not limited to this. For example, a person region existing in a divided region corresponding to the detected voice direction may be simply determined as a cutout position regardless of whether or not a peeping operation is performed. Further, when the direction of the peeping operation corresponds to the direction of the voice, the person area existing in the divided area corresponding to the detected voice direction may be determined as the cut-out position. Even in this case, when the other party performs a look-in operation or the like and desires to switch the display target to the speaker corresponding to the voice direction, the display target can be switched according to the voice direction.
また、上記実施形態においては、撮影画像における音声の方向に対応する分割領域から顔領域が認識されない場合、隣接する分割領域に存在する顔領域を切り出し位置候補とすることとしたが、音声の方向に対応する分割領域から顔領域が認識されない場合、音声レベルの高い順に他の分割領域から顔領域を認識し、認識された顔領域を切り出し位置候補とすることとしてもよい。
また、上記実施形態においては、撮影画像における音声の方向に対応する分割領域で顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を撮影画像から切り出す領域として決定したが、顔領域を含むようにスクリーン部22の形状に合わせて切り出す領域としてもよい。
In the above embodiment, when a face area is not recognized from the divided area corresponding to the direction of the sound in the captured image, the face area existing in the adjacent divided area is determined as a cutout position candidate. When the face area is not recognized from the divided area corresponding to, the face area may be recognized from the other divided areas in descending order of the sound level, and the recognized face area may be set as a cutout position candidate.
In the above embodiment, when a face area is recognized in a divided area corresponding to the direction of sound in the captured image, the person's image area including the recognized face area is determined as an area to be cut out from the captured image. However, it is good also as an area | region cut out according to the shape of the
また、上記実施形態においては、本発明をプロジェクタからスクリーンに画像を投影することで画像の表示を行うデジタルサイネージ装置に適用した場合を例にとり説明したが、例えば、液晶ディスプレイ、プラズマディスプレイ等、他の表示装置に適用しても同様の効果を奏することができ、この例に限定されない。 In the above embodiment, the case where the present invention is applied to a digital signage apparatus that displays an image by projecting an image from a projector onto a screen has been described as an example. Even when applied to this display device, the same effect can be obtained, and the present invention is not limited to this example.
その他、通信システムを構成する各装置の細部構成及び細部動作に関しても、発明の趣旨を逸脱することのない範囲で適宜変更可能である。 In addition, the detailed configuration and detailed operation of each device constituting the communication system can be changed as appropriate without departing from the spirit of the invention.
本発明のいくつかの実施形態を説明したが、本発明の範囲は、上述の実施形態に限定するものではなく、特許請求の範囲に記載された発明の範囲とその均等の範囲を含む。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
[付記]
<請求項1>
相手側の通信装置と画像及び音声を送受信する通信装置であって、
前記相手側の通信装置に送信するための画像を撮影する撮影手段と、
音声を取得する音声取得手段と、
前記音声取得手段により取得された音声の方向を検出する検出手段と、
前記検出された音声の方向に基づいて前記撮影手段により取得された撮影画像から切り出す画像領域を決定する決定手段と、
を備える通信装置。
<請求項2>
前記決定された画像領域を前記撮影画像から切り出す切り出し手段と、
前記切り出された画像領域を前記相手側の通信装置に送信する送信制御手段と、
を備える請求項1に記載の通信装置。
<請求項3>
前記決定手段は、前記撮影画像における前記検出された音声の方向に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項1又は2に記載の通信装置。
<請求項4>
前記検出手段は、前記音声取得手段の周囲の予め定められた範囲を複数の方向によって分割し、その分割した複数の範囲毎の音声の大きさのレベルを検出し、
前記決定手段は、前記撮影画像を前記分割した複数の範囲に対応する複数の領域に分割し、前記撮影画像における前記音声の大きさのレベルが最も大きい範囲に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項2に記載の通信装置。
<請求項5>
前記決定手段は、前記撮影画像における前記音声の大きさのレベルが最も大きい範囲に対応する領域から顔領域が認識されなかった場合に、その領域に隣接する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項4に記載の通信装置。
<請求項6>
前記送信制御手段は、前記検出手段により検出された前記複数の範囲毎の音声の大きさのレベルを示す情報を前記取得された音声とともに前記相手側の通信装置に送信し、
前記相手側の通信装置で音声の検出を行った前記複数の範囲のそれぞれに対応して設けられた複数の音声出力手段と、
前記複数の音声出力手段のそれぞれに、前記相手側の通信装置から受信した音声をその音声出力手段に対応する範囲の音声の大きさのレベルに応じた音量で出力させる音声出力制御手段と、
を備える請求項4又は5に記載の通信装置。
<請求項7>
前記相手側の通信装置から受信した画像を表示する表示手段と、
前記表示手段に対向している人物の移動方向を検出する移動検出手段を備え、
前記送信制御手段は、前記移動検出手段により検出された移動方向の情報を前記相手側の通信装置に送信し、
前記決定手段は、前記相手側の通信装置から受信した前記移動方向の情報に基づいて特定される前記相手側の通信装置の表示手段に対向している人物の移動方向が、前記検出手段により検出された前記音声の大きさのレベルが最も大きい範囲に対応する方向である場合に、前記撮影画像における前記音声の大きさのレベルが最も大きい範囲に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項6に記載の通信装置。
<請求項8>
前記移動検出手段は、更に、前記表示手段に対向している人物の移動量を検出し、
前記送信制御手段は、前記移動検出手段により検出された移動方向及び移動量の情報を前記相手側の通信装置に送信し、
前記決定手段は、前記相手側の通信装置から受信した移動方向の情報に基づいて特定される前記相手側の通信装置の表示手段に対向している人物の移動方向が、前記検出手段により検出された前記音声の大きさのレベルが最も大きい範囲に対応する方向であり、かつ、その移動量が前記音声の大きさのレベルが最も大きい範囲に応じて予め定められた閾値を超えている場合に、前記撮影画像における前記音声の大きさのレベルが最も大きい範囲に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項7に記載の通信装置。
<請求項9>
画像及び音声を送受信する複数の通信装置が通話回線により接続可能な通信システムであって、
前記通信装置のそれぞれは、
相手側の通信装置から受信した画像を表示する表示手段と、
前記相手側の通信装置に送信するための画像を撮影する撮影手段と、
音声を取得する音声取得手段と、
前記音声取得手段により取得された音声の方向を検出する検出手段と、
前記検出された音声の方向に基づいて前記撮影手段により取得された撮影画像から切り出す画像領域を決定する決定手段と、
前記決定された画像領域を前記撮影画像から切り出す切り出し手段と、
前記切り出された画像領域を前記相手側の通信装置に送信する送信制御手段と、
を備える通信システム。
<請求項10>
相手側の通信装置と画像及び音声を送受信する通信装置における画像切り出し方法であって、
前記相手側の通信装置に送信するための画像を撮影する工程と、
音声を取得する工程と、
前記取得された音声の方向を検出する工程と、
前記検出された音声の方向に基づいて前記撮影手段により取得された撮影画像から切り出す画像領域を決定する工程と、
を含む画像切り出し方法。
<請求項11>
相手側の通信装置に送信するための画像を撮影する撮影手段及び音声を取得する音声取得手段を備え、相手側の通信装置と画像及び音声を送受信する通信装置に用いられるコンピュータを、
前記音声取得手段により取得された音声の方向を検出する検出手段、
前記検出された音声の方向に基づいて、前記撮影手段により取得された撮影画像から切り出す画像領域を決定する決定手段、
として機能させるためのプログラム。
Although several embodiments of the present invention have been described, the scope of the present invention is not limited to the above-described embodiments, but includes the scope of the invention described in the claims and equivalents thereof.
The invention described in the scope of claims attached to the application of this application will be added below. The item numbers of the claims described in the appendix are as set forth in the claims attached to the application of this application.
[Appendix]
<Claim 1>
A communication device that transmits and receives images and sound to and from a communication device on the other side,
Photographing means for photographing an image to be transmitted to the communication device on the other side;
Audio acquisition means for acquiring audio;
Detecting means for detecting the direction of the sound acquired by the sound acquiring means;
Determining means for determining an image region to be cut out from the captured image acquired by the imaging means based on the direction of the detected sound;
A communication device comprising:
<Claim 2>
Clipping means for cutting out the determined image region from the captured image;
Transmission control means for transmitting the clipped image area to the counterpart communication device;
The communication apparatus according to
<Claim 3>
The determination unit performs face recognition processing on an area corresponding to the detected voice direction in the captured image, and when a face area is recognized, an image area of a person including the recognized face area is The communication device according to
<Claim 4>
The detection means divides a predetermined range around the sound acquisition means by a plurality of directions, detects a level of sound volume for each of the divided ranges,
The determination unit divides the photographed image into a plurality of regions corresponding to the plurality of divided ranges, and performs face recognition processing on a region corresponding to a range where the level of the sound volume in the photographed image is the largest. The communication apparatus according to claim 2, wherein when a face area is recognized, an image area of a person including the recognized face area is determined as an area to be cut out from the captured image.
<Claim 5>
When the face area is not recognized from the area corresponding to the range where the level of the volume of the sound in the captured image is the largest, the determining means performs face recognition processing on an area adjacent to the area, The communication apparatus according to claim 4, wherein when an image is recognized, an image area of a person including the recognized face area is determined as an area cut out from the captured image.
<Claim 6>
The transmission control means transmits information indicating the level of the loudness level for each of the plurality of ranges detected by the detection means to the communication apparatus on the other side together with the acquired voice,
A plurality of voice output means provided corresponding to each of the plurality of ranges in which voice is detected by the counterpart communication device;
A voice output control means for causing each of the plurality of voice output means to output the voice received from the counterpart communication device at a volume corresponding to the level of the voice in a range corresponding to the voice output means;
The communication device according to claim 4 or 5.
<Claim 7>
Display means for displaying an image received from the counterpart communication device;
A movement detecting means for detecting a moving direction of the person facing the display means;
The transmission control means transmits information on the moving direction detected by the movement detecting means to the communication apparatus on the other side,
The determining means detects, by the detecting means, the moving direction of the person facing the display means of the partner communication device specified based on the information on the moving direction received from the partner communication device. Face recognition processing is performed on an area corresponding to the range where the level of the loudness level in the photographed image is the largest in the direction corresponding to the range where the volume level of the generated voice is the largest. The communication apparatus according to claim 6, wherein when an image is recognized, an image area of a person including the recognized face area is determined as an area to be cut out from the captured image.
<Claim 8>
The movement detection means further detects the movement amount of the person facing the display means,
The transmission control means transmits information on the movement direction and the movement amount detected by the movement detection means to the communication apparatus on the other side,
The determining means detects, by the detecting means, the moving direction of the person facing the display means of the partner communication device specified based on the information of the movement direction received from the partner communication device. And the direction corresponding to the range in which the loudness level is the largest, and the amount of movement exceeds a predetermined threshold according to the range in which the loudness level is the largest. , When face recognition processing is performed on an area corresponding to a range where the level of the volume of the sound in the photographed image is the largest, and when a face area is recognized, an image area of a person including the recognized face area is The communication device according to claim 7, wherein the communication device is determined as an area to be cut out from a captured image.
<Claim 9>
A communication system in which a plurality of communication devices that transmit and receive images and sounds can be connected via a telephone line,
Each of the communication devices
Display means for displaying an image received from the communication device on the other side;
Photographing means for photographing an image to be transmitted to the communication device on the other side;
Audio acquisition means for acquiring audio;
Detecting means for detecting the direction of the sound acquired by the sound acquiring means;
Determining means for determining an image region to be cut out from the captured image acquired by the imaging means based on the direction of the detected sound;
Clipping means for cutting out the determined image region from the captured image;
Transmission control means for transmitting the clipped image area to the counterpart communication device;
A communication system comprising:
<Claim 10>
An image clipping method in a communication device that transmits and receives images and sound to and from a communication device on the other side,
Capturing an image for transmission to the counterpart communication device;
Obtaining audio,
Detecting the direction of the acquired voice;
Determining an image region to be cut out from the captured image acquired by the imaging unit based on the detected direction of the sound;
Image clipping method including
<Claim 11>
A computer used for a communication apparatus that includes an imaging unit that captures an image to be transmitted to a communication device on the other side and a sound acquisition unit that acquires sound, and that is used for the communication device that transmits and receives images and sound to and from the other side communication device.
Detecting means for detecting the direction of the sound acquired by the sound acquiring means;
Determining means for determining an image region to be cut out from the captured image acquired by the imaging means based on the direction of the detected sound;
Program to function as.
1 デジタルサイネージ装置
21 投影部
22 スクリーン部
23 制御部
24 プロジェクタ
25 記憶部
251 プログラム記憶部
252 電話帳記憶部
26 通信部
27 画像形成部
28 台座
29 透光板
30 撮像部
31 音声取得部
32 操作部
33 音声出力部
DESCRIPTION OF
Claims (11)
前記相手側の通信装置に送信するための画像を撮影する撮影手段と、
音声を取得する音声取得手段と、
前記音声取得手段により取得された音声の方向を検出する検出手段と、
前記検出された音声の方向に基づいて前記撮影手段により取得された撮影画像から切り出す画像領域を決定する決定手段と、
を備える通信装置。 A communication device that transmits and receives images and sound to and from a communication device on the other side,
Photographing means for photographing an image to be transmitted to the communication device on the other side;
Audio acquisition means for acquiring audio;
Detecting means for detecting the direction of the sound acquired by the sound acquiring means;
Determining means for determining an image region to be cut out from the captured image acquired by the imaging means based on the direction of the detected sound;
A communication device comprising:
前記切り出された画像領域を前記相手側の通信装置に送信する送信制御手段と、
を備える請求項1に記載の通信装置。 Clipping means for cutting out the determined image region from the captured image;
Transmission control means for transmitting the clipped image area to the counterpart communication device;
The communication apparatus according to claim 1.
前記決定手段は、前記撮影画像を前記分割した複数の範囲に対応する複数の領域に分割し、前記撮影画像における前記音声の大きさのレベルが最も大きい範囲に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項2に記載の通信装置。 The detection means divides a predetermined range around the sound acquisition means by a plurality of directions, detects a level of sound volume for each of the divided ranges,
The determination unit divides the photographed image into a plurality of regions corresponding to the plurality of divided ranges, and performs face recognition processing on a region corresponding to a range where the level of the sound volume in the photographed image is the largest. The communication apparatus according to claim 2, wherein when a face area is recognized, an image area of a person including the recognized face area is determined as an area to be cut out from the captured image.
前記相手側の通信装置で音声の検出を行った前記複数の範囲のそれぞれに対応して設けられた複数の音声出力手段と、
前記複数の音声出力手段のそれぞれに、前記相手側の通信装置から受信した音声をその音声出力手段に対応する範囲の音声の大きさのレベルに応じた音量で出力させる音声出力制御手段と、
を備える請求項4又は5に記載の通信装置。 The transmission control means transmits information indicating the level of the loudness level for each of the plurality of ranges detected by the detection means to the communication apparatus on the other side together with the acquired voice,
A plurality of voice output means provided corresponding to each of the plurality of ranges in which voice is detected by the counterpart communication device;
A voice output control means for causing each of the plurality of voice output means to output the voice received from the counterpart communication device at a volume corresponding to the level of the voice in a range corresponding to the voice output means;
The communication device according to claim 4 or 5.
前記表示手段に対向している人物の移動方向を検出する移動検出手段を備え、
前記送信制御手段は、前記移動検出手段により検出された移動方向の情報を前記相手側の通信装置に送信し、
前記決定手段は、前記相手側の通信装置から受信した前記移動方向の情報に基づいて特定される前記相手側の通信装置の表示手段に対向している人物の移動方向が、前記検出手段により検出された前記音声の大きさのレベルが最も大きい範囲に対応する方向である場合に、前記撮影画像における前記音声の大きさのレベルが最も大きい範囲に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項6に記載の通信装置。 Display means for displaying an image received from the counterpart communication device;
A movement detecting means for detecting a moving direction of the person facing the display means;
The transmission control means transmits information on the moving direction detected by the movement detecting means to the communication apparatus on the other side,
The determining means detects, by the detecting means, the moving direction of the person facing the display means of the partner communication device specified based on the information on the moving direction received from the partner communication device. Face recognition processing is performed on an area corresponding to the range where the level of the loudness level in the photographed image is the largest in the direction corresponding to the range where the volume level of the generated voice is the largest. The communication apparatus according to claim 6, wherein when an image is recognized, an image area of a person including the recognized face area is determined as an area to be cut out from the captured image.
前記送信制御手段は、前記移動検出手段により検出された移動方向及び移動量の情報を前記相手側の通信装置に送信し、
前記決定手段は、前記相手側の通信装置から受信した移動方向の情報に基づいて特定される前記相手側の通信装置の表示手段に対向している人物の移動方向が、前記検出手段により検出された前記音声の大きさのレベルが最も大きい範囲に対応する方向であり、かつ、その移動量が前記音声の大きさのレベルが最も大きい範囲に応じて予め定められた閾値を超えている場合に、前記撮影画像における前記音声の大きさのレベルが最も大きい範囲に対応する領域に顔認識処理を行い、顔領域が認識された場合に、当該認識された顔領域を含む人物の画像領域を前記撮影画像から切り出す領域として決定する請求項7に記載の通信装置。 The movement detection means further detects the movement amount of the person facing the display means,
The transmission control means transmits information on the movement direction and the movement amount detected by the movement detection means to the communication apparatus on the other side,
The determining means detects, by the detecting means, the moving direction of the person facing the display means of the partner communication device specified based on the information of the movement direction received from the partner communication device. And the direction corresponding to the range in which the loudness level is the largest, and the amount of movement exceeds a predetermined threshold according to the range in which the loudness level is the largest. , When face recognition processing is performed on an area corresponding to a range where the level of the volume of the sound in the photographed image is the largest, and when a face area is recognized, an image area of a person including the recognized face area is The communication device according to claim 7, wherein the communication device is determined as an area to be cut out from a captured image.
前記通信装置のそれぞれは、
相手側の通信装置から受信した画像を表示する表示手段と、
前記相手側の通信装置に送信するための画像を撮影する撮影手段と、
音声を取得する音声取得手段と、
前記音声取得手段により取得された音声の方向を検出する検出手段と、
前記検出された音声の方向に基づいて前記撮影手段により取得された撮影画像から切り出す画像領域を決定する決定手段と、
前記決定された画像領域を前記撮影画像から切り出す切り出し手段と、
前記切り出された画像領域を前記相手側の通信装置に送信する送信制御手段と、
を備える通信システム。 A communication system in which a plurality of communication devices that transmit and receive images and sounds can be connected via a telephone line,
Each of the communication devices
Display means for displaying an image received from the communication device on the other side;
Photographing means for photographing an image to be transmitted to the communication device on the other side;
Audio acquisition means for acquiring audio;
Detecting means for detecting the direction of the sound acquired by the sound acquiring means;
Determining means for determining an image region to be cut out from the captured image acquired by the imaging means based on the direction of the detected sound;
Clipping means for cutting out the determined image region from the captured image;
Transmission control means for transmitting the clipped image area to the counterpart communication device;
A communication system comprising:
前記相手側の通信装置に送信するための画像を撮影する工程と、
音声を取得する工程と、
前記取得された音声の方向を検出する工程と、
前記検出された音声の方向に基づいて前記撮影手段により取得された撮影画像から切り出す画像領域を決定する工程と、
を含む画像切り出し方法。 An image clipping method in a communication device that transmits and receives images and sound to and from a communication device on the other side,
Capturing an image for transmission to the counterpart communication device;
Obtaining audio,
Detecting the direction of the acquired voice;
Determining an image region to be cut out from the captured image acquired by the imaging unit based on the detected direction of the sound;
Image clipping method including
前記音声取得手段により取得された音声の方向を検出する検出手段、
前記検出された音声の方向に基づいて、前記撮影手段により取得された撮影画像から切り出す画像領域を決定する決定手段、
として機能させるためのプログラム。 A computer used for a communication apparatus that includes an imaging unit that captures an image to be transmitted to a communication device on the other side and a sound acquisition unit that acquires sound, and that is used for the communication device that transmits and receives images and sound to and from the other side communication device.
Detecting means for detecting the direction of the sound acquired by the sound acquiring means;
Determining means for determining an image region to be cut out from the captured image acquired by the imaging means based on the direction of the detected sound;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014033891A JP2015159461A (en) | 2014-02-25 | 2014-02-25 | Communication device, communication system, image segmentation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014033891A JP2015159461A (en) | 2014-02-25 | 2014-02-25 | Communication device, communication system, image segmentation method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015159461A true JP2015159461A (en) | 2015-09-03 |
Family
ID=54183157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014033891A Pending JP2015159461A (en) | 2014-02-25 | 2014-02-25 | Communication device, communication system, image segmentation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015159461A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018173139A1 (en) * | 2017-03-22 | 2018-09-27 | ヤマハ株式会社 | Imaging/sound acquisition device, sound acquisition control system, method for controlling imaging/sound acquisition device, and method for controlling sound acquisition control system |
JP6967735B1 (en) * | 2021-01-13 | 2021-11-17 | パナソニックIpマネジメント株式会社 | Signal processing equipment and signal processing system |
-
2014
- 2014-02-25 JP JP2014033891A patent/JP2015159461A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018173139A1 (en) * | 2017-03-22 | 2018-09-27 | ヤマハ株式会社 | Imaging/sound acquisition device, sound acquisition control system, method for controlling imaging/sound acquisition device, and method for controlling sound acquisition control system |
JPWO2018173139A1 (en) * | 2017-03-22 | 2019-11-07 | ヤマハ株式会社 | Imaging sound collection device, sound collection control system, method for controlling imaging sound collection device, and method for controlling sound collection control system |
US11227423B2 (en) * | 2017-03-22 | 2022-01-18 | Yamaha Corporation | Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system |
JP6967735B1 (en) * | 2021-01-13 | 2021-11-17 | パナソニックIpマネジメント株式会社 | Signal processing equipment and signal processing system |
JP2022108638A (en) * | 2021-01-13 | 2022-07-26 | パナソニックIpマネジメント株式会社 | Signal processing device and signal processing system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11323656B2 (en) | Eye contact enabling device for video conferencing | |
US10136114B2 (en) | Projection display component and electronic device | |
KR101783345B1 (en) | Prompting method, device, program and recording medium for seat selection | |
US9648278B1 (en) | Communication system, communication apparatus and communication method | |
WO2017059634A1 (en) | Method and device for adjusting displayed image | |
JP2017034502A (en) | Communication equipment, communication method, program, and communication system | |
JP2006135837A (en) | Video telephone | |
EP2757547A1 (en) | Apparatus and method for controlling display of mobile terminal | |
JP2015023512A (en) | Imaging apparatus, imaging method and imaging program for imaging apparatus | |
RU2635873C2 (en) | Method and device for displaying framing information | |
JP2016213674A (en) | Display control system, display control unit, display control method, and program | |
JP2015159461A (en) | Communication device, communication system, image segmentation method, and program | |
US11265529B2 (en) | Method and apparatus for controlling image display | |
KR20130033815A (en) | Image display apparatus, and method for operating the same | |
JP2015166854A (en) | Projection control device of projector, projection control method of projector, projection system, projection control method of projection system, and program | |
EP3629560A1 (en) | Full screen terminal, and operation control method and device based on full screen terminal | |
KR20140121694A (en) | Image photographing apparatus and method for controlling the same | |
JP2015126273A (en) | Display system, display device, display method, and program | |
JP2017055266A (en) | Imaging device and control method, program therefor, and storage medium | |
JP2015159460A (en) | Projection system, projection device, photographing device, method for generating guide frame, and program | |
US11909544B1 (en) | Electronic devices and corresponding methods for redirecting user interface controls during a videoconference | |
JP6700770B2 (en) | Display device, control method thereof, and control program | |
US20240137461A1 (en) | Eye contact enabling device for video conferencing | |
US20230209177A1 (en) | Imaging apparatus | |
WO2023225910A1 (en) | Video display method and apparatus, terminal device, and computer storage medium |