JP2010239499A - Communication terminal unit, communication control unit, method of controlling communication of communication terminal unit, and communication control program - Google Patents
Communication terminal unit, communication control unit, method of controlling communication of communication terminal unit, and communication control program Download PDFInfo
- Publication number
- JP2010239499A JP2010239499A JP2009086794A JP2009086794A JP2010239499A JP 2010239499 A JP2010239499 A JP 2010239499A JP 2009086794 A JP2009086794 A JP 2009086794A JP 2009086794 A JP2009086794 A JP 2009086794A JP 2010239499 A JP2010239499 A JP 2010239499A
- Authority
- JP
- Japan
- Prior art keywords
- image
- user
- terminal device
- range
- communication terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、他拠点の端末との間で、画像と音声を双方向に送受信できる通信端末装置、通信制御装置、前記通信端末装置の通信制御方法、通信制御プログラムに関する。 The present invention relates to a communication terminal device, a communication control device, a communication control method for the communication terminal device, and a communication control program that can bidirectionally transmit and receive images and sound between terminals at other sites.
従来、複数の端末をネットワークを介して接続し、画像と音声を双方向に送受信することで、遠隔の地にある者同士の会議を実現するテレビ会議システムが知られている。このシステムでは、会議参加者は表示画面に表示された相手と会議を行う。画像を介して情報を伝達できるため、会議参加者は、表示画面に表示された相手画像から相手の表情を読み取り、相手の感情などを推測することができる。例えば、入力音声から発言者を推定し、自動的にクローズアップ撮影することができるカメラ制御方法及び装置並びに記憶媒体が提案されている(例えば、特許文献1参照)。この制御方法では、発言者がクローズアップ撮影されるので、相手端末の表示画面には発言者の表情を確実に表示させることができる。 2. Description of the Related Art Conventionally, there has been known a video conference system in which a plurality of terminals are connected via a network, and an image and a sound are bidirectionally transmitted and received to realize a conference between persons in remote locations. In this system, a conference participant has a conference with the other party displayed on the display screen. Since information can be transmitted via the image, the conference participant can read the other party's facial expression from the other party's image displayed on the display screen and guess the other party's emotion. For example, a camera control method and apparatus and a storage medium that can estimate a speaker from input speech and automatically perform close-up photography have been proposed (see, for example, Patent Document 1). In this control method, since the speaker is photographed in close-up, the expression of the speaker can be reliably displayed on the display screen of the partner terminal.
しかしながら、会議参加者は、感情を表現する場合に会話に身振り手振り等のジェスチャーを交えることがある。特許文献1に記載のカメラ制御方法では、表示画面には会議参加者の顔画像のみが表示されるため、会議参加者がジェスチャーで感情を表現しようとしても、表示画面にジェスチャーが映らない問題点があった。表示画面にジェスチャーを映すために撮影範囲を広げると、会議参加者の顔画像が相対的に小さくなってしまい、表情が確認できなくなってしまうという問題点があった。
However, a conference participant may use gestures such as gestures when expressing emotions. In the camera control method described in
本発明は、上記課題を解決するためになされたものであり、ユーザの動作に応じて送信するユーザ画像を変更できる通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラムを提供することを目的とする。 The present invention has been made to solve the above-described problem, and provides a communication terminal device, a communication control device, a communication control method for a communication terminal device, and a communication control program capable of changing a user image to be transmitted according to a user's operation. The purpose is to provide.
上記目的を達成するために、請求項1に係る発明の通信端末装置は、ネットワークを介して接続された他の通信端末装置と画像及び音声を介した通信を行う通信端末装置であって、ユーザを撮影する撮影手段と、前記撮影手段により撮影された撮影画像から、前記ユーザの掌及び腕の少なくともいずれかの動きが所定量以上ある状態を前記ユーザの動作として検出する動作検出手段と、前記動作検出手段によって前記動作が検出された場合に、前記撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信手段と、前記他の通信端末装置から送信された前記画像を受信する画像受信手段と、前記画像受信手段によって前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御手段とを備えている。 In order to achieve the above object, a communication terminal device according to a first aspect of the present invention is a communication terminal device that communicates with other communication terminal devices connected via a network via images and sounds, and is a user Photographing means for photographing the image, movement detection means for detecting a state in which at least one of the movements of the palm and arm of the user is greater than or equal to a predetermined amount from the photographed image photographed by the photographing means, When the motion is detected by the motion detection means, the first image shows a range of the upper body area image including the face area, the palm area, and the arm area of the user among the captured images captured by the imaging means. A first image range determining unit that determines the range; and when the motion is not detected by the motion detection unit, the face area of the user is selected from the captured image. A second image range determining means for determining the image range as the second image range, and an image of the first image range determined by the first image range determining means, or determined by the second image range determining means An image transmitting means for transmitting an image in the second image range to the other communication terminal apparatus, an image receiving means for receiving the image transmitted from the other communication terminal apparatus, and the image received by the image receiving means. Image display control means for displaying the image on the display screen when the image is received.
また、請求項2に係る発明の通信端末装置は、請求項1に記載の発明の構成に加え、前記動作検出手段は、前記掌及び前記腕の両方に所定量以上の動きがある状態を前記動作として検出することを特徴とする。 According to a second aspect of the present invention, in addition to the configuration of the first aspect of the invention, the motion detecting means is configured to detect a state where both the palm and the arm have a predetermined amount of movement. It is detected as an operation.
また、請求項3に係る発明の通信端末装置は、請求項1又は2に記載の発明の構成に加え、前記動作検出手段は、前記掌の形状に所定量以上の変化がある状態を前記掌の動きとして検出することを特徴とする。 According to a third aspect of the present invention, there is provided the communication terminal device according to the first or second aspect, wherein the motion detecting means indicates that the palm shape has a change of a predetermined amount or more. It is characterized by detecting as a movement.
また、請求項4に係る発明の通信端末装置は、請求項1乃至3のいずれかに記載の発明の構成に加え、前記動作検出手段は、前記腕の位置が所定量以上変化した状態を前記腕の動きとして検出することを特徴とする。 According to a fourth aspect of the present invention, there is provided the communication terminal device according to any one of the first to third aspects, wherein the motion detecting means indicates that the arm position has changed by a predetermined amount or more. It is detected as a movement of the arm.
また、請求項5に係る発明の通信端末装置は、請求項1乃至4のいずれかに記載の発明の構成に加え、前記撮影画像から前記対象ユーザの鼻位置を検出する鼻位置検出手段をさらに備え、前記第一画像範囲決定手段は、前記鼻位置検出手段によって検出された前記鼻位置が、前記第一画像範囲の水平方向における中心点となるように、前記第一画像範囲を決定することを特徴とする。
In addition to the configuration of the invention according to any one of
また、請求項6に係る発明の通信端末装置は、請求項1乃至5のいずれかに記載の発明の構成に加え、複数のユーザの中から発言者を特定する発言者特定手段を備え、前記動作検出手段は、前記発言者特定手段によって特定された前記発言者の掌及び腕の少なくともいずれかの動きが前記所定量以上ある状態を前記発言者の動作として検出し、前記第一画像範囲決定手段は、前記発言者の顔領域と掌領域と腕領域とを含む上半身画像の範囲を前記第一画像範囲として決定し、前記第二画像範囲決定手段は、前記発言者の前記顔領域を含む顔画像の範囲を前記第二画像範囲として決定することを特徴とする。 According to a sixth aspect of the present invention, there is provided a communication terminal device according to any one of the first to fifth aspects, further comprising a speaker specifying unit that specifies a speaker from a plurality of users. The motion detection means detects a state in which at least one of the movements of the palm and the arm of the speaker specified by the speaker specifying means is greater than or equal to the predetermined amount, and determines the first image range. The means determines an upper body image range including the speaker's face area, palm area, and arm area as the first image area, and the second image range determining means includes the face area of the speaker. The range of the face image is determined as the second image range.
また、請求項7に係る発明の通信端末装置は、請求項6に記載の発明の構成に加え、前記撮影手段により撮影された前記撮影画像から人物を認識する人物認識手段と、前記人物認識手段によって認識された前記人物の口形の変化を検出する口形検出手段とを備え、前記発言者特定手段は、前記口形検出手段によって前記口形の変化が所定量以上検出された人物を前記発言者として特定することを特徴とする。 According to a seventh aspect of the present invention, there is provided a communication terminal apparatus according to the sixth aspect, in addition to the configuration of the sixth aspect of the invention, a person recognizing unit for recognizing a person from the photographed image photographed by the photographing unit; Mouth shape detecting means for detecting a change in the mouth shape of the person recognized by the speaker, wherein the speaker specifying means specifies a person whose mouth shape change is detected by a predetermined amount or more by the mouth shape detecting means as the speaker. It is characterized by doing.
また、請求項8に係る発明の通信端末装置は、請求項6又は7に記載の発明の構成に加え、前記ユーザの音声を検出するとともに、前記音声の方向を検出する音声検出手段を備え、前記発言者特定手段は、前記音声検出手段により検出された前記方向にいる人物を前記発言者として特定することを特徴とする。
In addition to the configuration of the invention of
また、請求項9に係る発明の通信制御装置は、ネットワークを介して複数の通信端末装置に接続され、前記通信端末装置間で行われる通信を制御する通信制御装置であって、前記通信端末装置の撮影手段によって撮影され、前記通信端末装置から送信される撮影画像を受信する撮影画像受信手段と、前記撮影画像受信手段によって受信された前記撮影画像に基づき、前記ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出手段と、前記動作検出手段によって前記動作が検出された場合に、前記撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域を含む顔画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記通信端末装置に送信する画像送信手段とを備えている。 A communication control device according to an embodiment of the present invention is a communication control device that is connected to a plurality of communication terminal devices via a network and controls communication performed between the communication terminal devices, wherein the communication terminal device Based on the captured image received by the captured image receiving means and at least one of the palm and arm of the user, the captured image receiving means for receiving the captured image transmitted by the communication terminal device Motion detection means for detecting a state of such movement as the user's motion, and when the motion is detected by the motion detection means, the user's face area, palm area, and arm from the captured image A first image range determining means for determining an image range of the upper body area including the area as the first image range, and the motion detection means does not detect the motion. The second image range determining means for determining a range of the face image including the face area of the user as the second image range from the photographed image, and the first image range determining means. And an image transmitting means for transmitting the image in the first image range or the image in the second image range determined by the second image range determining means to the communication terminal device.
また、請求項10に係る発明の通信端末装置の通信制御方法は、ネットワークを介して接続された他の通信端末装置と、画像及び音声を介した通信を行う通信端末装置の通信制御方法であって、ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出ステップと、前記動作検出ステップにおいて前記動作が検出された場合に、ユーザを撮影する撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定ステップと、前記動作検出ステップにおいて前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定ステップと、前記第一画像範囲決定ステップにおいて決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段において決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信ステップと、前記他の通信端末装置から送信された前記画像を受信する画像受信ステップと、前記画像受信ステップにおいて前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御ステップとを備えている。 A communication control method for a communication terminal device according to a tenth aspect of the invention is a communication control method for a communication terminal device that communicates with other communication terminal devices connected via a network via images and sounds. An operation detecting step for detecting a movement of at least one of the user's palm and arm as the user's operation, and an imaging unit for capturing the user when the operation is detected in the operation detecting step. In the first image range determination step for determining an image range of the upper body region including the user's face region, palm region, and arm region as the first image range from the captured images, and in the motion detection step A second image that determines, as a second image range, an image range of the face area of the user from the captured image when the operation is not detected. An image of the first image range determined in the range determining step and the first image range determining step, or an image of the second image range determined in the second image range determining means is used as the other communication terminal. An image transmitting step for transmitting to the device, an image receiving step for receiving the image transmitted from the other communication terminal device, and the image displayed on the display screen when the image is received in the image receiving step. An image display control step.
また、請求項11に係る発明の通信制御プログラムは、請求項1乃至8のいずれかに記載の通信端末装置の各種処理手段としてコンピュータを機能させることを特徴とする。 According to an eleventh aspect of the present invention, a communication control program causes a computer to function as various processing means of the communication terminal device according to any one of the first to eighth aspects.
請求項1に係る発明の通信端末装置では、ネットワークを介して接続された他の通信端末装置と画像及び音声を介した通信が行われる。撮影手段はユーザを撮影する。動作検出手段は、撮影手段により撮影された撮影画像から、ユーザの掌及び腕の少なくともいずれかの動きが所定量以上ある状態をユーザの動作として検出する。第一画像範囲決定手段は、動作検出手段によって動作が検出された場合に、撮影手段によって撮影された撮影画像の中から、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する。第二画像範囲決定手段は、動作検出手段によって動作が検出されなかった場合に、撮影画像の中から、ユーザの顔領域の画像の範囲を第二画像範囲として決定する。画像送信手段は、第一画像範囲決定手段によって決定された第一画像範囲の画像、又は第二画像範囲決定手段によって決定された第二画像範囲の画像を、他の通信端末装置に送信する。画像受信手段は、他の通信端末装置から送信された画像を受信する。画像表示制御手段は、画像受信手段によって画像が受信された場合に、その画像を表示画面に表示させる。このように、動作検出手段によって動作が検出されなかった場合は、ユーザの顔領域の画像が他の通信端末装置に送信され、動作が検出された場合は、上半身領域の画像が他の通信端末装置に送信される。よって、他の通信端末装置では、ユーザがジェスチャーを行っている場合には、ユーザの上半身領域の画像が表示画面に表示され、ユーザがジェスチャーを行っていない場合には、ユーザの顔領域の画像が表示される。よって、ユーザがジェスチャーで感情を表現しようとした場合、相手ユーザはユーザのジェスチャーを確認することができる。また、ユーザがジェスチャーを行わない場合、相手ユーザは、ユーザの顔の表情を確認できる。よって、異なる拠点にいる会議参加者同士で良好なコミュニケーションをとることができる。また、ユーザがジェスチャーを行わないときは、上半身画像よりもデータ量の小さい顔画像を送信するので、通信負荷を軽減できる。 In the communication terminal apparatus according to the first aspect of the present invention, communication is performed with other communication terminal apparatuses connected via a network via images and sounds. The photographing means photographs the user. The motion detection means detects a state in which at least one of the movements of the user's palm and arm is greater than or equal to a predetermined amount from the photographed image photographed by the photographing means. The first image range determining unit is configured to detect an image of an upper body region including a user's face region, palm region, and arm region from among the captured images captured by the capturing unit when the motion is detected by the motion detecting unit. The range is determined as the first image range. The second image range determining means determines the image range of the user's face area as the second image range from the captured images when no motion is detected by the motion detecting means. The image transmission unit transmits the image of the first image range determined by the first image range determination unit or the image of the second image range determined by the second image range determination unit to another communication terminal device. The image receiving means receives an image transmitted from another communication terminal device. The image display control means displays the image on the display screen when the image receiving means receives the image. As described above, when the motion is not detected by the motion detection means, the image of the user's face area is transmitted to another communication terminal device, and when the motion is detected, the image of the upper body area is transmitted to the other communication terminal. Sent to the device. Therefore, in another communication terminal device, when the user is making a gesture, an image of the upper body area of the user is displayed on the display screen, and when the user is not making a gesture, an image of the user's face area is displayed. Is displayed. Therefore, when a user tries to express an emotion with a gesture, the other user can confirm the user's gesture. Further, when the user does not perform a gesture, the partner user can check the facial expression of the user. Therefore, it is possible to take good communication between conference participants at different bases. Further, when the user does not perform a gesture, a face image having a data amount smaller than that of the upper body image is transmitted, so that the communication load can be reduced.
また、請求項2に係る発明の通信端末装置では、請求項1に記載の発明の効果に加え、動作検出手段は、掌及び腕の両方に所定量以上の動きがある状態を動作として検出する。つまり、ユーザの上半身の小さな揺れ等の動作として検出せず、ユーザの所定量以上の大きな動作のみを検出することができる。 In addition, in the communication terminal device according to the second aspect of the invention, in addition to the effect of the first aspect of the invention, the motion detection means detects a state where both the palm and the arm have a predetermined amount of movement as a motion. . That is, it is possible to detect only a large motion that is greater than or equal to a predetermined amount of the user without detecting it as a motion such as a small shaking of the upper body of the user.
また、請求項3に係る発明の通信端末装置では、請求項1又は2に記載の発明の効果に加え、動作検出手段は、掌の形状に所定量以上の変化がある状態を掌の動きとして検出する。これにより、ユーザが掌を動かして感情表現している場合に、掌の画像を含む上半身画像を表示画面に表示させることができる。さらに、掌の形状に所定量以上の変化があった場合にのみ検出するので、掌の形状の小さな変化があった場合には、掌の動きとして検出することがない。
In addition, in the communication terminal device of the invention according to
また、請求項4に係る発明の通信端末装置では、請求項1乃至3のいずれかに記載の発明の効果に加え、動作検出手段は、腕の位置が所定量以上変化した状態を腕の動きとして検出する。これにより、ユーザが腕を動かして感情表現している場合に、腕の画像を含む上半身画像を表示画面に表示させることができる。さらに、腕の位置に所定量以上の変化があった場合にのみ検出するので、腕の位置の小さな変化があった場合には、腕の動きとして検出することがない。 Further, in the communication terminal device according to a fourth aspect of the invention, in addition to the effect of the invention according to any one of the first to third aspects, the motion detecting means detects the movement of the arm when the position of the arm has changed by a predetermined amount or more. Detect as. Thereby, when the user moves his / her arm and expresses emotion, the upper body image including the image of the arm can be displayed on the display screen. Further, since the detection is performed only when the arm position has changed by a predetermined amount or more, the arm movement is not detected when there is a small change in the arm position.
また、請求項5に係る発明の通信端末装置では、請求項1乃至4のいずれかに記載の発明の効果に加え、第一画像範囲決定手段は、鼻位置検出手段をさらに備えている。鼻位置検出手段は、撮影画像から対象ユーザの鼻位置を検出する。第一画像範囲決定手段は、鼻位置検出手段によって検出された鼻位置が、第一画像範囲の水平方向における中心点となるように、第一画像範囲を決定する。これにより、ユーザの顔画像を表示画面の中心に常に位置させることができる。 In the communication terminal device according to the fifth aspect of the present invention, in addition to the effect of the first aspect of the present invention, the first image range determining means further includes a nose position detecting means. The nose position detection means detects the target user's nose position from the captured image. The first image range determination unit determines the first image range so that the nose position detected by the nose position detection unit is a center point in the horizontal direction of the first image range. Thereby, a user's face image can always be located in the center of a display screen.
また、請求項6に係る発明の通信端末装置では、請求項1乃至5のいずれかに記載の発明の効果に加え、発言者特定手段は、複数のユーザの中から発言者を特定する。動作検出手段は、発言者特定手段によって特定された発言者の掌及び腕の少なくともいずれかの動きが所定量以上ある状態を前記発言者の動作として検出する。第一画像範囲決定手段は、発言者の顔領域と掌領域と腕領域とを含む上半身画像の範囲を第一画像範囲として決定する。第二画像範囲決定手段は、発言者の顔領域を含む顔画像の範囲を第二画像範囲として決定する。従って、複数のユーザが一拠点にいる場合は、その中の発言者について第一画像範囲又は第二画像範囲を指定することができる。
Moreover, in the communication terminal device of the invention according to
また、請求項7に係る発明の通信端末装置では、請求項6に記載の発明の効果に加え、人物認識手段は、撮影手段により撮影された撮影画像から人物を認識する。口形検出手段は、人物認識手段によって認識された人物の口形の変化を検出する。発言者特定手段は、
口形検出手段によって口形の変化が所定量以上検出された人物を発言者として特定する。これにより一拠点に複数のユーザがいる場合でもその中から発言者を的確に特定できる。
In the communication terminal device according to the seventh aspect of the invention, in addition to the effect of the invention according to the sixth aspect, the person recognition means recognizes a person from the photographed image photographed by the photographing means. The mouth shape detection means detects a change in the mouth shape of the person recognized by the person recognition means. The speaker identification means is
A person whose mouth shape change is detected by the mouth shape detecting means by a predetermined amount or more is specified as a speaker. Thereby, even when there are a plurality of users at one base, it is possible to accurately identify the speaker from among them.
また、請求項8に係る発明の通信端末装置では、請求項6又は7に記載の発明の効果に加え、音声検出手段は、ユーザの音声を検出するとともに、音声の方向を検出する。発言者特定手段は、音声検出手段により検出された方向にいる人物を発言者として特定する。これにより一拠点に複数のユーザがいる場合でもその中から発言者を的確に特定できる。 In the communication terminal device according to the eighth aspect of the invention, in addition to the effect of the sixth aspect, the voice detecting means detects the voice of the user and detects the direction of the voice. The speaker specifying unit specifies a person in the direction detected by the voice detection unit as a speaker. Thereby, even when there are a plurality of users at one base, it is possible to accurately identify the speaker from among them.
また、請求項9に係る発明の通信制御装置では、ネットワークを介して複数の通信端末装置に接続され、通信端末装置間で行われる通信を制御する。撮影画像受信手段は、通信端末装置の撮影手段によって撮影され、通信端末装置から送信される撮影画像を受信する。動作検出手段は、撮影画像受信手段によって受信された撮影画像に基づき、ユーザの掌及び腕の少なくともいずれかの動きがある状態をユーザの動作として検出する。第一画像範囲決定手段は、動作検出手段によって動作が検出された場合に、撮影画像の中から、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する。第二画像範囲決定手段は、動作検出手段によって動作が検出されなかった場合に、撮影画像の中から、ユーザの顔領域を含む顔画像の範囲を第二画像範囲として決定する。画像送信手段は、第一画像範囲決定手段によって決定された第一画像範囲の画像、又は第二画像範囲決定手段によって決定された第二画像範囲の画像を、通信端末装置に送信する。これにより、動作検出手段によって動作が検出されなかった場合は、ユーザの顔領域の画像を通信端末装置の表示画面に表示させ、動作が検出された場合は、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像を表示画面に表示させることができる。ユーザの動作に応じてユーザの画像サイズを調節できるので、ユーザの動作に応じて表情や動作を通信端末装置の表示画面に確実に表示できる。従って、ユーザの感情を豊かに表現できるので、相手と良好なコミュニケーションをとることができる。また、ユーザが動作しないときは、第一画像範囲の画像よりもデータ量の小さい第二画像範囲の画像を送信するので、通信負荷を軽減できる。 In the communication control device according to the ninth aspect of the present invention, the communication control device is connected to a plurality of communication terminal devices via a network and controls communication performed between the communication terminal devices. The photographed image receiving means receives a photographed image that is photographed by the photographing means of the communication terminal apparatus and transmitted from the communication terminal apparatus. The motion detection means detects a state in which at least one of the user's palm and arm moves as a user motion based on the captured image received by the captured image receiving means. The first image range determining means determines the range of the upper body area image including the user's face area, palm area, and arm area from the captured image when the motion is detected by the motion detecting means. Determine as. The second image range determining means determines, as the second image range, a face image range including the user's face area from the photographed images when no action is detected by the action detecting means. The image transmission unit transmits the image of the first image range determined by the first image range determination unit or the image of the second image range determined by the second image range determination unit to the communication terminal device. As a result, if no motion is detected by the motion detection means, an image of the user's face area is displayed on the display screen of the communication terminal device. If a motion is detected, the user's face area, palm area, and arm An image of the upper body area including the area can be displayed on the display screen. Since the user's image size can be adjusted according to the user's action, the facial expression and action can be reliably displayed on the display screen of the communication terminal device according to the user's action. Therefore, since the user's emotions can be expressed richly, good communication with the other party can be achieved. In addition, when the user does not operate, an image in the second image range having a smaller data amount than the image in the first image range is transmitted, so that the communication load can be reduced.
また、請求項10に係る発明の通信端末装置の通信制御方法では、動作検出ステップにおいて、ユーザの掌及び腕の少なくともいずれかの動きがある状態をユーザの動作として検出する。第一画像範囲決定ステップにおいて、動作検出ステップにて動作が検出された場合に、ユーザを撮影する撮影手段によって撮影された撮影画像の中から、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する。第二画像範囲決定ステップにおいて、動作検出ステップにて動作が検出されなかった場合に、撮影画像の中から、ユーザの顔領域の画像の範囲を第二画像範囲として決定する。画像送信ステップにおいて、第一画像範囲決定ステップにて決定された第一画像範囲の画像、又は第二画像範囲決定手段において決定された第二画像範囲の画像を、他の通信端末装置に送信する。画像受信ステップにおいて、他の通信端末装置から送信された画像を受信する。画像表示制御ステップにおいて、画像受信ステップにて画像が受信された場合に、画像を表示画面に表示させる。このように、動作検出手段によって動作が検出されなかった場合は、ユーザの顔領域の画像が表示画面に表示され、動作が検出された場合は、ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像が表示画面に表示される。これにより、ユーザの動作に応じてユーザの画像サイズを調節できるので、ユーザの動作に応じて表情や動作を表示画面に確実に表示できる。従って、ユーザの感情を豊かに表現できるので、相手と良好なコミュニケーションをとることができる。また、ユーザが動作しないときは、第二画像範囲の画像よりもデータ量の小さい第一画像範囲の画像を送信するので、通信負荷を軽減できる。 In the communication control method for the communication terminal device according to the tenth aspect of the present invention, in the motion detection step, a state in which at least one of the user's palm and arm moves is detected as the user motion. When a motion is detected in the motion detection step in the first image range determination step, the user's face region, palm region, and arm region are included from the captured images captured by the capturing unit that captures the user. The range of the upper body region image is determined as the first image range. In the second image range determination step, when no motion is detected in the motion detection step, the range of the image of the user's face area is determined as the second image range from the captured images. In the image transmission step, the image in the first image range determined in the first image range determination step or the image in the second image range determined by the second image range determination means is transmitted to another communication terminal device. . In the image receiving step, an image transmitted from another communication terminal device is received. In the image display control step, when an image is received in the image reception step, the image is displayed on the display screen. As described above, when no motion is detected by the motion detection means, an image of the user's face area is displayed on the display screen, and when a motion is detected, the user's face area, palm area, and arm area are displayed. An image of the upper body area including the image is displayed on the display screen. Thereby, since a user's image size can be adjusted according to a user's operation | movement, an expression and an operation | movement can be reliably displayed on a display screen according to a user's operation | movement. Therefore, since the user's emotions can be expressed richly, good communication with the other party can be achieved. In addition, when the user does not operate, an image in the first image range having a smaller data amount than the image in the second image range is transmitted, so the communication load can be reduced.
また、請求項11に係る発明の通信制御プログラムでは、請求項1乃至8のいずれかに記載の通信端末装置の各種処理手段としてコンピュータを機能させるので、請求項1乃至8のいずれかに記載の効果を得ることができる。
In the communication control program of the invention according to
以下、本発明の第一実施形態である端末装置3について、図面を参照して説明する。はじめに、端末装置3を構成要素とするテレビ会議システム1の構成について、図1を参照して説明する。
Hereinafter, the
テレビ会議システム1は、ネットワーク2を介して相互に接続された端末装置3、4を備えている。端末装置3、4は、別拠点に設けられている。このテレビ会議システム1では、端末装置3、4間において、ネットワーク2を介して、画像、音声が互いに送受信されることで、別拠点にあるユーザ同士の遠隔会議が実施される。本実施形態では、端末装置3が設けられた拠点を自拠点、端末装置4が設けられた拠点を他拠点として説明する。
The
なお、本実施形態では、端末装置3においてユーザがジェスチャーを交えながら会話をしている場合には、端末装置3のユーザの上半身画像を端末装置4に送信し、ユーザがジェスチャーをせずに会話している場合には、ユーザの顔画像を端末装置4に送信する点に特徴がある。
In the present embodiment, when the user is talking while gesturing in the
端末装置3の電気的構成について、図2を参照して説明する。図2は、端末装置3の電気的構成を示すブロック図である。なお、端末装置3と端末装置4とは全て同じ構成であるので、ここでは端末装置3の構成についてのみ説明し、端末装置4については説明を省略する。
The electrical configuration of the
端末装置3には、端末装置3の制御を司るコントローラとしてのCPU20が設けられている。CPU20には、BIOS等を記憶したROM21と、各種データを一時的に記憶するRAM22と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。I/Oインタフェイス30には、各種記憶エリアを有するハードディスクドライブ31(以下、HDD31)が接続されている。
The
I/Oインタフェイス30には、ネットワーク2と通信するための通信装置25と、マウス27と、ビデオコントローラ23と、キーコントローラ24と、ユーザを撮影するためのカメラ34と、ユーザの音声を取り込むためのマイク35と、CD−ROMドライブ26とが各々接続されている。ビデオコントローラ23には、端末装置4を使用する相手ユーザを表示するディスプレイ28が接続されている。キーコントローラ24には、キーボード29が接続されている。
The I /
なお、CD−ROMドライブ26に挿入されるCD−ROM114には、端末装置3のメインプログラムや、本発明の通信制御プログラム等が記憶されている。CD−ROM114の導入時には、これら各種プログラムが、CD−ROM114からHDD31にセットアップされて、後述するプログラム記憶エリア313(図3参照)に記憶される。
The CD-
次に、HDD31の各種記憶エリアについて、図3を参照して説明する。HDD31には、カメラ34によって撮影された撮影画像50(図7、図8参照)を記憶する撮影画像データ記憶エリア311と、端末装置3のディスプレイ28に表示される画面データを記憶する表示画面データ記憶エリア312と、各種プログラムを記憶するプログラム記憶エリア313と、プログラムの実行に必要な所定値を記憶する所定値記憶エリア314と、その他の情報記憶エリア315とが少なくとも設けられている。
Next, various storage areas of the
プログラム記憶エリア313には、端末装置3のメインプログラムや、端末装置4との間で遠隔会議を実行するための会議支援プログラム、画像表示に係る本発明の通信制御プログラム等が記憶されている。その他の情報記憶エリア315には、端末装置3で使用されるその他の情報が記憶されている。なお、端末装置3がHDD31を備えていない専用機の場合は、ROM21に各種プログラムが記憶される。
The
次に、RAM22の各種記憶エリアについて、図4を参照して説明する。RAM22には、画像範囲記憶エリア221と、掌動作記憶エリア222と、腕動作記憶エリア223と、動作検出記憶エリア224と、接続端末記憶エリア225と、処理画像記憶エリア226が少なくとも設けられている。画像範囲記憶エリア221には、撮影画像50における送信画像の画像範囲が記憶される。掌動作記憶エリア222には、撮影画像50におけるユーザの掌面積が記憶される掌面積記憶エリア2221と、撮影画像50に基づいて検出されたユーザの掌の形状変化の有無を記憶する掌変化記憶エリア2222とが設けられている。腕動作記憶エリア223には、ユーザの腕の輪郭データが記憶される輪郭データ記憶エリア2231と、ユーザの腕の位置が変化しているか否かを記憶する腕変化記憶エリア2232とが設けられている。動作検出記憶エリア224には、ユーザの動作が検出されたか否かが記憶される。接続端末記憶エリア225には、ネットワーク2を介して現在接続している接続端末の端末IDが記憶される。処理画像記憶エリア226には、画像処理を行うための画像データが記憶される。
Next, various storage areas of the
次に、端末装置3のディスプレイ28に表示される画面について、図5および図6を参照して説明する。端末装置3のディスプレイ28には、端末装置4から送信される相手ユーザの画像が表示される。相手ユーザがジェスチャーを行っていない場合には、図5に示すように、ディスプレイ28には相手ユーザの顔の画像が表示される。相手ユーザがジェスチャーを行っている場合には、図6に示すように、ディスプレイ28には相手ユーザの上半身の画像が表示される。
Next, the screen displayed on the
次に、ユーザのジェスチャーを検出する方法について説明する。本実施形態においては、ユーザが掌と腕との両方を動かしている状態を、ユーザがジェスチャーを行っている状態として検出する。 Next, a method for detecting a user's gesture will be described. In this embodiment, the state in which the user moves both the palm and the arm is detected as the state in which the user is making a gesture.
はじめに、ユーザの掌の動きを検出する方法について説明する。掌の動きの検出は、カメラ34によって撮影されたユーザの撮影画像50(図7参照)に基づいて行われる。まず、ユーザの撮影画像50から、ユーザの掌領域を抽出する。そして、抽出された掌領域の面積に一定以上の変化がある場合には、掌の動きがあるとして検出する。
First, a method for detecting a user's palm movement will be described. The palm movement is detected based on a user-captured image 50 (see FIG. 7) captured by the
掌領域の抽出方法は、周知の様々な方法が適用可能であり、例えば、特開2003−346162に記載された方法が適用可能である。まず、RGB表色系で表示される撮影画像50をHSV表色系に変換する。HSV表色系は、色の種類を表す色相H(hue)、色の鮮やかさを表す彩度S(saturation)、そして明るさの程度を表す明度V(value)の3つの要素からなる。RGB表色系からHSV表色系への変換方法は、例えば高木・下田監修「画像解析ハンドブック」(東京大学出版会,pp.485−491,1991年発行)に記載されている。なお、H、S、Vの値の範囲は、下記の通りである。
・ 0≦H≦2π
・ 0≦S≦1
・ 0≦V≦1
Various well-known methods can be applied to the palm region extraction method. For example, the method described in Japanese Patent Application Laid-Open No. 2003-346162 is applicable. First, the captured
・ 0 ≦ H ≦ 2π
・ 0 ≦ S ≦ 1
・ 0 ≦ V ≦ 1
次に、画像中の手領域である場所を抽出するために、肌色抽出を行う。本実施形態では、肌色領域の閾値を下記のように設定する。
・0.11<H<0.22、
・0.2<S<0.5
色相Hと、彩度Sとが、上述の閾値内にある画素を、肌色画素として抽出する。
Next, in order to extract a place which is a hand region in the image, skin color extraction is performed. In the present embodiment, the threshold value of the skin color area is set as follows.
・ 0.11 <H <0.22,
・ 0.2 <S <0.5
Pixels whose hue H and saturation S are within the above threshold are extracted as skin color pixels.
手領域と背景とを分離するために、肌色画素と非肌色画素とに2値化する。そして、得られた2値画像において、所定範囲内の面積を有する肌色画素部分を掌領域として抽出する。掌領域の抽出は1/30秒ごとに行われる。 In order to separate the hand area and the background, binarization is performed on skin color pixels and non-skin color pixels. Then, in the obtained binary image, a skin color pixel portion having an area within a predetermined range is extracted as a palm region. The palm area is extracted every 1/30 seconds.
抽出された掌の面積に所定値以上の変化がある場合には、掌の形状に変化があると検出され、面積に所定値以上の変化がない場合には、掌の形状に変化がないと検出される。 If there is a change in the extracted palm area over a predetermined value, it is detected that there is a change in the palm shape. If there is no change over the predetermined value in the area, there is no change in the palm shape. Detected.
次に、ユーザの腕の動きを検出する方法について説明する。腕の動きの検出は、カメラ34によって撮影されたユーザの撮影画像50(図7参照)に基づいて行われる。腕の動きの検出は、周知の方法によって行われ、たとえば、『オプティカルフローを用いた複雑背景下における人物の腕領域の抽出と運動パラメータ推定』(電気学会論文誌C分冊、 Vol.120−C、No.12、pp.1801−1808(2000 12))を用いた方法や、ユーザの撮影画像50から輪郭データを抽出して、輪郭データをもとに検出する方法や、撮影画像50からユーザの掌を検出して、掌の位置の変化をもとに検出する方法が適用可能である。本実施形態では、ユーザの撮影画像50から、ユーザの腕の輪郭データを抽出し、抽出した輪郭データの位置に一定以上の変化がある場合には、腕の動きがあるとして検出する方法を適用する。
Next, a method for detecting the movement of the user's arm will be described. The movement of the arm is detected based on the user's captured image 50 (see FIG. 7) captured by the
この方法では、まず、撮影画像50の中から、ユーザの腕の輪郭データを抽出するための抽出領域が指定される。ここでは、ユーザの撮影画像50に存在する一定面積以上の肌色部分が顔領域として抽出され、顔領域より下に存在する肌色部分が掌領域として抽出され、上下方向における顔領域と掌領域との間の領域が、腕の輪郭データを抽出するための抽出領域として指定される。肌色部分の抽出方法は、上述したとおりである。
In this method, first, an extraction region for extracting contour data of the user's arm is specified from the captured
次に、撮影画像50に対してグレースケール化を行い、輪郭データを抽出する。輪郭データを抽出する際は、周知の一次微分法を使用する。一次微分法の輪郭抽出では、各画素における濃度の勾配を求めることによって輪郭の強さと方向とを算出し、濃度値が急激に変化する部分を輪郭データとして抽出する。抽出領域の指定および輪郭データの抽出は、1/30秒ごとに行われる。
Next, the captured
抽出された輪郭データに変化があれば腕の動きがあると検出され、輪郭データに所定値以上の変化がなければ、腕の動きがないと検出される。 If there is a change in the extracted contour data, it is detected that there is a movement of the arm, and if there is no change in the contour data over a predetermined value, it is detected that there is no movement of the arm.
次に、撮影画像50の中から、ユーザの顔領域の画像(顔画像51)の範囲を決定する方法について、図7を参照して説明する。顔画像範囲の決定方法は、周知の方法であり、例えば、特開平10−334213に記載された方法が適用可能である。
Next, a method of determining the range of the user's face area image (face image 51) from the captured
はじめに、ユーザの上半身が撮影された撮影画像50から、ユーザの顔領域が抽出される。撮影画像50からユーザの顔領域を抽出する場合、まず、RGB表色系で表示される撮影画像50をHSV表色系に変換する。そして、HSV表色系に変換された変換画像から、色相Hと、彩度Sとが、上述の閾値内にある画素を、肌色画素として抽出する。顔領域と背景とを分離するために、肌色画素と非肌色画素とに2値化する。HSV表色系への変換方法、肌色画素の抽出方法、2値化の方法は、掌領域の抽出方法で説明した方法と同様である。そして、得られた2値画像において、画像の上半分に存在する肌色画素部分を顔領域として抽出する。
First, the face area of the user is extracted from the captured
次に、顔画像51を切り出すための顔画像範囲を決定する。顔画像範囲を決定する場合、まず、撮影画像50の中から、ユーザの鼻位置を特定する。鼻位置の特定は、顔領域の中心部において隣り合ったふたつの鼻孔部分を検出することにより行う。鼻孔部分には光が照射されないため、暗く撮影される。撮影画像において、顔領域の中心部で暗く撮影された部分を鼻孔として検出し、検出された鼻孔の中心位置を鼻位置として特定する。そして、撮影画像50の画像領域の左下部分を撮影画像50におけるXY座標の原点として、鼻位置の撮影画像50におけるXY座標(x3、y3)を特定する。
Next, a face image range for cutting out the
次に、抽出された顔領域のX座標の最大値と最小値、Y座標の最大値と最小値を検出し、それぞれの値について、鼻位置(x3、y3)との差分を算出する。算出された差分のうちの最も大きい値を第一差分αとし、第一差分αに所定値を加算した第一拡大値Nを算出する。第一拡大値Nを用いて、鼻位置(x3、y3)が顔画像51の中心となるように、顔画像51の範囲を決定する。具体的には、顔画像51の4隅の座標を下記のように決定する。
・ (x3+N、y3+N)
・ (x3+N、y3−N)
・ (x3−N、y3+N)
・ (x3−N、y3−N)
Next, the maximum value and minimum value of the X coordinate and the maximum value and minimum value of the Y coordinate of the extracted face area are detected, and the difference from the nose position (x3, y3) is calculated for each value. The largest value among the calculated differences is defined as a first difference α, and a first enlarged value N is calculated by adding a predetermined value to the first difference α. Using the first enlargement value N, the range of the
・ (X3 + N, y3 + N)
・ (X3 + N, y3-N)
・ (X3-N, y3 + N)
・ (X3-N, y3-N)
次に、撮影画像50の中から、ユーザの上半身領域の画像(上半身画像52)の範囲を決定する方法について、図8を参照して説明する。まず、撮影画像50の中から、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどが、パラメータとして抽出される。次いで、予めHDD31のその他の情報記憶エリア315に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、ユーザ領域として特定される。次に、撮影画像50の画像領域の左下部分を撮影画像50におけるXY座標の原点として、ユーザ領域のX座標の最大値と最小値とが検出される。
Next, a method for determining the range of the upper body region image (upper body image 52) of the user from the captured
次に、撮影画像50の中から、ユーザの鼻位置が検出される。鼻位置の特定方法は上述のとおりである。そして、検出された鼻位置のX座標x3と、検出されたユーザ領域のX座標の最大値と最小値との差分がそれぞれ算出される。差分のうちの大きい値が、第二差分βとされ、第二差分βと所定値Uとを加算した値である第二拡大値Mが算出される。
Next, the user's nose position is detected from the captured
そして、鼻位置(x3、y3)と、第二拡大値Mとをパラメータとして、上半身画像52の範囲が決定される。本実施形態では、鼻位置(x3、y3)が、上半身画像52の左右方向(X方向)において中心に位置し、上下方向(Y方向)において、下端から2/3のところに位置するように、上半身画像52が決定される。具体的には、上半身画像52の4隅の座標は下記のように表される。
・ (x3+M、y3+(M×(2/3)))
・ (x3+M、y3−(M×(4/3)))
・ (x3−M、y3+(M×(2/3)))
・ (x3−M、y3−(M×(4/3)))
Then, the range of the
(X3 + M, y3 + (M × (2/3)))
(X3 + M, y3- (M × (4/3)))
(X3-M, y3 + (M × (2/3)))
(X3-M, y3- (M × (4/3)))
テレビ会議システム1におけるユーザのジェスチャーを考慮した通信制御処理について図9乃至図15のフローチャートを参照して説明する。本説明では、自拠点側にある端末装置3と、他拠点側にある端末装置4とが会議を行う場合を想定する。端末装置3、4では、カメラ34により撮影された撮影画像50から、ユーザの顔画像51又は上半身画像52を切り出して、他の端末装置に対して送信する「画像送信処理」と、他の端末装置が送信した画像を受信して表示する「画像受信処理」との両方が行われる。そこで、説明の便宜上、自拠点側の端末装置3において「画像送信処理」が実行され、他拠点側の端末装置4において「画像受信処理」が実行される場合を例に説明する。
A communication control process in consideration of the user's gesture in the
まず、自拠点側の端末装置3のCPU20において実行される画像送信処理について、説明する。端末装置3と端末装置4とが各々ネットワークに接続し、互いに通信を開始すると、図9に示す画像送信処理が開始される。画像送信処理が開始されると、はじめに、カメラ34が駆動され、カメラ34により撮影された撮影画像50の取得が開始される(S1)。カメラ34により撮影された撮影画像50の画像データは、撮影画像データ記憶エリア311に記憶される。
First, image transmission processing executed by the
撮影画像の取得が開始されると(S1)、顔画像範囲決定処理が行われる(S2)。顔画像範囲決定処理について、図10を参照して説明する。この顔画像範囲決定処理は、図9の画像送信処理のS2で実行されるサブルーチンである。 When acquisition of a captured image is started (S1), face image range determination processing is performed (S2). The face image range determination process will be described with reference to FIG. This face image range determination process is a subroutine executed in S2 of the image transmission process of FIG.
顔画像範囲決定処理が開始されると、まず、RGB表色系である撮影画像50がHSV表色系に変換されて、変換画像として処理画像記憶エリア226に記憶される(S151)。HSV表色系への変換方法は上述のとおりである。そして、処理画像記憶エリア226に記憶された変換画像から、色相Hと、彩度Sとが、上述の閾値内にある画素が、肌色画素として抽出される(S152)。肌色画素の抽出方法は上述のとおりである。顔領域と背景とを分離するために、肌色画素と非肌色画素とが2値化される(S153)。画像の上半分に存在する肌色画素の部分が顔領域として特定される。
When the face image range determination process is started, first, the captured
次に、処理画像記憶エリア226が参照されて、ユーザの鼻位置が特定される(S154)。鼻位置の特定は、顔領域の中心部において隣り合ったふたつの鼻孔部分を検出することにより行われる。鼻孔部分には光が照射されないため、暗く撮影される。顔領域の中心部において暗く撮影された部分が鼻孔として検出され、検出された鼻孔の中心位置が鼻位置として特定される。そして、撮影画像50の画像領域の左下部分を撮影画像50におけるXY座標の原点として、鼻位置の撮影画像50におけるXY座標(x3、y3)が特定され、画像範囲記憶エリア221の鼻位置記憶エリア(図示省略)に記憶される。
Next, the processed
次に、顔領域について、X座標における最大値x1と最小値x2、Y座標における最大値y1と最小値y2が検出される(S155)。検出されたx1、x2、y1、y2は、画像範囲記憶エリア221の顔領域記憶エリア(図示省略)に記憶される。そして、顔領域記憶エリアと鼻位置記憶エリアとが参照されて、x1とx3との差分a、x3とx2との差分b、y1とy3との差分c、y3とy2との差分dが算出される(S156)。なお、差分a、b、c、dは、下記の式で表すことができる。
・ a=x1−x3
・ b=x3−x2
・ c=y1−y3
・ d=y3−y2
算出された4つの差分a、b、c、dのうちの最も大きい値が、第一差分αとされ、画像範囲記憶エリア221の第一差分記憶エリア(図示省略)に記憶される。
Next, for the face area, the maximum value x1 and minimum value x2 in the X coordinate, and the maximum value y1 and minimum value y2 in the Y coordinate are detected (S155). The detected x1, x2, y1, and y2 are stored in the face area storage area (not shown) of the image
A = x1-x3
B = x3-x2
C = y1-y3
D = y3-y2
The largest value among the four calculated differences a, b, c, and d is set as the first difference α and stored in the first difference storage area (not shown) of the image
そして、第一差分αと所定値記憶エリア314に記憶された所定値Kとを加算した値である第一拡大値Nが算出される(S157)。第一拡大値Nは、下記の式で表される。
・ N=α+K
算出された第一拡大値は、画像範囲記憶エリア221の第一拡大値記憶エリア(図示省略)に記憶される。
Then, a first enlarged value N that is a value obtained by adding the first difference α and the predetermined value K stored in the predetermined
・ N = α + K
The calculated first enlarged value is stored in a first enlarged value storage area (not shown) of the image
次に、第一拡大値記憶エリアと、鼻位置記憶エリアとが参照されて、鼻位置のX座標x3から、N大きいX座標(x3+N)と、N小さいX座標(x3−N)とが算出される。鼻位置のY座標y3から、N大きいY座標(y3+N)と、N小さいY座標(y3−N)とが算出される。(x3+N)が、顔画像51におけるX座標の最大値となり、(x3−N)が、顔画像51におけるX座標の最小値となる。(y3+N)が、顔画像51におけるY座標の最大値となり、(y3−N)が顔画像51におけるY座標の最小値となる。そして、このX座標、Y座標の組み合わせからなる4点の座標が算出される。4点の座標は下記のように表される。
・ (x3+N、y3+N)
・ (x3+N、y3−N)
・ (x3−N、y3+N)
・ (x3−N、y3−N)
Next, with reference to the first enlarged value storage area and the nose position storage area, an N large X coordinate (x3 + N) and an N small X coordinate (x3−N) are calculated from the X coordinate x3 of the nose position. Is done. From the Y coordinate y3 of the nose position, an N large Y coordinate (y3 + N) and an N small Y coordinate (y3-N) are calculated. (X3 + N) is the maximum value of the X coordinate in the
・ (X3 + N, y3 + N)
・ (X3 + N, y3-N)
・ (X3-N, y3 + N)
・ (X3-N, y3-N)
4点の座標は、顔画像51の範囲を示す情報として、画像範囲記憶エリア221に記憶される(S158)。そして、顔画像範囲決定処理を終了して、画像送信処理(図9参照)に戻る。
The coordinates of the four points are stored in the image
顔画像範囲決定処理(S2)が終了すると、撮影画像データ記憶エリア311と画像範囲記憶エリア221とが参照されて、ユーザの顔画像51に対応する画像データが相手ユーザの使用する端末装置4に送信される(S3)。顔画像51に対応する画像データが端末装置4に送信されると(S3)、ユーザの動作の有無を検出する動作検出処理が行われる(S4)。
When the face image range determination process (S2) is completed, the captured image
動作検出処理について、図11を参照して説明する。動作検出処理は、図9の画像送信処理のS4で実行されるサブルーチンである。動作検出処理が開始されると、まず、掌動作検出処理が開始される(S51)。掌動作検出処理は、図11に示す動作検出処理のS51で実行されるサブルーチンである。 The operation detection process will be described with reference to FIG. The motion detection process is a subroutine executed in S4 of the image transmission process in FIG. When the motion detection process is started, first, the palm motion detection process is started (S51). The palm motion detection process is a subroutine executed in S51 of the motion detection process shown in FIG.
掌動作検出処理について、図12を参照して説明する。掌動作検出処理が開始されると、まず、RGB表色系である撮影画像50がHSV表色系に変換されて、変換画像として処理画像記憶エリア226に記憶される(S101)。次に、処理画像記憶エリア226が参照されて、変換画像から肌色抽出が行われる(S102)。そして、肌色画素と非肌色画素とが2値化され、得られた2値画像が処理画像記憶エリア226に記憶される(S103)。そして、所定値記憶エリア314と処理画像記憶エリア226とが参照されて、2値画像において、所定範囲の面積を有する肌色画素部分を掌領域として抽出する(S104)。掌領域の抽出は1/30秒ごとに行われる。
The palm motion detection process will be described with reference to FIG. When the palm motion detection process is started, first, the captured
そして、抽出された掌領域の面積が算出され、掌動作記憶エリア222の掌面積記憶エリア2221に記憶される(S105)。掌面積記憶エリア2221には、例えば60の記憶エリアが設けられ、1/30秒ごとに、それぞれの記憶エリアに掌領域の面積(掌面積)が記憶される。60番目の記憶エリアに掌面積が記憶されると、次は、1番目の記憶エリアに最新の掌面積が上書きされる。そして、所定量のデータが蓄積された段階で、掌面積記憶エリア2221が参照されて、記憶された最大掌面積に対する最小掌面積の割合が、一例として、3/4未満であるか否かが判断される(S106)。記憶された最大掌面積に対する最小掌面積の割合が、一例として3/4未満であれば、掌の形状に変化がある(掌の動きが検出された)として、掌変化記憶エリア2222に「1」が記憶される(S107)。一方、記憶された最大掌面積に対する最小掌面積の割合が、3/4以上であれば、掌の形状には変化がなかった(掌の動きが検出されなかった)として、掌変化記憶エリア2222に「0」が記憶される(S108)。そして、掌動作検出処理を終了して、動作検出処理(図11参照)に戻る。
Then, the area of the extracted palm region is calculated and stored in the palm
掌動作検出処理(S51)が終了すると、掌変化記憶エリア2222が参照されて、掌の動きが検出されたか否かが判断される(S52)。掌変化記憶エリア2222に、「0」が記憶されており、掌の動きが検出されなかったと判断された場合には(S52:NO)、ユーザの動作は検出されなかったとして、動作検出記憶エリア224に「0」が記憶される(S56)。掌変化記憶エリア2222に、「1」が記憶されており、掌の動きが検出されたと判断された場合には(S52:YES)、続いて腕動作検出処理が行われる(S53)。
When the palm motion detection process (S51) ends, the palm
腕動作検出処理について、図13を参照して説明する。腕動作検出処理は、図11の動作検出処理のS53で実行されるサブルーチンである。動作検出処理が開始されると、まず、ユーザの腕の輪郭データを抽出するための抽出領域が指定される(S131)。ユーザの撮影画像50に存在する一定面積以上の肌色部分が顔領域として抽出され、顔領域より下に存在する肌色部分が掌領域として抽出され、上下方向における顔領域と掌領域との間の領域が、腕の輪郭データを抽出するための抽出領域として指定される。肌色部分の抽出方法は、上述したとおりである。 The arm motion detection process will be described with reference to FIG. The arm motion detection process is a subroutine executed in S53 of the motion detection process of FIG. When the motion detection process is started, first, an extraction area for extracting contour data of the user's arm is designated (S131). An area between the face area and the palm area in the vertical direction is extracted as a face area, and a skin color area existing below the face area is extracted as a palm area. Is designated as an extraction region for extracting arm contour data. The skin color portion extraction method is as described above.
次に、撮影画像50に対してグレースケール化を行い、輪郭データが抽出される(S132)。輪郭データを抽出する際は、周知の一次微分法を使用する。一次微分法の輪郭抽出では、各画素における濃度の勾配を求めることによって輪郭の強さと方向とを算出し、濃度値が急激に変化する部分が輪郭データとして抽出される。抽出領域の指定および輪郭データの抽出は、1/30秒ごとに行われる。
Next, the captured
抽出された輪郭データは、RAM22の腕動作記憶エリア223の輪郭データ記憶エリア2231に記憶される(S133)。輪郭データ記憶エリア2231には、例えば60の記憶エリアが設けられ、1/30秒ごとに、それぞれの記憶エリアに輪郭データが記憶される。60番目の記憶エリアに輪郭データが記憶されると、次は、1番目の記憶エリアに最新の輪郭データが上書きされる。輪郭データ記憶エリア2231に、所定量のデータが蓄積されると、60の記憶エリアが参照されて、記憶された複数の輪郭データのうちのX座標における最大値と最小値との差分△X1、Y座標の最大値と最小値との差分△Y1とが算出される(S134)。
The extracted contour data is stored in the contour
そして、差分△X1、又は差分△Y1のいずれかが、HDD31の所定値記憶エリア314に記憶された所定値よりも大きいか否かが判断される(S135)。差分△X1、又は差分△Y1のいずれかが、HDD31の所定値記憶エリア314に記憶された所定値よりも大きければ(S135:YES)、腕の位置に変化がある(腕の動きが検出された)として、腕変化記憶エリア2232に、「1」が記憶される(S136)。差分△X1、又は差分△Y1のいずれも、HDD31の所定値記憶エリア314に記憶された所定値よりも小さければ(S135:NO)、腕の位置に変化がない(腕の動きが検出されなかった)として、腕変化記憶エリア2232に、「0」が記憶される(S137)。そして、腕動作検出処理を終了して、動作検出処理(図11参照)に戻る。
Then, it is determined whether either the difference ΔX1 or the difference ΔY1 is larger than the predetermined value stored in the predetermined
そして、動作検出処理では、腕動作検出処理が終了すると(S53)、腕変化記憶エリア2232が参照されて、腕の動きが検出されたか否かが判断される(S54)。腕変化記憶エリア2232に「0」が記憶されており、腕の動きが検出されていない場合には(S54:NO)、ユーザの動作は検出されなかったとして、動作検出記憶エリア224に「0」が記憶される(S56)。腕変化記憶エリア2232に「1」が記憶されており、腕の動きが検出されたと判断された場合には(S54:YES)、ユーザの動作が検出されたとして、動作検出記憶エリア224に「1」が記憶される(S55)。そして、動作検出処理を終了して、画像送信処理(図9参照)へ戻る。
In the motion detection process, when the arm motion detection process is completed (S53), the arm
図9に戻り、動作検出処理(S4)が終了すると、動作検出記憶エリア224が参照されて、ユーザの動作が検出されたか否かが判断される(S5)。動作検出記憶エリア224に、「0」が記憶されている場合、動作が検出されなかったと判断されて(S5:NO)、会議終了であるか否かが判断される(S12)。会議終了であるか否かの判断は、ネットワーク2に接続されている端末装置が、自身のほかに1以上あるか否かがを判断することによって行われる。
Returning to FIG. 9, when the motion detection process (S4) ends, the motion
端末装置3、4では、ネットワーク2に接続すると、ネットワーク2に接続したことを示す接続信号が相手側の端末装置に送信される。他の端末装置からの接続信号を受信した場合、接続信号を送信した端末装置の端末IDが、RAM22の接続端末記憶エリア225に記憶される。一方、ネットワーク2への接続を切断すると、ネットワークへの接続を切断したことを示す切断信号が相手側の端末装置に送信される。ネットワーク2に接続されている端末装置が、自身の他には0である場合(S12:YES)、処理を終了する。一方、ネットワーク2に接続されている端末装置が、自身のほかに1以上ある場合(S12:NO)、S1〜S5の処理が繰り返される。すなわち、端末装置3において、ユーザのジェスチャーが検出されない場合(S5:NO)、引き続き、ユーザの顔画像51が端末装置4に送信される(S3)。
When the
動作検出記憶エリア224に、「1」が記憶されている場合、動作が検出されたと判断されて(S5:YES)、撮影画像データ記憶エリア311に記憶された撮影画像50からユーザの上半身画像52の範囲が決定される上半身画像範囲決定処理が行われる(S6)。
When “1” is stored in the motion
上半身画像範囲決定処理について、図14を参照して説明する。上半身画像範囲決定処理は、図9の画像送信処理のS6で実行されるサブルーチンである。図14に示すように、上半身画像範囲決定処理が開始されると、まず、撮影画像におけるユーザ領域が特定される(S171)。具体的には、撮影画像データ記憶エリア311が参照されて、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどがパラメータとして抽出される。予めHDD31のその他の情報記憶エリア315に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、ユーザ領域として特定される。次に、撮影画像50の画像領域の左下部分を撮影画像50におけるXY座標の原点として、ユーザ領域のX座標における最大値x4と最小値x5が検出される(S172)。検出されたx4、x5は、画像範囲記憶エリア221のユーザ領域記憶エリア(図示省略)に記憶される。
The upper body image range determination process will be described with reference to FIG. The upper body image range determination process is a subroutine executed in S6 of the image transmission process of FIG. As shown in FIG. 14, when the upper body image range determination process is started, first, the user area in the captured image is specified (S171). Specifically, the captured image
次に、撮影画像50の中から、ユーザの鼻位置が特定される(S173)。鼻位置の特定方法は上述のとおりである。検出された鼻位置のX座標x3は、画像範囲記憶エリア221の鼻位置記憶エリア(図示省略)に記憶される。そして鼻位置記憶エリアとユーザ領域記憶エリアとが参照されて、x3、x4、x5から、x4とx3との差分e、x3とx5との差分fが算出される(S174)。なお、差分e、fは、下記の式で表すことができる。
・ e=x4−x3
・ f=x3−x5
Next, the user's nose position is specified from the captured image 50 (S173). The method for specifying the nose position is as described above. The detected X coordinate x3 of the nose position is stored in the nose position storage area (not shown) of the image
E = x4-x3
・ F = x3-x5
算出された2つの差分e、fのうちの大きい値が、第二差分βとされて、画像範囲記憶エリア221の第二差分記憶エリア(図示省略)に記憶される。第二差分βと所定値記憶エリア314に記憶された所定値Uとを加算した値である第二拡大値Mが算出される(S175)。第二拡大値Mは、下記の式で表される。
・ M=β+U
算出された第二拡大値Mは、画像範囲記憶エリア221の第二拡大値記憶エリア(図示省略)に記憶される。
The larger value of the calculated two differences e and f is set as the second difference β and stored in the second difference storage area (not shown) of the image
・ M = β + U
The calculated second enlarged value M is stored in a second enlarged value storage area (not shown) of the image
次に、第二拡大値記憶エリアと、鼻位置記憶エリアとが参照されて、鼻位置のX座標x3から、M大きいX座標(x3+M)と、M小さいX座標(x3−M)とが算出される。鼻位置のY座標y3から、(M×(2/3))大きいY座標(y3+(M×(2/3)))と、(M×(4/3))小さいY座標(y3−(M×(4/3)))とが算出される。(x3+M)が、上半身画像52におけるX座標の最大値となり、(x3−M)が、上半身画像52におけるX座標の最小値となる。(y3+(M×(2/3)))が、上半身画像52におけるY座標の最大値となり、(y3−(M×(4/3)))が上半身画像52におけるY座標の最小値となる。そして、このX座標、Y座標の組み合わせからなる4点の座標が算出される。4点の座標は下記のように表される。
・ (x3+M、y3+(M×(2/3)))
・ (x3+M、y3−(M×(4/3)))
・ (x3−M、y3+(M×(2/3)))
・ (x3−M、y3−(M×(4/3)))
Next, with reference to the second enlarged value storage area and the nose position storage area, an M large X coordinate (x3 + M) and an M small X coordinate (x3-M) are calculated from the X coordinate x3 of the nose position. Is done. From the Y coordinate y3 of the nose position, (M × (2/3)) large Y coordinate (y3 + (M × (2/3))) and (M × (4/3)) small Y coordinate (y3− ( M × (4/3))) is calculated. (X3 + M) is the maximum value of the X coordinate in the
(X3 + M, y3 + (M × (2/3)))
(X3 + M, y3- (M × (4/3)))
(X3-M, y3 + (M × (2/3)))
(X3-M, y3- (M × (4/3)))
4点の座標は、上半身画像52の範囲を示す情報として、画像範囲記憶エリア221に記憶される(S176)。そして、上半身画像範囲決定処理が終了して、画像送信処理(図9参照)に戻る。
The coordinates of the four points are stored in the image
図9に戻り、上半身画像範囲決定処理(S6)が終了すると、撮影画像データ記憶エリア311と画像範囲記憶エリア221とが参照されて、撮影画像50から上半身画像52の範囲が切り出されて端末装置4に送信される(S7)。つまり、端末装置3のユーザがジェスチャーを行っていると判断された場合には(S5:YES)、端末装置4に、ユーザの上半身の画像が送信される(S7)。
Returning to FIG. 9, when the upper body image range determination process (S6) is completed, the captured image
ユーザの上半身画像52が、端末装置4に送信されると(S7)、接続端末記憶エリア225が参照されて、ネットワーク2に接続されている端末装置が、自身の他に1以上あるか否かが判断される(S8)。ネットワーク2に接続されている端末装置が、自身の他には0である場合、会議終了であるとして(S8:YES)、処理を終了する。一方、ネットワーク2に接続されている端末装置が、自身のほかに1以上ある場合、会議は終了していないとして(S8:NO)、ユーザの動作の有無を検出する動作検出処理が再度行われる(S9)。S9の処理はS4と同様であるため説明を省略する。
When the user's
動作検出処理(S9)が終了すると、動作検出記憶エリア224が参照されて、ユーザの動作が検出されたか否かが判断される(S10)。動作検出記憶エリア224に、「1」が記憶されている場合、動作が検出されたと判断され(S10:YES)、ユーザの顔領域および掌領域が、切り出された上半身画像52の範囲に含まれているか否かが判断される(S11)具体的には、まず、撮影画像データ記憶エリア311が参照されて、撮影画像50においてユーザの顔領域および掌領域が抽出される。顔領域と掌領域との抽出方法は上述のとおりである。そして、抽出された顔領域および掌領域のX座標、Y座標の最大値と最小値が検出される。検出された最大値と最小値とが、画像範囲記憶エリア221に記憶された画像範囲内にあるか否かが判断される。
When the motion detection process (S9) ends, the motion
検出された掌領域および顔領域が、いずれも画像範囲記憶エリア221に記憶された画像範囲内にあるか否かが判断されると(S11:YES)、S8に戻って会議終了であるか否かが判断される。顔領域および掌領域のいずれかが、画像範囲記憶エリア221に記憶された画像範囲からはみ出していると判断されると(S11:NO)、再度、撮影画像データ記憶エリア311に記憶された撮影画像50からユーザの上半身画像52の範囲が決定される(S6)。決定された上半身画像52の範囲は、最新の画像範囲として画像範囲記憶エリア221に上書きされる。
When it is determined whether or not the detected palm area and face area are both within the image range stored in the image range storage area 221 (S11: YES), the process returns to S8 to determine whether the meeting is over. Is judged. If it is determined that either the face area or the palm area is outside the image range stored in the image range storage area 221 (S11: NO), the captured image stored in the captured image
一方、S10において、動作検出記憶エリア224に、「0」が記憶されている場合、ユーザの動作が検出されなかったと判断されて(S10:NO)、会議終了であるか否かが判断される(S12)。ネットワーク2に接続されている端末装置が、自身の他には0である場合、会議終了であるとして(S12:YES)、処理を終了する。ネットワーク2に接続されている端末装置が、自身のほかに1以上ある場合、会議は終了していないとして(S12:NO)、S1の処理に戻る。すなわち、端末装置3において、ユーザの動作が検出されず(S10:NO)、会議が終了していない場合(S12:NO)ユーザの上半身画像52ではなくユーザの顔画像51が、端末装置4に送信される(S3)。
On the other hand, if “0” is stored in the motion
次に、他拠点側の端末装置4のCPU20において実行される画像受信処理について、図15のフローチャートを参照して説明する。端末装置3と端末装置4とが各々ネットワークに接続し、互いに通信を開始すると、図15に示す画像受信処理が開始される。画像受信処理が開始されると、端末装置3から送信された画像が受信されたか否かが判断される(S31)。画像が受信されていない場合(S31:NO)、画像が受信されるまで、S31の処理が繰り返される。画像が受信された場合(S31:YES)、受信された画像がビデオコントローラ23によってディスプレイ28に表示される(S32)。
Next, image reception processing executed by the
上述のように、端末装置3のユーザがジェスチャーを行っている場合には、端末装置3からは、ユーザの上半身画像52に対応する画像データが送信される。一方、端末装置3のユーザがジェスチャーを行っていない場合には、端末装置3からは、ユーザの顔画像51に対応する画像データが送信される。よって、端末装置4のディスプレイ28には、端末装置3のユーザがジェスチャーを行っている場合、ユーザの上半身の画像が表示され(図5参照)、ジェスチャーを行っていない場合、ユーザの顔の画像が表示される(図6参照)。
As described above, when the user of the
そして、接続端末記憶エリア225が参照されて、ネットワーク2に接続されている端末装置が、自身の他に1以上あるか否かが判断される(S33)。ネットワーク2に接続されている端末装置が、自身の他には0である場合(S33:YES)、処理を終了する。一方、ネットワーク2に接続されている端末装置が、自身のほかに1以上ある場合(S33:NO)、S31に戻り、S31〜S33の処理が繰り返される。
Then, the connected
以上説明したように、第一実施形態である端末装置3は、ネットワーク2を介して他の端末装置4と相互に接続される。これら端末装置間で、画像、音声を互いに送受信することで遠隔会議を実施するテレビ会議システム1を構成する。このテレビ会議システム1では、遠隔会議中に、端末装置3(又は4)のユーザの動作(ジェスチャー)を検出する。そして、ユーザがジェスチャーを行っていない場合には、相手ユーザの端末装置4(又は3)に対して、ユーザの顔画像51に対応するデータを送信する。ユーザがジェスチャーを行っている場合には、相手ユーザの端末装置4(又は3)に対して、ユーザの上半身画像52に対応するデータを送信する。
As described above, the
よって、端末装置3のユーザがジェスチャーを行っている場合、端末装置4のディスプレイ28にはユーザの上半身の画像が表示され(図5参照)、ジェスチャーを行っていない場合、ディスプレイ28にはユーザの顔の画像が表示される(図6参照)。従って、ユーザがジェスチャーで感情を表現しようとした場合、相手ユーザはユーザのジェスチャーを確認することができる。また、ユーザがジェスチャーを行わない場合、相手ユーザは、ユーザの顔の表情を確認できる。よって、異なる拠点にいる会議参加者同士で良好なコミュニケーションをとることができる。また、ユーザがジェスチャーを行わないときは、上半身画像52よりもデータ量の小さい顔画像51の画像データを送信するので、通信負荷を軽減できる。
Therefore, when the user of the
なお、以上説明において、図2に示すカメラ34が本発明の「ユーザ撮影手段」に相当する。図2に示すディスプレイ28が本発明の「表示画面」に相当する。図10に示す顔画像範囲決定処理を実行するCPU20が本発明の「第二画像範囲決定手段」に相当する。図11に示す動作検出処理を実行するCPU20が本発明の「動作検出手段」に相当する。図14に示す上半身画像範囲決定処理を実行するCPU20が本発明の「第一画像範囲決定手段」に相当する。図9に示すS3およびS7の処理を実行するCPU20が本発明の「画像送信手段」に相当する。図14に示すS172の処理を実行するCPU20、および図10に示すS154の処理を実行するCPU20が、本発明の「鼻位置検出手段」に相当する。図15に示すS31の処理を実行するCPU20が本発明の「画像受信手段」に相当する。図15に示すS32の処理を実行するCPU20が本発明の「表示制御手段」に相当する。
In the above description, the
次に、本発明の第二実施形態である端末装置130について説明する。第一実施形態では、端末装置3、4にユーザが一人ずつの条件で行われる会議を想定している。第二実施形態は、各拠点の端末装置3、4に複数のユーザがいる場合に、その中の発言者を特定し、その発言者をカメラ34の撮影対象とする点が第一実施形態と異なる。なお、第二実施形態の端末装置130は、第一実施形態の端末装置3と同様に、図1に示すテレビ会議システム1を構成するものである。
Next, the
まず、端末装置130の電気的構成について、図16を参照して説明する。端末装置130には、端末装置130の制御を司るコントローラとしてのCPU120が設けられている。CPU120には、BIOS等を記憶したROM121と、各種データを一時的に記憶するRAM122と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。I/Oインタフェイス30には、各種記憶エリアを有するハードディスクドライブ131(以下、HDD131)と、音声方向検出装置36と、駆動回路37とが接続されている。音声方向検出装置36には、ユーザの音声が入力されるマイク35が接続されている。音声方向検出装置36は、マイク35に入力される音声の位相差に基づき、音声が発せられた音源の方向を検出する。駆動回路37には、カメラ34を回転移動させるカメラ移動装置38が接続されている。
First, the electrical configuration of the
RAM122には、図17に示すように、第一実施形態のRAM22と同様の各種記憶エリア(図4参照)に加えて、音源の方向が検出される音源方向記憶エリア227が設けられている。端末装置130のその他の電気的構成は、第一実施形態の端末装置3(図2参照)と同様の構成を備えている。
As shown in FIG. 17, the
発言者特定方法について説明する。発言者特定方法としては、周知の種々の方法が適用可能である。例えば、特開平11−341334に記載された方法や、特開2001−339703が適用可能である。本変形例では、はじめに、マイク35に入力される音声の位相差に基づき、音声方向検出装置36によって、音声が発せられた音源の方向を検出する。そして、カメラ移動装置38によって、カメラ34が検出された音源の方向を撮影するように撮影される。次いで、カメラ34の撮影範囲が狭められる。
The speaker identification method will be described. Various known methods can be applied as the speaker identification method. For example, the method described in JP-A-11-341334 and JP-A-2001-339703 can be applied. In this modification, first, the direction of the sound source from which the sound is emitted is detected by the sound
そして、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどがパラメータとして抽出される。次いで、予めHDD31のその他の情報記憶エリア315に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、発言者の画像として特定される。
Then, the color, geometric shape, shading pattern, movement, etc. of the captured image are extracted as parameters. Next, a database of human image parameters stored in advance in the other
次に、CPU120による画像送信処理について、図18のフローチャートを参照して説明する。本実施形態においても、端末装置130、端末装置4では、画像を送信する「画像送信処理」と、画像を受信する「画像受信処理」との両方が行われる。「画像受信処理」は、第一実施形態と同様であるため、説明を省略する。
Next, image transmission processing by the CPU 120 will be described with reference to the flowchart of FIG. Also in the present embodiment, the
端末装置130と端末装置4とが各々ネットワークに接続し、互いに通信を開始すると、図18に示す画像送信処理が開始される。画像送信処理が開始されると、はじめに、カメラ34が駆動され、カメラ34により撮影された撮影画像の取得が開始される(S71)。カメラ34により撮影された撮影画像は、撮影画像データ記憶エリア311に記憶される。
When the
次に、マイク35から音声が入力されたか否かが判断される(S84)。マイク35から音声が入力されていない場合、自拠点側に発言者がいないと判断されて(S84:NO)、S71およびS84の処理が繰り返される。
Next, it is determined whether or not sound is input from the microphone 35 (S84). When no sound is input from the
一方、マイク35から音声が入力されている場合、自拠点側に発言者がいると判断されて(S84:YES)、マイク35から入力された音声の位相差に基づき、音声方向検出装置36によって音声が発せられた音源の方向が検出される。音源の方向は、音源方向記憶エリア227に記憶される。そして、音源方向記憶エリア227が参照されて駆動回路37によってカメラ移動装置38が駆動され、カメラ34の撮影方向が音源の方向に向けられる。そして、マッチング処理により、発言者の画像が特定される(S85)。特定された発言者の画像は、撮影画像データ記憶エリア311に記憶される。
On the other hand, when the voice is input from the
次に、撮影画像データ記憶エリア311に記憶された撮影画像から発言者の顔画像の範囲を決定する顔画像範囲決定処理が行われる(S72)。顔画像範囲決定処理は、第一実施形態と同様のため、説明を省略する。顔画像範囲決定処理が終了すると(S72)、撮影画像データ記憶エリア311と画像範囲記憶エリア221とが参照されて、発言者の顔画像が、送信画像として撮影画像から切り出され、端末装置4に送信される(S73)。
Next, a face image range determination process is performed to determine the range of the speaker's face image from the captured image stored in the captured image data storage area 311 (S72). Since the face image range determination process is the same as that of the first embodiment, the description thereof is omitted. When the face image range determination processing is completed (S72), the photographed image
発言者の顔画像が端末装置4に送信されると(S73)、発言者の動作の有無を検出する動作検出処理が行われる(S74)。動作検出処理は、第一実施形態と同様であるため説明を省略する。動作検出処理(S74)が終了すると、動作検出記憶エリア224が参照されて、発言者の動作が撮影画像に基づき検出されたか否かが判断される(S75)。動作検出記憶エリア224に、「0」が記憶されている場合、動作が検出されなかったと判断されて(S75:NO)、会議終了であるか否かが判断される(S82)。
When the face image of the speaker is transmitted to the terminal device 4 (S73), an action detection process for detecting the presence or absence of the action of the speaker is performed (S74). Since the operation detection process is the same as that of the first embodiment, the description thereof is omitted. When the motion detection process (S74) ends, the motion
会議終了である場合(S82:YES)、処理を終了する。一方、ネットワーク2に接続されている端末が、自身のほかに1以上ある場合(S82:NO)、S71〜S75の処理が繰り返される。すなわち、端末装置130において、発言者の動作が検出されず(S75:NO)、会議終了でない場合(S82:NO)、引き続き、発言者の顔画像が送信画像として端末装置4に送信される(S73)。
If the conference is over (S82: YES), the process is terminated. On the other hand, when there are one or more terminals connected to the network 2 (S82: NO), the processes of S71 to S75 are repeated. That is, in the
動作検出記憶エリア224に、「1」が記憶されている場合、動作が検出されたと判断されて(S75:YES)、撮影画像データ記憶エリア311に記憶された撮影画像から発言者の上半身画像の範囲を決定する上半身画像範囲決定処理が行われる(S76)。上半身画像範囲決定処理は、第一実施形態と同様のため、説明を省略する。上半身画像範囲決定処理が終了すると、撮影画像データ記憶エリア311と画像範囲記憶エリア221とが参照されて、発言者の上半身画像が、送信画像として撮影画像から切り出され、端末装置4に送信される(S77)。すなわち、端末装置130において、発言者の動作が検出された場合(S75:NO)、発言者の上半身画像が端末装置4に送信される(S77)。
If “1” is stored in the motion
発言者の上半身画像が、端末装置4に送信されると(S77)、接続端末記憶エリア225が参照されて、ネットワーク2に接続されている端末が、自身の他に1以上あるか否かが判断される(S78)。ネットワーク2に接続されている端末が、自身の他には0である場合、会議終了であるとして(S78:YES)、処理を終了する。一方、ネットワーク2に接続されている端末が、自身のほかに1以上ある場合、会議は終了していないとして(S78:NO)、発言者の動作の有無を検出する動作検出処理が再度行われる(S79)。
When the upper body image of the speaker is transmitted to the terminal device 4 (S77), the connected
動作検出処理(S79)が終了すると、動作検出記憶エリア224が参照されて、発言者の動作が検出されたか否かが判断される(S80)。動作検出記憶エリア224に、「1」が記憶されている場合、動作が検出されたと判断される(S80:YES)。動作が検出されたと判断されると(S80:YES)、発言者の顔領域および掌領域が、切り出された上半身画像範囲に含まれているか否かが、第一実施形態と同一の方法で判断される(S81)。
When the motion detection process (S79) ends, the motion
検出された掌領域および顔領域の最大値と最小値とが、すべて画像範囲記憶エリア221に記憶された画像範囲内にあるか否かが判断されると(S81:YES)、S78に戻って会議終了であるか否かが判断される。顔領域および掌領域のいずれかが、画像範囲記憶エリア221に記憶された画像範囲からはみ出していると判断されると(S81:NO)、S71に戻って、処理が繰り返される。 When it is determined whether or not the maximum value and minimum value of the detected palm area and face area are all within the image range stored in the image range storage area 221 (S81: YES), the process returns to S78. It is determined whether the conference is over. If it is determined that either the face region or the palm region is outside the image range stored in the image range storage area 221 (S81: NO), the process returns to S71 and the process is repeated.
S80において、動作検出記憶エリア224に、「0」が記憶されている場合、発言者の動作が検出されなかったと判断され(S80:NO)、会議終了であるか否かが判断される(S82)。ネットワーク2に接続されている端末が、自拠点の端末装置以外に無い場合、会議終了であるとして(S82:YES)、処理を終了する。一方、ネットワーク2に接続されている端末が、自身のほかに1以上ある場合、会議は終了していないとして(S82:NO)、S71の処理に戻る。
In S80, when “0” is stored in the motion
以上説明したように、第二実施形態である端末装置130は、一拠点に複数のユーザがいる場合は、その中から発言者を特定し、発言者の顔画像又は上半身画像を他の端末装置に送信する。よって、発言者がジェスチャーで感情を表現しようとした場合、他拠点にいるユーザは発言者のジェスチャーを確認することができる。また、発言者がジェスチャーを行わない場合、相手ユーザは、発言者の顔の表情を確認できる。よって、異なる拠点にいる会議参加者同士で、良好なコミュニケーションをとることができる。
As described above, when there are a plurality of users at one site, the
なお、図18に示すS85の処理を行うCPU120が本発明の「発言者特定手段」に相当する。図18に示すS85の処理において、撮影画像から人物画像を認識するCPU120が本発明の「人物認識手段」に相当する。図16に示す音声方向検出装置36が、本発明の「音声検出手段」に相当する。
The CPU 120 that performs the process of S85 shown in FIG. 18 corresponds to the “speaker specifying means” of the present invention. In the process of S85 shown in FIG. 18, the CPU 120 that recognizes a person image from a captured image corresponds to the “person recognition unit” of the present invention. The voice
なお、本発明は上記第一、第二実施形態に限定されるものではなく、種々の変更が可能である。上述の実施の形態では、端末装置3において、取得された撮影画像から顔画像又は上半身画像を切り出して、切り出した画像を他の端末装置4に対して送信する画像送信処理が行われていた。また、端末装置4において、他の端末装置3から送信された撮影画像を受信した。しかしながら本発明はこの構成に限定されず、他の構成であってもよい。
The present invention is not limited to the first and second embodiments described above, and various modifications can be made. In the above-described embodiment, the
例えば、テレビ会議全体を制御するMCU(Multipoint Control Unit)がネットワーク2に接続されている場合には、端末装置3、端末装置4、MCUで以下の処理を行っても良い。端末装置3は、MCUに対して撮影画像を送信する処理を行う。MCUは、端末装置3から送信された撮影画像から、上述の方法により顔画像又は上半身画像を切り出して、切り出した画像を端末装置4に対して送信する処理を行う。端末装置4では、MCUから送信された撮影画像を受信し、ディスプレイ28に表示するする処理を行う。なお、説明の便宜上、端末装置3において画像が送信され、端末装置4において画像が受信される場合を例に説明したが、端末装置3、4では、撮影画像をMCUに対して送信する処理と、MCUから送信された画像を受信する画像受信処理との両方が行われる。
For example, when an MCU (Multipoint Control Unit) that controls the entire video conference is connected to the
また、上述した第一、第二実施形態では、説明の便宜上、2つの端末装置3、4を構成とするテレビ会議システムを一例として説明したが、2つ以上の端末装置を構成とするテレビ会議システムにも適用可能である。
In the first and second embodiments described above, for convenience of explanation, a video conference system including two
また、第二実施形態では、会議に参加する複数ユーザの中から発言者を特定する方法として、マイク35に入力される音声の方向を検出して、検出された方向に発言者が存在すると推定する方法を用いた。発言者の特定方法はこれに限定されず、たとえば、カメラの撮影画像から複数のユーザの唇形の変化をそれぞれ検出して、唇形に変化があるユーザを発言者として特定してもよい。
In the second embodiment, as a method for identifying a speaker from a plurality of users participating in the conference, the direction of the voice input to the
そこで、唇形の変化から、発言者を特定する方法について説明する。この方法では、はじめに、カメラ34の撮影画像から、撮影画像の色、幾何学的な形状、濃淡パターン、動きなどがパラメータとして抽出される。次いで、予めHDD31のその他の情報記憶エリア315に記憶された人物画像のパラメータのデータベースが参照されて、抽出された上述の各パラメータと、データベースに記憶されている人物画像のパラメータとのマッチング処理が実行される。そして、データベースに記憶されている人物画像のパラメータと良好に一致する撮影画像の部分が特定される。特定された部分の画像が、人物の画像として特定される。
Therefore, a method for identifying a speaker from a change in lip shape will be described. In this method, first, from the captured image of the
次に、特定された複数の人物の画像から、それぞれ顔領域が検出される。そして、特定された人物画像の輪郭データが抽出され、顔領域の下側半分において、抽出された輪郭データに変化がある場合には、唇形に変化があるとして検出される。なお、顔領域の検出方法、輪郭データの抽出方法は上述のとおりである。そして、唇形に変化がある人物の画像を発言者の画像として特定する。このようにして、複数の会議参加者から発言者を特定することができる。 Next, face areas are respectively detected from the images of a plurality of specified persons. Then, the contour data of the specified person image is extracted, and if there is a change in the extracted contour data in the lower half of the face area, it is detected that there is a change in the lip shape. The face area detection method and the contour data extraction method are as described above. Then, an image of a person whose lip shape is changed is specified as an image of a speaker. In this way, a speaker can be identified from a plurality of conference participants.
また、第一、第二実施形態では、掌及び腕の両方の動きが検出された場合に、ユーザの動作が検出されたものとされたが、掌及び腕の動きの少なくともいずれかの動きが検出された場合に、ユーザの動作が検出されたものとしても良い。具体的には、第一、第二実施形態の動作検出処理(図11参照)では、掌の動きが検出され(S52:YES)、かつ腕の動きが検出された場合に(S54:YES)、ユーザの動作が検出されたものとされた(S55)。しかし、S53及びS54の処理は行われず、掌の動きが検出された場合には(S52:YES)、ユーザの動作が検出されたとし(S55)、掌の動きが検出されなければ(S52:NO)、ユーザの動作が検出されなかったとしてもよい(S56)。S51及びS52の処理は行われず、腕の動きが検出された場合には(S54:YES)、ユーザの動作が検出されたとし(S55)、腕の動きが検出されなければ(S54:NO)、ユーザの動作が検出されなかったとしてもよい(S56)。掌の動きが検出されるか(S52:YES)、又は腕の動きが検出された場合(S54:YES)、ユーザの動作が検出されたものとしてもよい(S55)。 In the first and second embodiments, the user's movement is detected when movement of both the palm and the arm is detected. However, at least one movement of the palm and the arm is detected. If it is detected, it may be that the user's action is detected. Specifically, in the motion detection process (see FIG. 11) of the first and second embodiments, when the movement of the palm is detected (S52: YES) and the movement of the arm is detected (S54: YES). It is assumed that the user's action has been detected (S55). However, the processes of S53 and S54 are not performed, and if the movement of the palm is detected (S52: YES), the user's movement is detected (S55), and the movement of the palm is not detected (S52: NO), the user's action may not be detected (S56). If the process of S51 and S52 is not performed and the movement of the arm is detected (S54: YES), the user's movement is detected (S55), and the movement of the arm is not detected (S54: NO). The user's action may not be detected (S56). If a palm movement is detected (S52: YES) or an arm movement is detected (S54: YES), a user action may be detected (S55).
1 テレビ会議システム
2 ネットワーク
3 端末装置
4 端末装置
20 CPU
23 ビデオコントローラ
25 通信装置
28 ディスプレイ
30 インタフェイス
31 ハードディスクドライブ
34 カメラ
35 マイク
36 音声方向検出装置
221 画像範囲記憶エリア
222 掌動作記憶エリア
223 腕動作記憶エリア
224 動作検出記憶エリア
311 撮影画像データ記憶エリア
312 表示画面データ記憶エリア
1
23
Claims (11)
ユーザを撮影する撮影手段と、
前記撮影手段により撮影された撮影画像から、前記ユーザの掌及び腕の少なくともいずれかの動きが所定量以上ある状態を前記ユーザの動作として検出する動作検出手段と、
前記動作検出手段によって前記動作が検出された場合に、前記撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、
前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、
前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信手段と、
前記他の通信端末装置から送信された前記画像を受信する画像受信手段と、
前記画像受信手段によって前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御手段と
を備えた通信端末装置。 A communication terminal device that communicates with other communication terminal devices connected via a network via images and sounds,
Photographing means for photographing the user;
Motion detection means for detecting, as a user motion, a state in which at least one of the user's palm and arm movements is a predetermined amount or more from a captured image captured by the imaging means;
When the motion is detected by the motion detection means, the first range of the upper body area image including the user's face area, palm area, and arm area is selected from the captured images captured by the imaging means. First image range determining means for determining the image range;
Second image range determining means for determining, as the second image range, an image range of the face area of the user from the captured image when the motion is not detected by the motion detecting means;
An image for transmitting the image of the first image range determined by the first image range determination unit or the image of the second image range determined by the second image range determination unit to the other communication terminal device A transmission means;
Image receiving means for receiving the image transmitted from the other communication terminal device;
An image display control means for displaying the image on a display screen when the image is received by the image receiving means.
前記第一画像範囲決定手段は、
前記鼻位置検出手段によって検出された前記鼻位置が、前記第一画像範囲の水平方向における中心点となるように、前記第一画像範囲を決定することを特徴とする請求項1乃至4のいずれかに記載の通信端末装置。 Further comprising nose position detection means for detecting the nose position of the target user from the captured image,
The first image range determining means includes
5. The first image range is determined such that the nose position detected by the nose position detection unit is a center point in the horizontal direction of the first image range. The communication terminal device according to claim 1.
前記動作検出手段は、前記発言者特定手段によって特定された前記発言者の掌及び腕の少なくともいずれかの動きが前記所定量以上ある状態を前記発言者の動作として検出し、
前記第一画像範囲決定手段は、前記発言者の顔領域と掌領域と腕領域とを含む上半身画像の範囲を前記第一画像範囲として決定し、
前記第二画像範囲決定手段は、前記発言者の前記顔領域を含む顔画像の範囲を前記第二画像範囲として決定することを特徴とする請求項1乃至5のいずれかに記載の通信端末装置。 A speaker identification means for identifying a speaker from a plurality of users is provided.
The motion detection means detects a state where the movement of at least one of the palm and arm of the speaker specified by the speaker specifying means is greater than or equal to the predetermined amount, as the action of the speaker.
The first image range determining means determines an upper body image range including the speaker's face region, palm region, and arm region as the first image range,
The communication terminal apparatus according to claim 1, wherein the second image range determining unit determines a range of a face image including the face area of the speaker as the second image range. .
前記人物認識手段によって認識された前記人物の口形の変化を検出する口形検出手段と
を備え、
前記発言者特定手段は、
前記口形検出手段によって前記口形の変化が所定量以上検出された人物を前記発言者として特定することを特徴とする請求項6に記載の通信端末装置。 Person recognizing means for recognizing a person from the photographed image photographed by the photographing means;
A mouth shape detecting means for detecting a change in the mouth shape of the person recognized by the person recognizing means,
The speaker specifying means includes:
The communication terminal apparatus according to claim 6, wherein a person whose change in mouth shape is detected by a predetermined amount or more by the mouth shape detecting unit is specified as the speaker.
前記発言者特定手段は、
前記音声検出手段により検出された前記方向にいる人物を前記発言者として特定することを特徴とする請求項6又は7に記載の通信端末装置。 A voice detecting means for detecting the voice of the user and detecting the direction of the voice;
The speaker specifying means includes:
8. The communication terminal apparatus according to claim 6, wherein a person in the direction detected by the voice detection unit is specified as the speaker.
前記通信端末装置の撮影手段によって撮影され、前記通信端末装置から送信される撮影画像を受信する撮影画像受信手段と、
前記撮影画像受信手段によって受信された前記撮影画像に基づき、前記ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出手段と、
前記動作検出手段によって前記動作が検出された場合に、前記撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定手段と、
前記動作検出手段によって前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域を含む顔画像の範囲を第二画像範囲として決定する第二画像範囲決定手段と、
前記第一画像範囲決定手段によって決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段によって決定された前記第二画像範囲の画像を、前記通信端末装置に送信する画像送信手段と
を備えた通信制御装置。 A communication control device that is connected to a plurality of communication terminal devices via a network and controls communication performed between the communication terminal devices,
Photographed image receiving means for receiving a photographed image that is photographed by the photographing means of the communication terminal device and transmitted from the communication terminal device;
Based on the captured image received by the captured image receiving means, an action detecting means for detecting a state of movement of at least one of the user's palm and arm as the user's action;
When the motion is detected by the motion detection means, a first image range is determined as an image range of the upper body area including the user's face area, palm area, and arm area from the captured image. One image range determining means;
A second image range determining unit that determines a range of a face image including the face region of the user as a second image range from the captured image when the motion is not detected by the motion detection unit;
Image transmitting means for transmitting the image of the first image range determined by the first image range determining means or the image of the second image range determined by the second image range determining means to the communication terminal device And a communication control device.
ユーザの掌及び腕の少なくともいずれかの動きがある状態を前記ユーザの動作として検出する動作検出ステップと、
前記動作検出ステップにおいて前記動作が検出された場合に、ユーザを撮影する撮影手段によって撮影された撮影画像の中から、前記ユーザの顔領域と掌領域と腕領域とを含む上半身領域の画像の範囲を第一画像範囲として決定する第一画像範囲決定ステップと、
前記動作検出ステップにおいて前記動作が検出されなかった場合に、前記撮影画像の中から、前記ユーザの前記顔領域の画像の範囲を第二画像範囲として決定する第二画像範囲決定ステップと、
前記第一画像範囲決定ステップにおいて決定された前記第一画像範囲の画像、又は前記第二画像範囲決定手段において決定された前記第二画像範囲の画像を、前記他の通信端末装置に送信する画像送信ステップと、
前記他の通信端末装置から送信された前記画像を受信する画像受信ステップと、
前記画像受信ステップにおいて前記画像が受信された場合に、前記画像を表示画面に表示させる画像表示制御ステップと
を備えた通信端末装置の通信制御方法。 A communication control method for a communication terminal device that communicates with another communication terminal device connected via a network via an image and sound,
An operation detecting step of detecting a state in which at least one of the user's palm and arm is in motion as the user's operation;
When the motion is detected in the motion detection step, the range of the upper body region image including the user's face region, palm region, and arm region from among the captured images captured by the capturing unit that captures the user A first image range determination step for determining as a first image range;
A second image range determining step for determining, as a second image range, an image range of the face area of the user from the captured image when the motion is not detected in the motion detection step;
An image for transmitting the image of the first image range determined in the first image range determination step or the image of the second image range determined by the second image range determination means to the other communication terminal device Sending step;
An image receiving step of receiving the image transmitted from the other communication terminal device;
A communication control method for a communication terminal device, comprising: an image display control step for displaying the image on a display screen when the image is received in the image reception step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009086794A JP2010239499A (en) | 2009-03-31 | 2009-03-31 | Communication terminal unit, communication control unit, method of controlling communication of communication terminal unit, and communication control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009086794A JP2010239499A (en) | 2009-03-31 | 2009-03-31 | Communication terminal unit, communication control unit, method of controlling communication of communication terminal unit, and communication control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010239499A true JP2010239499A (en) | 2010-10-21 |
Family
ID=43093427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009086794A Pending JP2010239499A (en) | 2009-03-31 | 2009-03-31 | Communication terminal unit, communication control unit, method of controlling communication of communication terminal unit, and communication control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010239499A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123818A (en) * | 2012-12-20 | 2014-07-03 | Nippon Telegr & Teleph Corp <Ntt> | Viewer image display control apparatus, viewer image display control method, and viewer image display control program |
WO2016159150A1 (en) * | 2015-03-31 | 2016-10-06 | 株式会社エクォス・リサーチ | Pulse wave detection device and pulse wave detection program |
JP2016193022A (en) * | 2015-03-31 | 2016-11-17 | 株式会社エクォス・リサーチ | Pulse wave detection device and pulse wave detection program |
JP2017188878A (en) * | 2016-04-05 | 2017-10-12 | キヤノンマーケティングジャパン株式会社 | Web conference system, web conference server, control method for web conference system, and program |
JP2017204845A (en) * | 2016-05-12 | 2017-11-16 | 富士ゼロックス株式会社 | Apparatus, program and method for replacing video with animation |
WO2018135343A1 (en) | 2017-01-19 | 2018-07-26 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
DE112017006746T5 (en) | 2017-01-06 | 2019-09-19 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM |
US10595732B2 (en) | 2015-03-31 | 2020-03-24 | Equos Research Co., Ltd. | Pulse wave detection device and pulse wave detection program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212327A (en) * | 1995-02-06 | 1996-08-20 | Mitsubishi Electric Corp | Gesture recognition device |
JPH08223551A (en) * | 1995-02-13 | 1996-08-30 | Nec Corp | Video conference system |
JPH1051755A (en) * | 1996-05-30 | 1998-02-20 | Fujitsu Ltd | Screen display controller for video conference terminal equipment |
JP2001028046A (en) * | 1999-07-15 | 2001-01-30 | Sharp Corp | Image recognizing device |
JP2004118314A (en) * | 2002-09-24 | 2004-04-15 | Advanced Telecommunication Research Institute International | Utterer detection system and video conference system using same |
-
2009
- 2009-03-31 JP JP2009086794A patent/JP2010239499A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212327A (en) * | 1995-02-06 | 1996-08-20 | Mitsubishi Electric Corp | Gesture recognition device |
JPH08223551A (en) * | 1995-02-13 | 1996-08-30 | Nec Corp | Video conference system |
JPH1051755A (en) * | 1996-05-30 | 1998-02-20 | Fujitsu Ltd | Screen display controller for video conference terminal equipment |
JP2001028046A (en) * | 1999-07-15 | 2001-01-30 | Sharp Corp | Image recognizing device |
JP2004118314A (en) * | 2002-09-24 | 2004-04-15 | Advanced Telecommunication Research Institute International | Utterer detection system and video conference system using same |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123818A (en) * | 2012-12-20 | 2014-07-03 | Nippon Telegr & Teleph Corp <Ntt> | Viewer image display control apparatus, viewer image display control method, and viewer image display control program |
US10445560B2 (en) | 2015-03-31 | 2019-10-15 | Equos Research Co., Ltd. | Pulse wave detection device and pulse wave detection program |
JP2016193022A (en) * | 2015-03-31 | 2016-11-17 | 株式会社エクォス・リサーチ | Pulse wave detection device and pulse wave detection program |
CN107427233A (en) * | 2015-03-31 | 2017-12-01 | 株式会社爱考斯研究 | Pulse wave detection device and pulse wave detection program |
JPWO2016159150A1 (en) * | 2015-03-31 | 2018-02-22 | 株式会社エクォス・リサーチ | Pulse wave detection device and pulse wave detection program |
WO2016159150A1 (en) * | 2015-03-31 | 2016-10-06 | 株式会社エクォス・リサーチ | Pulse wave detection device and pulse wave detection program |
US10595732B2 (en) | 2015-03-31 | 2020-03-24 | Equos Research Co., Ltd. | Pulse wave detection device and pulse wave detection program |
CN107427233B (en) * | 2015-03-31 | 2020-10-02 | 株式会社爱考斯研究 | Pulse wave detection device and pulse wave detection program |
JP2017188878A (en) * | 2016-04-05 | 2017-10-12 | キヤノンマーケティングジャパン株式会社 | Web conference system, web conference server, control method for web conference system, and program |
JP2017204845A (en) * | 2016-05-12 | 2017-11-16 | 富士ゼロックス株式会社 | Apparatus, program and method for replacing video with animation |
DE112017006746T5 (en) | 2017-01-06 | 2019-09-19 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM |
WO2018135343A1 (en) | 2017-01-19 | 2018-07-26 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
US11386681B2 (en) | 2017-01-19 | 2022-07-12 | Sony Corporation | Information processing apparatus, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010239499A (en) | Communication terminal unit, communication control unit, method of controlling communication of communication terminal unit, and communication control program | |
CN108399349B (en) | Image recognition method and device | |
WO2019080797A1 (en) | Living body detection method, terminal, and storage medium | |
US20230206531A1 (en) | Avatar display device, avatar generating device, and program | |
WO2019052329A1 (en) | Facial recognition method and related product | |
CN108712603B (en) | Image processing method and mobile terminal | |
CN107566749B (en) | Shooting method and mobile terminal | |
US20120027305A1 (en) | Apparatus to provide guide for augmented reality object recognition and method thereof | |
JP5598232B2 (en) | Information processing apparatus, information processing system, and information processing method | |
CN112085647B (en) | Face correction method and electronic equipment | |
WO2022152001A1 (en) | Gesture recognition method and apparatus, electronic device, readable storage medium, and chip | |
EP3975047B1 (en) | Method for determining validness of facial feature, and electronic device | |
CN112446255A (en) | Video image processing method and device | |
EP3072291A1 (en) | Video transmission | |
WO2016165614A1 (en) | Method for expression recognition in instant video and electronic equipment | |
JP2005092657A (en) | Image display device and method | |
US8817125B2 (en) | Gesture recognition using chroma-keying | |
JP2016213674A (en) | Display control system, display control unit, display control method, and program | |
JP2010213133A (en) | Conference terminal device, display control method, and display control program | |
JP2002258682A (en) | Image forming device | |
CN112381749A (en) | Image processing method, image processing device and electronic equipment | |
CN112449098B (en) | Shooting method, device, terminal and storage medium | |
CN110443752B (en) | Image processing method and mobile terminal | |
KR20100041061A (en) | Video telephony method magnifying the speaker's face and terminal using thereof | |
CN111010526A (en) | Interaction method and device in video communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121214 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130917 |