JP2006339869A - Apparatus for integrating video signal and voice signal - Google Patents
Apparatus for integrating video signal and voice signal Download PDFInfo
- Publication number
- JP2006339869A JP2006339869A JP2005160216A JP2005160216A JP2006339869A JP 2006339869 A JP2006339869 A JP 2006339869A JP 2005160216 A JP2005160216 A JP 2005160216A JP 2005160216 A JP2005160216 A JP 2005160216A JP 2006339869 A JP2006339869 A JP 2006339869A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- video
- signal
- person
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、テレビ電話など、空間的に離れた地点から映像信号と音や音声等の音響信号を伝送し、これらの信号を用いて臨場感のある空間を創造する映像信号と音響信号を統合的に制御する装置に関する。 The present invention transmits video signals and sound signals such as sounds and voices from spatially separated points such as videophones, and integrates the video signals and sound signals that create a realistic space using these signals. It relates to the device which controls automatically.
近年、ブロードバンドネットワークの普及により、VoIP技術を利用したテレビ電話
が急速に普及してきている。具体的には、パーソナルコンピュータを利用したテレビ
電話やテレビに接続するタイプのテレビ電話等が浸透し始めてきている。
In recent years, with the spread of broadband networks, videophones using VoIP technology are rapidly spreading. Specifically, videophones using personal computers, videophones connected to televisions, and the like have begun to permeate.
このようなテレビ電話は、画面を見ながら会話するといった利用形態であるため、
ハンズフリー通話となっている。しかしながら、ステレオ通話に対応したエコーキャンセラの実現が難しく、また高価であることから通話音声はモノラルとなっている。このため、送話側と受話側との会話において、1人対1人で会話している限りにおいては、良好な会話が可能であるが、1人対複数人、あるいは複数人対複数人で会話する場合には、受話側では、送話側のいずれの話者が発言しているかが映像と通話音声だけではわかりにくくなる。また、送話側で複数人が同時に発言した場合、それらの音声はモノラルとして受話側へ伝送されるため、受話側では発言内容の了解度が著しく劣化する。
Because such a videophone is a form of use in which you talk while watching the screen,
It is a hands-free call. However, since the echo canceller corresponding to the stereo call is difficult and expensive, the call voice is monaural. For this reason, as long as the conversation between the sending side and the receiving side is a one-to-one conversation, a good conversation is possible, but one-to-multiple, or multiple-to-multiple In the case of conversation, it is difficult for the receiving side to understand which speaker on the transmitting side is speaking only by video and voice. Further, when a plurality of people speak at the transmitting side at the same time, those voices are transmitted as monaural to the receiving side, so that the comprehension of the contents of the speech is significantly deteriorated at the receiving side.
一方、業務用のテレビ電話システムでは、一部でステレオエコーキャンセラの実装
によるステレオ通話に対応し、より臨場感のあるテレビ電話を実現しているものも登場し始めている。通話音声がステレオになると、モノラルと比較し送話側の空間の雰囲気が伝わりやすく、送話側で複数話者が同時に発言しても各話者の発言内容を了解しやすい、などの利点がある。さらに通話音声の帯域を広げることで、より臨場感のあるテレビ電話を実現することが可能となる。
On the other hand, some of the commercial videophone systems that are compatible with stereo calls using a stereo echo canceller have been realized to realize more realistic videophones. When the call voice is stereo, the atmosphere of the sending side is easier to communicate compared to monaural, and even if multiple speakers speak at the same time on the sending side, it is easy to understand the content of each speaker. is there. Furthermore, it is possible to realize a more realistic videophone by expanding the bandwidth of the call voice.
しかしながら、テレビ画面に映し出される映像とスピーカから再生される音声との間にずれが生じやすく、かえって不自然となる場合がある。例えば、映像をズームにした場合、テレビ画面には特定の領域が拡大された映像が表示されるが、スピーカから再生される音声等には変化がなく、受話側では映像と音声との間のずれがさらに大きくなり、かえって不自然な通話感となる。 However, there is a tendency that a gap is easily generated between the video displayed on the television screen and the sound reproduced from the speaker, which may be unnatural. For example, when the video is zoomed, a video in which a specific area is enlarged is displayed on the TV screen, but there is no change in the audio reproduced from the speaker, and the receiver side has a difference between the video and the audio. The gap becomes even larger, which makes the call feel unnatural.
このような不自然な通話感を解消する方法としては、以下の特許文献に記載の方法
が提案されている。この特許文献1では、映像を解析することで、通話相手側がどのような空間で会話しているかを推定し、その推定結果に応じて音響信号を処理するためのパラメータを変更するというものである。例えば、通話相手側が広い部屋で会話しているような場合には、残響などを付加するようなパラメータが選択される、等により臨場感のあるテレビ電話を実現している。
しかしながら、このような処理を行ったとしても、映像と音声がずれるという問題は依然として解消されていない。 However, even if such a process is performed, the problem that the video and the audio are shifted has not been solved.
そこで、本発明は、受話側において、送話側の話者の映像と話者が発した音声や音
とのずれをなくし、送話側の話者が音声や音を発している状況をできるだけ忠実に再現でき、より臨場感のある空間を創造することができる映像信号と音響信号を統合的に制御する装置を提供することを目的とする。
Therefore, the present invention eliminates the difference between the image of the speaker on the transmitting side and the voice or sound emitted by the speaker on the receiver side, and the situation where the speaker on the transmitting side emits sound or sound as much as possible. It is an object of the present invention to provide an apparatus for controlling video signals and audio signals in an integrated manner that can be faithfully reproduced and can create a more realistic space.
本発明に係る映像信号と音響信号の統合装置は、映像信号を取得する映像取得手段と、音響信号を取得する音響取得手段と、該音響取得手段により取得された音響信号および前記映像取得手段により取得された映像信号を送信する送信手段と、該送信手段により送信された前記映像信号および前記音響信号を受信する受信手段と、該受信手段により受信された前記映像信号を表示する映像表示手段と、該受信手段により受信された前記音響信号を制御する音響制御手段と、該音響制御手段により制御された音響信号を出力する音響出力手段と、からなる映像信号と音響信号の統合装置であって、前記映像取得手段により取得された映像信号から該映像信号上の1又は2以上の人物の顔位置を検出する顔位置検出手段と、該顔位置検出手段によって検出された前記各人物の顔位置および前記映像取得手段の映像取得条件に基づいて該各人物の存在方向を特定する人物方向特定手段とを備え、前記音響取得手段は、前記人物特定手段により特定された前記各人物の存在方向からの音響信号をそれぞれ取得し、前記音響制御手段は、前記表示手段に表示される映像信号上の前記各人物の顔位置付近に該各人物に対応する前記各音響信号を結像することを特徴とする。 The video signal and sound signal integration apparatus according to the present invention includes a video acquisition unit that acquires a video signal, a sound acquisition unit that acquires a sound signal, the acoustic signal acquired by the sound acquisition unit, and the video acquisition unit. Transmitting means for transmitting the acquired video signal; receiving means for receiving the video signal and the acoustic signal transmitted by the transmitting means; and video display means for displaying the video signal received by the receiving means; An apparatus for integrating a video signal and an acoustic signal, comprising: an acoustic control unit that controls the acoustic signal received by the receiving unit; and an acoustic output unit that outputs the acoustic signal controlled by the acoustic control unit. A face position detecting means for detecting the face position of one or more persons on the video signal from the video signal acquired by the video acquiring means, and the face position detecting means. Person direction specifying means for specifying the presence direction of each person based on the face position of each person detected in the above and the video acquisition condition of the video acquisition means, and the sound acquisition means is provided by the person specifying means. Acquire acoustic signals from the identified direction of each person, and the acoustic control means corresponds to each person near the face position of each person on the video signal displayed on the display means. Each acoustic signal is imaged.
また、本発明に係る映像信号と音響信号の統合装置は、映像信号を取得する映像取得手段と、音響信号を取得する音響取得手段と、該音響取得手段により取得された音響信号および前記映像取得手段により取得された映像信号を送信する送信手段と、該送信手段により送信された前記映像信号および前記音響信号を受信する受信手段と、該受信手段により受信された前記映像信号を表示する映像表示手段と、該受信手段により受信された前記音響信号を制御する音響制御手段と、該音響制御手段により制御された音響信号を出力する音響出力手段と、からなる映像信号と音響信号の統合装置であって、前記映像取得手段により取得された映像信号から該映像信号上の1又は2以上の人物の顔位置を検出する顔位置検出手段と、該顔位置検出手段によって検出された前記各人物の顔位置および前記映像取得手段の映像取得条件に基づいて該各人物の存在方向を特定する人物方向特定手段とを備え、前記音響取得手段は、全方位からの音響信号を取得し、前記音響制御手段は、該全方位からの音響信号から、前記人物特定手段により特定された前記各人物の存在方向に関する情報に基づいて、該各人物の存在方向からの音響信号をそれぞれ生成し、前記表示手段に表示される映像信号上の該各人物の顔位置付近に該各人物に対応する前記生成された各音響信号を結像することを特徴とする。 The video signal and sound signal integration apparatus according to the present invention includes a video acquisition unit that acquires a video signal, a sound acquisition unit that acquires a sound signal, the sound signal acquired by the sound acquisition unit, and the video acquisition. Transmitting means for transmitting the video signal acquired by the means, receiving means for receiving the video signal and the acoustic signal transmitted by the transmitting means, and video display for displaying the video signal received by the receiving means A video signal and sound signal integrating device comprising: a sound control means for controlling the sound signal received by the receiving means; and a sound output means for outputting the sound signal controlled by the sound control means. A face position detecting means for detecting a face position of one or more persons on the video signal from the video signal acquired by the video acquiring means, and the face position detecting hand And a person direction specifying means for specifying the presence direction of each person based on the face position of each person detected by the image acquisition condition and the image acquisition condition of the image acquisition means, and the sound acquisition means includes sound from all directions. The sound control means obtains a sound signal from the direction of existence of each person based on information about the direction of existence of each person specified by the person specifying means from the sound signals from all directions. Are generated, and each of the generated acoustic signals corresponding to each person is imaged in the vicinity of the face position of each person on the video signal displayed on the display means.
これらの発明によると、表示装置に表示されている話者が、その場で実際にしゃべっているような臨場感あふれる空間を創造することができる。 According to these inventions, it is possible to create a space full of realism that a speaker displayed on a display device is actually speaking on the spot.
また、本発明に係る映像信号と音響信号の統合装置では、映像取得手段の映像取得条件は、映像取得手段のズーム倍率を含むことを特徴とする。 In the video signal and audio signal integration apparatus according to the present invention, the video acquisition condition of the video acquisition unit includes a zoom magnification of the video acquisition unit.
また、本発明に係る映像信号と音響信号の統合装置では、映像取得手段の映像取得条件は、前記映像取得手段の向いている方向情報を含むことを特徴とする。 In the video signal and audio signal integration apparatus according to the present invention, the video acquisition condition of the video acquisition means includes direction information that the video acquisition means is directed to.
また、本発明に係る映像信号と音響信号の統合装置では、音響取得手段は、映像取得条件のうちのズーム倍率に応じて取得する音響信号の音量レベルを増減させることを特徴とする。 In the video signal and sound signal integration device according to the present invention, the sound acquisition means increases or decreases the volume level of the sound signal acquired according to the zoom magnification of the image acquisition conditions.
また、本発明に係る映像信号と音響信号の統合装置では、音響制御手段は、前記映像取得条件のうちの前記ズーム倍率に応じて前記音響出力手段が出力する音響信号の音量レベルを増減させることを特徴とする。 Further, in the video signal and audio signal integration device according to the present invention, the audio control means increases or decreases the volume level of the audio signal output by the audio output means according to the zoom magnification of the video acquisition conditions. It is characterized by.
上記2つの発明に係る映像信号と音響信号の統合装置によると、映像取得手段のズーム倍率を増減することにより、映像表示手段に表示される人物等のサイズも増減し、これに応じて音響出力手段により出力される当該人物の音響信号の音量レベルも増減する。従って、より臨場感のある空間が創造されることとなる。 According to the video signal and sound signal integration device according to the above two inventions, by increasing / decreasing the zoom magnification of the video acquisition means, the size of the person etc. displayed on the video display means is also increased / decreased, and the sound output is accordingly performed The volume level of the person's sound signal output by the means is also increased or decreased. Therefore, a more realistic space will be created.
本発明によれば、受話側において、送話側の話者の映像と話者が発した音声や音
とのずれをなくし、送話側の話者が音声や音を発している状況をできるだけ忠実に再現でき、より臨場感のある空間を創造することができる映像信号と音響信号を統合的に制御する装置を提供することができる。
According to the present invention, the receiver side eliminates the difference between the image of the speaker on the transmitter side and the voice or sound emitted by the speaker, and the situation where the speaker on the transmitter side emits voice or sound can be as much as possible. It is possible to provide an apparatus for integrated control of video and audio signals that can be faithfully reproduced and can create a more realistic space.
本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。 The significance or effect of the present invention will become more apparent from the following description of embodiments.
ただし、以下の実施の形態は、あくまでも、本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。 However, the following embodiment is merely one embodiment of the present invention, and the meaning of the term of the present invention or each constituent element is not limited to that described in the following embodiment. Absent.
以下、本発明をハンズフリーテレビ電話装置に実施した形態につき、図面に沿って説明する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention implemented in a hands-free videophone device will be described below with reference to the drawings.
図1は、本発明の実施形態の一つであるハンズフリーテレビ電話をテレビ会議に利用する場合の構成の概略を示す図である。 FIG. 1 is a diagram showing an outline of a configuration when a hands-free videophone which is one embodiment of the present invention is used for a video conference.
図1において、送話側のハンズフリーテレビ電話装置(以下、送話側端末と記載する。)の前で、発話者が発話等により音声や音(以下、音情報と記載する。)を発すると、発話者の映像および発話者が発した音情報が直接あるいはネットワークを経由して受話側のハンズフリーテレビ電話装置(以下、受話側端末と記載する。)に送信される。 In FIG. 1, in front of a hands-free videophone device on the transmission side (hereinafter referred to as a transmission-side terminal), a speaker utters voice or sound (hereinafter referred to as sound information) by utterance or the like. Then, the video of the speaker and the sound information uttered by the speaker are transmitted directly or via a network to a hands-free videophone device (hereinafter referred to as a receiver terminal) on the receiver side.
受話側端末は、送話側の発話者の映像が表示装置の画面上に再生するとともに発話者が発した音情報を画面上の発話者の顔領域付近から出力する。また、送話側の映像がズームアップで表示された場合には、出力する音情報の音量レベルも増加させる。このような処理を行うことにより、受話側端末は、あたかも画面上で送話側の発話者が実際にしゃべっているように感じさせる臨場感あふれる空間を創造することができる。逆に、送話側においても、受話側と同様な臨場感あふれる空間が創造される。これにより、会話が行い易く、より臨場感のあるテレビ会議を行うことができる。 The receiver terminal reproduces the video of the speaker on the transmitter side on the screen of the display device and outputs sound information emitted by the speaker from the vicinity of the face area of the speaker on the screen. Further, when the video on the transmission side is displayed with zoom-in, the volume level of the sound information to be output is also increased. By performing such processing, the receiving terminal can create a space full of realism that makes it feel as if the transmitting speaker is actually speaking on the screen. Conversely, on the transmitting side, a space full of realism similar to the receiving side is created. Thereby, it is easy to conduct a conversation and a more realistic video conference can be performed.
図2は、本発明の実施形態の一つであるハンズフリーテレビ電話装置の構成を示す図である。 FIG. 2 is a diagram showing a configuration of a hands-free videophone device which is one embodiment of the present invention.
図2において、ハンズフリーテレビ電話装置100は、映像情報および音情報を受話側端末に送信する送話処理部101、受話側端末からの映像信号および音情報を再生する受話処理部102から構成される。 In FIG. 2, a hands-free videophone device 100 includes a transmission processing unit 101 that transmits video information and sound information to a receiving terminal, and a receiving processing unit 102 that reproduces video signals and sound information from the receiving terminal. The
送話処理部101は、映像情報の取得および送信ならびにカメラのズーム倍率やカメラが向いている方向といったカメラ情報の送信を行うカメラ103、音情報の取得および送信を行う受音部104、受音部104がいずれの方向の音情報をどの程度の音量レベルで取得するかを決定する受音方向決定部105から構成される。受音部104は、例えば、指向性の高い複数の小型マイクロフォンが配列されて構成され、所望の方向の音情報を所望の音量レベルで取得することができる。
The transmission processing unit 101 includes acquisition and transmission of video information, a
受話処理部102は、送話側端末から送信される音情報を出力するスピーカ106、送話側端末から送信される映像情報を表示する表示装置107、送話側端末から送信される映像情報から人物の顔領域を検出する顔領域検出部108、顔領域検出部108により検出された顔領域の位置情報に基づいて、スピーカ108から出力される音情報を表示装置107に表示される人物の顔領域付近から出力されているように制御する受音信号再生部109から構成される。
The reception processing unit 102 includes a
図3は、ハンズフリーテレビ電話装置100を2台用いてテレビ会議を行う場合の構成およびデータの流れを示す図である。 FIG. 3 is a diagram showing a configuration and a data flow when a video conference is performed using two hands-free video phone devices 100.
図3において、送話側端末のカメラ103は、送話側においてテレビ会議に出席している人物を含む会議風景を撮影し、撮影した映像情報を受話側端末の顔領域検出部108および表示装置107へネットワークを経由して送信する。また、カメラ103は、カメラのズーム倍率やカメラが向いている方向といったカメラ情報を後述する受音方向決定部105へ送信する。
In FIG. 3, the
受話側端末の顔領域検出部108は、カメラ103より送信された映像情報から、人物の顔領域を検出し、検出した人物の顔領域の位置情報を算出し、受音信号再生部109及び送話端末側の受音方向決定部105へ送信する。
The face
図4は、顔領域検出部108が算出する顔領域位置情報を示す図である。
FIG. 4 is a diagram showing face area position information calculated by the face
顔領域検出部108は、図4に示すように、カメラ103から所定サイズの映像情報を取得すると、該映像情報の左下隅を原点とし、垂直方向および水平方向に最小値0°、最大値180°の座標系を設定し、検出した顔領域の中心座標を顔領域位置情報として算出する。図4では、顔領域検出部108は、映像情報から2名の人物の顔領域を検出し、各人物の顔領域位置情報として(Θpx1° , Θpy1° ), ( Θpx2° , Θpy2° )
を算出する。
As shown in FIG. 4, when the face
Is calculated.
尚、映像情報から人物の顔領域の検出については、例えば特許第3490910号「顔領域検出装置」において開示されているような方法を利用することができる。 For detecting a human face area from video information, for example, a method disclosed in Japanese Patent No. 3490910 “Face Area Detection Device” can be used.
受音方向決定部105は、顔領域検出部108より送信された顔領域位置情報およびカメラ103より送信されたカメラ情報に基づいて送話側におけるテレビ会議出席者が存在する方向を特定し、受音部104に特定された方向の音情報を取得させる。
送話側におけるテレビ会議出席者が複数人存在する場合には、受音方向決定部105は各出席者の存在方向を特定し、受音部104に特定した各出席者の存在方向毎の音情報を取得させる。
The sound receiving
When there are a plurality of TV conference attendees on the transmission side, the sound reception
受音方向決定部105は、顔領域検出部108より送信される顔領域位置情報のうち、特に水平方向の位置情報に基づいて受音方向を特定するが、受音方向を特定するためには、カメラ情報、例えば、カメラのズーム倍率やカメラの向いている方向を考慮する必要がある。
The sound receiving
図5は、顔領域検出部108により算出された人物の顔領域位置情報が同じであっても、カメラ103のズーム倍率に応じて人物の存在方向が変化することを示す図である。
FIG. 5 is a diagram illustrating that the presence direction of the person changes according to the zoom magnification of the
図5に示す如く、映像情報から顔領域検出部108が検出した人物の顔領域の水平位置が、映像データサイズの横の長さのa:bの位置であった場合であっても、カメラ103がズームアップしている場合は、人物の存在方向がカメラ103の正面方向を基準としてΘz°と算出されたとしても、カメラがワイド撮影している場合には、人物の存在方向はΘw°と算出され、この場合Θz°>Θw°となることは明らかである。即ち、カメラ103がズームアップで撮影している場合とワイドで撮影している場合とで人物の存在方向が相違することとなる。
As shown in FIG. 5, even if the horizontal position of the face area of the person detected by the face
したがって、映像情報から検出した人物の顔領域位置情報から人物の存在方向を特定する場合には、該顔領域位置情報をカメラ103のズーム倍率に応じて補正する必要がある。
Therefore, when the person's presence direction is specified from the face area position information of the person detected from the video information, it is necessary to correct the face area position information according to the zoom magnification of the
図6は、受音方向決定部105が、顔領域検出部108より送信される顔領域位置情報から、カメラ103のズーム倍率およびカメラ103の向きを考慮して受音方向を特定するまでの流れを示す図である。
FIG. 6 shows a flow from when the sound receiving
図6において、顔領域検出部108から送信された2人の人物の顔領域位置情報のうち、水平方向の位置情報がそれぞれΘpx1°, Θpx2°であったとすると、カメラ103のズーム倍率がλの場合、受音方向決定部105は、第1の補正後の受音方向Θc1 °, Θc2°を、次式(1)、(2)により算出する。
In FIG. 6, if the position information in the horizontal direction is Θpx1 ° and Θpx2 ° among the face region position information of two persons transmitted from the face
Θc1=Θpx1・f(λ)・・・(1)
Θc2=Θpx2・f(λ)・・・(2)
但し、f(λ)はカメラ103のズーム倍率λを入力とした場合の補正関数
次に、カメラ103が向いている方向が、図6に示す如く、例えば複数のマイクロフォンから構成される受音部104の正面方向を基準(0°)としてΘd°である場合、受音方向決定部105は、第2補正後の受音方向Θt1°、Θt2°を次式(3)、(4)により算出する。
Θc1 = Θpx1 · f (λ) (1)
Θc2 = Θpx2 · f (λ) (2)
However, f (λ) is a correction function when the zoom magnification λ of the
Θt1=Θc1+Θd ・・・(3)
Θt2=Θc2+Θd ・・・(4)
受音方向決定部105は、第2補正後の受音方向Θt1°、Θt2°を検出された各領域に対応する人物の存在方向として決定し、受音部104に該方向からの音情報を取得させる。
Θt1 = Θc1 + Θd (3)
Θt2 = Θc2 + Θd (4)
The sound receiving
また、受音方向決定部105は、カメラのズーム倍率に応じて、取得する音情報の音量レベルを決定し、該音量レベルで受音部104に音情報を取得させる。
The sound receiving
受音部104は、受音方向決定部105により特定されたそれぞれの方向から送話側の各テレビ会議出席者の音情報を受音方向決定部105により決定された音量レベルで取得し、受話側端末の受音信号再生部109へ送信する。
The sound receiving unit 104 acquires the sound information of each video conference attendee on the transmission side from each direction specified by the sound receiving
受音信号再生部109は、顔領域検出部108により送信された顔領域位置情報および受音部104より送信された音情報に基づいて、表示装置107に表示される送話側の各出席者の顔領域付近から各出席者に対応する音情報が発せられているように音情報を制御し、スピーカ106から該音情報を出力する。
Based on the face area position information transmitted from the face
図7は、受音信号再生部109による音情報の出力方法を示す図である。
FIG. 7 is a diagram showing a method for outputting sound information by the sound reception
受音信号再生部109は、受信した音情報を制御する信号処理部109a、該音情報に畳み込むための複数の伝達関数が格納された伝達関数データベース109bを備えている。伝達関数データベース109bには、受音した音情報の結像位置を制御するための複数の伝達関数(例えば、伝達関数1、伝達関数2、伝達関数3、・・・)が格納されている。図7に示すように表示装置107の画面が予め所定の領域毎(図7の1、2、3・・・)に分割され、各伝達関数は、分割された各領域に対応している。信号処理部109aは、受信した音情報に各伝達関数を畳み込むことにより、音情報を各伝達関数が対応する領域に結像することができる。
The received sound
信号処理部109aは、受信した顔領域位置情報より、受音した音情報を結像すべき領域を判断し、該領域に対応する伝達関数を選択する。次に、受音した音情報に選択した伝達関数を畳み込み、スピーカ106から再生する。これにより、表示装置107に表示される送話側の各出席者の顔領域付近に各出席者の音情報を結像することができる。
The
この結果、受話側のテレビ会議参加者は、送話側の各出席者が実際に受話側端末の表示装置107からしゃべっているように感じることができる。 As a result, the receiving-side video conference participant can feel as if each transmitting-side attendee is actually speaking from the display device 107 of the receiving-side terminal.
尚、人間は左右で一対の耳を持っているため、人間にとっては、水平方向(左右方向)について、音情報がいずれの向から出力されているかを聞き分けることは比較的容易であるが、垂直方向(上下方向)について、音情報がいずれの方向から出力されているかを聞き分けることは容易ではない。 Since humans have a pair of left and right ears, it is relatively easy for humans to distinguish which direction the sound information is output in the horizontal direction (left and right direction). It is not easy to tell from which direction the sound information is output in the direction (vertical direction).
従って、受音信号再生部109に、顔領域検出部108により送信された顔領域位置情報のうちの水平位置情報に基づいて、表示装置107上の各出席者の顔領域の水平位置を特定し、該水平位置付近から各出席者に対応する音情報が発せられているように受音部104より送信された音情報を制御することとしてもよい。この場合、顔領域の垂直方向の位置については予め適当な位置に固定しておく。
Therefore, the horizontal position of each attendee's face area on the display device 107 is specified based on the horizontal position information of the face area position information transmitted from the face
具体的には、図8に示す如く、受音信号再生部109の伝達関数データベース109bには、受音した音情報の結像位置を制御するための複数の伝達関数(例えば、伝達関数1、伝達関数2、伝達関数3、・・・)が格納され、図8に示すように表示装置107の画面が予め水平方向の所定の領域毎(図8の1、2、3・・・)に分割され、各伝達関数は、分割された各領域に対応している。この場合、信号処理部109aは、受信した音情報に各伝達関数を畳み込むことにより、各伝達関数が対応する領域、即ち顔領域の水平位置付近に音情報を結像することができる。
Specifically, as shown in FIG. 8, the transfer function database 109b of the received sound
上記実施形態では、図2又は図3に示すように、2つのスピーカ106を用いて音情報を制御しているが、スピーカ106に替えて、図9に示すように、フラットパネルスピーカ110を採用し、表示装置109の背面に配置してもよい。このような構成によると表示装置107に表示される送話側の各出席者の顔領域付近から実際に音情報を出力することができるため、より臨場感のある空間を創造することができる。
In the above embodiment, sound information is controlled using two
さらに、図2に示すハンズフリーテレビ電話装置100の構成のうち、送話処理部101の受音方向決定部105を無くし、図10に示すような構成としてもよい。
Further, in the configuration of the hands-free videophone device 100 shown in FIG. 2, the sound receiving
このような構成では、受音部104は、例えば指向性のほとんどない、いわゆる、
無指向性マイクロフォンが複数配列されたマイクロフォンアレイで構成されており、各マイクロフォンは全範囲の音情報を取得する。当該構成のハンズフリーテレビ電話装置100を2台用いてテレビ会議を行う場合、図11に示すごとく、送話端末側の受音部104は、各マイクロフォンで取得した音情報を受話側端末の受音信号再生部109へ送信する。送話側端末のカメラ103は、カメラ情報を受話側端末の受音信号再生部109へ送信する。
In such a configuration, the sound receiving unit 104 has, for example, almost no directivity, so-called
The microphone array includes a plurality of omnidirectional microphones, and each microphone acquires sound information of the entire range. When a video conference is performed using two hands-free videophone devices 100 having the above configuration, as shown in FIG. 11, the sound receiving unit 104 on the transmitting terminal side receives the sound information acquired by each microphone from the receiving terminal. It transmits to the sound
受話側端末の受音信号再生部109は、顔領域検出部108より送信された顔領
域位置情報およびカメラ103より送信されたカメラ情報に基づいて送話側におけるテレビ会議出席者が存在する方向を特定し、受音部104より送信された各マイクロフォン毎の音情報から特定された方向に対応する音情報を抽出あるいは生成する。
The sound reception
尚、受音信号再生部109による存在方向の特定の仕方は、上記した図2または図3の受音方向決定部105による存在方向の特定方法と同様である。
The method of specifying the direction of presence by the sound reception
受音信号再生部109は、顔領域検出部108により送信された顔領域位置情報に基づいて、抽出あるいは生成した音情報を表示装置107に表示される送話側の各出席者の顔領域付近から各出席者に対応する音情報が発せられているように音情報を制御し、スピーカ106から該音情報を出力する。
The received sound
本発明の実施形態に係る各部構成は上述の実施形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能である。例えば、上述の実施形態では、受音方向決定部105は送話処理部101に備えられ、顔領域検出部106および受音信号再生部107は受話処理部102に備えれた構成としているが、これらを送話処理部101および受話処理部102のどちらに備えるかは適宜選択可能である。
Each part structure which concerns on embodiment of this invention is not restricted to the above-mentioned embodiment, A various deformation | transformation is possible within the technical scope as described in a claim. For example, in the above-described embodiment, the sound reception
さらに、上述した本発明に係る実施形態におけるハンズフリーテレビ電話装置10
0を構成する受音方向決定部105、顔領域検出部108および受音信号再生部109は、ハードウェア的には、任意のコンピュータのCPU、メモリ、その他のLSIなどで実現でき、ソフトウェア的には、メモリにロードされたプログラムなどによっても実現できる。言うまでもなく、ハードウェアとソフトウェアを組み合わせて実現することもできる。
Furthermore, the hands-free videophone 10 in the embodiment according to the present invention described above.
The sound receiving
以上のように、上述のハンズフリーテレビ電話装置100は、顔領域検出部108が、カメラ103によって撮影された送話側会議風景の映像情報から会議に参加している人物の顔領域位置情報を算出する。
As described above, in the above-described hands-free videophone device 100, the face
ハンズフリーテレビ電話装置100が図2に示す構成を取る場合は、受音方向決定部105が、該顔領域位置情報、カメラのズーム倍率およびカメラの向きに基づいて送話側の会議参加者の存在方向を特定し、受音部104が該方向からの音情報を取得する。このとき、カメラ103のズーム倍率に応じて音量レベルを増減させて音情報を取得する。受音信号再生部109は、顔領域位置情報に基づいて、表示装置107に表示される送話側会議参加者の顔位置付近に取得した音情報を結像させる。
When the hands-free videophone device 100 has the configuration shown in FIG. 2, the sound receiving
ハンズフリーテレビ電話装置100が図10に示す構成を取る場合は、受音部104は複数の無指向性マイクロフォンにより全方位の方向から音情報を取得する。受音信号再生部109は前記顔領域位置情報、カメラ103のズーム倍率およびカメラ103の向きに基づいて、送話側の会議参加者の存在方向を特定する。次に、受音信号再生部109は、取得した音情報を加工し、各会議参加者の存在方向からの音情報を生成する。次に、受音信号再生部109は、表示装置107に表示される各送話側会議出席者の顔位置付近に、各参加者に対応する生成した音情報を結像する。この際、カメラ103のズーム倍率に応じて音量レベルを増減させて音情報を結像する。
When the hands-free videophone device 100 has the configuration shown in FIG. 10, the sound receiving unit 104 acquires sound information from all directions by a plurality of omnidirectional microphones. The sound reception
これにより、受話側の会議出席者は、送話側の会議出席者があたかも受話側の表示装置から音情報を発していると感じることができる。即ち、ハンズフリーテレビ電話装置によると、受話側において、送話側の会議参加者が音声や音を発している状況をできるだけ忠実に再現でき、より臨場感溢れる空間を創造することができる。 Thereby, the meeting attendee on the receiving side can feel that the meeting attendee on the sending side emits sound information from the display device on the receiving side. That is, according to the hands-free videophone device, on the receiving side, the situation where the conference participant on the transmitting side is producing voice and sound can be reproduced as faithfully as possible, and a more realistic space can be created.
100 ハンズフリーテレビ電話装置
101 送話処理部
102 受話処理部
103 カメラ
104 受音部
105 受音方向決定部
106 スピーカ
107 表示装置
108 顔領域検出部
109 受音信号再生部
DESCRIPTION OF SYMBOLS 100 Hands-free video telephone apparatus 101 Transmission processing part 102
DESCRIPTION OF SYMBOLS 104
Claims (6)
音響信号を取得する音響取得手段と、
該音響取得手段により取得された音響信号および前記映像取得手段により取得された映像信号を送信する送信手段と、
該送信手段により送信された前記映像信号および前記音響信号を受信する受信手段と、
該受信手段により受信された前記映像信号を表示する映像表示手段と、
該受信手段により受信された前記音響信号を制御する音響制御手段と、
該音響制御手段により制御された音響信号を出力する音響出力手段と、
からなる映像信号と音響信号の統合装置であって、
前記映像取得手段により取得された映像信号から該映像信号上の1又は2以上の人物の顔位置を検出する顔位置検出手段と、
該顔位置検出手段によって検出された前記各人物の顔位置および前記映像取得手段の映像取得条件に基づいて該各人物の存在方向を特定する人物方向特定手段とを備え、
前記音響取得手段は、前記人物特定手段により特定された前記各人物の存在方向からの音響信号をそれぞれ取得し、
前記音響制御手段は、前記表示手段に表示される映像信号上の前記各人物の顔位置付近に該各人物に対応する前記各音響信号を結像することを特徴とする映像信号と音響信号の統合装置。 Video acquisition means for acquiring a video signal;
Sound acquisition means for acquiring an acoustic signal;
Transmitting means for transmitting the audio signal acquired by the audio acquisition means and the video signal acquired by the video acquisition means;
Receiving means for receiving the video signal and the audio signal transmitted by the transmitting means;
Video display means for displaying the video signal received by the receiving means;
Acoustic control means for controlling the acoustic signal received by the receiving means;
Acoustic output means for outputting an acoustic signal controlled by the acoustic control means;
A video signal and audio signal integration device comprising:
Face position detection means for detecting the face position of one or more persons on the video signal from the video signal acquired by the video acquisition means;
A person direction specifying means for specifying the presence direction of each person based on the face position of each person detected by the face position detection means and the image acquisition condition of the image acquisition means;
The acoustic acquisition means acquires an acoustic signal from the direction of existence of each person specified by the person specifying means,
The sound control means images each sound signal corresponding to each person near the face position of each person on the image signal displayed on the display means. Integrated device.
音響信号を取得する音響取得手段と、
該音響取得手段により取得された音響信号および前記映像取得手段により取得された映像信号を送信する送信手段と、
該送信手段により送信された前記映像信号および前記音響信号を受信する受信手段と、
該受信手段により受信された前記映像信号を表示する映像表示手段と、
該受信手段により受信された前記音響信号を制御する音響制御手段と、
該音響制御手段により制御された音響信号を出力する音響出力手段と、
からなる映像信号と音響信号の統合装置であって、
前記映像取得手段により取得された映像信号から該映像信号上の1又は2以上の人物の顔位置を検出する顔位置検出手段と、
該顔位置検出手段によって検出された前記各人物の顔位置および前記映像取得手段の映像取得条件に基づいて該各人物の存在方向を特定する人物方向特定手段とを備え、
前記音響取得手段は、全方位からの音響信号を取得し、
前記音響制御手段は、該全方位からの音響信号から、前記人物特定手段により特定された前記各人物の存在方向に関する情報に基づいて、該各人物の存在方向からの音響信号をそれぞれ生成し、前記表示手段に表示される映像信号上の該各人物の顔位置付近に該各人物に対応する前記生成された各音響信号を結像することを特徴とする映像信号と音響信号の統合装置。 Video acquisition means for acquiring a video signal;
Sound acquisition means for acquiring an acoustic signal;
Transmitting means for transmitting the audio signal acquired by the audio acquisition means and the video signal acquired by the video acquisition means;
Receiving means for receiving the video signal and the audio signal transmitted by the transmitting means;
Video display means for displaying the video signal received by the receiving means;
Acoustic control means for controlling the acoustic signal received by the receiving means;
Acoustic output means for outputting an acoustic signal controlled by the acoustic control means;
A video signal and audio signal integration device comprising:
Face position detection means for detecting the face position of one or more persons on the video signal from the video signal acquired by the video acquisition means;
A person direction specifying means for specifying the presence direction of each person based on the face position of each person detected by the face position detection means and the image acquisition condition of the image acquisition means;
The sound acquisition means acquires sound signals from all directions,
The acoustic control unit generates an acoustic signal from the direction of existence of each person based on information on the direction of existence of each person identified by the person identification unit from acoustic signals from all directions, An apparatus for integrating a video signal and an acoustic signal, wherein the generated acoustic signal corresponding to each person is imaged in the vicinity of the face position of each person on the video signal displayed on the display means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005160216A JP2006339869A (en) | 2005-05-31 | 2005-05-31 | Apparatus for integrating video signal and voice signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005160216A JP2006339869A (en) | 2005-05-31 | 2005-05-31 | Apparatus for integrating video signal and voice signal |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006339869A true JP2006339869A (en) | 2006-12-14 |
Family
ID=37560051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005160216A Pending JP2006339869A (en) | 2005-05-31 | 2005-05-31 | Apparatus for integrating video signal and voice signal |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006339869A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009060220A (en) * | 2007-08-30 | 2009-03-19 | Konica Minolta Holdings Inc | Communication system and communication program |
US8897454B2 (en) | 2008-11-13 | 2014-11-25 | Samsung Electronics Co., Ltd. | Sound zooming apparatus and method synchronized with moving picture zooming function |
CN112351358A (en) * | 2020-11-03 | 2021-02-09 | 浙江大学 | 360-degree free three-dimensional type three-dimensional display sound box based on face detection |
WO2023100594A1 (en) * | 2021-12-03 | 2023-06-08 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
-
2005
- 2005-05-31 JP JP2005160216A patent/JP2006339869A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009060220A (en) * | 2007-08-30 | 2009-03-19 | Konica Minolta Holdings Inc | Communication system and communication program |
US8897454B2 (en) | 2008-11-13 | 2014-11-25 | Samsung Electronics Co., Ltd. | Sound zooming apparatus and method synchronized with moving picture zooming function |
CN112351358A (en) * | 2020-11-03 | 2021-02-09 | 浙江大学 | 360-degree free three-dimensional type three-dimensional display sound box based on face detection |
CN112351358B (en) * | 2020-11-03 | 2022-03-25 | 浙江大学 | 360-degree free three-dimensional type three-dimensional display sound box based on face detection |
WO2023100594A1 (en) * | 2021-12-03 | 2023-06-08 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230216965A1 (en) | Audio Conferencing Using a Distributed Array of Smartphones | |
US9179098B2 (en) | Video conferencing | |
JP4482330B2 (en) | System and method for providing recognition of a remote person in a room during a video conference | |
US10447970B1 (en) | Stereoscopic audio to visual sound stage matching in a teleconference | |
EP2352290B1 (en) | Method and apparatus for matching audio and video signals during a videoconference | |
EP2323425A1 (en) | Method and device for generating, playing audio signals, and processing system for audio signals | |
US20050280701A1 (en) | Method and system for associating positional audio to positional video | |
US8390665B2 (en) | Apparatus, system and method for video call | |
US7177413B2 (en) | Head position based telephone conference system and associated method | |
JP6149433B2 (en) | Video conference device, video conference device control method, and program | |
US11451593B2 (en) | Persistent co-presence group videoconferencing system | |
JP2006254064A (en) | Remote conference system, sound image position allocating method, and sound quality setting method | |
JP5120020B2 (en) | Audio communication system with image, audio communication method with image, and program | |
JP2006339869A (en) | Apparatus for integrating video signal and voice signal | |
JP7095356B2 (en) | Communication terminal and conference system | |
JP2007251355A (en) | Relaying apparatus for interactive system, interactive system, and interactive method | |
JP2017168903A (en) | Information processing apparatus, conference system, and method for controlling information processing apparatus | |
JP2010288114A (en) | Telephone conference device, and telephone conference system using the same | |
JP2009065490A (en) | Video conference apparatus | |
JP2005110103A (en) | Voice normalizing method in video conference | |
US20220303149A1 (en) | Conferencing session facilitation systems and methods using virtual assistant systems and artificial intelligence algorithms | |
JP2010028299A (en) | Conference photographed image processing method, conference device, and the like | |
JP4768578B2 (en) | Video conference system and control method in video conference system | |
JP2017158134A (en) | Information processing apparatus, conference system, and method for controlling information processing apparatus | |
WO2011158493A1 (en) | Voice communication system, voice communication method and voice communication device |