JP2009060220A - Communication system and communication program - Google Patents
Communication system and communication program Download PDFInfo
- Publication number
- JP2009060220A JP2009060220A JP2007223838A JP2007223838A JP2009060220A JP 2009060220 A JP2009060220 A JP 2009060220A JP 2007223838 A JP2007223838 A JP 2007223838A JP 2007223838 A JP2007223838 A JP 2007223838A JP 2009060220 A JP2009060220 A JP 2009060220A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- display
- microphone
- person
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、ネットワークを介して異なる地点間のコミュニケーションを可能とするコミュニケーションシステム及びコミュニケーションプログラムに関するものである。 The present invention relates to a communication system and a communication program that enable communication between different points via a network.
ネットワークを介して異なる地点間のコミュニケーションを可能とするコミュニケーションシステムは、ブロードバンドに代表される通信回線容量の増大や、当該システム内のコンピュータの高性能化等により日々進歩してきている。コミュニケーションシステムとして高画質のカラー画像を音声とともにリアルタイムで双方向に通信するものがあり、例えば、ビジネス分野におけるテレビ会議システムでは、等身大に表示された複数の相手と臨場感をもって会話ができるものがある。双方向で通信可能なテレビ会議システムとして特許文献1に記載の技術がある。特許文献1に記載のテレビ会議システムでは、各々の会議場所に集合した参加者がディスプレイやマイクロフォンを通じて対話することが可能である。
ところで、テレビ会議システムでは複数の参加者が共通する議題に対して会話を行うため、他の参加者の声がコミュニケーション上、障害とならない。 By the way, in a video conference system, since a plurality of participants have a conversation on a common agenda, the voices of other participants do not become obstacles to communication.
しかし、遠隔のオフィス間を大画面のディスプレイ等を利用して常時接続しているようなコミュニケーションシステムでは、オフィスに在籍する複数の者が互いに異なる者と同時に会話をする場合がある。この際に対話相手とは異なる者から発せられる音声が障害となり、対話相手の音声が聞こえなかったり、聞こえずらい場合があり、円滑なコミュニケーションを図ることが出来ない。 However, in a communication system in which remote offices are always connected using a large screen display or the like, a plurality of persons in the office may have a conversation with different persons at the same time. At this time, the voice emitted from a person different from the conversation partner becomes an obstacle, and the voice of the conversation partner may not be heard or difficult to hear, and smooth communication cannot be achieved.
そこで、本発明の目的は、異なる地点間で対話をする者同士の声が聞こえやすいコミュニケーションシステム及びコミュニケーションプログラムを提供することにある。 SUMMARY OF THE INVENTION An object of the present invention is to provide a communication system and a communication program that can easily hear voices of persons who interact with each other at different points.
上記目的を達成するため、本発明に係るコミュニケーションシステムは、
ネットワークを介して異なる地点間のコミュニケーションを可能とするコミュニケーションシステムであって、
話者を撮影するカメラと、
当該カメラにより撮影した画像を映し出すディスプレイと、
話者の音声を音声信号に変換するマイクロフォンと、
当該マイクロフォンにより変換された音声信号を外部に出力するスピーカーと、
コミュニケーションシステム内の動作を制御する制御部と、を有し、
前記制御部は、異なる地点間においてコミュニケーションをとっている対話者の位置を判定し、その判定結果に基づいて、前記位置の音声に対する前記マイクロフォンの感度を変更する動作、又は前記位置に対して前記スピーカーから出力される音声を大きくする動作の少なくとも何れかの動作を実行することを特徴とするものである。
In order to achieve the above object, a communication system according to the present invention provides:
A communication system that enables communication between different points via a network,
A camera to shoot the speaker,
A display for displaying images taken by the camera;
A microphone that converts the voice of the speaker into a voice signal;
A speaker for outputting the audio signal converted by the microphone to the outside;
A control unit for controlling the operation in the communication system,
The control unit determines the position of a conversation person who is communicating between different points, and based on the determination result, the operation of changing the sensitivity of the microphone with respect to the sound at the position, or the position with respect to the position It is characterized in that at least one of the operations for increasing the sound output from the speaker is executed.
また、本発明に係るコミュニケーションプログラムは、
話者を撮影するカメラと、
当該カメラにより撮影した画像を映し出すディスプレイと、
話者の音声を音声信号に変換するマイクロフォンと、
当該マイクロフォンにより変換された音声信号を外部に出力するスピーカーと、
を有するコミュニケーションシステムに対し、コンピュータを利用して異なる地点間のコミュニケーションを可能とするコミュニケーションプログラムであって、
異なる地点間においてコミュニケーションをとっている対話者の位置を判定する判定工程と、
当該判定工程により判定した判定結果に基づいて、前記位置の音声に対する前記マイクロフォンの感度を変更する動作、又は前記位置に対して前記スピーカーから出力される音声を大きくする動作の少なくとも何れかの動作を実行する動作工程と、
をコンピュータに実行させることを特徴とするものである。
In addition, the communication program according to the present invention includes:
A camera to shoot the speaker,
A display for displaying images taken by the camera;
A microphone that converts the voice of the speaker into a voice signal;
A speaker for outputting the audio signal converted by the microphone to the outside;
Is a communication program that enables communication between different points using a computer.
A determination step of determining the location of the interlocutor communicating between the different points;
Based on the determination result determined in the determination step, at least one of an operation of changing the sensitivity of the microphone with respect to the sound at the position or an operation of increasing the sound output from the speaker with respect to the position. An operational process to perform;
Is executed by a computer.
本発明に係るコミュニケーションシステム及びコミュニケーションプログラムによれば、異なる地点間で対話をする者同士の声が聞こえやすく、円滑なコミュニケーションを図ることが出来る。 According to the communication system and the communication program according to the present invention, it is easy to hear the voices of those who have a conversation between different points, and smooth communication can be achieved.
図1は本発明に係るコミュニケーションシステムの概略図である。 FIG. 1 is a schematic diagram of a communication system according to the present invention.
異なる地点にある居室Xと居室Yはネットワーク3を経由して接続されており、双方向のコミュニケーションが可能となっている。 The room X and the room Y at different points are connected via the network 3 so that two-way communication is possible.
居室Xにはディスプレイ102が設置されており、居室Yにはディスプレイ202が設置されている。ディスプレイ102には居室Yの映像が映し出され、ディスプレイ202には居室Xの映像が映し出される。例えば居室Xに在籍する「A」という人物は、居室Yに在籍する「B」という人物と図1に示すコミュニケーションシステムを利用して対話することが出来る。
A
図2は本発明に係るコミュニケーションシステムのブロック図であり、代表的な制御構成を示している。 FIG. 2 is a block diagram of a communication system according to the present invention, showing a typical control configuration.
居室Xには対話システム1が設置されており、居室Yには対話システム2が設置されている。対話システム1と対話システム2がネットワーク3を介して接続されて全体としてのコミュニケーションシステムが成り立っている。対話システム1と対話システム2は同様の構成になっているため、対話システム1に基づいて各構成を説明する。 A dialogue system 1 is installed in the living room X, and a dialogue system 2 is installed in the living room Y. The dialogue system 1 and the dialogue system 2 are connected via a network 3 to constitute a communication system as a whole. Since the dialogue system 1 and the dialogue system 2 have the same configuration, each configuration will be described based on the dialogue system 1.
対話システム1はPC101、ディスプレイ102、カメラ103、マイクロフォン104、スピーカー105から構成されている。対話システム2へ信号を送信したり、対話システム2から信号を受信したりすることはPC(コンピュータ)101によって行われる。またディスプレイ102やスピーカー103等はPC101に接続されており、所定のプログラムによってPC101がディスプレイ102やスピーカー103等の動作を制御する。
The dialogue system 1 includes a PC 101, a
CPU(Central Processing Unit)101AはPC(コンピュータ)101全体の動作を制御するものであり、ROM(Read Only Memory)101BやRAM(Random Access Memory)101C等に接続されている。このCPU101Aは、ROM101Bに格納されている各種制御プログラムを読み出してRAM101Cに展開し、各部の動作を制御する。また、CPU101Aは、RAM101Cに展開したプログラムに従って各種処理を実行し、その処理結果をRAM101Cに格納する。そして、RAM101Cに格納した処理結果を所定の保存先に保存させる。尚、本実施形態においては、CPU101AはROM101B及びRAM101Cと協働することにより制御部を構成する。
A CPU (Central Processing Unit) 101A controls the operation of the entire PC (computer) 101, and is connected to a ROM (Read Only Memory) 101B, a RAM (Random Access Memory) 101C, and the like. The
ROM101Bは、プログラムやデータ等を予め記憶しており、この記録媒体は磁気的、光学的記録媒体、若しくは半導体メモリで構成されている。
The
RAM101Cは、CPU101Aによって実行される各種制御プログラムによって処理されたデータ等を一時的に記憶するワークエリアを形成する。
The
HDD(Hard Disk Drive)101Dは、所定のデータを記憶する機能を有する。磁性体を塗布または蒸着した金属のディスクを一定の間隔で何枚も重ね合わせた構造となっており、これをモータで高速に回転させて磁気ヘッドを近づけてデータを読み書きする。本発明に係るコミュニケーションプログラムはHDD101Dに記憶されている(コミュニケーションプログラムはPC201のHDDにも記憶されている)。 An HDD (Hard Disk Drive) 101D has a function of storing predetermined data. It has a structure in which a number of metal disks coated or vapor-deposited with a magnetic material are stacked at regular intervals, and this is rotated at high speed by a motor to read and write data by bringing the magnetic head closer. The communication program according to the present invention is stored in the HDD 101D (the communication program is also stored in the HDD of the PC 201).
ディスプレイ102は居室Yの映像や居室Yに所属する人物の映像を映し出すものであり、映し出される映像は対話システム2におけるカメラ203によって撮影されたものである。ディスプレイ102は臨場感を高めるために高解像度の大画面であることが好ましい。
The
カメラ103は、居室Xや居室Xに所属する人物を撮影し、ネットワーク3を介して、撮影した映像を対話システム2に配信するものである。
The
マイクロフォン104は居室Xで発生する音声を収集し、マイクロフォン104で収集した音声はネットワーク3を介して、対話システム2におけるスピーカー205に配信される。マイクロフォン104は最低2チャンネル以上必要であり、臨場感を高めるためにステレオマイクロフォンであることが好ましい。
The
スピーカー105は居室Yで発せられた音声を居室Xにおいて提供するものであり、最低2チャンネル以上が必要である。スピーカー105はディスプレイ102に内蔵されていても良いし、ディスプレイ102と別体であっても良い。
The
次に図2で説明したコミュニケーションシステムを利用し、対話者の位置を判定してスピーカーから出力される音声等を調整し、コミュニケーションをとる動作について説明する。例えば、居室Xに在籍する「A」という人物と、居室Yに在籍する「B」という人物が、図3に示すようなディスプレイに対する位置関係で対話をしている状態を想定して具体的に説明する。 Next, a description will be given of an operation for making communication by using the communication system described with reference to FIG. 2 to determine the position of the conversation person and adjusting the sound output from the speaker. For example, assuming that the person “A” who is enrolled in the room X and the person “B” who is enrolled in the room Y are interacting in a positional relationship with respect to the display as shown in FIG. explain.
図3で示すように、居室Xにおけるカメラ103はディスプレイ102の中央且つ上方に設置されており、居室Yにおけるカメラ203はディスプレイ202の中央且つ上方に設置されている。ディスプレイ102は3つの領域α、β、γに区別されており、各々の領域にマイクロフォンとスピーカーが設置されている(例えば、ディスプレイ上のα領域に対してはマイクロフォン104Aとスピーカー105Aが設置されている)。居室Yにおけるディスプレイ202もディスプレイ102と同様に3つの領域α、β、γに区別されており、各々の領域にマイクロフォンとスピーカーが設置されている。なお、ディスプレイ102及びディスプレイ202の3つの領域は例示であり、複数の領域に分かれていればよい。
As shown in FIG. 3, the
居室Yにおけるカメラ203で撮影された映像は居室Xのディスプレイ102に映し出され、居室Yに居る人物Bはディスプレイ102のγ領域に映し出される。従って、ディスプレイ102に映し出されている人物Bに対して正面に位置するほうが対話がしやすいため、人物Bと対話をしている人物Aはディスプレイ102のγ領域の前に位置している。同じように、ディスプレイ202に映し出されている人物Aに対して正面に位置するほうが対話がしやすいため、人物Aと対話をしている人物Bはディスプレイ202のα領域の前に位置している。
The video shot by the
このような状態で居室Xに在籍する人物Aと、居室Yに在籍する人物Bが他の人の声に邪魔されず、円滑に対話を行う方法を図4において説明する。 A method in which the person A enrolled in the room X in this state and the person B enrolled in the room Y interact smoothly without being disturbed by the voices of other people will be described with reference to FIG.
図4は話者の顔の方向に基づき対話者の位置を判定して音声を調整する動作を説明するフローチャート図である。 FIG. 4 is a flowchart for explaining the operation of adjusting the voice by determining the position of the conversation person based on the direction of the speaker's face.
まず、対話システム1又は対話システム2はマイクロフォンにより人の音声を検知したかどうかを判断する(ステップS1)。人の音声をマイクロフォンにより検知することにより対話が開始されたと判断できるため、まず最初に当該判断動作を行う。なお、当該判断動作は対話が開始されたことを判断できれば良いため、人の音声を検知する方法に限らず、例えば対話する際に対話システム1又は対話システム2における所定のボタンが対話者によって押されたか否かを判断するようにしても良い。 First, the dialogue system 1 or the dialogue system 2 determines whether or not a human voice is detected by the microphone (step S1). Since it can be determined that the conversation has started by detecting the human voice with the microphone, the determination operation is first performed. Note that this determination operation is not limited to a method of detecting a human voice because it is only necessary to be able to determine that the dialog has started. For example, when a dialog is performed, a predetermined button in the dialog system 1 or the dialog system 2 is pressed by the dialog person. It may be determined whether or not it has been done.
ステップS1において人の音声を検知すると(ステップS1;Yes)、スピーカー等の音量調整をするため、まずディスプレイの前に居る人物を特定する(ステップS2)。図3の例でいれば、ディスプレイ102の前に人物Aが居て、ディスプレイ202の前に人物Bが居るため、カメラ103及びカメラ203によって撮影された画像をもとに人物A及び人物Bが特定される。
When a human voice is detected in step S1 (step S1; Yes), in order to adjust the volume of a speaker or the like, a person in front of the display is first identified (step S2). In the example of FIG. 3, since the person A is in front of the
次に特定された人物の顔の方向に基づき、ディスプレイ上の対話先領域を検出する(ステップS3)。顔の方向はカメラ103、203により撮影した画像における人物の顔から検出する。具体的な検出方法は、例えば人物の左目、右目、口、肌領域の画像幅のパラメータを算出し、予め記憶されているルックアップテーブルと比較して検出する方法(例えば特開2000−97676号公報記載の技術)である。顔の方向が検出されると、ディスプレイ上のどの領域を見ていることになるのかを検出する。図3に示す例でいえば、居室Xにおいて、ディスプレイ102におけるγ領域(人物Bが映し出されている領域)に対して人物Aの顔の方向が向いているため、ディスプレイ102においてγ領域を対話先領域とみなす。一方、居室Yにおいて、ディスプレイ202におけるα領域(人物Aが映し出されている領域)に対して人物Bの顔の方向が向いているため、ディスプレイ202におけるα領域を対話先領域とみなす。
Next, based on the specified face direction of the person, a dialogue destination area on the display is detected (step S3). The face direction is detected from the face of a person in the images taken by the
そして、ステップS3においてディスプレイ102上の対話先領域とディスプレイ202上の対話先領域を照合し、居室Xと居室Yとの間で対話をしている対話者の位置を判定する(判定工程としてのステップS4)。この判定は居室XにおけるPC101、又は居室YにおけるPC201の何れかにおいて行われる。
Then, in step S3, the dialogue destination area on the
図3に示す例でいれば、ステップS3においてディスプレイ102におけるγ領域とディスプレイ202のα領域が対話先領域と検出されており、各々のディスプレイに映し出されている映像と、その映像を見ている人物の顔の方向が一致するため、居室Xと居室Yにおける対話が成立しているものと判断出来る。同じようにディスプレイ102におけるβ領域とディスプレイ202のβ領域が対話先領域とされた場合、ディスプレイ102におけるα領域とディスプレイ202のγ領域が対話先領域とされた場合、居室Xと居室Yにおける対話が成立しているものと判断出来る。
In the example shown in FIG. 3, in step S3, the γ region on the
図3では、対話者は人物Aと人物Bであり、その対話者の位置はディスプレイ102におけるγ領域(人物Aが居る位置)、人物Bに関してはディスプレイ202におけるα領域(人物Bが居る位置)であると判定する。
In FIG. 3, the interrogators are person A and person B, and the positions of the interrogators are the γ region (position where person A is present) on
ステップS4において対話者の位置が判定されると、対話者が居る領域のマイクロフォンにおいて音声感度を高くするように変更し(動作工程としてのステップS5)、また対話者が居る領域のスピーカーにおいて、会話相手の音声を大きく出力する(動作工程としてのステップS6)。 When the position of the talker is determined in step S4, the voice sensitivity is changed to be high in the microphone in the area where the talker is present (step S5 as an operation process), and the conversation is performed in the speaker in the area where the talker is located. The other party's voice is greatly output (step S6 as an operation process).
図3に示す例でいえば、居室Xにおけるγ領域(人物Aが居る位置)のマイクロフォン104Cの音声感度を変更して人物Aの音声を十分に拾うようにし、居室Yにおけるα領域(人物Bが居る位置)のマイクロフォン204Aの音声感度を変更して人物Bの音声を十分に拾うようにする。また、居室Xにおけるγ領域のスピーカー105Cにおいて、人物Bの音声を大きく出力し、居室Yにおけるα領域のスピーカー104Aにおいて、人物Aの音声を大きく出力する。なお、マイクロフォンの音声感度を変更し、且つスピーカーの出力値を大きくするのではなく、少なくとも何れか一方の動作を行うようにしても良い。また、図3に示すようなマイクロフォンやスピーカーを複数設置する形態ではなく、マイクロフォンとスピーカーを一つずつ設置し、対話者の位置の音声に対するマイクロフォンの感度を変更したり、対話者の位置に対してスピーカーから出力される音声を大きくするようにしてもよい。
In the example shown in FIG. 3, the voice sensitivity of the
以上図3及び図4で説明したように、対話者の位置を判定し、その判定結果に基づいてマイクロフォンやスピーカーにより音声を調整すれば、対話者以外の者がしゃべっていても、その者の音声が障害になることなく、対話をする者同士の声が聞こえやすくなり、円滑にコミュニケーションをとることが出来る。 As described above with reference to FIGS. 3 and 4, if the position of the conversation person is determined and the sound is adjusted by the microphone or the speaker based on the determination result, even if a person other than the conversation person speaks, It is easy to hear the voices of those who have a conversation without disturbing the voice, and it is possible to communicate smoothly.
また、別の方法として、話者の視線の方向に基づき対話者の位置を判定することも考えられ、この点を図5及び図6を用いて説明する。図3とは異なり、居室Xに在籍する人物A及び人物Cと、居室Yに在籍する人物Bが図5に示すようなディスプレイに対する位置関係で2対1で対話をしている状態を想定して具体的に説明する。 As another method, it is conceivable to determine the position of the conversation person based on the direction of the line of sight of the speaker. This point will be described with reference to FIGS. Unlike FIG. 3, it is assumed that the person A and person C who are enrolled in the room X and the person B who is enrolled in the room Y are having a two-to-one conversation with respect to the display as shown in FIG. Will be described in detail.
図6におけるステップS11〜S12、S14〜S16は、図3におけるステップS1〜S2、S4〜S6と同様である。図6のステップS13では特定された人物の視線の方向に基づき、ディスプレイ上の対話先領域を検出する。人物の視線の方向は、カメラ103、203により撮影した画像における人物の目の動きから検出する(例えば特開2000−146553号公報記載の技術)。
Steps S11 to S12 and S14 to S16 in FIG. 6 are the same as steps S1 to S2 and S4 to S6 in FIG. In step S13 of FIG. 6, a dialog destination area on the display is detected based on the identified line of sight of the person. The direction of the line of sight of the person is detected from the movement of the eyes of the person in the images taken by the
図5に示す例でいえば、居室Xにおいて、ディスプレイ102におけるγ領域(人物Bが映し出されている領域)に対して人物A及び人物Cの視線が向いているため、ディスプレイ102においてγ領域を対話先領域とみなす。一方、居室Yにおいて、ディスプレイ202におけるα領域(人物Aが映し出されている領域)とβ領域(人物Cが映し出されている領域)に対して人物Bの視線が向いているため、ディスプレイ202におけるα領域とβ領域を対話先領域とみなす。
In the example shown in FIG. 5, in the living room X, the lines of sight of the person A and the person C are directed to the γ area (area where the person B is projected) on the
ステップS13における検出が終了すると、ディスプレイ102上の対話先領域とディスプレイ202上の対話先領域を照合し、居室Xと居室Yとの間で対話をしている対話者の位置を判定する(ステップS14)。そしてその判定結果に基づいて、対話者が居る領域のマイクロフォンにおいて音声感度を高くするように変更したり(ステップS15)、また対話者が居る領域のスピーカーにおいて、会話相手の音声を大きく出力する(ステップS16)。
When the detection in step S13 is completed, the dialogue destination area on the
図6に示す例でいえば、居室Xにおけるβ領域(人物Cが居る位置)のマイクロフォン104Bとγ領域(人物Aが居る位置)のマイクロフォン104Cの音声感度を変更して人物A及び人物Cの音声を十分に拾うようにし、居室Yにおけるα領域(人物Bが居る位置)のマイクロフォン204Aの音声感度を変更して人物Bの音声を十分に拾うようにする。また、居室Xにおけるβ領域のスピーカー105Bとγ領域のスピーカー105Cにおいて、人物Bの音声を大きく出力し、居室Yにおけるα領域のスピーカー104Aにおいて、人物Aの音声を大きく出力する。
In the example shown in FIG. 6, the voice sensitivities of the
このように人物の視線の方向に基づいて対話者の位置を判定し、その判定結果に基づいてマイクロフォンやスピーカーにより音声を調整すれば、対話者以外の者がしゃべっていても、その者の音声が障害になることなく、対話をする者同士の声が聞こえやすくなり、円滑にコミュニケーションをとることが出来る。 In this way, if the position of the conversation person is determined based on the direction of the person's line of sight, and the sound is adjusted by a microphone or a speaker based on the determination result, the voice of the person who is not the conversation person is spoken. This makes it easier to hear the voices of those who are interacting with each other, and allows smooth communication.
また、図7のフローチャート図におけるステップS23に示すように話者から発せられる音声の方向に基づき、ディスプレイ上の対話先領域を検出してもよい。具体的な検出方法は、マイクロフォンから入力される音声の周波数分析をすることにより検出する方法(例えば特開平9−251299号公報記載の技術)である。なお、図7におけるステップS21〜S22、S24〜S26は、図3におけるステップS1〜S2、S4〜S6と同様である。 Further, as shown in step S23 in the flowchart of FIG. 7, the conversation destination area on the display may be detected based on the direction of the voice emitted from the speaker. A specific detection method is a method (for example, a technique described in Japanese Patent Application Laid-Open No. 9-251299) in which detection is performed by frequency analysis of sound input from a microphone. Note that steps S21 to S22 and S24 to S26 in FIG. 7 are the same as steps S1 to S2 and S4 to S6 in FIG.
また、図8のフローチャート図で示すように話者がディスプレイ上で選択した箇所に基づき、ディスプレイ上の対話領域を決定してもよい。 Further, as shown in the flowchart of FIG. 8, the dialogue area on the display may be determined based on the location selected by the speaker on the display.
居室Xと居室Yにおいて対話を行う場合、ディスプレイ上で対話する相手をユーザーが選択するようにする。例えば、ディスプレイ102や202において「対話する相手をディスプレイ上で選択してください」という表示を出して、ユーザーに選択するよう促す。
When a conversation is performed in the room X and the room Y, the user selects a partner to interact on the display. For example, on the
図8におけるステップS31においてディスプレイ上で対話する相手がユーザーによって選択されたかどうか判断する。ディスプレイ上での選択があった場合に、ディスプレイの選択箇所が対話する相手がいる領域であると判断し、その選択箇所に基づき対話先領域を決定する(ステップS32)。ディスプレイの選択箇所の座標を把握することにより、どこの領域が選択箇所であるか判断することが出来る。ステップS32において対話者の位置を判定すると、図4等で説明した動作と同様に対話者が居る領域のマイクロフォンにおいて音声感度を高くするように変更したり(ステップS34)、また対話者が居る領域のスピーカーにおいて、会話相手の音声を大きく出力する(ステップS35)。 In step S31 in FIG. 8, it is determined whether or not the other party to interact with on the display has been selected by the user. When there is a selection on the display, it is determined that the selected location of the display is an area where there is a conversation partner, and the dialogue destination area is determined based on the selected location (step S32). By grasping the coordinates of the selected location on the display, it is possible to determine which region is the selected location. When the position of the interlocutor is determined in step S32, it is changed to increase the voice sensitivity in the microphone in the area where the interlocutor is present in the same manner as the operation described in FIG. 4 or the like (step S34). Loudly output the voice of the conversation partner (step S35).
また、図9のフローチャート図で示すように、マイクロフォンに入力された対話相手の名前に関する音声情報から対話相手の顔情報を抽出し、その抽出した顔情報とカメラにより撮影した画像を照合させて対話者の位置を判定してもよい。 Further, as shown in the flowchart of FIG. 9, the conversation partner's face information is extracted from the voice information related to the conversation partner's name input to the microphone, and the extracted face information is collated with the image taken by the camera. The position of the person may be determined.
まず、マイクロフォンにおいて会話相手の名前の呼び掛けがあるかどうか検出する(ステップS41)。そして名前の呼び掛けがある場合に、呼び掛けられた名前を音声認識し(ステップS42)、音声認識した名前情報から顔情報を抽出する(ステップS43)。 First, it is detected whether there is a call for the name of the conversation partner in the microphone (step S41). When there is a name call, the called name is recognized by speech (step S42), and face information is extracted from the name information that has been recognized (step S43).
名前の音声認識は、マイクロフォンにより入力された音声信号の波長等を分析することにより入力された音声を認識するものである。顔情報を抽出は、名前と顔情報の関係が規定されたデータベースを参照することにより行う。 Name speech recognition recognizes input speech by analyzing the wavelength and the like of a speech signal input by a microphone. The face information is extracted by referring to a database in which the relationship between the name and the face information is defined.
顔情報が抽出されると、抽出した顔情報に基づき該当する人物が居る領域を特定する(ステップS44)。カメラにより撮影した画像から人物の顔を抽出し、目や口の位置情報をステップS43で抽出した顔情報と照合し、該当する人物が居る領域を特定する。 When the face information is extracted, an area where the corresponding person is present is specified based on the extracted face information (step S44). A person's face is extracted from the image photographed by the camera, and the position information of the eyes and mouth is compared with the face information extracted in step S43, and the region where the corresponding person exists is specified.
そして、該当する人物が居る領域を特定した後は、特定した領域を対話者が居る位置と判定し(ステップS45)、対話者が居る領域のマイクロフォンにおいて音声感度を高くするように変更したり(ステップS46)、また対話者が居る領域のスピーカーにおいて、会話相手の音声を大きく出力する(ステップS47)。 And after specifying the area | region where the applicable person exists, it determines that the specified area | region is a position where a dialog person exists (step S45), and it changes so that audio | voice sensitivity may be made high in the microphone of the area | region where a dialog person exists ( In step S46), the voice of the conversation partner is greatly output from the speaker in the area where the conversation person is present (step S47).
以上図6〜図9で説明したように、話者の顔の方向に限らず、話者の視線の方向、話者から発せられる音声の方向、話者が選択したディスプレイ上の選択箇所等に基づいて、対話者の位置を判定し、その判定結果に基づいてマイクロフォンの音声感度を変更したり、スピーカーの音量を調整することで、他人の音声が障害になることなく対話をする者同士の声が聞こえやすくなる。 As described above with reference to FIGS. 6 to 9, not only the direction of the speaker's face, but also the direction of the speaker's line of sight, the direction of the sound emitted from the speaker, the selection location on the display selected by the speaker, etc. Based on the determination result, the microphone's voice sensitivity is changed or the speaker's volume is adjusted, so that the voices of other people interacting with each other without any obstacles. The voice becomes easier to hear.
なお、本発明の実施の形態を図面によって説明してきたが、本発明は当該実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。 Although the embodiments of the present invention have been described with reference to the drawings, the present invention is not limited to the embodiments, and the present invention can be modified or added without departing from the scope of the present invention. included.
図3や図5において、例えば対話者と判定しずらい者がいる場合は対話者とみなし、その者に対してマイクロフォンにおいて音声感度を高くするように変更したり、スピーカーにおいて会話相手の音声を大きく出力するようにしてもよい。 3 and 5, for example, when there is a person who is difficult to determine as a conversation person, it is regarded as a conversation person, and the conversation person is changed to increase the voice sensitivity with the microphone, or the voice of the conversation partner is heard with the speaker. You may make it output large.
1、2 対話システム
101、201 PC
102、202 ディスプレイ
103、203 カメラ
104、204 マイクロフォン
105、205 スピーカー
101A、201A CPU
101B、201B ROM
101C、201C RAM
101D、201D HDD
1, 2,
102, 202
101B, 201B ROM
101C, 201C RAM
101D, 201D HDD
Claims (12)
話者を撮影するカメラと、
当該カメラにより撮影した画像を映し出すディスプレイと、
話者の音声を音声信号に変換するマイクロフォンと、
当該マイクロフォンにより変換された音声信号を外部に出力するスピーカーと、
コミュニケーションシステム内の動作を制御する制御部と、を有し、
前記制御部は、異なる地点間においてコミュニケーションをとっている対話者の位置を判定し、その判定結果に基づいて、前記位置の音声に対する前記マイクロフォンの感度を変更する動作、又は前記位置に対して前記スピーカーから出力される音声を大きくする動作の少なくとも何れかの動作を実行することを特徴とするコミュニケーションシステム。 A communication system that enables communication between different points via a network,
A camera to shoot the speaker,
A display for displaying images taken by the camera;
A microphone that converts the voice of the speaker into a voice signal;
A speaker for outputting the audio signal converted by the microphone to the outside;
A control unit for controlling the operation in the communication system,
The control unit determines the position of a conversation person who is communicating between different points, and based on the determination result, the operation of changing the sensitivity of the microphone with respect to the sound at the position, or the position with respect to the position A communication system that performs at least one of operations for increasing sound output from a speaker.
当該カメラにより撮影した画像を映し出すディスプレイと、
話者の音声を音声信号に変換するマイクロフォンと、
当該マイクロフォンにより変換された音声信号を外部に出力するスピーカーと、
を有するコミュニケーションシステムに対し、コンピュータを利用して異なる地点間のコミュニケーションを可能とするコミュニケーションプログラムであって、
異なる地点間においてコミュニケーションをとっている対話者の位置を判定する判定工程と、
当該判定工程により判定した判定結果に基づいて、前記位置の音声に対する前記マイクロフォンの感度を変更する動作、又は前記位置に対して前記スピーカーから出力される音声を大きくする動作の少なくとも何れかの動作を実行する動作工程と、
をコンピュータに実行させることを特徴とするコミュニケーションプログラム。 A camera to shoot the speaker,
A display for displaying images taken by the camera;
A microphone that converts the voice of the speaker into a voice signal;
A speaker for outputting the audio signal converted by the microphone to the outside;
Is a communication program that enables communication between different points using a computer.
A determination step of determining the location of the interlocutor communicating between the different points;
Based on the determination result determined in the determination step, at least one of an operation of changing the sensitivity of the microphone with respect to the sound at the position or an operation of increasing the sound output from the speaker with respect to the position. An operational process to perform;
A communication program characterized by causing a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007223838A JP2009060220A (en) | 2007-08-30 | 2007-08-30 | Communication system and communication program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007223838A JP2009060220A (en) | 2007-08-30 | 2007-08-30 | Communication system and communication program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009060220A true JP2009060220A (en) | 2009-03-19 |
Family
ID=40555586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007223838A Pending JP2009060220A (en) | 2007-08-30 | 2007-08-30 | Communication system and communication program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009060220A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013014886A1 (en) * | 2011-07-26 | 2013-01-31 | Sony Corporation | Control device, control method and program |
US9560313B2 (en) | 2013-10-22 | 2017-01-31 | Daiwa House Industry Co., Ltd. | Dialogue system and dialogue method |
US10972854B2 (en) | 2016-10-21 | 2021-04-06 | Samsung Electronics Co., Ltd. | Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same |
WO2023100594A1 (en) * | 2021-12-03 | 2023-06-08 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (en) * | 1996-04-08 | 1997-10-21 | Sony Corp | Signal processor |
JPH1042264A (en) * | 1996-07-23 | 1998-02-13 | Nec Corp | Video conference system |
WO2000022823A1 (en) * | 1998-10-09 | 2000-04-20 | Sony Corporation | Communication apparatus and method |
JP2006229902A (en) * | 2005-02-21 | 2006-08-31 | Fuji Xerox Co Ltd | Conference supporting system, method and computer program |
JP2006339869A (en) * | 2005-05-31 | 2006-12-14 | Sanyo Electric Co Ltd | Apparatus for integrating video signal and voice signal |
-
2007
- 2007-08-30 JP JP2007223838A patent/JP2009060220A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (en) * | 1996-04-08 | 1997-10-21 | Sony Corp | Signal processor |
JPH1042264A (en) * | 1996-07-23 | 1998-02-13 | Nec Corp | Video conference system |
WO2000022823A1 (en) * | 1998-10-09 | 2000-04-20 | Sony Corporation | Communication apparatus and method |
JP2006229902A (en) * | 2005-02-21 | 2006-08-31 | Fuji Xerox Co Ltd | Conference supporting system, method and computer program |
JP2006339869A (en) * | 2005-05-31 | 2006-12-14 | Sanyo Electric Co Ltd | Apparatus for integrating video signal and voice signal |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013014886A1 (en) * | 2011-07-26 | 2013-01-31 | Sony Corporation | Control device, control method and program |
US9398247B2 (en) | 2011-07-26 | 2016-07-19 | Sony Corporation | Audio volume control device, control method and program |
US9560313B2 (en) | 2013-10-22 | 2017-01-31 | Daiwa House Industry Co., Ltd. | Dialogue system and dialogue method |
US10972854B2 (en) | 2016-10-21 | 2021-04-06 | Samsung Electronics Co., Ltd. | Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same |
WO2023100594A1 (en) * | 2021-12-03 | 2023-06-08 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11531518B2 (en) | System and method for differentially locating and modifying audio sources | |
US10178490B1 (en) | Intelligent audio rendering for video recording | |
US20080180519A1 (en) | Presentation control system | |
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
US6754631B1 (en) | Recording meeting minutes based upon speech recognition | |
CN112075075A (en) | Computerized intelligent assistant for meetings | |
US20200184991A1 (en) | Sound class identification using a neural network | |
US12032155B2 (en) | Method and head-mounted unit for assisting a hearing-impaired user | |
US11496830B2 (en) | Methods and systems for recording mixed audio signal and reproducing directional audio | |
JP7427408B2 (en) | Information processing device, information processing method, and information processing program | |
JPWO2019139101A1 (en) | Information processing equipment, information processing methods and programs | |
US20120242860A1 (en) | Arrangement and method relating to audio recognition | |
EP3412036B1 (en) | Method for assisting a hearing-impaired person in following a conversation | |
JP2009060220A (en) | Communication system and communication program | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
JP2001057672A (en) | Apparatus and method for communication, and medium | |
KR102345666B1 (en) | Conference video providing system using AI | |
JP2007251355A (en) | Relaying apparatus for interactive system, interactive system, and interactive method | |
JP2006338493A (en) | Method, device, and program for detecting next speaker | |
JP2020086048A (en) | Voice recognition system and voice recognition method | |
JP2020053882A (en) | Communication device, communication program, and communication method | |
JP7293863B2 (en) | Speech processing device, speech processing method and program | |
JPWO2009025139A1 (en) | Communication system and communication program | |
JP2001078162A (en) | Communication equipment and method and recording medium | |
WO2006106671A1 (en) | Image processing device, image display device, reception device, transmission device, communication system, image processing method, image processing program, and recording medium containing the image processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100624 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121113 |