JP2013008210A - Conference system, image display device, and image voice processing method - Google Patents
Conference system, image display device, and image voice processing method Download PDFInfo
- Publication number
- JP2013008210A JP2013008210A JP2011140627A JP2011140627A JP2013008210A JP 2013008210 A JP2013008210 A JP 2013008210A JP 2011140627 A JP2011140627 A JP 2011140627A JP 2011140627 A JP2011140627 A JP 2011140627A JP 2013008210 A JP2013008210 A JP 2013008210A
- Authority
- JP
- Japan
- Prior art keywords
- image
- display
- information
- terminal devices
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、会議システム、画像表示装置、及び画像音声処理方法に関する。 The present invention relates to a conference system, an image display device, and an image sound processing method.
従来、会議を行う際に利用される会議システムとして、会議の各参加者の利用に供される各端末の各表示画面をスクリーン上に同時に表示(分割表示)する構成が知られている(例えば、特許文献1参照)。
特許文献1に記載の会議システムは、会議の各参加者の利用に供される複数のコンピューター(端末)と、会議の司会者の利用に供される司会者コンピューター(サーバー)と、プロジェクターとがネットワークにより接続された構成を有する。
サーバーは、ネットワークを介して各端末が扱う各画像データ(各端末の各表示画面に関する画像データ)を受信した後、当該各画像データに基づく各画像を合成した合成画像(分割表示画面)を生成し、当該合成画像に関する合成画像データをプロジェクターに送信する。
そして、プロジェクターは、ネットワークを介して合成画像データを受信し、当該合成画像データに基づく合成画像をスクリーン上に表示する。
2. Description of the Related Art Conventionally, as a conference system used when a conference is performed, a configuration is known in which each display screen of each terminal used for the use of each participant in the conference is simultaneously displayed (divided display) on a screen (for example, , See Patent Document 1).
The conference system described in
The server receives each image data handled by each terminal (image data related to each display screen of each terminal) via the network, and then generates a composite image (divided display screen) by combining the images based on each image data. Then, the composite image data related to the composite image is transmitted to the projector.
The projector receives the composite image data via the network and displays a composite image based on the composite image data on the screen.
ところで、会議の場では、スクリーン上の合成画像を参照しながら、主に説明を行う参加者(合成画像に含まれる自身が作成した資料(自身が利用する端末装置が扱う画像)に基づいて説明を行う参加者(以下、主発言者))が存在するものである。
しかしながら、特許文献1に記載の会議システムでは、各参加者の資料(各端末装置が扱う各画像)がスクリーン上に分割表示されるため、他の参加者は、主発言者がスクリーン上に表示された各画像のうち、どの画像に基づいて説明を行っているか判断し難い。
また、主発言者が説明を行っている際に、他の参加者の一部が会話等をしていた場合には、主発言者の声が聞き取り難いものとなる。
以上のことから、特許文献1に記載の会議システムでは、利便性の向上が図り難い、という問題がある。
By the way, in the meeting place, referring to the composite image on the screen, the explanation is mainly based on the participant (the material created by the self included in the composite image (the image handled by the terminal device used by the user) included in the composite image). Participants (hereinafter referred to as main speakers) who perform
However, in the conference system described in
In addition, when the main speaker is explaining, if some of the other participants have a conversation or the like, the voice of the main speaker is difficult to hear.
From the above, the conference system described in
本発明の目的は、利便性の向上が図れる会議システム、画像表示装置、及び画像音声処理方法を提供することにある。 An object of the present invention is to provide a conference system, an image display device, and an image sound processing method capable of improving convenience.
本発明の会議システムは、複数の端末装置と、前記複数の端末装置と通信可能に接続された画像表示装置とを備え、前記複数の端末装置が扱う各画像を合成した合成画像を前記画像表示装置に表示させる会議システムであって、前記端末装置は、周囲の音を集音する音声収集手段と、前記合成画像における、当該端末装置が扱う画像と、他の前記端末装置が扱う画像との表示状態の入力を受け付ける入力受付手段と、前記音声収集手段にて集音された音声に関する音声情報、前記表示状態に関する表示情報、及び当該端末装置が扱う画像に関する画像情報を前記画像表示装置に送信する送信制御手段とを備え、前記画像表示装置は、画像を表示する表示手段と、前記音声情報、前記表示情報、及び前記画像情報を受信する受信手段と、前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を前記表示手段に表示させる第1制御手段と、音声を出力する音声出力手段と、前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を前記音声出力手段に出力させる第2制御手段とを備えることを特徴とする。 The conference system of the present invention includes a plurality of terminal devices and an image display device connected to be communicable with the plurality of terminal devices, and displays the combined image obtained by combining the images handled by the plurality of terminal devices. In the conference system to be displayed on the device, the terminal device includes: a sound collection unit that collects ambient sounds; an image handled by the terminal device in the synthesized image; and an image handled by the other terminal device Input receiving means for receiving an input of a display state; audio information relating to the sound collected by the voice collecting means; display information relating to the display state; and image information relating to an image handled by the terminal device are transmitted to the image display device. The image display device includes a display unit that displays an image, a reception unit that receives the audio information, the display information, and the image information, and the table. A first control unit configured to generate the composite image by combining the images based on the image information from the plurality of terminal devices based on the information, and to display the generated composite image on the display unit; Based on the display information, and synthesizing each voice based on the voice information from the plurality of terminal devices to generate a synthesized voice, and generating the synthesized voice as the voice output means And a second control means for outputting the output.
本発明では、会議システムは、上述したように構成された複数の端末装置及び画像表示装置を備える。このため、以下に示すように、各端末装置が扱う各画像を画像表示装置に表示させるとともに、各端末装置のマイクロフォン等の各音声収集手段にて集音された各音声を画像表示装置に出力させることができる。
例えば、参加者の一人が自身の利用する端末装置の入力手段により、自身が利用する端末装置が扱う画像と、他の端末装置が扱う画像との表示状態を入力すると、当該端末装置の入力受付手段が当該表示状態の入力を受け付ける(入力受付ステップ)。
ここで、表示状態とは、例えば、合成画像(分割表示画面)において、各端末装置が扱う各画像の表示位置や、表示サイズ等を意味するものである。
そして、複数の端末装置の各送信制御手段は、端末装置毎に設けられたマイクロフォン等の各音声収集手段から出力された音声情報、及び自身の端末装置が扱う画像に関する画像情報の他、表示状態に関する表示情報(表示状態を受け付けた端末装置のみが送信)を画像表示装置に送信する(送信ステップ)。
In the present invention, the conference system includes a plurality of terminal devices and image display devices configured as described above. For this reason, as shown below, each image handled by each terminal device is displayed on the image display device, and each sound collected by each sound collecting means such as a microphone of each terminal device is output to the image display device. Can be made.
For example, when one of the participants inputs the display state of the image handled by the terminal device used by the participant and the image handled by another terminal device by the input means of the terminal device used by the participant, the input acceptance of the terminal device is accepted. The means accepts an input of the display state (input acceptance step).
Here, the display state means, for example, the display position and display size of each image handled by each terminal device in a composite image (divided display screen).
And each transmission control means of a plurality of terminal devices displays the display state in addition to the sound information output from each sound collecting means such as a microphone provided for each terminal device and the image information related to the image handled by its own terminal device. Display information (sent only by the terminal device receiving the display state) is transmitted to the image display device (transmission step).
一方、画像表示装置において、受信手段は、各端末装置から送信された音声情報、表示情報、及び画像情報を受信する(受信ステップ)。
また、第1制御手段は、表示情報(各画像の表示位置や表示サイズ等)に基づいて、各端末装置からの各画像情報に基づく各画像を合成し、合成画像を表示手段に表示させる(第1制御ステップ)。
さらに、第2制御手段は、表示情報に基づいて、各端末装置からの各音声情報に基づく各音声を合成し、合成音声をスピーカー等の音声出力手段に出力させる(第2制御ステップ)。
例えば、第1,第2制御手段は、表示情報が「複数の端末装置が扱う各画像のうち第1,第2端末装置が扱う2つの画像を左右に分割表示し、主発言者の利用に供される第1端末装置が扱う画像の表示位置及び表示サイズを「左側」及び「大」とし、他の参加者の利用に供される第2端末装置が扱う画像の表示位置及び表示サイズを「右側」及び「小」とする」旨の情報であった場合には、以下に示すように、合成画像及び合成音声を生成する。
On the other hand, in the image display device, the receiving means receives the audio information, display information, and image information transmitted from each terminal device (reception step).
Further, the first control unit synthesizes the images based on the image information from the terminal devices based on the display information (display position and display size of each image) and displays the combined image on the display unit ( First control step).
Further, the second control means synthesizes each voice based on each voice information from each terminal device based on the display information, and outputs the synthesized voice to a voice output means such as a speaker (second control step).
For example, the first and second control means may display the display information “two images handled by the first and second terminal devices among the images handled by the plurality of terminal devices are divided into left and right parts for use by the main speaker. The display position and display size of the image handled by the first terminal device provided are “left” and “large”, and the display position and display size of the image handled by the second terminal device provided for use by other participants are If the information indicates “right” and “small”, a synthesized image and synthesized speech are generated as shown below.
すなわち、第1制御手段は、上記表示情報に基づいて、第1端末装置から送信された画像情報に基づく画像(主発言者の資料等)を左側に大きく、第2端末装置から送信された画像(他の参加者の資料等)を右側に小さくした合成画像を生成する。
また、第2制御手段は、表示情報に基づいて、第1端末装置から送信された音声情報に基づく音声(主発言者の声)の出力レベルを増加させ、第2端末装置から送信された音声情報に基づく音声(他の参加者の声)の出力レベルを低下させ、当該調整された各音声を合成して合成音声を生成する。
That is, based on the display information, the first control means enlarges an image based on the image information transmitted from the first terminal device (material of the main speaker, etc.) to the left, and an image transmitted from the second terminal device. A composite image in which (other participants' materials, etc.) is reduced to the right is generated.
Further, the second control means increases the output level of the voice (the voice of the main speaker) based on the voice information transmitted from the first terminal device based on the display information, and the voice transmitted from the second terminal device. The output level of the voice based on the information (voices of other participants) is lowered, and the adjusted voices are synthesized to generate a synthesized voice.
以上のことから、端末装置を利用して表示状態を適宜、入力することで、主発言者の資料(主発言者の利用に供される端末装置が扱う画像)を合成画像(分割表示画面)中の任意の表示位置や、任意の表示サイズ等に設定できる。このため、他の参加者に主発言者がどの画像に基づいて説明を行っているかを容易に判断させることができる。
また、各参加者の声を各マイクロフォン等にて集音し、上述したように主発言者の声を他の参加者の声に対して強調した合成音声を生成及び出力できるので、主発言者が説明を行っている際に、他の参加者の一部が会話等をしていた場合であっても、主発言者の声(スピーカー等を介した音声)を聞き取りやすいものとすることができる。
したがって、利便性の向上が図れる。
また、合成画像及び合成音声の生成を画像表示装置自身が実行するため、従来のようなサーバーを必要とせず、会議システムの構成を簡素化できる。
From the above, by inputting the display state as appropriate using the terminal device, the main speaker's material (the image handled by the terminal device used for the main speaker's use) is synthesized (divided display screen). It can be set to any display position inside, any display size, etc. For this reason, other participants can easily determine which image the main speaker is explaining.
In addition, each participant's voice is collected by each microphone, etc., and as described above, a synthesized speech in which the voice of the main speaker is emphasized with respect to the voices of other participants can be generated and output. When the explanation is given, the voice of the main speaker (voice through speakers, etc.) should be easy to hear even if some of the other participants are talking. it can.
Therefore, the convenience can be improved.
In addition, since the image display apparatus itself generates a synthesized image and synthesized speech, a conventional server is not required, and the configuration of the conference system can be simplified.
本発明の会議システムは、複数の端末装置と、画像表示装置と、前記複数の端末装置及び前記画像表示装置と通信可能に接続された情報処理装置とを備え、前記複数の端末装置が扱う各画像を合成した合成画像を前記画像表示装置に表示させる会議システムであって、前記端末装置は、周囲の音を集音する音声収集手段と、前記合成画像における、当該前記端末装置が扱う画像と、他の前記端末装置が扱う画像との表示状態の入力を受け付ける入力受付手段と、前記音声収集手段にて集音された音声に関する音声情報、前記表示状態に関する表示情報、及び当該端末装置が扱う画像に関する画像情報を前記情報処理装置に送信する送信制御手段とを備え、前記情報処理装置は、前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成する第1制御手段と、前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成する第2制御手段と、前記通信路を介して、前記合成画像に関する合成画像情報、及び前記合成音声に関する合成音声情報を前記画像表示装置に送信する第3制御手段とを備え、前記画像表示装置は、前記情報処理装置からの前記合成画像情報に基づく前記合成画像を表示する表示手段と、前記情報処理装置からの前記合成音声情報に基づく前記合成音声を出力する音声出力手段とを備えることを特徴とする。 The conference system of the present invention includes a plurality of terminal devices, an image display device, the plurality of terminal devices and an information processing device connected to be communicable with the image display device, and each of the plurality of terminal devices handles A conference system that displays a composite image obtained by combining images on the image display device, wherein the terminal device includes a sound collection unit that collects ambient sounds, and an image handled by the terminal device in the composite image. , An input receiving unit that receives an input of a display state with an image handled by the other terminal device, voice information about the sound collected by the voice collecting unit, display information about the display state, and the terminal device Transmission control means for transmitting image information related to an image to the information processing apparatus, and the information processing apparatus receives the images from the plurality of terminal devices based on the display information. First control means for synthesizing each image based on the report to generate the synthesized image, and based on the display information, synthesizing the sounds based on the audio information from the plurality of terminal devices, A second control means for generating; and a third control means for transmitting the synthesized image information relating to the synthesized image and the synthesized voice information relating to the synthesized voice to the image display device via the communication path, and the image display. The apparatus includes display means for displaying the synthesized image based on the synthesized image information from the information processing apparatus, and voice output means for outputting the synthesized voice based on the synthesized voice information from the information processing apparatus. It is characterized by.
本発明では、会議システムは、上述したように構成された複数の端末装置、画像表示装置、及び情報処理装置を備える。
言い換えれば、本発明の会議システムは、情報処理装置を備えない上述した会議システムにおいて、画像表示装置の機能の一部(合成画像及び合成音声を生成する機能)を省略し、情報処理装置に当該機能の一部を設けている。
したがって、情報処理装置を備えない上述した会議システムと同様の効果を享受できる。
また、合成画像及び合成音声の生成を画像表示装置ではなく、情報処理装置で実行するため、画像表示装置に合成画像及び合成音声を生成する機能を別途、設ける必要がなく、汎用の画像表示装置を利用した会議システムを構築できる。
In the present invention, the conference system includes a plurality of terminal devices, image display devices, and information processing devices configured as described above.
In other words, the conference system of the present invention omits a part of the functions of the image display device (a function of generating a synthesized image and synthesized speech) in the above-described conference system that does not include the information processing device, and Some of the functions are provided.
Therefore, the same effect as the above-described conference system that does not include the information processing apparatus can be enjoyed.
In addition, since the generation of the synthesized image and the synthesized voice is executed by the information processing apparatus instead of the image display apparatus, it is not necessary to provide a separate function for generating the synthesized image and synthesized voice in the image display apparatus. It is possible to construct a conference system using
本発明の会議システムでは、前記表示状態は、前記複数の端末装置が扱う各画像の表示サイズを含むものであり、前記第2制御手段は、前記各画像の表示サイズに基づいて、前記各画像に対応した前記各音声の出力レベルを調整し、前記合成音声を生成することが好ましい。
本発明では、表示状態が上述した表示サイズを含むものであるので、当該表示サイズに基づいて第1,第2制御手段が合成画像及び合成音声を生成すれば、主発言者の資料(主発言者の利用に供される端末装置が扱う画像)や声を他の参加者の資料や声に対して強調できる。
したがって、主発言者の資料や声を視聴し易いものとなり、利便性の向上が図れる。
In the conference system of the present invention, the display state includes a display size of each image handled by the plurality of terminal devices, and the second control unit determines whether each image is based on the display size of each image. It is preferable to adjust the output level of each voice corresponding to the above and generate the synthesized voice.
In the present invention, since the display state includes the display size described above, if the first and second control means generate a synthesized image and synthesized speech based on the display size, the material of the main speaker (the main speaker's material) It is possible to emphasize the image) and voice of the terminal device used for use with respect to other participants' materials and voice.
Therefore, it becomes easy to view the material and voice of the main speaker, and the convenience can be improved.
本発明の画像表示装置は、複数の端末装置と通信可能に接続され、前記複数の端末装置が扱う各画像が合成された合成画像を表示する画像表示装置であって、当該画像表示装置は、画像を表示する表示手段と、前記複数の端末装置のそれぞれにおいて集音された音声に関する音声情報、前記合成画像における、前記複数の端末装置のそれぞれが扱う画像の表示状態に関する表示情報、及び前記複数の端末装置のそれぞれが扱う画像情報を受信する受信手段と、前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を前記表示手段に表示させる第1制御手段と、音声を出力する音声出力手段と、前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を前記音声出力手段に出力させる第2制御手段とを備えることを特徴とする。
本発明の画像表示装置は、上述した会議システムに利用されるものであるので、上述した会議システムと同様の作用及び効果を享受できる。
The image display device of the present invention is an image display device that is communicably connected to a plurality of terminal devices and displays a combined image in which the images handled by the plurality of terminal devices are combined, and the image display device includes: Display means for displaying an image; audio information relating to sound collected by each of the plurality of terminal devices; display information relating to a display state of an image handled by each of the plurality of terminal devices in the synthesized image; Receiving means for receiving image information handled by each of the terminal devices, and generating the composite image by combining the images based on the image information from the plurality of terminal devices based on the display information, First display means for displaying the synthesized image on the display means, sound output means for outputting sound, and each of the plurality of terminal devices based on the display information. And combines the audio based on the voice information to produce synthesized speech, the synthesized speech generated, characterized in that it comprises a second control means for outputting to the audio output means.
Since the image display device of the present invention is used in the conference system described above, it can enjoy the same operations and effects as the conference system described above.
本発明の画像音声処理方法は、複数の端末装置と、前記複数の端末装置と通信可能に接続された画像表示装置とを備え、前記複数の端末装置が扱う各画像を合成した合成画像を前記画像表示装置に表示させる会議システムを利用した画像音声処理方法であって、前記端末装置が、前記合成画像における、当該端末装置が扱う画像と、他の前記端末装置が扱う画像との表示状態の入力を受け付ける入力受付ステップと、前記端末装置が、音声収集手段にて集音された音声に関する音声情報、前記表示状態に関する表示情報、及び当該端末装置が扱う画像に関する画像情報を前記画像表示装置に送信する送信制御ステップと、前記画像表示装置が、前記音声情報、前記表示情報、及び前記画像情報を受信する受信ステップと、前記画像表示装置が、前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を表示する第1制御ステップと、前記画像表示装置が、前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を出力する第2制御ステップと、を含むことを特徴とする。
本発明の画像音声処理方法は、上述した会議システムを利用した方法であるので、上述した会議システムと同様の作用及び効果を享受できる。
The video / audio processing method of the present invention includes a plurality of terminal devices and an image display device connected to be communicable with the plurality of terminal devices, and combines the synthesized images obtained by combining the images handled by the plurality of terminal devices. An audio / video processing method using a conference system to be displayed on an image display device, wherein the terminal device displays a display state of an image handled by the terminal device and an image handled by another terminal device in the synthesized image. An input receiving step for receiving an input, and audio information related to the sound collected by the terminal device by the sound collecting means, display information related to the display state, and image information related to an image handled by the terminal device are stored in the image display device. A transmission control step of transmitting, a reception step of receiving the audio information, the display information, and the image information by the image display device; and the image display device of A first control step of generating the composite image by combining the images based on the image information from the plurality of terminal devices based on the display information, and displaying the generated composite image; and the image display A second control step in which an apparatus synthesizes each voice based on each voice information from the plurality of terminal devices based on the display information to generate a synthesized voice, and outputs the generated synthesized voice; It is characterized by including.
Since the audio / video processing method of the present invention is a method using the above-described conference system, it can enjoy the same operations and effects as the above-described conference system.
本発明の画像音声処理方法は、複数の端末装置と通信可能に接続され、前記複数の端末装置が扱う各画像が合成された合成画像を表示する画像表示装置の画像音声処理方法であって、前記複数の端末装置のそれぞれにおいて集音された音声に関する音声情報、前記合成画像における、前記複数の端末装置のそれぞれが扱う画像の表示状態に関する表示情報、及び前記複数の端末装置のそれぞれが扱う画像情報を受信する受信ステップと、前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を表示する第1制御ステップと、前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を出力する第2制御ステップと、を含むことを特徴とする。
本発明の画像音声処理方法は、上述した画像表示装置にて実施される方法であるので、上述した画像表示装置と同様の作用及び効果を享受できる。
The image / audio processing method of the present invention is an image / audio processing method for an image display device that is communicably connected to a plurality of terminal devices and displays a combined image obtained by combining the images handled by the plurality of terminal devices, Audio information relating to the sound collected by each of the plurality of terminal devices, display information relating to a display state of an image handled by each of the plurality of terminal devices in the synthesized image, and images handled by each of the plurality of terminal devices A receiving step for receiving information; and a method for generating the composite image by combining the images based on the image information from the plurality of terminal devices based on the display information, and displaying the generated composite image. 1 control step and, based on the display information, synthesize voices based on the voice information from the plurality of terminal devices to generate a synthesized voice, A second control step of outputting the formed sound, characterized in that it comprises a.
Since the image / audio processing method of the present invention is a method implemented by the above-described image display device, it can enjoy the same operations and effects as the above-described image display device.
[第1実施形態]
以下、本発明の第1実施形態を図面に基づいて説明する。
〔会議システムの構成〕
図1は、会議システム1を示すブロック図である。
会議システム1は、会議を行う際に利用されるシステムであり、会議の各参加者の利用に供される各端末の各表示画面をスクリーン上に同時に表示(分割表示)する。
この会議システム1は、複数の端末装置2と画像表示装置としてのプロジェクター3とが所定の通信路を介して接続された構成を有する。
[First embodiment]
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, a first embodiment of the invention will be described with reference to the drawings.
[Conference system configuration]
FIG. 1 is a block diagram showing a
The
The
なお、本実施形態では、説明の便宜上、図1に示すように、端末装置2を4つ(第1〜第4端末装置2A〜2D)としているが、その数は、4つに限らず、その他の数としても構わない。
また、本実施形態では、図1に示すように、前記通信路として、ローカルエリアネットワークLAN(以下、ネットワークLAN)を採用しているが、これに限らず、使用環境や求められる通信速度等に応じて、その他の通信路を採用しても構わない。また、会議システム1において採用される通信方法は、有線通信であってもよく、無線通信であってもよい。
In this embodiment, for convenience of explanation, as shown in FIG. 1, the number of
Further, in the present embodiment, as shown in FIG. 1, a local area network LAN (hereinafter referred to as a network LAN) is adopted as the communication path. Depending on the situation, other communication paths may be adopted. The communication method employed in the
〔端末装置の構成〕
図2は、端末装置2の構成を示すブロック図である。
端末装置2は、会議の各参加者(本実施形態では4名)の利用に供されるパーソナルコンピューターで構成されている。
なお、本実施形態における各端末装置2A〜2Dは、同一の構成を有する。
この端末装置2は、図2に示すように、ハードディスク等のメモリー22、及び当該メモリー22に記憶されたプログラムを実行するCPU(Central Processing Unit)21の他、ネットワークインターフェース(ネットワークI/F)23と、入力手段24と、画像処理手段25と、VRAM(Video Random Access Memory)26と、ディスプレイ27と、音声収集手段としてのマイクロフォン28と、音声処理手段29等を備える。
[Configuration of terminal device]
FIG. 2 is a block diagram illustrating a configuration of the
The
In addition, each
As shown in FIG. 2, the
ネットワークインターフェース23は、ネットワークLANに接続するためのインターフェースである。
入力手段24は、マウスやキーボード等で構成され、参加者による操作に応じた操作信号を出力する。
画像処理手段25は、例えばGPU(Graphics Processing Unit)等で構成され、CPU21による制御の下、VRAM26をバッファとして使用して、ディスプレイ27に表示すべき画像を表示する。
マイクロフォン28は、端末装置2の周囲の音(特に、端末装置2を利用する参加者の声)を集音し、音声信号を出力する。
音声処理手段29は、マイクロフォン28から出力されたアナログの音声信号をデジタルの音声データ(音声情報)に変換する。
The
The
The image processing means 25 is composed of, for example, a GPU (Graphics Processing Unit) or the like, and displays an image to be displayed on the
The
The audio processing means 29 converts the analog audio signal output from the
CPU21は、メモリー22に記憶されたプログラムを実行することで、図2に示すように、入力受付手段211、GUI(Graphical User Interface)制御手段212、及び送信制御手段としての通信制御手段213等として機能する。
入力受付手段211は、入力手段24からの操作信号に基づいて、参加者による入力手段24への操作を認識する。
GUI制御手段212は、画像処理手段25の動作を制御し、ディスプレイ27に後述する設定ウィンドウWを表示させる。
通信制御手段213は、ネットワークLANを介したプロジェクター3との接続を確立するとともに、ネットワークLANを介してプロジェクター3との間で情報を送受信する。
例えば、通信制御手段213は、上述した音声データ、入力受付手段211にて認識した情報(以下、表示データ(表示情報))、及び端末装置2が扱う画像データ(ディスプレイ27に表示されている画像(設定ウィンドウWを除く)に関する画像データ(VRAM26に記憶された画像データ))等をプロジェクター3に送信する。
As shown in FIG. 2, the
Based on the operation signal from the
The
The
For example, the
〔プロジェクターの構成〕
図3は、プロジェクター3の構成を示すブロック図である。
プロジェクター3は、画像を投射してスクリーン上に投影画像を表示する。
このプロジェクター3は、図3に示すように、ROM(Read Only Memory)やRAM(Random Access Memory)等を含んで構成されるメモリー32、及び当該メモリー32に記憶されたプログラムを実行するCPU31の他、ネットワークインターフェース(ネットワークI/F)33と、画像処理手段34と、VRAM35と、表示手段としての画像投射手段36と、音声処理手段37と、音声出力手段としてのスピーカー38等を備える。
[Configuration of projector]
FIG. 3 is a block diagram showing the configuration of the
The
As shown in FIG. 3, the
ネットワークインターフェース33は、ネットワークLANに接続するためのインターフェースである。
画像処理手段34は、例えばGPU等で構成され、CPU31による制御の下、VRAM35をバッファとして使用して、画像投射手段36に画像を投射させる。
画像投射手段36は、種々の一般的なプロジェクターで使用される光学系で構成され、光源装置と、光源装置から出射された光束を変調する液晶パネル等の光変調装置と、光変調装置にて変調された光束(画像)を投射する投射レンズ等で構成されている。
The
The image processing means 34 is composed of, for example, a GPU or the like, and projects an image on the image projection means 36 using the
The image projection means 36 is composed of an optical system used in various general projectors, and includes a light source device, a light modulation device such as a liquid crystal panel that modulates a light beam emitted from the light source device, and a light modulation device. The projection lens etc. which project the modulated light beam (image) are comprised.
図4は、音声処理手段37の構成を示すブロック図である。
音声処理手段37は、CPU31による制御の下、各端末装置2から送信された各音声データに基づいて、各端末装置2の各マイクロフォン28にて収集された各参加者の声を合成し、当該合成した合成音声を、スピーカー38を介して出力させる。
この音声処理手段37は、図4に示すように、複数の音声増幅部371と、音声合成部372等を備える。
なお、本実施形態では、会議システム1に用いられる端末装置2の数を4つとしたため、音声増幅部371も4つ(第1〜第4音声増幅部371A〜371D)としているが、その数は、4つに限らず、端末装置2に応じた数だけ設ければよい。
FIG. 4 is a block diagram showing the configuration of the audio processing means 37.
The voice processing means 37 synthesizes the voices of the participants collected by the
As shown in FIG. 4, the
In the present embodiment, since the number of the
音声増幅部371は、アンプ等を備えて構成され、各端末装置2のうち、対象となる端末装置2から送信された音声データをアナログの音声信号に変換し、CPU31の制御の下、変換した音声信号の信号レベル(音声の出力レベル)を調整する(種々の増幅度で増幅する)。
なお、第1〜第4音声増幅部371A〜371Dは、第1〜第4端末装置2A〜2Dにそれぞれ対応する。
音声合成部372は、各音声増幅部371にて増幅度が調整された各音声信号を合成して合成音声信号を生成し、当該合成音声信号に基づく合成音声を、スピーカー38を介して出力させる。
The
The first to fourth
The
CPU31は、メモリー32に記憶されたプログラムを実行することで、図3に示すように、受信手段としての通信制御手段311、第1制御手段312、及び第2制御手段313等として機能する。
通信制御手段213は、ネットワークLANを介した各端末装置2との接続を確立するとともに、ネットワークLANを介して各端末装置2との間で情報を送受信する。
As shown in FIG. 3, the
The
第1制御手段312は、端末装置2から送信された表示データに基づいて、画像処理手段34の動作を制御し、各端末装置2からの各画像データに基づく各画像を合成し、当該合成画像をスクリーン上に表示させる。
第2制御手段313は、端末装置2から送信された表示データに基づいて、音声処理手段37の動作を制御し、各端末装置2からの各音声データに基づく各音声を合成し、当該合成音声をスピーカー38から出力させる。
The
The
〔会議システムの動作〕
次に、上述した会議システム1の動作(画像音声処理方法)について説明する。
図5は、画像音声処理方法を説明するフローチャートである。
なお、以下では、説明の便宜上、端末装置2とプロジェクター3とのネットワークLANを介した接続が既に確立されているものとする。
また、以下では、説明の便宜上、ネットワークLANを介してプロジェクター3と接続が確立されている各端末装置2を第1,第2端末装置2A,2Bとし、第3,第4端末装置2C,2Dについては接続が確立されていないものとする。
すなわち、会議システム1を利用した会議への参加者は、第1端末装置2Aを利用する第1参加者と、第2端末装置2Bを利用する第2参加者の2名とする。
[Operation of the conference system]
Next, the operation (video / audio processing method) of the
FIG. 5 is a flowchart for explaining the image / audio processing method.
In the following, for convenience of explanation, it is assumed that the connection between the
In the following, for convenience of explanation, the
In other words, the number of participants in the conference using the
図6は、設定ウィンドウWの一例を示す図である。
例えば、第1参加者が第1端末装置2Aの入力手段24により「設定ウィンドウWを表示させる」旨の入力操作を実施すると、入力受付手段211は、当該入力操作を認識する(ステップS101)。
ステップS101の後、GUI制御手段212は、画像処理手段25の動作を制御し、ディスプレイ27に図6に示す設定ウィンドウWを表示させる(ステップS102)。
FIG. 6 is a diagram illustrating an example of the setting window W.
For example, when the first participant performs an input operation to “display the setting window W” using the
After step S101, the
設定ウィンドウWは、図6に示すように、第1〜第3ウィンドウW1〜W3を備える。
第1ウィンドウW1は、会議システム1を利用する全参加者に対して、当該参加者を認識させる領域である。
なお、当該参加者については、各端末装置2とプロジェクター3とのネットワークLANを介した接続が確立された際に、接続確立済みの各端末装置2(本実施形態では第1,第2端末装置2A,2B)に関する情報がプロジェクター3から当該各端末装置2に送信される。そして、各端末装置2(各CPU21)は、当該送信された情報(接続確立済みの各端末装置2に関する情報)により、当該端末装置2に対して予め設定された各参加者を認識し、第1ウィンドウW1に当該各参加者に関する参加者画像を表示する。例えば、本実施形態では、第1端末装置2Aは、プロジェクター3から送信された情報に基づき、第2端末装置2Bとプロジェクター3との接続が確立済みであることを把握するとともに、第2端末装置2Bに対して設定された参加者を認識する。
本実施形態では、上述したように、各参加者が第1,第2参加者の2名であるため、第1ウィンドウW1には、第1参加者に応じた第1参加者画像FP1、及び第2参加者に応じた第2参加者画像FP2が表示される。
As shown in FIG. 6, the setting window W includes first to third windows W1 to W3.
The first window W1 is an area in which all participants who use the
For each participant, when the connection between each
In the present embodiment, as described above, since each participant is the first and second participants, the first window W1 includes the first participant image FP1 corresponding to the first participant, and A second participant image FP2 corresponding to the second participant is displayed.
第2ウィンドウW2は、プロジェクター3に表示させる合成画像において、各端末装置2が扱う画像の表示数を選択させる領域である。
具体的に、第2ウィンドウW2には、図6に示すように、第1〜第3選択画像FC1〜FC3が表示されている。
第1選択画像FC1は、接続確立済みの各端末装置2のうち、いずれかの端末装置2が扱う画像のみを全画面で表示させる旨(表示数が1)を選択させる画像である。
第2選択画像FC2は、接続確立済みの各端末装置2のうち、2つの端末装置2が扱う各画像を左右に2画面で表示させる旨(表示数が2)を選択させる画像である。
第3選択画像FC3は、接続確立済みの各端末装置2のうち、4つの端末装置2が扱う各画像を上下左右に4画面で表示させる旨(表示数が4)を選択させる画像である。
The second window W2 is an area for selecting the display number of images handled by each
Specifically, as shown in FIG. 6, first to third selection images FC1 to FC3 are displayed in the second window W2.
The first selection image FC1 is an image for selecting that the images handled by any one of the
The second selection image FC2 is an image for selecting that the images handled by the two
The third selection image FC3 is an image for selecting that the images handled by the four
第3ウィンドウW3は、プロジェクター3に表示させる合成画像において、接続確立済みの各端末装置2が扱う各画像の表示位置及び表示サイズを選択させる領域である。
例えば、第1参加者による入力手段24への操作(マウス操作)により、第2選択画像FC2が選択された場合には、図6に示すように、第3ウィンドウW3には、プロジェクター3が表示する2画面に相当する2つの領域Ar1,Ar2が表示される。
なお、具体的な図示は省略したが、第1選択画像FC1が選択された場合には、第3ウィンドウW3には、プロジェクター3が表示する1画面に相当する1つの領域のみが表示される。また、第3選択画像FC3が選択された場合には、第3ウィンドウW3には、プロジェクター3が表示する4画面に相当する4つの領域が表示される。
The third window W <b> 3 is an area for selecting a display position and a display size of each image handled by each
For example, when the second selected image FC2 is selected by an operation (mouse operation) on the input means 24 by the first participant, as shown in FIG. 6, the
Although specific illustration is omitted, when the first selection image FC1 is selected, only one area corresponding to one screen displayed by the
そして、第1参加者は、接続確立済みの各端末装置2が扱う各画像の表示位置を選択する際には、入力手段24を操作し、第1ウィンドウW1に表示された各参加者画像のうちいずれかの参加者画像を第3ウィンドウW3に表示された各領域のうちいずれかの領域にドラッグアンドドロップする。
例えば、図6(A)に示す例では、第3ウィンドウW3における左側の領域Ar1に第1参加者画像FP1がドラッグアンドドロップされ、右側の領域Ar2に第2参加者画像FP2がドラッグアンドドロップされた状態を示している。
このように表示位置を選択することで、第1端末装置2Aが扱う画像(以下の説明では、「第1の画像」とも称する)を左側に表示し、第2端末装置2Bが扱う画像(以下の説明では、「第2の画像」とも称する)を右側に表示する旨を指示することとなる。
Then, when the first participant selects the display position of each image handled by each
For example, in the example shown in FIG. 6A, the first participant image FP1 is dragged and dropped in the left area Ar1 in the third window W3, and the second participant image FP2 is dragged and dropped in the right area Ar2. Shows the state.
By selecting the display position in this way, an image handled by the first
また、第1参加者は、接続確立済みの各端末装置2が扱う各画像の表示サイズを選択する際には、入力手段24を操作し、第3ウィンドウW3に表示された各領域のうちいずれかの領域の端縁にカーソル(図示略)を合わせ、当該領域の大きさを変えるようにドラッグアンドドロップする。
例えば、図6(B)に示す例では、上記操作により第3ウィンドウW3における左側の領域Ar1が大きくされ、当該操作に伴い右側の領域Ar2が小さくなった状態を示している。
このように表示サイズを選択することで、第1端末装置2Aが扱う画像(第1参加者(主発言者)の資料等)を大きく表示し、第2端末装置2Bが扱う画像(他の参加者の資料等)を小さく表示する旨を指示することとなる。
In addition, when the first participant selects the display size of each image handled by each
For example, the example shown in FIG. 6B shows a state in which the left area Ar1 in the third window W3 is enlarged by the above operation, and the right area Ar2 is reduced in accordance with the operation.
By selecting the display size in this way, the image handled by the first
ステップS102の後、第1参加者により上述したように入力手段24が操作された場合には、入力受付手段211は、プロジェクター3に表示させる合成画像において、接続確立済みの各端末装置2が扱う各画像の表示状態(表示数、表示位置、表示サイズ)の入力を受け付ける(ステップS103:入力受付ステップ)。
そして、入力受付手段211は、表示状態(表示数、表示位置、表示サイズ)に関する表示データをメモリー22に記憶させる。
例えば、図6(B)に示す表示状態が入力された場合には、入力受付手段211は、表示数を「2」とし、第1端末装置2Aが扱う画像の表示位置を「左側」とし、第2端末装置2Bが扱う画像の表示位置を「右側」とし、第1,第2端末装置2A,2Bが扱う各画像の表示サイズ(比率)を「A:B」とする旨の表示データをメモリー22に記憶させる。
本実施形態では、「A」はプロジェクター3に表示させる合成画像における第1の画像の比率を、「B」は第2の画像の比率を表すものとする。この比率は、第1,第2の画像の幅、高さ、または対角線の長さの比率や、面積の比率等を採用することができる。また、表示サイズに関する表示データは、第1,第2の画像の表示サイズを表す情報であれば、比率以外の情報であってもよい。例えば、表示サイズに関する表示データは、第1,第2の画像の幅、高さ、対角線の長さや、面積等を表す情報であってもよく、これらの差を表す情報であってもよい。
After step S102, when the input means 24 is operated by the first participant as described above, the input receiving means 211 is handled by each
Then, the
For example, when the display state shown in FIG. 6B is input, the
In the present embodiment, “A” represents the ratio of the first image in the composite image displayed on the
ステップS103の後、第1参加者が第1端末装置2Aの入力手段24により「入力した表示状態で合成画像をプロジェクター3に表示させる」旨の入力操作を実施すると、入力受付手段211は、当該入力操作を認識する。
そして、通信制御手段213は、メモリー22に記憶された表示データを、ネットワークLANを介してプロジェクター3に送信する(ステップS104:送信制御ステップ)。
また、CPU21は、画像処理手段25の動作を制御し、設定ウィンドウWの表示を止め、通常の画像をディスプレイ27に表示させる。
After step S103, when the first participant performs an input operation to “display the composite image on the
Then, the
Further, the
ステップS104の後、プロジェクター3の通信制御手段311は、ネットワークLANを介して、第1端末装置2Aから表示データを受信する(ステップS105:受信ステップ)。
そして、CPU31は、受信した表示データをメモリー32に記憶させる。
ステップS105の後、通信制御手段311は、ネットワークLANを介して、第1,第2端末装置2A,2Bに対して、画像データ及び音声データの送信要求を行う(ステップS106)。
After step S104, the communication control means 311 of the
Then, the
After step S105, the
ステップS106の後、第1,第2端末装置2A,2Bの各通信制御手段213は、プロジェクター3からデータ送信要求を受信(ステップS107,S108)すると、ネットワークLANを介してプロジェクター3に対して画像データ及び音声データを送信する(ステップS109,S110:送信制御ステップ)。
ここで、画像データは、第1,第2端末装置2A,2Bにおいて、現時点で各ディスプレイ27に表示されている画像(表示画面)に関する画像データであり、具体的には、現時点で各VRAM26に記憶されている画像データである。
また、音声データは、第1,第2端末装置2A,2Bにおいて、現時点で第1,第2参加者の声が各マイクロフォン28にて集音され、各マイクロフォン28からの音声信号が各音声処理手段29にて変換された音声データである。
After step S106, when the communication control means 213 of the first and second
Here, the image data is image data related to an image (display screen) currently displayed on each
In addition, the voice data is collected at each
ステップS109,S110の後、プロジェクター3の通信制御手段311は、ネットワークLANを介して、第1,第2端末装置2A,2Bから画像データ及び音声データを受信する(ステップS111:受信ステップ)。
そして、CPU31は、端末装置2を識別する識別情報(IPアドレス等)にて送信元(端末装置2)を特定し、受信した画像データ及び音声データを当該送信元の端末装置2に関連付けてメモリー22に記憶させる。
なお、以下では、メモリー22に記憶された画像データ及び音声データのうち、送信元が第1端末装置2Aであるデータを第1画像データ及び第1音声データと記載し、送信元が第2端末装置2Bであるデータを第2画像データ及び第2音声データと記載する。
After steps S109 and S110, the communication control means 311 of the
Then, the
In the following, among the image data and audio data stored in the
ステップS111の後、第1制御手段312は、メモリー22に記憶された表示データに基づいて、画像処理手段34の動作を制御し、合成画像を生成させ(ステップS112)、当該合成画像をスクリーン上に表示させる(ステップS113:第1制御ステップ)。
例えば、ステップS103において図6(B)に示す表示状態が入力された場合には、第1制御手段312は、表示データに基づいて、以下に示すような合成画像を生成及び表示させる。
すなわち、第1制御手段312は、表示データ(表示数、表示位置)に基づいて、第1画像データに基づく画像(第1の画像)の表示位置を「左側」、第2画像データに基づく画像(第2の画像)の表示位置を「右側」とする。
また、第1制御手段312は、第1,第2の画像の表示サイズを表示データに基づく比率とした合成画像(第1の画像(主発言者(第1参加者)の資料等)が第2の画像(他の参加者(第2参加者)よりも大きい合成画像)を生成させ(当該合成画像に関する合成画像データをVRAM35上に生成させ)、スクリーン上に当該合成画像を表示させる。
After step S111, the
For example, when the display state shown in FIG. 6B is input in step S103, the
That is, the first control means 312 sets the display position of the image (first image) based on the first image data to “left” based on the display data (display number, display position), and the image based on the second image data. The display position of (second image) is “right”.
In addition, the first control means 312 has a composite image (a first image (material of the main speaker (first participant), etc.) having the display size of the first and second images as a ratio based on the display data. A second image (a composite image larger than other participants (second participants)) is generated (composite image data related to the composite image is generated on the VRAM 35), and the composite image is displayed on the screen.
また、ステップS111の後(図5では説明の便宜上、ステップS112,S113の後の処理としている)、第2制御手段313は、メモリー22に記憶された表示データに基づいて、音声処理手段37の動作を制御し、合成音声を生成させ(ステップS114)、当該合成音声をスピーカー38から出力させる(ステップS115:第2制御ステップ)。
例えば、ステップS103において図6(B)に示す表示状態が入力された場合には、第2制御手段313は、表示データに基づいて、以下に示すような合成音声を生成させる。
すなわち、第2制御手段313は、表示データ(各画像の表示サイズの比率)に基づいて、第1音声増幅部371Aに第1音声データを処理させ、当該第1音声データを変換した後の音声信号を増幅させる。本実施形態では、第1,第2の画像が合成画像に含まれており、第1の画像の方が第2の画像よりも大きい。このため、第2制御手段313は、第1音声増幅部371Aにデフォルト値よりも大きい増幅度で音声信号を増幅させる。
また、第2制御手段313は、表示データ(各画像の表示サイズの比率)に基づいて、第2音声増幅部371Bに第2音声データを処理させ、当該第2音声データを変換した後の音声信号を増幅させる。本実施形態では、第1,第2の画像が合成画像に含まれており、第2の画像の方が第1の画像よりも小さい。このため、第2制御手段313は、第2音声増幅部371Bにデフォルト値よりも小さい増幅度で音声信号を増幅させる。換言すると、第2制御手段313は、合成画像において第1の画像が他の画像よりも大きく表示されるほど、第1の画像に対応する音声を他の画像に対応する音声よりも大きくする。
Further, after step S111 (in FIG. 5, for convenience of explanation, the processing after step S112, S113 is performed), the
For example, when the display state shown in FIG. 6B is input in step S103, the
That is, the second control means 313 causes the first
In addition, the
そして、音声合成部372は、第1,第2音声増幅部371A,371Bにて増幅された各音声信号を合成して合成音声信号を生成し、当該合成音声信号に基づく合成音声を、スピーカー38を介して出力させる。
すなわち、ステップS103において図6(B)に示す表示状態が入力された場合には、第2制御手段313は、主発言者(第1参加者)の声を他の参加者(第2参加者)の声に対して強調した合成音声を生成及び出力させる。
以降、ステップS109〜S115が順次、繰り返し実行され、現時点での第1,第2端末装置2A,2Bの各表示画面が合成画像としてスクリーンに表示され、現時点での第1,第2端末装置2A,2Bの各マイクロフォン28に集音された各参加者の声が合成音声としてスピーカー38から出力されることとなる。
Then, the
That is, when the display state shown in FIG. 6B is input in step S103, the second control means 313 sends the voice of the main speaker (first participant) to other participants (second participants). ) To generate and output a synthesized voice emphasized with respect to the voice.
Thereafter, steps S109 to S115 are sequentially and repeatedly executed, and the display screens of the first and second
上述した第1実施形態によれば、以下の効果がある。
本実施形態では、会議システム1は、複数の端末装置2及びプロジェクター3を備えるので、端末装置2を利用して表示状態を適宜、入力することで、主発言者の資料(主発言者の利用に供される端末装置2が扱う画像)を合成画像(分割表示画面)中の任意の表示位置や、任意の表示サイズ等に設定できる。このため、他の参加者に主発言者がどの画像に基づいて説明を行っているかを容易に判断させることができる。
また、各参加者の声を各マイクロフォン28にて集音し、主発言者の声を他の参加者の声に対して強調した合成音声を生成及び出力できるので、主発言者が説明を行っている際に、他の参加者の一部が会話等をしていた場合であっても、主発言者の声を聞き取りやすいものとすることができる。
したがって、利便性の向上が図れる。
また、合成画像及び合成音声の生成をプロジェクター3自身が実行するため、従来のようなサーバーを必要とせず、会議システム1の構成を簡素化できる。
The first embodiment described above has the following effects.
In the present embodiment, since the
In addition, the voice of each participant is collected by each
Therefore, the convenience can be improved.
In addition, since the
さらに、表示状態が上述した表示サイズを含むものであるので、当該表示サイズに基づいて第1,第2制御手段312,313が合成画像及び合成音声を生成すれば、主発言者の資料(主発言者の利用に供される端末装置2が扱う画像)や声を他の参加者の資料や声に対して強調できる。
したがって、主発言者の資料や声を視聴し易いものとなり、利便性の向上が図れる。
Furthermore, since the display state includes the display size described above, if the first and second control means 312 and 313 generate a synthesized image and synthesized speech based on the display size, the material of the main speaker (main speaker) Image and voice handled by the
Therefore, it becomes easy to view the material and voice of the main speaker, and the convenience can be improved.
[第2実施形態]
次に、本発明の第2実施形態を図面に基づいて説明する。
以下の説明では、前記第1実施形態と同様の構成及び同一部材には同一の符号を付して、その詳細な説明は省略または簡略化する。
図7は、第2実施形態における会議システム1を示すブロック図である。
図8は、第2実施形態におけるプロジェクター3の構成を示すブロック図である。
図9は、第2実施形態におけるサーバー装置4の構成を示すブロック図である。
本実施形態では、前記第1実施形態に対して、図7ないし図9に示すように、会議システム1の構成として端末装置2及びプロジェクター3の他、サーバー装置4を追加した点、及びプロジェクター3におけるCPU31の一部の機能を省略し、当該一部の機能をサーバー装置4のCPU41に追加した点が異なるのみである。
[Second Embodiment]
Next, 2nd Embodiment of this invention is described based on drawing.
In the following description, the same configurations and the same members as those in the first embodiment are denoted by the same reference numerals, and detailed description thereof is omitted or simplified.
FIG. 7 is a block diagram showing the
FIG. 8 is a block diagram illustrating a configuration of the
FIG. 9 is a block diagram illustrating a configuration of the
In the present embodiment, as shown in FIGS. 7 to 9, the
サーバー装置4は、端末装置2と同様のパーソナルコンピューターで構成されており、図9に示すように、CPU41、メモリー42、ネットワークインターフェース(ネットワークI/F)43、入力手段44、画像処理手段45、VRAM46、ディスプレイ47、及び音声処理手段48を備える。
CPU41は、メモリー42に記憶されたプログラムを実行することで、図9に示すように、第3制御手段としての通信制御手段411、前記第1実施形態で説明したプロジェクター3(CPU31)における第1,第2制御手段312,313と同様の第1,第2制御手段412,413等として機能する。
音声処理手段48は、前記第1実施形態で説明したプロジェクター3の音声処理手段37と同様の構成を有するものである。
The
The
The sound processing means 48 has the same configuration as the sound processing means 37 of the
次に、第2実施形態における画像音声処理方法について説明する。
図10は、第2実施形態における画像音声処理方法を説明するフローチャートである。
なお、以下では、説明の便宜上、端末装置2とサーバー装置4とのネットワークLANを介した接続、及びプロジェクター3とサーバー装置4とのネットワークLANを介した接続が既に確立されているものとする。
また、以下では、前記第1実施形態と同様に、ネットワークLANを介してサーバー装置4と接続が確立されている各端末装置2を第1,第2端末装置2A,2Bとする。
Next, a video / audio processing method according to the second embodiment will be described.
FIG. 10 is a flowchart for explaining a video / audio processing method according to the second embodiment.
In the following, for convenience of explanation, it is assumed that the connection between the
In the following, similarly to the first embodiment, the
本実施形態の画像音声処理方法では、上述したようにプロジェクター3(CPU31)の一部の機能をサーバー装置4(CPU41)に持たせたことに伴い、前記第1実施形態で説明したプロジェクター3(CPU31)が実行していた処理の一部をサーバー装置4(CPU41)が実行することとなる。
すなわち、サーバー装置4(CPU41)は、図10に示すように、前記第1実施形態でプロジェクター3(CPU31)が実行していたステップS105,S106,S111,S112,S114を実行することとなる。
In the image / audio processing method of this embodiment, as described above, the projector 3 (CPU 31) has a part of the functions of the projector 3 (CPU 31), and the projector 3 (CPU 41) described in the first embodiment has been described. The server device 4 (CPU 41) executes a part of the processing executed by the CPU 31).
That is, as shown in FIG. 10, the server apparatus 4 (CPU 41) executes steps S105, S106, S111, S112, and S114 that were executed by the projector 3 (CPU 31) in the first embodiment.
なお、本実施形態において、ステップS112では、第1制御手段412による制御の下、画像処理手段45が合成画像データを生成する。また、ステップS114では、第2制御手段413による制御の下、音声処理手段48が合成音声信号を生成し、当該合成音声信号(アナログ)をデジタルデータ(合成音声データ)に変換する。
また、各端末装置2は、ステップS104,S107〜S110を実行する際の送受信の相手がサーバー装置4となる。
In this embodiment, in step S112, the
Further, in each
そして、サーバー装置4の通信制御手段411は、ステップS112,S114において生成された合成画像データ及び合成音声データを、ネットワークLANを介して、プロジェクター3に送信する(ステップS201)。
一方、プロジェクター3の通信制御手段311は、ネットワークLANを介して、サーバー装置4からの合成画像データ及び合成音声データを受信する(ステップS202)。
そして、CPU31は、当該合成画像データをVRAM35上に記憶させ、当該合成画像データに基づく合成画像をスクリーン上に表示させる(ステップS203)とともに、当該合成音声データを音声処理手段37Aにてアナログの合成音声信号に変換させ、当該合成音声信号に基づく合成音声をスピーカー38から出力させる(ステップS204)。
Then, the
On the other hand, the communication control means 311 of the
Then, the
上述した第2実施形態によれば、前記第1実施形態と同様の効果の他、以下の効果がある。
本実施形態では、合成画像及び合成音声の生成をプロジェクター3ではなく、サーバー装置4で実行するため、プロジェクター3に合成画像及び合成音声を生成する機能を別途、設ける必要がなく、汎用のプロジェクター3を利用した会議システム1を構築できる。
According to the second embodiment described above, there are the following effects in addition to the same effects as in the first embodiment.
In the present embodiment, since the generation of the composite image and the synthetic voice is executed by the
なお、本発明は前述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
前記各実施形態では、ステップS101〜S104を第1端末装置2Aが実行していたが、第1参加者以外の参加者が他の端末装置2の入力手段24を操作すれば、他の端末装置2がステップS101〜S104を実行するものである。
前記各実施形態では、表示サイズを大きくする画像に対応する音声を他の画像に対応する音声に対して強調させていたが、これに限らず、所定の表示位置に位置付ける画像に対応する音声を他の画像に対応する音声に対して強調させるように構成しても構わない。
It should be noted that the present invention is not limited to the above-described embodiments, and modifications, improvements, and the like within the scope that can achieve the object of the present invention are included in the present invention.
In each said embodiment, 2A of 1st terminal devices performed step S101-S104, but if a participant other than a 1st participant operates the input means 24 of the other
In each of the above-described embodiments, the sound corresponding to the image whose display size is increased is emphasized with respect to the sound corresponding to the other image. However, the sound corresponding to the image positioned at a predetermined display position is not limited thereto. You may comprise so that it may emphasize with respect to the audio | voice corresponding to another image.
前記第2実施形態では、ステップS101〜S103を実行する機能(入力受付手段211及びGUI制御手段212)を端末装置2に持たせていたが、これに限らず、サーバー装置4に当該機能を持たせても構わない。
前記各実施形態では、本発明に係る画像表示装置としてプロジェクター3を採用していたが、これに限らず、液晶ディスプレイ、プラズマテレビ、有機EL(Electro Luminescence)等を採用しても構わない。
In the second embodiment, the
In each of the above embodiments, the
前記各実施形態では、第1音声増幅部371Aの増幅度をデフォルト値よりも大きく、第2音声増幅部371Bの増幅度をデフォルト値よりも小さくしているが、一方の増幅度はデフォルト値のままで、他方の増幅度を大きくする(または、小さくする)ことで音量に差をつけてもよい。
前記各実施形態では、音量の調整をプロジェクター3またはサーバー装置4で実施していたが、これに限らず、音量の調整までを各端末装置2で行い、音量が調整済みの音声をプロジェクター3やサーバー装置4が合成する構成を採用しても構わない。
In each of the embodiments described above, the amplification level of the first
In each of the embodiments described above, the volume adjustment is performed by the
本発明は、プロジェクター等の画像表示装置を用いて会議を行う会議システムに利用できる。 The present invention can be used for a conference system that performs a conference using an image display device such as a projector.
1・・・会議システム、2・・・端末装置、3・・・プロジェクター、4・・・サーバー装置、28・・・マイクロフォン(音声収集手段)、36・・・画像投射手段(表示手段)、38・・・スピーカー(音声出力手段)、211・・・入力受付手段、213・・・通信制御手段(送信制御手段)、312,412・・・第1制御手段、313,413・・・第2制御手段、411・・・通信制御手段(第3制御手段)、LAN・・・ネットワーク(通信路)、S103・・・入力受付ステップ、S104,S109,S110・・・送信制御ステップ、S105,S111・・・受信ステップ、S113・・・第1制御ステップ、S115・・・第2制御ステップ。
DESCRIPTION OF
Claims (6)
前記端末装置は、
周囲の音を集音する音声収集手段と、
前記合成画像における、当該端末装置が扱う画像と、他の前記端末装置が扱う画像との表示状態の入力を受け付ける入力受付手段と、
前記音声収集手段にて集音された音声に関する音声情報、前記表示状態に関する表示情報、及び当該端末装置が扱う画像に関する画像情報を前記画像表示装置に送信する送信制御手段とを備え、
前記画像表示装置は、
画像を表示する表示手段と、
前記音声情報、前記表示情報、及び前記画像情報を受信する受信手段と、
前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を前記表示手段に表示させる第1制御手段と、
音声を出力する音声出力手段と、
前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を前記音声出力手段に出力させる第2制御手段とを備える
ことを特徴とする会議システム。 A conference system, comprising: a plurality of terminal devices; and an image display device connected to be communicable with the plurality of terminal devices, wherein a composite image obtained by combining the images handled by the plurality of terminal devices is displayed on the image display device. There,
The terminal device
Voice collecting means for collecting ambient sounds;
An input receiving means for receiving an input of a display state of an image handled by the terminal device and an image handled by another terminal device in the composite image;
Transmission control means for transmitting to the image display device audio information relating to the sound collected by the sound collecting means, display information relating to the display state, and image information relating to an image handled by the terminal device;
The image display device includes:
Display means for displaying an image;
Receiving means for receiving the audio information, the display information, and the image information;
A first control unit configured to generate the composite image by combining the images based on the image information from the plurality of terminal devices based on the display information, and to display the generated composite image on the display unit; ,
Audio output means for outputting audio;
A second control unit configured to generate a synthesized voice by synthesizing each voice based on the voice information from the plurality of terminal devices based on the display information, and to output the generated synthesized voice to the voice output unit; A conference system characterized by comprising:
前記端末装置は、
周囲の音を集音する音声収集手段と、
前記合成画像における、当該前記端末装置が扱う画像と、他の前記端末装置が扱う画像との表示状態の入力を受け付ける入力受付手段と、
前記音声収集手段にて集音された音声に関する音声情報、前記表示状態に関する表示情報、及び当該端末装置が扱う画像に関する画像情報を前記情報処理装置に送信する送信制御手段とを備え、
前記情報処理装置は、
前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成する第1制御手段と、
前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成する第2制御手段と、
前記通信路を介して、前記合成画像に関する合成画像情報、及び前記合成音声に関する合成音声情報を前記画像表示装置に送信する第3制御手段とを備え、
前記画像表示装置は、
前記情報処理装置からの前記合成画像情報に基づく前記合成画像を表示する表示手段と、
前記情報処理装置からの前記合成音声情報に基づく前記合成音声を出力する音声出力手段とを備える
ことを特徴とする会議システム。 A composite image comprising a plurality of terminal devices, an image display device, and the information processing devices communicably connected to the plurality of terminal devices and the image display device, and a composite image obtained by combining the images handled by the plurality of terminal devices A conference system for displaying on the image display device,
The terminal device
Voice collecting means for collecting ambient sounds;
An input receiving means for receiving an input of a display state of an image handled by the terminal device and an image handled by another terminal device in the composite image;
Transmission control means for transmitting to the information processing apparatus audio information relating to the voice collected by the voice collecting means, display information relating to the display state, and image information relating to an image handled by the terminal device;
The information processing apparatus includes:
First control means for generating the composite image by combining the images based on the image information from the plurality of terminal devices based on the display information;
Second control means for generating synthesized speech by synthesizing each voice based on each of the voice information from the plurality of terminal devices based on the display information;
Comprising, via the communication path, synthetic image information relating to the synthetic image and synthetic voice information relating to the synthetic speech to the image display device;
The image display device includes:
Display means for displaying the composite image based on the composite image information from the information processing apparatus;
A conference system comprising: voice output means for outputting the synthesized voice based on the synthesized voice information from the information processing apparatus.
前記表示状態は、
前記複数の端末装置が扱う各画像の表示サイズを含むものであり、
前記第2制御手段は、
前記各画像の表示サイズに基づいて、前記各画像に対応した前記各音声の出力レベルを調整し、前記合成音声を生成する
ことを特徴とする会議システム。 In the conference system according to claim 1 or 2,
The display state is
Including the display size of each image handled by the plurality of terminal devices,
The second control means includes
Based on the display size of each image, the output level of each sound corresponding to each image is adjusted to generate the synthesized sound.
当該画像表示装置は、
画像を表示する表示手段と、
前記複数の端末装置のそれぞれにおいて集音された音声に関する音声情報、前記合成画像における、前記複数の端末装置のそれぞれが扱う画像の表示状態に関する表示情報、及び前記複数の端末装置のそれぞれが扱う画像情報を受信する受信手段と、
前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を前記表示手段に表示させる第1制御手段と、
音声を出力する音声出力手段と、
前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を前記音声出力手段に出力させる第2制御手段とを備える
ことを特徴とする画像表示装置。 An image display device that is communicably connected to a plurality of terminal devices and displays a composite image in which images handled by the plurality of terminal devices are combined,
The image display device
Display means for displaying an image;
Audio information relating to the sound collected by each of the plurality of terminal devices, display information relating to a display state of an image handled by each of the plurality of terminal devices in the synthesized image, and images handled by each of the plurality of terminal devices Receiving means for receiving information;
A first control unit configured to generate the composite image by combining the images based on the image information from the plurality of terminal devices based on the display information, and to display the generated composite image on the display unit; ,
Audio output means for outputting audio;
A second control unit configured to generate a synthesized voice by synthesizing each voice based on the voice information from the plurality of terminal devices based on the display information, and to output the generated synthesized voice to the voice output unit; An image display device comprising:
前記端末装置が、前記合成画像における、当該端末装置が扱う画像と、他の前記端末装置が扱う画像との表示状態の入力を受け付ける入力受付ステップと、
前記端末装置が、音声収集手段にて集音された音声に関する音声情報、前記表示状態に関する表示情報、及び当該端末装置が扱う画像に関する画像情報を前記画像表示装置に送信する送信制御ステップと、
前記画像表示装置が、前記音声情報、前記表示情報、及び前記画像情報を受信する受信ステップと、
前記画像表示装置が、前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を表示する第1制御ステップと、
前記画像表示装置が、前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を出力する第2制御ステップと、
を含むことを特徴とする画像音声処理方法。 A conference system comprising a plurality of terminal devices and an image display device connected to be communicable with the plurality of terminal devices, and causing the image display device to display a combined image obtained by combining the images handled by the plurality of terminal devices. A video / audio processing method used,
An input receiving step in which the terminal device receives an input of a display state of an image handled by the terminal device and an image handled by the other terminal device in the composite image;
A transmission control step in which the terminal device transmits to the image display device audio information relating to the sound collected by the sound collecting means, display information relating to the display state, and image information relating to an image handled by the terminal device;
A receiving step in which the image display device receives the audio information, the display information, and the image information;
The image display device generates a composite image by combining the images based on the image information from the plurality of terminal devices based on the display information, and displays the generated composite image Steps,
A second control step in which the image display device generates a synthesized speech by synthesizing each speech based on the speech information from the plurality of terminal devices based on the display information, and outputs the generated synthesized speech; When,
An audio / video processing method comprising:
前記複数の端末装置のそれぞれにおいて集音された音声に関する音声情報、前記合成画像における、前記複数の端末装置のそれぞれが扱う画像の表示状態に関する表示情報、及び前記複数の端末装置のそれぞれが扱う画像情報を受信する受信ステップと、
前記表示情報に基づいて、前記複数の端末装置からの各前記画像情報に基づく各画像を合成して前記合成画像を生成し、生成した前記合成画像を表示する第1制御ステップと、
前記表示情報に基づいて、前記複数の端末装置からの各前記音声情報に基づく各音声を合成して合成音声を生成し、生成した前記合成音声を出力する第2制御ステップと、
を含むことを特徴とする画像音声処理方法。 An image audio processing method of an image display device that is communicably connected to a plurality of terminal devices and displays a composite image in which images handled by the plurality of terminal devices are combined,
Audio information relating to the sound collected by each of the plurality of terminal devices, display information relating to a display state of an image handled by each of the plurality of terminal devices in the synthesized image, and images handled by each of the plurality of terminal devices A receiving step for receiving information;
A first control step of generating the composite image by combining the images based on the image information from the plurality of terminal devices based on the display information, and displaying the generated composite image;
A second control step of generating a synthesized voice by synthesizing voices based on the voice information from the plurality of terminal devices based on the display information, and outputting the generated synthesized voice;
An audio / video processing method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011140627A JP2013008210A (en) | 2011-06-24 | 2011-06-24 | Conference system, image display device, and image voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011140627A JP2013008210A (en) | 2011-06-24 | 2011-06-24 | Conference system, image display device, and image voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013008210A true JP2013008210A (en) | 2013-01-10 |
Family
ID=47675510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011140627A Withdrawn JP2013008210A (en) | 2011-06-24 | 2011-06-24 | Conference system, image display device, and image voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013008210A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10496356B2 (en) | 2016-04-13 | 2019-12-03 | Seiko Epson Corporation | Display system, display device, and method of controlling display system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07162532A (en) * | 1993-12-07 | 1995-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Inter-multi-point communication conference support equipment |
JPH08163527A (en) * | 1994-12-09 | 1996-06-21 | Nec Corp | Terminal equipment for electronic conference |
JP2001281759A (en) * | 2000-03-29 | 2001-10-10 | Seiko Epson Corp | Projection system, projector and memory medium storing projection program |
JP2010278824A (en) * | 2009-05-29 | 2010-12-09 | Seiko Epson Corp | Image display system, image display apparatus, and image display method |
-
2011
- 2011-06-24 JP JP2011140627A patent/JP2013008210A/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07162532A (en) * | 1993-12-07 | 1995-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Inter-multi-point communication conference support equipment |
JPH08163527A (en) * | 1994-12-09 | 1996-06-21 | Nec Corp | Terminal equipment for electronic conference |
JP2001281759A (en) * | 2000-03-29 | 2001-10-10 | Seiko Epson Corp | Projection system, projector and memory medium storing projection program |
JP2010278824A (en) * | 2009-05-29 | 2010-12-09 | Seiko Epson Corp | Image display system, image display apparatus, and image display method |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10496356B2 (en) | 2016-04-13 | 2019-12-03 | Seiko Epson Corporation | Display system, display device, and method of controlling display system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11444990B1 (en) | System and method of enabling a non-host, participant-initiated breakout session in a videoconferencing system utilizing a virtual space, and simultaneously displaying a session view of a videoconferencing session and the participant-initiated breakout session | |
JP4655190B2 (en) | Information processing apparatus and method, recording medium, and program | |
US20220174157A1 (en) | Teleconference system and terminal apparatus | |
JP6179834B1 (en) | Video conferencing equipment | |
US20080046910A1 (en) | Method and system for affecting performances | |
US20100105325A1 (en) | Plurality of Mobile Communication Devices for Performing Locally Collaborative Operations | |
US10425758B2 (en) | Apparatus and method for reproducing multi-sound channel contents using DLNA in mobile terminal | |
US20170092274A1 (en) | Captioning system and/or method | |
JP4645355B2 (en) | Information processing apparatus and method, and program | |
JP2013062640A (en) | Signal processor, signal processing method, and program | |
JP4992591B2 (en) | Communication system and communication terminal | |
JP2013242357A (en) | Information processing apparatus, information processing method, and program | |
JP2022050516A (en) | Terminal, voice cooperation and reproduction system, and content display device | |
CN114531564A (en) | Processing method and electronic equipment | |
US20220239721A1 (en) | Communication terminal, application program for communication terminal, and communication method | |
JP2009253625A (en) | Apparatus, method and program for information collection-video conference implementation control and video conference system | |
JP2013008210A (en) | Conference system, image display device, and image voice processing method | |
WO2018198790A1 (en) | Communication device, communication method, program, and telepresence system | |
CN112788489B (en) | Control method and device and electronic equipment | |
WO2017057185A1 (en) | Control terminal device and device control method | |
JP2007251355A (en) | Relaying apparatus for interactive system, interactive system, and interactive method | |
JP4632132B2 (en) | Language learning system | |
JP2006339869A (en) | Apparatus for integrating video signal and voice signal | |
KR20180115928A (en) | The smart multiple sounds control system and method | |
JP6220576B2 (en) | A communication karaoke system characterized by a communication duet by multiple people |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140402 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20150319 |