JP2004186870A - テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体 - Google Patents
テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2004186870A JP2004186870A JP2002349775A JP2002349775A JP2004186870A JP 2004186870 A JP2004186870 A JP 2004186870A JP 2002349775 A JP2002349775 A JP 2002349775A JP 2002349775 A JP2002349775 A JP 2002349775A JP 2004186870 A JP2004186870 A JP 2004186870A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- level information
- user terminal
- terminal device
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能にする。
【解決手段】利用者端末装置4において、ネットワーク5を介し、会議の相手側から送信された音声信号を受信した際(ステップS1)、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し(ステップS2)、このように生成された音声レベル情報を、ネットワーク5を介し、制御サーバ装置3に送信する(ステップS3)。制御サーバ装置3に送信された音声レベル情報は、ネットワーク5を介し、会議の参加者の利用者端末装置2に配信され(ステップS4)、この音声レベル情報が配信された利用者端末装置2は、この音声レベル情報によって特定される音声レベルを視覚的に表示する(ステップS5)。
【選択図】 図1
【解決手段】利用者端末装置4において、ネットワーク5を介し、会議の相手側から送信された音声信号を受信した際(ステップS1)、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し(ステップS2)、このように生成された音声レベル情報を、ネットワーク5を介し、制御サーバ装置3に送信する(ステップS3)。制御サーバ装置3に送信された音声レベル情報は、ネットワーク5を介し、会議の参加者の利用者端末装置2に配信され(ステップS4)、この音声レベル情報が配信された利用者端末装置2は、この音声レベル情報によって特定される音声レベルを視覚的に表示する(ステップS5)。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、ネットワークを介して接続されたコンピュータ上で、音声と映像を用いてコミュニケーションを行うテレビ会議方法、それに使用される利用者端末装置、その処理方法、その機能をコンピュータに実行させるためのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
近年、インターネット等の各種情報通信網の発達により、ネットワークを介して接続されたコンピュータ上で、音声や映像を用いてコミュニケーションを行うテレビ会議システム(ディスクトップ会議システム)や音声会議システムの普及が進んでいる。このようなテレビ会議システム等に使用される利用者端末装置には、自分の音声がこの利用者端末装置にどの程度の音量で入力されたかを表示するゲージと、相手から送信された音声がどの程度の音量で出力されているかを表示するゲージが設けられていることが一般的であり、利用者は、このゲージを参照することにより、自分の音声が十分に入力されているか、及び相手から送られた音声が十分に出力されているか、ということを視覚的に確認することができる。
【0003】
【発明が解決しようとする課題】
しかし、従来の利用者端末装置には、自分が送った音声が相手方にどの程度聞こえているかを表示するゲージが設けられておらず、自分が送った音声が相手方にどの程度聞こえているかということを直接知ることができないという問題点がある。
そのため、本来の会議の進行以外に、必要の都度、会議の相手に問いかけを行い、それに対する相手側のレスポンスによって、相手に自分の音声が、どの程度聞こえているかということを判断しなければならないという問題があった。
【0004】
本発明はこのような点に鑑みてなされたものであり、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とするテレビ会議方法を提供することを目的とする。
また、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とする利用者端末装置の処理方法を提供することである。
【0005】
さらに、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とする利用者端末装置を提供することである。
また、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とする機能をコンピュータに実行させるためのプログラムを提供することである。
【0006】
さらに、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを可能とする機能をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することである。
【0007】
【課題を解決するための手段】
この発明では上記課題を解決するために、第1の利用者端末装置において、ネットワークを介し、会議の相手側から送信された音声信号を受信した際、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、このように生成された音声レベル情報を、ネットワークを介し、制御サーバ装置に送信する。
制御サーバ装置に送信された音声レベル情報は、ネットワークを介し、会議の参加者の利用者端末装置に配信され、この音声レベル情報が配信された第2の利用者端末装置は、この音声レベル情報によって特定される音声レベルを視覚的に表示する。
そして、各利用者は、この各利用者端末装置に視覚的に表示された音声レベルを見ることにより、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができる。
【0008】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照して説明する。
なお、以下では、まず本発明の概略を説明した後、その実施の形態の例について説明を行っていく。
図1は、この発明の概略構成を例示した概念図である。
図1に例示するように、この例のテレビ会議システム1は、テレビ会議を行う利用者が使用するコンピュータ等の利用者端末装置2、4、このシステムを制御する制御サーバ装置3、及びインターネット等のネットワーク5によって構成されている。この例の利用者端末装置2、4には、その利用者の画像を撮影するビデオカメラや、その音声の入力を受け付けるマイクロホンが接続されており、このテレビ会議システム1の利用者は、このビデオカメラに映し出され、ネットワーク5を介して送信された通信相手の画像を見ながら、その相手側との音声と映像による双方向コミュニケーションを行う。
【0009】
以下、このテレビ会議システム1における処理の概要を例示する。なお、ここでは、利用者端末装置2の利用者が発話した音声を、利用者端末装置4で出力する際の処理を例にとって説明する。
利用者端末装置2の利用者が発話した音声は、図示していない利用者端末装置2のマイクロホンによって受音され、その後、利用者端末装置2内でデジタル信号である音声信号に変換される。このように変換された音声信号は、ネットワーク5を介して制御サーバ装置3に送信され、そこで、図示していない他の利用者端末装置から送信された音声信号とともにミキシングされる。そして、この音声信号は、利用者端末装置4を含む他の利用者端末装置にネットワーク5を介して配信され、利用者端末装置4によって受信される(ステップS1)。
【0010】
音声信号を受信した利用者端末装置4は、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成する(ステップS2)。ここでの生成は、例えば、この音声信号をアナログ信号に変換してスピーカ出力した後、その音圧の測定値を音声レベル情報として生成することとしてもよく、受信した音声信号自体の破損をパリティチェック方式等により検出し、その破損の有無を音声レベル情報として生成することとしてもよい。さらには、スピーカ出力された音声の音圧測定結果と音声信号とを対比し、この音圧測定結果から、音声信号に対応しない雑音部分を除去する処理を行うことにより、この音声レベル情報を生成することとしてもよい。
【0011】
このように生成された音声レベル情報は、ネットワーク5を介し、制御サーバ装置3に送信され、制御サーバ装置3は、この送信された音声レベル情報を、ネットワーク5を介し、利用者端末装置2を含む、会議参加者の利用者端末装置に配信する(ステップS4)。
配信された音声レベル情報は利用者端末装置2に受信され、利用者端末装置2は、受信した音声レベル情報によって特定される音声レベルを視覚的に表示する(ステップS5)。
【0012】
この表示された音声レベルは、利用者端末装置2から送信した音声信号の受信者側である利用者端末装置4において生成された音声レベル情報をもとにしており、その表示結果は、利用者端末装置4の音声信号の受信・再生状態を示している。従って、利用者端末装置2の利用者は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことが可能となる。
【0013】
次に、本発明における第1の実施の形態について説明を行う。
図2は、この形態におけるテレビ会議システム10の全体構成を例示した概念図である。
図2に例示するように、この例のテレビ会議システム10は、テレビ会議を行う利用者が使用する利用者端末装置20〜40、テレビ会議システム10全体を制御する制御サーバ装置50、及びそれらを通信可能なように接続するネットワーク60によって構成されている。
【0014】
利用者端末装置20〜40は、例えば、モデム、DSU(Digital Service Unit)、NCU(Network Contorol Unit)、TA(Terminal Adapter)等のデータ回線終端装置が具備され、或いは接続されたコンピュータである。そして、この利用者端末装置20〜40には、MPEG(Motion Picture Expert Group)等の所定の規格に対応した音声・画像圧縮、再生用ソフトウェア(CODEC(COde−DECode))がインストールされており、このソフトウェアを用いることにより、ネットワーク60を介した画像・音声ストリームのやり取りが可能な構成となっている。なお、この音声・画像圧縮、再生用ソフトウェアの機能の少なくとも一部をハードウェア的に構成することとしてもよい(音響ボード)。また、利用者端末装置20〜40には、それぞれ、音声を出力するスピーカ22a〜42a、及び音声を入力するマイクロホン21a〜41bが設けられている。
【0015】
また、制御サーバ装置50は、例えば、モデム、DSU、NCU、TA等のデータ回線終端装置が具備され、或いは接続されたコンピュータであり、利用者端末装置20〜40間の通信を中継する。
ネットワーク60は、例えば、インターネット、イントラネット、エクストラネット、LAN(Local Area Network)、WAN(Wide Area Network)、VAN(Value Added Network)、ADSL(Asymmetric Digital Subscriber Line)、ISDN(Integrated Services Digital Network)等であり、その形態について特に制限はない。
【0016】
なお、図2では、3つの利用者端末装置20〜40を例示したが、利用者端末装置の数は、その会議の参加者の数等に応じ、これよりも多くても少なくてもよい。また、図2では、1つの制御サーバ装置50を有する構成としたが、制御サーバ装置50をこれより多く設け、その処理を分散させることとしてもよい。さらには、制御サーバ装置50を設けず、この機能を利用者端末装置20〜40に分散処理させることとしてもよい。また、テレビ会議とは、ネットワークを介したデータ通信によって行う画像と音声とによるコミュニケーション全般を意味し、ルーム型のテレビ会議、インターネットテレビ電話通信、インターネット会議等を広く含む概念である。
【0017】
図3は、この形態における利用者端末装置20のハードウェア構成を例示したブロック図である。
図3に例示するように、この例の利用者端末装置20は、マイクロホン21a、21b、音声入力回路21c、スピーカ22a、音声出力回路22b、ディスプレイ23a、ビデオ回路23b、ビデオカメラ24a、映像入力回路24b、CPU(Central processing Unit:中央処理装置)25、外部記憶装置26、通信制御装置27、及びバス28を有しており、通信制御装置27を介してネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
【0018】
この例のマイクロホン21a、21bは、音をアナログ電気信号に変換する機器であり、その方式は、例えば、エレクトレットコンデンサ型、セラミック型、リラクタンス型等どのようなものであってもよい。音声入力回路21cは、例えば、マイクロホン21a、21bから入力されたアナログ電気信号をバッファし、増幅し、デジタル化して、バス28に出力する回路である。
この例のスピーカ22aは、アナログ電気信号を音に変換する機器であり、音声出力回路22bは、バス28から供給されたデジタル電気信号をバッファし、アナログ電気信号に変換してスピーカ22aに出力する。
【0019】
ディスプレイ23aは、例えば、画面表面の蛍光素材に電子ビームを当てることによって映像の表示を行うCRT(Cathode−ray Tube)ディスプレイ、或いは、電圧を加えた際に分子配列が変化する液晶の性質を利用した液晶ディスプレイ等であり、供給されたアナログ電気信号をもとに、所定の映像の表示を行う。ビデオ回路23bは、例えば、バス28から供給されたデジタル電気信号をバッファし、アナログ電気信号に変換してディスプレイ23aに供給する。
ビデオカメラ24aは、例えば、光学レンズを介して入力された映像をアナログ電気信号に変換する機器であり、映像入力回路24bは、ビデオカメラ24aから入力されたアナログ電気信号をバッファし、デジタル化して、バス28に出力する回路である。
【0020】
CPU25は、例えば、制御装置と演算装置を有するCISC(Complex Instruction Set Computer)方式、或いはRISC(Reduced Instruction Set Computer)方式の中央処理装置であり、図示していない発信器から供給されるクロック信号に同期し、外部記憶装置26から図示していない主記憶装置に記録されたオペレーティングシステム、アプリケーションプログラム等の各種プログラムの実行を行い、周辺機器の制御、必要データの呼び出し、呼び出したデータの演算・加工、演算・加工後のデータのメモリへの格納、周辺機器への出力等の各種処理を行う。
【0021】
外部記憶装置26は、例えば、磁性体が蒸着された薄い円盤を高速回転させ、この磁性体を磁気ヘッドによって磁化することでデータの記録を行うハードディスク装置等である。
通信制御装置27は、例えば、USART(Universal Synchronous and Asynchronous Receiver−Transmitter)等の汎用同期・非同期送受信回路であり、ネットワーク60を介したデータ送受信時にデータの直列変換等を行う。
バス28は、例えば、データバス、アドレスバス、コントロールバス等によって構成され、音声入力回路21c、音声出力回路22b、ビデオ回路23b、映像入力回路24b、CPU25、外部記憶装置26、及び通信制御装置27間のデータ、アドレス情報、制御情報の受け渡しを行う。
【0022】
なお、ここでは説明を省略するが、この例の利用者端末装置30、40も、利用者端末装置20と同様なハードウェア構成をとるものとする。
図4は、この形態の例における制御サーバ装置50のハードウェア構成を例示したブロック図である。
図4に例示するように、この例の制御サーバ装置50は、CPU51、外部記憶装置52、出力装置53、入力装置54、通信制御装置55及びバス56を有している。そして、CPU51、外部記憶装置52、出力装置53、入力装置54、及び通信制御装置55は、バス56を介して相互に情報のやり取りが可能なように接続され、通信制御装置55は、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成される。なお、ここで出力装置53は、例えば、CRTディスプレイ、液晶ディスプレイ等であり、入力装置54は、例えば、キーボードやマウス等の入出力デバイスである。
【0023】
図5は、図3に例示したハードウェアにおいて所定のプログラム(ソフトウェア)を実行させることにより、このハードウェアとソフトウェアとが協働した具体的手段によって構築される利用者端末装置20の処理機能を例示した機能ブロック図である。
図5に例示するように、この例の利用者端末装置20は、音声信号入力手段20a、音声信号送信手段20b、音声レベル情報受信手段20c、音声レベル表示手段20d、及び制御手段20eによって構成されている。
【0024】
ここで、音声信号入力手段20aは、発話された音声等の入力を受け付け、入力された音声等をデジタル電気信号(音声信号)に変換する手段である。また、音声信号送信手段20bは、音声信号入力手段20aから出力された音声信号を、ネットワーク60を介して送信する手段である。そして、音声レベル情報受信手段20cは、ネットワーク60を介して送信された音声レベル情報を受信する手段であり、音声レベル表示手段20dは、送信された音声レベル情報によって特定される音声レベルを視覚的に表示する手段である。また、制御手段20eは、利用者端末装置20全体を制御する手段である。
【0025】
また、図5に例示するように、音声信号入力手段20a、音声信号送信手段20b、音声レベル情報受信手段20c、及び音声レベル表示手段20dは、制御手段20eと、情報の提供・受け取りの少なくとも一方が可能なように構成されており、音声信号送信手段20b、及び音声レベル情報受信手段20cは、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
図6は、図3に例示したハードウェアにおいて所定のプログラム(ソフトウェア)を実行させることにより、このハードウェアとソフトウェアとが協働した具体的手段によって構築される利用者端末装置30の処理機能を例示した機能ブロック図である。
【0026】
図6に例示するように、この例の利用者端末装置30は、音声信号受信手段30a、音声出力手段30b、音声レベル情報生成手段30c、音声レベル情報送信手段30d、記憶手段30e、及び制御手段30fを有している。
ここで、音声信号受信手段30aは、ネットワーク60を介し、会議の相手側から送信された音声信号を受信する手段であり、音声出力手段30bは、この音声信号を音に変換して出力する手段である。また、音声レベル情報生成手段30cは、音声信号受信手段30aにおいて受信された音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成する手段であり、音声レベル情報送信手段30dは、音声レベル情報生成手段30cで生成された音声レベル情報を、ネットワーク60を介し、制御サーバ装置50に送信する手段である。そして、記憶手段30eは、各種情報を記憶する手段であり、制御手段30fは、利用者端末装置30全体を制御する手段である。
【0027】
また、図6に例示するように、音声信号受信手段30a、音声出力手段30b、音声レベル情報生成手段30c、音声レベル情報送信手段30d、及び記憶手段30eは、制御手段30fと、情報の提供・受け取りの少なくとも一方が可能なように構成されており、音声信号受信手段30a、及び音声レベル情報送信手段30dは、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
なお、ここでは説明を省略するが、この例の利用者端末装置40についても、利用者端末装置30と同様な機能構成を有するものとする。また、利用者端末装置20が、利用者端末装置30、40の処理機能の少なくとも一部を併せ持つこととしてもよく、利用者端末装置30、40が、利用者端末装置20の処理機能の少なくとも一部を併せ持つこととしてもよい。
【0028】
図7は、図4に例示したハードウェアにおいて所定のプログラム(ソフトウェア)を実行させることにより、このハードウェアとソフトウェアとが協働した具体的手段によって構築される制御サーバ装置50の処理機能を例示した機能ブロック図である。
図7に例示するように、この例の制御サーバ装置50は、音声信号受信手段50a、音声信号配信手段50b、音声レベル情報受信手段50c、音声レベル情報配信手段50d、及び制御手段50fを有している。
【0029】
ここで、音声信号受信手段50aは、送信された音声信号を受信する手段であり、音声信号配信手段50bは、音声信号受信手段50aによって受信された音声信号をミキシングして各利用者端末装置に配信する手段である。また、音声レベル情報受信手段50cは、送信された音声レベル情報を受信する手段であり、音声レベル情報配信手段50dは、利用者端末装置から送信された音声レベル情報を、ネットワーク60を介し、会議の参加者の利用者端末装置に配信する手段である。そして、制御手段50fは、制御サーバ装置50全体を制御する手段である。
【0030】
図7に例示するように、音声信号受信手段50a、音声信号配信手段50b、音声レベル情報受信手段50c、及び音声レベル情報配信手段50dは、制御手段50fと、情報の提供・受け取りの少なくとも一方が可能なように構成されており、音声信号受信手段50a、音声信号配信手段50b、音声レベル情報受信手段50c、及び音声レベル情報配信手段50dは、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
図8は、この形態におけるテレビ会議システム10の処理動作を説明するためのフローチャートである。なお、以下では、このフローチャートに沿って説明を行っていくが、このフローチャートとは異なる順序でこれらの処理を行うこととしてもよい。また、以下では、説明の簡略化のため、利用者端末装置40の処理については説明を省略するが、その処理動作は、利用者端末装置20、30のものと同様である。
【0031】
ステップS10:
このステップでは、利用者端末装置20の音声信号入力手段20aにおいて、発話入力を受け付ける。具体的には、図1、図3に例示したマイクロホン21aに対して音声を入力する。
ステップS11:
このステップでは、利用者端末装置20の音声信号入力手段20aにおいて、ステップ10で入力された音声を、例えば、デジタル信号である音声信号に変換する。変換された音声信号は、制御手段20eを介し、音声信号送信手段20bに送られる。
【0032】
ステップS12:
このステップでは、利用者端末装置20の音声信号送信手段20bにおいて、音声信号を、ネットワーク60を介して制御サーバ装置50に送信する。
ステップS13:
このステップでは、制御サーバ装置50の音声信号受信手段50aで、ネットワーク60を介して送信された音声信号を受信する。
ステップS14:
このステップでは、制御サーバ装置50の音声信号配信手段50bにおいて、ステップS13で受信した音声信号を、ネットワーク60を介し、各利用者端末装置30、40に配信する。なお、制御サーバ装置50に複数の利用者端末装置から音声信号が送信される場合には、これらの複数の音声信号をミキシングして生成した音声信号を配信することとしてもよい。
【0033】
ステップS15:
このステップでは、利用者端末装置30の音声信号受信手段30aにおいて、ステップS14で送信された音声信号を受信する。
ステップS16:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、音声レベル情報を生成する。
【0034】
ここで、音声レベル情報とは、送信された音声信号によって特定される音声の音声レベルを示す情報を意味し、具体的には、例えば、この音声の大きさを表す情報、送信された音声信号が有する音量データが示す音量情報、送信された音声信号によって音声が復元できるか否かの情報、復元できた割合を示す情報等を意味する。
また、この音声レベル情報の生成方法としては、以下のような方法を例示できるが、これに限定されるものではない。なお、これらの方法の何れか1つのみを用いる構成としてもよいし、これらのうちから、何れかの方法を選択できる構成としてもよい。
【0035】
[方法1]音声信号を再生し、その音声を再びマイクロホンによって検出し、その検出結果を音声レベル情報とする方法。
具体的には、例えば、音声信号を再生した音声を、図2に例示したスピーカ32aから出力し、この音声をマイクロホン31bによって再び検出し、この検出音声の音圧測定結果をデジタル変換して音声レベル情報とする。なお、例えば、この場合のマイクロホン31bは、音声レベル情報生成時の音声検出専用に用いるものとし、利用者端末装置30の利用者の発話入力は、他のマイクロホンによって行うものとする。発話入力用のマイクロホンを、この音声レベル情報生成時の音声検出用としても兼用されることは、ハウリングを生じさせる原因になるからである。したがって、図3において利用者端末装置20が2つのマイクロホン21a、21bを有する構成としたのと同様に、利用者端末装置30についても、発話入力用マイクロホンと、音声レベル情報生成時の音声検出用マイクロホンと、が別個に構成されることになる。また、発話入力用マイクロホンと音声レベル情報生成時の音声検出用マイクロホンとを兼用させ、これによって生じるハウリングを防止するハードウェア的、ソフトウェア的措置を講じることとしてもよい。
【0036】
[方法2]送信された音声信号そのものを解析して、その解析結果を音声レベル情報とする方法。
具体的には、例えば、図6に例示した音声信号受信手段30aで受信された音声信号そのものが有する音量データを読み出し、そのデータそのものを音声レベル情報とする。また、この音量データがネットワーク60送信中に破損しており、音量データを再現できない場合には、無音状態を示す情報を音声レベル情報とすることとしてもよい。さらに、この破損により音量データを再現でない割合(ビット誤り率等)を音声レベル情報として用いることとしてもよい(例えば、再現できる割合が高い程、音声レベル情報によって特定される値を大きくする等)。なお、この音量データの破損の検出は、例えば、パリティチェック方式、ハミング符号方式等を用いて行う。
【0037】
[方法3]音声信号を再生し、その音声を再びマイクロホンによって検出するとともに、送信された音声信号そのものを解析し、これらの検出・解析結果から音声レベル情報を生成する方法。
具体的には、例えば、まず、音声信号を再生した音声を、図2に例示したスピーカ32aから出力し、この音声をマイクロホン31bによって再び検出するとともに、受信された音声信号そのものを検出する。そして、この音声信号に示されるスペクトラムから、マイクロホン31bによって検出された音声が有する音声成分と、雑音成分とを分離し、この音声成分のみの音圧測定値をデジタル変換して音声レベル情報とする。これにより、雑音成分を排除した、より正確な受信レベルを示す音声レベル情報を生成することができる。
【0038】
ステップS17:
このステップでは、利用者端末装置30の音声レベル情報送信手段30dにおいて、ステップS16で生成された音声レベル情報を、ネットワーク60を介して、制御サーバ装置50に送信する。なお、この際、音声信号が受信されたことを示す、レスポンス信号を合わせて送信することとしてもよい。なお、このレスポンス信号は、例えば、ネットワーク60を介して、利用者端末装置20に送信されることとなる。
【0039】
ステップS18:
このステップでは、制御サーバ装置50の音声レベル情報受信手段50cにおいて、ステップS17において送信された音声レベル情報を受信する。
ステップS19:
このステップでは、制御サーバ装置50の音声レベル情報配信手段50dにおいて、音声レベル情報を、ネットワーク60を介し、利用者端末装置配信する。
ここでの配信は、例えば、音声レベル情報の発信元の利用者端末装置30以外のすべての利用者端末装置20、40に対して行われるものとする。
【0040】
ステップS20:
このステップでは、利用者端末装置20の音声レベル情報受信手段20cにおいて、ステップS19において送信された音声レベル情報を受信する。このように受信された音声レベル情報は、例えば、制御手段20eを介し、音声レベル表示手段20dに送られる。
ステップS21:
このステップでは、利用者端末装置20の音声レベル表示手段20dにおいて、ステップS20で受信した音声レベル情報を視覚的に表示する。ここでの表示は、例えば、図3に例示したディスプレイ23aによって行われ、その表示形態としては、ゲージ等の図形表示、或いは数値表示が挙げられる。
【0041】
図9は、このように利用者端末装置20に表示された音声レベル情報を有する端末装置表示画面100を例示した図である。
図9に例示するように、この例の端末装置表示画面100は、画像表示部110〜130、マイクロホン音量表示部111、スピーカ音量表示部112、音声レベル表示部121、131を有している。
この例の場合、画像表示部110には、発話者である利用者端末装置20の利用者の画像が「発話者自画像」として表示され、画像表示部120には、利用者端末装置30の利用者の画像が「会議メンバA」として表示され、画像表示部130には、利用者端末装置40の利用者の画像が「会議メンバB」として表示される。なお、これらの画像は、利用者端末装置20が有するビデオカメラ24aによって撮影され、或いは、利用者端末装置30、40が有するビデオカメラによって撮影されネットワーク60を介して利用者端末装置20に送信された画像データを元に表示される画像である。
【0042】
マイクロホン音量表示部111は、例えば、利用者端末装置20の利用者に発話され、マイクロホン21aに入力された音声の音圧を視覚的に表示するものである。具体的には、図9に例示するレベルゲージ111aの長さによって、その音圧の大きさ、すなわち音量を視覚的に表示する。
スピーカ音量表示部112は、例えば、スピーカ22aから出力される音声の音量を、レベルゲージ等の長さによって、視覚的に表示する。
音声レベル表示部121、131は、利用者端末装置20が、利用者端末装置30、40からそれぞれ送信された音声レベル情報によって特定される音声レベルを視覚的に表示するものである。具体的には、図9に例示するレベルゲージ121aの長さによって、その音声レベル、すなわち音量を視覚的に表示する。
【0043】
図9の例の場合、マイクロホン音量表示部111のレベルゲージ111aより、利用者端末装置20のマイクロホン21aには発話入力が行われていることが分かる。そして、音声レベル表示部121にも、レベルゲージ121aが表示されており、その長手方向の長さは、マイクロホン音量表示部111のレベルゲージ111aと同等である。これにより、利用者端末装置20の利用者は、自らの発話が利用者端末装置30で再生されており、しかもその音量も十分であることを、直接、視覚的に知ることができる。一方、音声レベル表示部131には、レベルゲージが表示されておらず、これにより、利用者端末装置20の利用者は、自らの発話が利用者端末装置40では再生されていないことを、直接、視覚的に知ることができる。なお、利用者端末装置20の利用者が発話したにもかかわらず、他の利用者端末装置30、40から、何のレスポンスもない(音声レベル情報が送信されない)場合にも、音声レベル表示部121、131にはレベルゲージが表示されず、これによっても、自らの発話が利用者端末装置30、40では再生されていないことを、直接、視覚的に知ることができる。また、このように音声レベル情報の送信がなかった利用者端末装置、及び前述のレスポンス信号の送信がなかった利用者端末装置に関する情報を、不具合情報として、他の利用者端末装置に送信する構成としてもよい。
【0044】
このように、この形態の例では、利用者端末装置30において、ネットワーク60を介し、会議の相手側から送信された音声信号を受信し、受信した音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、生成した音声レベル情報を、ネットワーク60を介し、制御サーバ装置50に送信し、制御サーバ装置50において、利用者端末装置30から送信された音声レベル情報を、ネットワーク60を介し、会議の参加者の利用者端末装置20、40に配信し、利用者端末装置20において、制御サーバ装置50から送信された音声レベル情報によって特定される音声レベルを視覚的に表示することとしたため、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことができる。
【0045】
なお、この発明は上述の実施の形態に限定されるものではない。例えば、この形態の例では、利用者端末装置20〜40をコンピュータとした場合を例示したが、CODECを搭載し、ビデオカメラやマイクロホンを具備した、テレビ会議専用機器を用いて、この形態の例を実現することとしてもよい。
次に、この形態における第2の実施の形態について説明する。
この形態は、第1の実施の形態の変形例であり、利用者端末装置30において、受信した音声信号を音声変換し、該音声の平均音圧を、単位時間毎に計測し、このように計測された平均音圧が、1単位時間前に測定された平均音圧に比べて所定量以上変化していた場合にのみ音声レベル情報を生成する点が第1の実施の形態と相違する。その結果、常時音声レベル情報を生成してネットワーク配信する場合に比べ、ネットワークの付加を低減させることができる。以下、第1の実施の形態との相違点を中心に説明を行い、第1の実施の形態と共通する事項については、その説明を省略する。
【0046】
まず、この形態のシステム構成、利用者端末装置、制御サーバ装置のハードウェア構成、機能ブロック構成は、第1の実施の形態と同様であるため、それらの説明は省略し、以下では、第1の実施の形態で用いたシステム構成、利用者端末装置、制御サーバ装置のハードウェア構成、機能ブロック構成、及びそれらの図面の番号を用いて説明を行っていく。
図10は、この形態におけるテレビ会議システム10の処理動作を説明するためのフローチャートである。なお、以下では、このフローチャートに沿って説明を行っていくが、このフローチャートとは異なる順序でこれらの処理を行うこととしてもよい。
【0047】
ステップS30〜ステップS35までの処理は、第1の実施の形態におけるステップS10〜ステップS15までの処理と同様である。つまり、利用者端末装置20において、発話入力(ステップS30)、音声データ変換(ステップS31)、音声信号送信(ステップS32)を行い、制御サーバ装置50で音声信号を受信し(ステップS33)、音声信号配信を行い(ステップS34)、利用者端末装置30で音声信号を受信する(ステップS35)。
【0048】
ステップS36:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、単位時間ごとの平均音圧を測定する。この測定は、例えば、第1の実施の形態におけるステップS16の説明で述べたのと同様な方法で、利用者端末装置30のスピーカ32aから出力される音声の音圧を測定し、その測定結果の平均をとることによって行われる。また、単位時間としては、70〜130msec程度が望ましく、100msec程度がより望ましい。これより単位時間を短くすると、上述したネットワーク付加の低減を十分に図れないことになり、逆にこれよりも単位時間を長くすると、発話者が使用する利用者端末装置20に対し、利用者端末装置30での音声再生状況を十分に伝達できず、この発明の効果を十分に発揮することができなくなるからである。
このように測定された平均音圧は、制御手段30fを介して記憶手段30eに記憶される。
【0049】
ステップS37:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、1単位時間前と平均音圧の測定結果が同一であったか否かを判断する。
具体的には、まず、記憶手段30eに記憶された1単位時間前の平均音圧データを抽出し、このデータと最新の測定データとの比較を行う。その結果、この最新の平均音圧が、1単位時間前に測定された平均音圧に比べて所定量以上変化していた場合には、ステップS38に進み、所定量以上変化しておらず実質的に同一である場合には処理を終了する。なお、この所定量は、例えば、このシステムの利用者が自由に選択・設定できるものとする。
【0050】
ステップS38:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、音声レベル情報を生成する。なお、この音声レベル情報は、第1の実施の形態におけるステップS16と同様の方法によって生成することとしてもよく、また、この平均音圧の変化量を示す情報を音声レベル情報として生成することとしてもよい。
その後のステップS39〜ステップS43までの処理は、第1の実施の形態におけるステップS17〜ステップS21までの処理と同様である。すなわち、利用者端末装置30において音声レベル情報を制御サーバ装置50に送信し(ステップS39)、制御サーバ装置50において、音声レベル情報を受信し(ステップS40)、音声レベル情報を配信し(ステップS41)、利用者端末装置20において、音声レベル情報を受信し(ステップS42)、音声レベル表示を行う(ステップS43)。ただし、平均音圧の変化量を示す情報を音声レベル情報とした場合、利用者端末装置20において表示される音声レベル(ステップS43)は、音声レベル情報に示される音声レベルの変化量を、変化前の音声レベルに加算或いは減算した値となる。
【0051】
このように、この形態では、利用者端末装置30の音声レベル情報生成手段30cにおいて、受信した音声信号を音声変換し、該音声の平均音圧を、単位時間毎に計測し、このように計測された平均音圧が、1単位時間前に測定された平均音圧に比べて所定量以上変化していた場合にのみ音声レベル情報を生成することとしたため、常時音声レベル情報を生成してネットワーク配信する場合に比べ、ネットワークのトラフィック量を低減させることが可能となり、その結果、ネットワークの付加を低減させることができる。
【0052】
また、この形態の例でも、第1の実施の形態と同様、利用者端末装置30において、ネットワーク60を介し、会議の相手側から送信された音声信号を受信し、受信した音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、生成した音声レベル情報を、ネットワーク60を介し、制御サーバ装置50に送信し、制御サーバ装置50において、利用者端末装置30から送信された音声レベル情報を、ネットワーク60を介し、会議の参加者の利用者端末装置20、40に配信し、利用者端末装置20において、制御サーバ装置50から送信された音声レベル情報によって特定される音声レベルを視覚的に表示することとしたため、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことができる。
【0053】
なお、この発明は上述の実施の形態に限定されるものではない。例えば、この形態の例では、利用者端末装置20〜40をコンピュータとした場合を例示したが、CODECを搭載し、ビデオカメラやマイクロホンを具備した、テレビ会議専用機器を用いて、この形態の例を実現することとしてもよい。
また、上述のように、第1の実施の形態及び第2の実施の形態の処理機能は、コンピュータによって実現することができる。この場合、利用者端末装置2、4、20〜30、制御サーバ装置3、50が有すべき機能の処理内容はプログラムによって記述され、このプログラムをコンピュータで実行することにより、上記処理機能をコンピュータ上で実現することができる。
【0054】
また、この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を用いることができる。
【0055】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。
さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
なお、上記におけるプログラムとは、電子計算機に対する指令であって、一の結果を得ることができるように組合されたものをいい、その他電子計算機による処理の用に供する情報であってプログラムに準ずるものをも含むものとする。
【0056】
【発明の効果】
以上説明したようにこの発明では、第1の利用者端末装置において、ネットワークを介し、会議の相手側から送信された音声信号を受信した際、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、このように生成された音声レベル情報を、ネットワークを介し、制御サーバ装置に送信し、制御サーバ装置に送信された音声レベル情報は、ネットワークを介し、会議の参加者の利用者端末装置に配信され、この音声レベル情報が配信された第2の利用者端末装置は、この音声レベル情報によって特定される音声レベルを視覚的に表示することとした。
これにより、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことが可能となる。
【図面の簡単な説明】
【図1】この発明の概略構成を例示した概念図。
【図2】テレビ会議システムの全体構成を例示した概念図。
【図3】利用者端末装置のハードウェア構成を例示したブロック図。
【図4】制御サーバ装置のハードウェア構成を例示したブロック図。
【図5】利用者端末装置の処理機能を例示した機能ブロック図。
【図6】利用者端末装置の処理機能を例示した機能ブロック図。
【図7】制御サーバ装置の処理機能を例示した機能ブロック図。
【図8】テレビ会議システムの処理動作を説明するためのフローチャート。
【図9】利用者端末装置に表示された音声レベル情報を有する端末装置表示画面を例示した図。
【図10】テレビ会議システムの処理動作を説明するためのフローチャート。
【符号の説明】
1、10 テレビ会議システム
2、4、20〜30 利用者端末装置
3、50 制御サーバ装置
100 端末装置表示画面
121、131 音声レベル表示部
121a レベルゲージ
【発明の属する技術分野】
この発明は、ネットワークを介して接続されたコンピュータ上で、音声と映像を用いてコミュニケーションを行うテレビ会議方法、それに使用される利用者端末装置、その処理方法、その機能をコンピュータに実行させるためのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
近年、インターネット等の各種情報通信網の発達により、ネットワークを介して接続されたコンピュータ上で、音声や映像を用いてコミュニケーションを行うテレビ会議システム(ディスクトップ会議システム)や音声会議システムの普及が進んでいる。このようなテレビ会議システム等に使用される利用者端末装置には、自分の音声がこの利用者端末装置にどの程度の音量で入力されたかを表示するゲージと、相手から送信された音声がどの程度の音量で出力されているかを表示するゲージが設けられていることが一般的であり、利用者は、このゲージを参照することにより、自分の音声が十分に入力されているか、及び相手から送られた音声が十分に出力されているか、ということを視覚的に確認することができる。
【0003】
【発明が解決しようとする課題】
しかし、従来の利用者端末装置には、自分が送った音声が相手方にどの程度聞こえているかを表示するゲージが設けられておらず、自分が送った音声が相手方にどの程度聞こえているかということを直接知ることができないという問題点がある。
そのため、本来の会議の進行以外に、必要の都度、会議の相手に問いかけを行い、それに対する相手側のレスポンスによって、相手に自分の音声が、どの程度聞こえているかということを判断しなければならないという問題があった。
【0004】
本発明はこのような点に鑑みてなされたものであり、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とするテレビ会議方法を提供することを目的とする。
また、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とする利用者端末装置の処理方法を提供することである。
【0005】
さらに、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とする利用者端末装置を提供することである。
また、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことを可能とする機能をコンピュータに実行させるためのプログラムを提供することである。
【0006】
さらに、本発明の他の目的は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを可能とする機能をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することである。
【0007】
【課題を解決するための手段】
この発明では上記課題を解決するために、第1の利用者端末装置において、ネットワークを介し、会議の相手側から送信された音声信号を受信した際、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、このように生成された音声レベル情報を、ネットワークを介し、制御サーバ装置に送信する。
制御サーバ装置に送信された音声レベル情報は、ネットワークを介し、会議の参加者の利用者端末装置に配信され、この音声レベル情報が配信された第2の利用者端末装置は、この音声レベル情報によって特定される音声レベルを視覚的に表示する。
そして、各利用者は、この各利用者端末装置に視覚的に表示された音声レベルを見ることにより、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができる。
【0008】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照して説明する。
なお、以下では、まず本発明の概略を説明した後、その実施の形態の例について説明を行っていく。
図1は、この発明の概略構成を例示した概念図である。
図1に例示するように、この例のテレビ会議システム1は、テレビ会議を行う利用者が使用するコンピュータ等の利用者端末装置2、4、このシステムを制御する制御サーバ装置3、及びインターネット等のネットワーク5によって構成されている。この例の利用者端末装置2、4には、その利用者の画像を撮影するビデオカメラや、その音声の入力を受け付けるマイクロホンが接続されており、このテレビ会議システム1の利用者は、このビデオカメラに映し出され、ネットワーク5を介して送信された通信相手の画像を見ながら、その相手側との音声と映像による双方向コミュニケーションを行う。
【0009】
以下、このテレビ会議システム1における処理の概要を例示する。なお、ここでは、利用者端末装置2の利用者が発話した音声を、利用者端末装置4で出力する際の処理を例にとって説明する。
利用者端末装置2の利用者が発話した音声は、図示していない利用者端末装置2のマイクロホンによって受音され、その後、利用者端末装置2内でデジタル信号である音声信号に変換される。このように変換された音声信号は、ネットワーク5を介して制御サーバ装置3に送信され、そこで、図示していない他の利用者端末装置から送信された音声信号とともにミキシングされる。そして、この音声信号は、利用者端末装置4を含む他の利用者端末装置にネットワーク5を介して配信され、利用者端末装置4によって受信される(ステップS1)。
【0010】
音声信号を受信した利用者端末装置4は、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成する(ステップS2)。ここでの生成は、例えば、この音声信号をアナログ信号に変換してスピーカ出力した後、その音圧の測定値を音声レベル情報として生成することとしてもよく、受信した音声信号自体の破損をパリティチェック方式等により検出し、その破損の有無を音声レベル情報として生成することとしてもよい。さらには、スピーカ出力された音声の音圧測定結果と音声信号とを対比し、この音圧測定結果から、音声信号に対応しない雑音部分を除去する処理を行うことにより、この音声レベル情報を生成することとしてもよい。
【0011】
このように生成された音声レベル情報は、ネットワーク5を介し、制御サーバ装置3に送信され、制御サーバ装置3は、この送信された音声レベル情報を、ネットワーク5を介し、利用者端末装置2を含む、会議参加者の利用者端末装置に配信する(ステップS4)。
配信された音声レベル情報は利用者端末装置2に受信され、利用者端末装置2は、受信した音声レベル情報によって特定される音声レベルを視覚的に表示する(ステップS5)。
【0012】
この表示された音声レベルは、利用者端末装置2から送信した音声信号の受信者側である利用者端末装置4において生成された音声レベル情報をもとにしており、その表示結果は、利用者端末装置4の音声信号の受信・再生状態を示している。従って、利用者端末装置2の利用者は、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことが可能となる。
【0013】
次に、本発明における第1の実施の形態について説明を行う。
図2は、この形態におけるテレビ会議システム10の全体構成を例示した概念図である。
図2に例示するように、この例のテレビ会議システム10は、テレビ会議を行う利用者が使用する利用者端末装置20〜40、テレビ会議システム10全体を制御する制御サーバ装置50、及びそれらを通信可能なように接続するネットワーク60によって構成されている。
【0014】
利用者端末装置20〜40は、例えば、モデム、DSU(Digital Service Unit)、NCU(Network Contorol Unit)、TA(Terminal Adapter)等のデータ回線終端装置が具備され、或いは接続されたコンピュータである。そして、この利用者端末装置20〜40には、MPEG(Motion Picture Expert Group)等の所定の規格に対応した音声・画像圧縮、再生用ソフトウェア(CODEC(COde−DECode))がインストールされており、このソフトウェアを用いることにより、ネットワーク60を介した画像・音声ストリームのやり取りが可能な構成となっている。なお、この音声・画像圧縮、再生用ソフトウェアの機能の少なくとも一部をハードウェア的に構成することとしてもよい(音響ボード)。また、利用者端末装置20〜40には、それぞれ、音声を出力するスピーカ22a〜42a、及び音声を入力するマイクロホン21a〜41bが設けられている。
【0015】
また、制御サーバ装置50は、例えば、モデム、DSU、NCU、TA等のデータ回線終端装置が具備され、或いは接続されたコンピュータであり、利用者端末装置20〜40間の通信を中継する。
ネットワーク60は、例えば、インターネット、イントラネット、エクストラネット、LAN(Local Area Network)、WAN(Wide Area Network)、VAN(Value Added Network)、ADSL(Asymmetric Digital Subscriber Line)、ISDN(Integrated Services Digital Network)等であり、その形態について特に制限はない。
【0016】
なお、図2では、3つの利用者端末装置20〜40を例示したが、利用者端末装置の数は、その会議の参加者の数等に応じ、これよりも多くても少なくてもよい。また、図2では、1つの制御サーバ装置50を有する構成としたが、制御サーバ装置50をこれより多く設け、その処理を分散させることとしてもよい。さらには、制御サーバ装置50を設けず、この機能を利用者端末装置20〜40に分散処理させることとしてもよい。また、テレビ会議とは、ネットワークを介したデータ通信によって行う画像と音声とによるコミュニケーション全般を意味し、ルーム型のテレビ会議、インターネットテレビ電話通信、インターネット会議等を広く含む概念である。
【0017】
図3は、この形態における利用者端末装置20のハードウェア構成を例示したブロック図である。
図3に例示するように、この例の利用者端末装置20は、マイクロホン21a、21b、音声入力回路21c、スピーカ22a、音声出力回路22b、ディスプレイ23a、ビデオ回路23b、ビデオカメラ24a、映像入力回路24b、CPU(Central processing Unit:中央処理装置)25、外部記憶装置26、通信制御装置27、及びバス28を有しており、通信制御装置27を介してネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
【0018】
この例のマイクロホン21a、21bは、音をアナログ電気信号に変換する機器であり、その方式は、例えば、エレクトレットコンデンサ型、セラミック型、リラクタンス型等どのようなものであってもよい。音声入力回路21cは、例えば、マイクロホン21a、21bから入力されたアナログ電気信号をバッファし、増幅し、デジタル化して、バス28に出力する回路である。
この例のスピーカ22aは、アナログ電気信号を音に変換する機器であり、音声出力回路22bは、バス28から供給されたデジタル電気信号をバッファし、アナログ電気信号に変換してスピーカ22aに出力する。
【0019】
ディスプレイ23aは、例えば、画面表面の蛍光素材に電子ビームを当てることによって映像の表示を行うCRT(Cathode−ray Tube)ディスプレイ、或いは、電圧を加えた際に分子配列が変化する液晶の性質を利用した液晶ディスプレイ等であり、供給されたアナログ電気信号をもとに、所定の映像の表示を行う。ビデオ回路23bは、例えば、バス28から供給されたデジタル電気信号をバッファし、アナログ電気信号に変換してディスプレイ23aに供給する。
ビデオカメラ24aは、例えば、光学レンズを介して入力された映像をアナログ電気信号に変換する機器であり、映像入力回路24bは、ビデオカメラ24aから入力されたアナログ電気信号をバッファし、デジタル化して、バス28に出力する回路である。
【0020】
CPU25は、例えば、制御装置と演算装置を有するCISC(Complex Instruction Set Computer)方式、或いはRISC(Reduced Instruction Set Computer)方式の中央処理装置であり、図示していない発信器から供給されるクロック信号に同期し、外部記憶装置26から図示していない主記憶装置に記録されたオペレーティングシステム、アプリケーションプログラム等の各種プログラムの実行を行い、周辺機器の制御、必要データの呼び出し、呼び出したデータの演算・加工、演算・加工後のデータのメモリへの格納、周辺機器への出力等の各種処理を行う。
【0021】
外部記憶装置26は、例えば、磁性体が蒸着された薄い円盤を高速回転させ、この磁性体を磁気ヘッドによって磁化することでデータの記録を行うハードディスク装置等である。
通信制御装置27は、例えば、USART(Universal Synchronous and Asynchronous Receiver−Transmitter)等の汎用同期・非同期送受信回路であり、ネットワーク60を介したデータ送受信時にデータの直列変換等を行う。
バス28は、例えば、データバス、アドレスバス、コントロールバス等によって構成され、音声入力回路21c、音声出力回路22b、ビデオ回路23b、映像入力回路24b、CPU25、外部記憶装置26、及び通信制御装置27間のデータ、アドレス情報、制御情報の受け渡しを行う。
【0022】
なお、ここでは説明を省略するが、この例の利用者端末装置30、40も、利用者端末装置20と同様なハードウェア構成をとるものとする。
図4は、この形態の例における制御サーバ装置50のハードウェア構成を例示したブロック図である。
図4に例示するように、この例の制御サーバ装置50は、CPU51、外部記憶装置52、出力装置53、入力装置54、通信制御装置55及びバス56を有している。そして、CPU51、外部記憶装置52、出力装置53、入力装置54、及び通信制御装置55は、バス56を介して相互に情報のやり取りが可能なように接続され、通信制御装置55は、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成される。なお、ここで出力装置53は、例えば、CRTディスプレイ、液晶ディスプレイ等であり、入力装置54は、例えば、キーボードやマウス等の入出力デバイスである。
【0023】
図5は、図3に例示したハードウェアにおいて所定のプログラム(ソフトウェア)を実行させることにより、このハードウェアとソフトウェアとが協働した具体的手段によって構築される利用者端末装置20の処理機能を例示した機能ブロック図である。
図5に例示するように、この例の利用者端末装置20は、音声信号入力手段20a、音声信号送信手段20b、音声レベル情報受信手段20c、音声レベル表示手段20d、及び制御手段20eによって構成されている。
【0024】
ここで、音声信号入力手段20aは、発話された音声等の入力を受け付け、入力された音声等をデジタル電気信号(音声信号)に変換する手段である。また、音声信号送信手段20bは、音声信号入力手段20aから出力された音声信号を、ネットワーク60を介して送信する手段である。そして、音声レベル情報受信手段20cは、ネットワーク60を介して送信された音声レベル情報を受信する手段であり、音声レベル表示手段20dは、送信された音声レベル情報によって特定される音声レベルを視覚的に表示する手段である。また、制御手段20eは、利用者端末装置20全体を制御する手段である。
【0025】
また、図5に例示するように、音声信号入力手段20a、音声信号送信手段20b、音声レベル情報受信手段20c、及び音声レベル表示手段20dは、制御手段20eと、情報の提供・受け取りの少なくとも一方が可能なように構成されており、音声信号送信手段20b、及び音声レベル情報受信手段20cは、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
図6は、図3に例示したハードウェアにおいて所定のプログラム(ソフトウェア)を実行させることにより、このハードウェアとソフトウェアとが協働した具体的手段によって構築される利用者端末装置30の処理機能を例示した機能ブロック図である。
【0026】
図6に例示するように、この例の利用者端末装置30は、音声信号受信手段30a、音声出力手段30b、音声レベル情報生成手段30c、音声レベル情報送信手段30d、記憶手段30e、及び制御手段30fを有している。
ここで、音声信号受信手段30aは、ネットワーク60を介し、会議の相手側から送信された音声信号を受信する手段であり、音声出力手段30bは、この音声信号を音に変換して出力する手段である。また、音声レベル情報生成手段30cは、音声信号受信手段30aにおいて受信された音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成する手段であり、音声レベル情報送信手段30dは、音声レベル情報生成手段30cで生成された音声レベル情報を、ネットワーク60を介し、制御サーバ装置50に送信する手段である。そして、記憶手段30eは、各種情報を記憶する手段であり、制御手段30fは、利用者端末装置30全体を制御する手段である。
【0027】
また、図6に例示するように、音声信号受信手段30a、音声出力手段30b、音声レベル情報生成手段30c、音声レベル情報送信手段30d、及び記憶手段30eは、制御手段30fと、情報の提供・受け取りの少なくとも一方が可能なように構成されており、音声信号受信手段30a、及び音声レベル情報送信手段30dは、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
なお、ここでは説明を省略するが、この例の利用者端末装置40についても、利用者端末装置30と同様な機能構成を有するものとする。また、利用者端末装置20が、利用者端末装置30、40の処理機能の少なくとも一部を併せ持つこととしてもよく、利用者端末装置30、40が、利用者端末装置20の処理機能の少なくとも一部を併せ持つこととしてもよい。
【0028】
図7は、図4に例示したハードウェアにおいて所定のプログラム(ソフトウェア)を実行させることにより、このハードウェアとソフトウェアとが協働した具体的手段によって構築される制御サーバ装置50の処理機能を例示した機能ブロック図である。
図7に例示するように、この例の制御サーバ装置50は、音声信号受信手段50a、音声信号配信手段50b、音声レベル情報受信手段50c、音声レベル情報配信手段50d、及び制御手段50fを有している。
【0029】
ここで、音声信号受信手段50aは、送信された音声信号を受信する手段であり、音声信号配信手段50bは、音声信号受信手段50aによって受信された音声信号をミキシングして各利用者端末装置に配信する手段である。また、音声レベル情報受信手段50cは、送信された音声レベル情報を受信する手段であり、音声レベル情報配信手段50dは、利用者端末装置から送信された音声レベル情報を、ネットワーク60を介し、会議の参加者の利用者端末装置に配信する手段である。そして、制御手段50fは、制御サーバ装置50全体を制御する手段である。
【0030】
図7に例示するように、音声信号受信手段50a、音声信号配信手段50b、音声レベル情報受信手段50c、及び音声レベル情報配信手段50dは、制御手段50fと、情報の提供・受け取りの少なくとも一方が可能なように構成されており、音声信号受信手段50a、音声信号配信手段50b、音声レベル情報受信手段50c、及び音声レベル情報配信手段50dは、ネットワーク60と通信可能なように接続され、或いは接続可能なように構成されている。
図8は、この形態におけるテレビ会議システム10の処理動作を説明するためのフローチャートである。なお、以下では、このフローチャートに沿って説明を行っていくが、このフローチャートとは異なる順序でこれらの処理を行うこととしてもよい。また、以下では、説明の簡略化のため、利用者端末装置40の処理については説明を省略するが、その処理動作は、利用者端末装置20、30のものと同様である。
【0031】
ステップS10:
このステップでは、利用者端末装置20の音声信号入力手段20aにおいて、発話入力を受け付ける。具体的には、図1、図3に例示したマイクロホン21aに対して音声を入力する。
ステップS11:
このステップでは、利用者端末装置20の音声信号入力手段20aにおいて、ステップ10で入力された音声を、例えば、デジタル信号である音声信号に変換する。変換された音声信号は、制御手段20eを介し、音声信号送信手段20bに送られる。
【0032】
ステップS12:
このステップでは、利用者端末装置20の音声信号送信手段20bにおいて、音声信号を、ネットワーク60を介して制御サーバ装置50に送信する。
ステップS13:
このステップでは、制御サーバ装置50の音声信号受信手段50aで、ネットワーク60を介して送信された音声信号を受信する。
ステップS14:
このステップでは、制御サーバ装置50の音声信号配信手段50bにおいて、ステップS13で受信した音声信号を、ネットワーク60を介し、各利用者端末装置30、40に配信する。なお、制御サーバ装置50に複数の利用者端末装置から音声信号が送信される場合には、これらの複数の音声信号をミキシングして生成した音声信号を配信することとしてもよい。
【0033】
ステップS15:
このステップでは、利用者端末装置30の音声信号受信手段30aにおいて、ステップS14で送信された音声信号を受信する。
ステップS16:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、音声レベル情報を生成する。
【0034】
ここで、音声レベル情報とは、送信された音声信号によって特定される音声の音声レベルを示す情報を意味し、具体的には、例えば、この音声の大きさを表す情報、送信された音声信号が有する音量データが示す音量情報、送信された音声信号によって音声が復元できるか否かの情報、復元できた割合を示す情報等を意味する。
また、この音声レベル情報の生成方法としては、以下のような方法を例示できるが、これに限定されるものではない。なお、これらの方法の何れか1つのみを用いる構成としてもよいし、これらのうちから、何れかの方法を選択できる構成としてもよい。
【0035】
[方法1]音声信号を再生し、その音声を再びマイクロホンによって検出し、その検出結果を音声レベル情報とする方法。
具体的には、例えば、音声信号を再生した音声を、図2に例示したスピーカ32aから出力し、この音声をマイクロホン31bによって再び検出し、この検出音声の音圧測定結果をデジタル変換して音声レベル情報とする。なお、例えば、この場合のマイクロホン31bは、音声レベル情報生成時の音声検出専用に用いるものとし、利用者端末装置30の利用者の発話入力は、他のマイクロホンによって行うものとする。発話入力用のマイクロホンを、この音声レベル情報生成時の音声検出用としても兼用されることは、ハウリングを生じさせる原因になるからである。したがって、図3において利用者端末装置20が2つのマイクロホン21a、21bを有する構成としたのと同様に、利用者端末装置30についても、発話入力用マイクロホンと、音声レベル情報生成時の音声検出用マイクロホンと、が別個に構成されることになる。また、発話入力用マイクロホンと音声レベル情報生成時の音声検出用マイクロホンとを兼用させ、これによって生じるハウリングを防止するハードウェア的、ソフトウェア的措置を講じることとしてもよい。
【0036】
[方法2]送信された音声信号そのものを解析して、その解析結果を音声レベル情報とする方法。
具体的には、例えば、図6に例示した音声信号受信手段30aで受信された音声信号そのものが有する音量データを読み出し、そのデータそのものを音声レベル情報とする。また、この音量データがネットワーク60送信中に破損しており、音量データを再現できない場合には、無音状態を示す情報を音声レベル情報とすることとしてもよい。さらに、この破損により音量データを再現でない割合(ビット誤り率等)を音声レベル情報として用いることとしてもよい(例えば、再現できる割合が高い程、音声レベル情報によって特定される値を大きくする等)。なお、この音量データの破損の検出は、例えば、パリティチェック方式、ハミング符号方式等を用いて行う。
【0037】
[方法3]音声信号を再生し、その音声を再びマイクロホンによって検出するとともに、送信された音声信号そのものを解析し、これらの検出・解析結果から音声レベル情報を生成する方法。
具体的には、例えば、まず、音声信号を再生した音声を、図2に例示したスピーカ32aから出力し、この音声をマイクロホン31bによって再び検出するとともに、受信された音声信号そのものを検出する。そして、この音声信号に示されるスペクトラムから、マイクロホン31bによって検出された音声が有する音声成分と、雑音成分とを分離し、この音声成分のみの音圧測定値をデジタル変換して音声レベル情報とする。これにより、雑音成分を排除した、より正確な受信レベルを示す音声レベル情報を生成することができる。
【0038】
ステップS17:
このステップでは、利用者端末装置30の音声レベル情報送信手段30dにおいて、ステップS16で生成された音声レベル情報を、ネットワーク60を介して、制御サーバ装置50に送信する。なお、この際、音声信号が受信されたことを示す、レスポンス信号を合わせて送信することとしてもよい。なお、このレスポンス信号は、例えば、ネットワーク60を介して、利用者端末装置20に送信されることとなる。
【0039】
ステップS18:
このステップでは、制御サーバ装置50の音声レベル情報受信手段50cにおいて、ステップS17において送信された音声レベル情報を受信する。
ステップS19:
このステップでは、制御サーバ装置50の音声レベル情報配信手段50dにおいて、音声レベル情報を、ネットワーク60を介し、利用者端末装置配信する。
ここでの配信は、例えば、音声レベル情報の発信元の利用者端末装置30以外のすべての利用者端末装置20、40に対して行われるものとする。
【0040】
ステップS20:
このステップでは、利用者端末装置20の音声レベル情報受信手段20cにおいて、ステップS19において送信された音声レベル情報を受信する。このように受信された音声レベル情報は、例えば、制御手段20eを介し、音声レベル表示手段20dに送られる。
ステップS21:
このステップでは、利用者端末装置20の音声レベル表示手段20dにおいて、ステップS20で受信した音声レベル情報を視覚的に表示する。ここでの表示は、例えば、図3に例示したディスプレイ23aによって行われ、その表示形態としては、ゲージ等の図形表示、或いは数値表示が挙げられる。
【0041】
図9は、このように利用者端末装置20に表示された音声レベル情報を有する端末装置表示画面100を例示した図である。
図9に例示するように、この例の端末装置表示画面100は、画像表示部110〜130、マイクロホン音量表示部111、スピーカ音量表示部112、音声レベル表示部121、131を有している。
この例の場合、画像表示部110には、発話者である利用者端末装置20の利用者の画像が「発話者自画像」として表示され、画像表示部120には、利用者端末装置30の利用者の画像が「会議メンバA」として表示され、画像表示部130には、利用者端末装置40の利用者の画像が「会議メンバB」として表示される。なお、これらの画像は、利用者端末装置20が有するビデオカメラ24aによって撮影され、或いは、利用者端末装置30、40が有するビデオカメラによって撮影されネットワーク60を介して利用者端末装置20に送信された画像データを元に表示される画像である。
【0042】
マイクロホン音量表示部111は、例えば、利用者端末装置20の利用者に発話され、マイクロホン21aに入力された音声の音圧を視覚的に表示するものである。具体的には、図9に例示するレベルゲージ111aの長さによって、その音圧の大きさ、すなわち音量を視覚的に表示する。
スピーカ音量表示部112は、例えば、スピーカ22aから出力される音声の音量を、レベルゲージ等の長さによって、視覚的に表示する。
音声レベル表示部121、131は、利用者端末装置20が、利用者端末装置30、40からそれぞれ送信された音声レベル情報によって特定される音声レベルを視覚的に表示するものである。具体的には、図9に例示するレベルゲージ121aの長さによって、その音声レベル、すなわち音量を視覚的に表示する。
【0043】
図9の例の場合、マイクロホン音量表示部111のレベルゲージ111aより、利用者端末装置20のマイクロホン21aには発話入力が行われていることが分かる。そして、音声レベル表示部121にも、レベルゲージ121aが表示されており、その長手方向の長さは、マイクロホン音量表示部111のレベルゲージ111aと同等である。これにより、利用者端末装置20の利用者は、自らの発話が利用者端末装置30で再生されており、しかもその音量も十分であることを、直接、視覚的に知ることができる。一方、音声レベル表示部131には、レベルゲージが表示されておらず、これにより、利用者端末装置20の利用者は、自らの発話が利用者端末装置40では再生されていないことを、直接、視覚的に知ることができる。なお、利用者端末装置20の利用者が発話したにもかかわらず、他の利用者端末装置30、40から、何のレスポンスもない(音声レベル情報が送信されない)場合にも、音声レベル表示部121、131にはレベルゲージが表示されず、これによっても、自らの発話が利用者端末装置30、40では再生されていないことを、直接、視覚的に知ることができる。また、このように音声レベル情報の送信がなかった利用者端末装置、及び前述のレスポンス信号の送信がなかった利用者端末装置に関する情報を、不具合情報として、他の利用者端末装置に送信する構成としてもよい。
【0044】
このように、この形態の例では、利用者端末装置30において、ネットワーク60を介し、会議の相手側から送信された音声信号を受信し、受信した音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、生成した音声レベル情報を、ネットワーク60を介し、制御サーバ装置50に送信し、制御サーバ装置50において、利用者端末装置30から送信された音声レベル情報を、ネットワーク60を介し、会議の参加者の利用者端末装置20、40に配信し、利用者端末装置20において、制御サーバ装置50から送信された音声レベル情報によって特定される音声レベルを視覚的に表示することとしたため、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことができる。
【0045】
なお、この発明は上述の実施の形態に限定されるものではない。例えば、この形態の例では、利用者端末装置20〜40をコンピュータとした場合を例示したが、CODECを搭載し、ビデオカメラやマイクロホンを具備した、テレビ会議専用機器を用いて、この形態の例を実現することとしてもよい。
次に、この形態における第2の実施の形態について説明する。
この形態は、第1の実施の形態の変形例であり、利用者端末装置30において、受信した音声信号を音声変換し、該音声の平均音圧を、単位時間毎に計測し、このように計測された平均音圧が、1単位時間前に測定された平均音圧に比べて所定量以上変化していた場合にのみ音声レベル情報を生成する点が第1の実施の形態と相違する。その結果、常時音声レベル情報を生成してネットワーク配信する場合に比べ、ネットワークの付加を低減させることができる。以下、第1の実施の形態との相違点を中心に説明を行い、第1の実施の形態と共通する事項については、その説明を省略する。
【0046】
まず、この形態のシステム構成、利用者端末装置、制御サーバ装置のハードウェア構成、機能ブロック構成は、第1の実施の形態と同様であるため、それらの説明は省略し、以下では、第1の実施の形態で用いたシステム構成、利用者端末装置、制御サーバ装置のハードウェア構成、機能ブロック構成、及びそれらの図面の番号を用いて説明を行っていく。
図10は、この形態におけるテレビ会議システム10の処理動作を説明するためのフローチャートである。なお、以下では、このフローチャートに沿って説明を行っていくが、このフローチャートとは異なる順序でこれらの処理を行うこととしてもよい。
【0047】
ステップS30〜ステップS35までの処理は、第1の実施の形態におけるステップS10〜ステップS15までの処理と同様である。つまり、利用者端末装置20において、発話入力(ステップS30)、音声データ変換(ステップS31)、音声信号送信(ステップS32)を行い、制御サーバ装置50で音声信号を受信し(ステップS33)、音声信号配信を行い(ステップS34)、利用者端末装置30で音声信号を受信する(ステップS35)。
【0048】
ステップS36:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、単位時間ごとの平均音圧を測定する。この測定は、例えば、第1の実施の形態におけるステップS16の説明で述べたのと同様な方法で、利用者端末装置30のスピーカ32aから出力される音声の音圧を測定し、その測定結果の平均をとることによって行われる。また、単位時間としては、70〜130msec程度が望ましく、100msec程度がより望ましい。これより単位時間を短くすると、上述したネットワーク付加の低減を十分に図れないことになり、逆にこれよりも単位時間を長くすると、発話者が使用する利用者端末装置20に対し、利用者端末装置30での音声再生状況を十分に伝達できず、この発明の効果を十分に発揮することができなくなるからである。
このように測定された平均音圧は、制御手段30fを介して記憶手段30eに記憶される。
【0049】
ステップS37:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、1単位時間前と平均音圧の測定結果が同一であったか否かを判断する。
具体的には、まず、記憶手段30eに記憶された1単位時間前の平均音圧データを抽出し、このデータと最新の測定データとの比較を行う。その結果、この最新の平均音圧が、1単位時間前に測定された平均音圧に比べて所定量以上変化していた場合には、ステップS38に進み、所定量以上変化しておらず実質的に同一である場合には処理を終了する。なお、この所定量は、例えば、このシステムの利用者が自由に選択・設定できるものとする。
【0050】
ステップS38:
このステップでは、利用者端末装置30の音声レベル情報生成手段30cにおいて、音声レベル情報を生成する。なお、この音声レベル情報は、第1の実施の形態におけるステップS16と同様の方法によって生成することとしてもよく、また、この平均音圧の変化量を示す情報を音声レベル情報として生成することとしてもよい。
その後のステップS39〜ステップS43までの処理は、第1の実施の形態におけるステップS17〜ステップS21までの処理と同様である。すなわち、利用者端末装置30において音声レベル情報を制御サーバ装置50に送信し(ステップS39)、制御サーバ装置50において、音声レベル情報を受信し(ステップS40)、音声レベル情報を配信し(ステップS41)、利用者端末装置20において、音声レベル情報を受信し(ステップS42)、音声レベル表示を行う(ステップS43)。ただし、平均音圧の変化量を示す情報を音声レベル情報とした場合、利用者端末装置20において表示される音声レベル(ステップS43)は、音声レベル情報に示される音声レベルの変化量を、変化前の音声レベルに加算或いは減算した値となる。
【0051】
このように、この形態では、利用者端末装置30の音声レベル情報生成手段30cにおいて、受信した音声信号を音声変換し、該音声の平均音圧を、単位時間毎に計測し、このように計測された平均音圧が、1単位時間前に測定された平均音圧に比べて所定量以上変化していた場合にのみ音声レベル情報を生成することとしたため、常時音声レベル情報を生成してネットワーク配信する場合に比べ、ネットワークのトラフィック量を低減させることが可能となり、その結果、ネットワークの付加を低減させることができる。
【0052】
また、この形態の例でも、第1の実施の形態と同様、利用者端末装置30において、ネットワーク60を介し、会議の相手側から送信された音声信号を受信し、受信した音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、生成した音声レベル情報を、ネットワーク60を介し、制御サーバ装置50に送信し、制御サーバ装置50において、利用者端末装置30から送信された音声レベル情報を、ネットワーク60を介し、会議の参加者の利用者端末装置20、40に配信し、利用者端末装置20において、制御サーバ装置50から送信された音声レベル情報によって特定される音声レベルを視覚的に表示することとしたため、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことができる。
【0053】
なお、この発明は上述の実施の形態に限定されるものではない。例えば、この形態の例では、利用者端末装置20〜40をコンピュータとした場合を例示したが、CODECを搭載し、ビデオカメラやマイクロホンを具備した、テレビ会議専用機器を用いて、この形態の例を実現することとしてもよい。
また、上述のように、第1の実施の形態及び第2の実施の形態の処理機能は、コンピュータによって実現することができる。この場合、利用者端末装置2、4、20〜30、制御サーバ装置3、50が有すべき機能の処理内容はプログラムによって記述され、このプログラムをコンピュータで実行することにより、上記処理機能をコンピュータ上で実現することができる。
【0054】
また、この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を用いることができる。
【0055】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。
さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
なお、上記におけるプログラムとは、電子計算機に対する指令であって、一の結果を得ることができるように組合されたものをいい、その他電子計算機による処理の用に供する情報であってプログラムに準ずるものをも含むものとする。
【0056】
【発明の効果】
以上説明したようにこの発明では、第1の利用者端末装置において、ネットワークを介し、会議の相手側から送信された音声信号を受信した際、この音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成し、このように生成された音声レベル情報を、ネットワークを介し、制御サーバ装置に送信し、制御サーバ装置に送信された音声レベル情報は、ネットワークを介し、会議の参加者の利用者端末装置に配信され、この音声レベル情報が配信された第2の利用者端末装置は、この音声レベル情報によって特定される音声レベルを視覚的に表示することとした。
これにより、自分が送った音声が相手方にどの程度聞こえているか否かを直接知ることができ、相手に自分の音声が伝わっていることを直接確認しつつ、安心感のあるコミュニケーションを行うことが可能となる。
【図面の簡単な説明】
【図1】この発明の概略構成を例示した概念図。
【図2】テレビ会議システムの全体構成を例示した概念図。
【図3】利用者端末装置のハードウェア構成を例示したブロック図。
【図4】制御サーバ装置のハードウェア構成を例示したブロック図。
【図5】利用者端末装置の処理機能を例示した機能ブロック図。
【図6】利用者端末装置の処理機能を例示した機能ブロック図。
【図7】制御サーバ装置の処理機能を例示した機能ブロック図。
【図8】テレビ会議システムの処理動作を説明するためのフローチャート。
【図9】利用者端末装置に表示された音声レベル情報を有する端末装置表示画面を例示した図。
【図10】テレビ会議システムの処理動作を説明するためのフローチャート。
【符号の説明】
1、10 テレビ会議システム
2、4、20〜30 利用者端末装置
3、50 制御サーバ装置
100 端末装置表示画面
121、131 音声レベル表示部
121a レベルゲージ
Claims (10)
- ネットワークを介し、音声と映像を用いた双方向コミュニケーションを行うテレビ会議方法において、
第1の利用者端末装置で行われる、
前記ネットワークを介し、会議の相手側から送信された音声信号を受信する音声信号受信ステップと、
前記音声信号受信ステップにおいて受信された前記音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成する音声レベル情報生成ステップと、
前記音声レベル情報生成ステップで生成された前記音声レベル情報を、前記ネットワークを介し、制御サーバ装置に送信する音声レベル情報送信ステップと、
前記制御サーバ装置で行われる、
前記第1の利用者端末装置から送信された前記音声レベル情報を、前記ネットワークを介し、会議の参加者の利用者端末装置に配信する音声レベル情報配信ステップと、
第2の利用者端末装置で行われる、
前記制御サーバ装置から送信された前記音声レベル情報によって特定される前記音声レベルを視覚的に表示する音声レベル表示ステップと、
を有することを特徴とするテレビ会議方法。 - 第1の利用者端末装置で行われる、
前記音声信号受信ステップにおいて受信された前記音声信号を音声変換し、該音声の平均音圧を、単位時間毎に計測する平均音圧測定ステップをさらに有し、
前記音声レベル情報生成ステップは、
前記平均音圧測定ステップにおいて計測された前記平均音圧が、1単位時間前に測定された前記平均音圧に比べて所定量以上変化していた場合にのみ、前記音声レベル情報を生成する、
ことを特徴とする請求項1に記載のテレビ会議方法。 - ネットワークを介し、音声と映像を用いた双方向コミュニケーションを行う利用者端末装置の処理方法において、
前記ネットワークを介し、会議の相手側から送信された音声信号を受信する音声信号受信ステップと、
前記音声信号受信ステップにおいて受信された前記音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成する音声レベル情報生成ステップと、
前記音声レベル情報生成ステップで生成された前記音声レベル情報を、前記ネットワークを介し、前記会議の相手側に送信する音声レベル情報送信ステップと、
を有することを特徴とする利用者端末装置の処理方法。 - 前記音声信号受信ステップにおいて受信された前記音声信号を音声変換し、該音声の平均音圧を、単位時間毎に計測する平均音圧測定ステップをさらに有し、
前記音声レベル情報生成ステップは、
前記平均音圧測定ステップにおいて計測された前記平均音圧が、1単位時間前に測定された前記平均音圧に比べて所定量以上変化していた場合にのみ、前記音声レベル情報を生成する、
ことを特徴とする請求項3に記載の利用者端末装置の処理方法。 - ネットワークを介し、音声と映像を用いた双方向コミュニケーションを行う使用者端末装置の処理方法において、
前記ネットワークを介し、音声信号を会議の相手側へ送信する音声信号送信ステップと、
前記会議の相手側から送信された音声レベル情報によって特定される音声レベルを視覚的に表示する音声レベル表示ステップと、
を有することを特徴とする利用者端末装置の処理方法。 - ネットワークを介し、音声と映像を用いた双方向コミュニケーションを行う利用者端末装置において、
前記ネットワークを介し、会議の相手側から送信された音声信号を受信する音声信号受信手段と、
前記音声信号受信手段において受信された前記音声信号によって特定される音声の音声レベルを示す音声レベル情報を生成する音声レベル情報生成手段と、
前記音声レベル情報生成手段で生成された前記音声レベル情報を、前記ネットワークを介し、前記会議の相手側に送信する音声レベル情報送信手段と、
を有することを特徴とする利用者端末装置。 - 前記音声信号受信手段において受信された前記音声信号を音声変換し、該音声の平均音圧を、単位時間毎に計測する平均音圧測定手段をさらに有し、
前記音声レベル情報生成手段は、
前記平均音圧測定手段において計測された前記平均音圧が、1単位時間前に測定された前記平均音圧に比べて所定量以上変化していた場合にのみ、前記音声レベル情報を生成する、
ことを特徴とする請求項6に記載の利用者端末装置。 - ネットワークを介し、音声と映像を用いた双方向コミュニケーションを行う利用者端末装置において、
前記ネットワークを介し、音声信号を会議の相手側へ送信する音声信号送信手段と、
前記会議の相手側から送信された音声レベル情報によって特定される音声レベルを視覚的に表示する音声レベル表示手段と、
を有することを特徴とする利用者端末装置。 - 請求項3から5の何れかに記載された利用者端末装置の処理方法の各ステップを、コンピュータ上に実行させるためのプログラム。
- 請求項9に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002349775A JP2004186870A (ja) | 2002-12-02 | 2002-12-02 | テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002349775A JP2004186870A (ja) | 2002-12-02 | 2002-12-02 | テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004186870A true JP2004186870A (ja) | 2004-07-02 |
Family
ID=32752217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002349775A Pending JP2004186870A (ja) | 2002-12-02 | 2002-12-02 | テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004186870A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007019833A (ja) * | 2005-07-07 | 2007-01-25 | Sharp Corp | 通話装置 |
JP2007036400A (ja) * | 2005-07-22 | 2007-02-08 | Pioneer Electronic Corp | 電子会議システムおよびその会議端末 |
JP2007129623A (ja) * | 2005-11-07 | 2007-05-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報伝達システム及び音声可視化装置 |
JP2007267218A (ja) * | 2006-03-29 | 2007-10-11 | Sharp Corp | 音量監視装置、通信端末装置、通信システム、通信方法、エコーキャンセラー、及びエコーキャンセラーを機能させるコンピュータ読み取り可能なプログラム |
JP2008061060A (ja) * | 2006-09-01 | 2008-03-13 | Matsushita Electric Ind Co Ltd | 会議システム |
JP2009065336A (ja) * | 2007-09-05 | 2009-03-26 | Hitachi Communication Technologies Ltd | テレビ会議システム |
WO2009128366A1 (ja) * | 2008-04-16 | 2009-10-22 | コニカミノルタホールディングス株式会社 | コミュニケーションシステム及びコミュニケーションプログラム |
US7912196B2 (en) | 2006-03-30 | 2011-03-22 | Pioneer Corporation | Voice conference apparatus, method for confirming voice in voice conference system and program product |
WO2013008941A1 (en) | 2011-07-14 | 2013-01-17 | Ricoh Company, Limited | Multipoint connection apparatus and communication system |
JP2014509467A (ja) * | 2011-01-11 | 2014-04-17 | イナ インダストリー パートナーシップ インスティテュート | モバイルデバイスにおけるオーディオ信号の品質測定 |
JP2020013169A (ja) * | 2019-10-29 | 2020-01-23 | 株式会社Jvcケンウッド | 端末装置、通信方法及び通信プログラム |
-
2002
- 2002-12-02 JP JP2002349775A patent/JP2004186870A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007019833A (ja) * | 2005-07-07 | 2007-01-25 | Sharp Corp | 通話装置 |
JP4567543B2 (ja) * | 2005-07-22 | 2010-10-20 | パイオニア株式会社 | 電子会議システムおよびその会議端末 |
JP2007036400A (ja) * | 2005-07-22 | 2007-02-08 | Pioneer Electronic Corp | 電子会議システムおよびその会議端末 |
JP2007129623A (ja) * | 2005-11-07 | 2007-05-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報伝達システム及び音声可視化装置 |
JP4708960B2 (ja) * | 2005-11-07 | 2011-06-22 | 日本電信電話株式会社 | 情報伝達システム及び音声可視化装置 |
JP2007267218A (ja) * | 2006-03-29 | 2007-10-11 | Sharp Corp | 音量監視装置、通信端末装置、通信システム、通信方法、エコーキャンセラー、及びエコーキャンセラーを機能させるコンピュータ読み取り可能なプログラム |
US7912196B2 (en) | 2006-03-30 | 2011-03-22 | Pioneer Corporation | Voice conference apparatus, method for confirming voice in voice conference system and program product |
JP2008061060A (ja) * | 2006-09-01 | 2008-03-13 | Matsushita Electric Ind Co Ltd | 会議システム |
JP2009065336A (ja) * | 2007-09-05 | 2009-03-26 | Hitachi Communication Technologies Ltd | テレビ会議システム |
WO2009128366A1 (ja) * | 2008-04-16 | 2009-10-22 | コニカミノルタホールディングス株式会社 | コミュニケーションシステム及びコミュニケーションプログラム |
JP2014509467A (ja) * | 2011-01-11 | 2014-04-17 | イナ インダストリー パートナーシップ インスティテュート | モバイルデバイスにおけるオーディオ信号の品質測定 |
US9300694B2 (en) | 2011-01-11 | 2016-03-29 | INHA—Industry Partnership Institute | Audio signal quality measurement in mobile device |
US9729602B2 (en) | 2011-01-11 | 2017-08-08 | Inha-Industry Partnership Institute | Audio signal quality measurement in mobile device |
WO2013008941A1 (en) | 2011-07-14 | 2013-01-17 | Ricoh Company, Limited | Multipoint connection apparatus and communication system |
US9392224B2 (en) | 2011-07-14 | 2016-07-12 | Ricoh Company, Limited | Multipoint connection apparatus and communication system |
JP2020013169A (ja) * | 2019-10-29 | 2020-01-23 | 株式会社Jvcケンウッド | 端末装置、通信方法及び通信プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6865604B2 (en) | Method for extracting a computer network-based telephone session performed through a computer network | |
US6122665A (en) | Communication management system for computer network-based telephones | |
US9179100B2 (en) | Video conferencing method and device thereof | |
US10504536B2 (en) | Audio quality in real-time communications over a network | |
JP2004186870A (ja) | テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体 | |
US20060034300A1 (en) | Systems, methods, and devices for processing audio signals | |
JP2010074494A (ja) | 会議支援装置 | |
US20060282265A1 (en) | Methods and apparatus to perform enhanced speech to text processing | |
JP5515728B2 (ja) | 端末装置、処理方法および処理プログラム | |
JP2011216984A (ja) | 通信システムおよび通信方法 | |
JP2004120460A (ja) | ビデオ会議システムとビデオ会議端末装置およびプログラム | |
JP4365291B2 (ja) | 双方向通信サービスシステムにおける品質推定方法および品質推定装置 | |
CN114760461B (zh) | 音视频通话业务用户体验测试方法及装置 | |
JP2005269498A (ja) | ビデオ会議システム、ビデオ会議端末装置、およびその制御方法ならびにそのためのビデオ会議端末装置制御用プログラム | |
CN111243594A (zh) | 一种音频转换文字的方法及装置 | |
JP5234850B2 (ja) | プロジェクタシステム、プロジェクタ、およびデータ受け付け方法 | |
JP2004048329A (ja) | ネットワーク会議システムにおける通話確認方法、ネットワーク会議システム用コンピュータ及びその通話確認方法、ネットワーク会議プログラム及びそのプログラムを記録した記録媒体 | |
WO2013146510A1 (ja) | 会議システム、プログラムおよび会議方法 | |
JP7196573B2 (ja) | 通信端末、通信システム、通信方法およびプログラム | |
WO2024100920A1 (ja) | 情報処理装置、情報処理方法及び情報処理用プログラム | |
JP2022113375A (ja) | 情報処理方法及び監視システム | |
JP2003163906A (ja) | テレビ会議システム及びテレビ会議方法 | |
JP2008311883A (ja) | 情報処理装置及びプログラム | |
FR3136098A1 (fr) | Procédé de fourniture de données audio, dispositif, système, et programme d’ordinateur associés | |
JP2024067381A (ja) | コンテンツ配信システム、コンテンツ配信方法、及びプログラム |