JP2008141348A - Communication apparatus - Google Patents
Communication apparatus Download PDFInfo
- Publication number
- JP2008141348A JP2008141348A JP2006323926A JP2006323926A JP2008141348A JP 2008141348 A JP2008141348 A JP 2008141348A JP 2006323926 A JP2006323926 A JP 2006323926A JP 2006323926 A JP2006323926 A JP 2006323926A JP 2008141348 A JP2008141348 A JP 2008141348A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- notification
- notification signal
- audio
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、ネットワークを介して行われる遠隔コミュニケーションを支援する技術に関する。 The present invention relates to a technology for supporting remote communication performed via a network.
互いに離れた場所にいる複数の者が、通信回線に接続された音響機器を用いて音声による遠隔会議を行うことを可能とする技術がある。その技術においては、異なる場所に配置された音響機器の各々により集音された発言者の音声信号が中央装置に送信され、中央装置にてミキシングされた後、各音響機器に送信される。そのような技術を開示した文献として、例えば特許文献1がある。
ところで、多人数で行われる遠隔会議においては、スピーカから聞こえてくる発言者の声の特徴(声色、声の高さなど)だけでは、それが誰の発言であるか即座に正確に判別することは難しいといった問題があった。
本発明は上記の問題点に鑑みて為されたものであり、遠隔会議等の遠隔コミュニケーションにおいて、スピーカから聞こえてくる音声が誰の発言によるものであるかを参加者に適切に通知することを目的としている。
By the way, in a teleconference held by a large number of people, the voice characteristics (voice color, pitch, etc.) of the speaker that can be heard from the speaker can be immediately and accurately determined as to who the voice is. There was a problem that was difficult.
The present invention has been made in view of the above-mentioned problems, and in remote communication such as a remote conference, appropriately notifies the participant of who speaks the sound heard from the speaker. It is aimed.
本発明に係る通信装置の第1の実施形態は、通信網を介して接続された複数の通信端末のそれぞれから、オーディオ信号および前記通信端末を一意に識別することを可能にする識別情報を受信する受信手段と、報知信号を前記識別情報と対応付けて記憶する記憶手段と、前記各通信端末からのオーディオ信号をミキシングして前記各通信端末に出力するとともに、前記ミキシングにおいては前記各通信端末を出力先とする複数系統のミキシングを行い、かつ、各系統においては出力元である通信端末から出力されたオーディオ信号はミキシングから除外する処理を行うミキシング出力手段と、前記受信手段が受信した識別情報に対応付けられた報知信号を前記記憶手段から読み出し、読み出した報知信号が前記ミキシング出力手段によるミキシング後の信号に含まれるように付加する報知信号付加手段とを有することを特徴とする。 The first embodiment of the communication apparatus according to the present invention receives an audio signal and identification information that makes it possible to uniquely identify the communication terminal from each of a plurality of communication terminals connected via a communication network. Receiving means, storage means for storing a notification signal in association with the identification information, audio signals from the communication terminals are mixed and output to the communication terminals, and the communication terminals are used in the mixing. And a plurality of systems having the output destination as the output destination, and in each system, the audio signal output from the communication terminal that is the output source is processed to be excluded from the mixing, and the identification received by the receiving means A notification signal associated with information is read from the storage means, and the read notification signal is mixed by the mixing output means. And having a broadcast signal adding unit that adds to include in the signal after the ring.
本発明に係る通信装置の第2の実施形態は、請求項1に記載の通信装置において、前記受信手段は、さらに前記通信端末から報知信号付加指示を受信し、前記報知信号付加手段は、前記受信手段が前記報知信号付加指示を受信したときに限り、前記報知音声を前記オーディオ信号に付加することを特徴とする。
According to a second embodiment of the communication apparatus according to the present invention, in the communication apparatus according to
本発明に係る通信装置の第3の実施形態は、請求項1または2に記載の通信装置において、前記報知信号付加手段は、前記各報知信号に対応する出力元の通信端末を出力先とする系統のミキシング信号については、当該報知信号を付加しないことを特徴とする。
According to a third embodiment of the communication apparatus of the present invention, in the communication apparatus according to
本発明に係る通信装置の第4の実施形態は、請求項1ないし3いずれかに記載の通信装置において、前記報知信号付加手段は、前記報知信号を付加すべきオーディオ信号の出力開始と出力終了を検出し、前記報知信号を前記出力開始の前または前記出力終了の後に付加することを特徴とする。
The communication device according to a fourth embodiment of the present invention is the communication device according to any one of
本発明に係る通信装置の第5の実施形態は、請求項4に記載の通信装置において、前記報知信号を前記出力開始の前または前記出力終了の後のいずれに付加するかを指定する付加位置指定情報を前記各識別情報に対応させて記憶する付加位置記憶手段を具備し、前記報知信号付加手段は、前記付加位置記憶手段に記憶されている付加位置指定情報を前記識別情報に応じて読み出し、読み出した付加位置指定情報に応じて前記通信端末ごとに報知信号を付加すべき位置を制御することを特徴とする。 5th Embodiment of the communication apparatus which concerns on this invention is a communication apparatus of Claim 4, The addition position which designates whether the said alerting | reporting signal is added before the said output start or after the said output end Additional position storage means for storing designation information corresponding to each identification information is provided, and the notification signal addition means reads the additional position designation information stored in the additional position storage means in accordance with the identification information. The position to which the notification signal should be added is controlled for each of the communication terminals according to the read additional position designation information.
本発明に係る通信装置の第6の実施形態は、請求項1ないし5いずれかに記載の通信装置において、前記記憶手段は、さらに、前記報知信号を付加するか否かを示すフラグを前記識別情報に対応付けて記憶し、前記報知信号付加手段は、前記受信手段が受信した識別情報に対応付けられた前記フラグを参照して報知信号を付加するか否かを決定することを特徴とする。
According to a sixth embodiment of the communication apparatus according to the present invention, in the communication apparatus according to any one of
本発明に係る通信装置の第7の実施形態は、請求項1ないし6いずれかに記載の通信装置において、前記オーディオ信号はパケット信号であり、前記識別情報は前記パケットに含まれることを特徴とする。
According to a seventh embodiment of the communication apparatus of the present invention, in the communication apparatus according to any one of
本発明に係る通信装置の第8の実施形態は、請求項1ないし7いずれかに記載の通信装置において、前記報知信号は音声信号であることを特徴とする。
An eighth embodiment of the communication apparatus according to the present invention is the communication apparatus according to any one of
本発明によれば、遠隔会議等の遠隔コミュニケーションにおいて、スピーカから聞こえてくる音声が誰の発言によるものであるかを参加者に適切に通知することができる、といった効果を奏する。 According to the present invention, in remote communication such as a remote conference, there is an effect that it is possible to appropriately notify a participant of who speaks the sound heard from the speaker.
以下、図面を参照しつつ、本発明を実施する際の最良の形態について説明する。
(A.構成)
以下、図面を参照して本発明の好適な実施形態について説明する。図1は、本発明に係る音声会議システム1の全体構成を示す図である。音声会議システム1は、音声会議用端末10A、10B、および10Cと、サーバ装置20と、それらの通信装置を接続するネットワーク30とから成る。
Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings.
(A. Configuration)
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an overall configuration of an
音声会議用端末10A、10B、および10Cは、同一の構成および機能を有する。以下の説明において、音声会議用端末10A、10B、および10Cを区別する必要が無いときには、「音声会議用端末10」と総称する。
なお、ネットワーク30には、音声会議用端末10A、10B、および10Cの3つの音声会議用端末10が接続されているが、2台、もしくは4台以上の音声会議用端末10が接続されていても良い。要はネットワーク30に、複数の音声会議用端末10が接続されていれば良い。
The
The
ネットワーク30は例えばインターネットであり、音声会議用端末10の間で所定の通信プロトコルに従って行われるデータ通信を仲介する。本実施形態で用いられている通信プロトコルは、アプリケーション層の通信プロトコルとしては、Real-time Transport Protocol(以下、「RTP」)が用いられており、トランスポート層の通信プロトコルとしては、UDPが用いられており、ネットワーク層の通信プロトコルとしてはIPが用いられている。
音声会議用端末10A、10B、および10Cには、IPアドレス(それぞれ“199.199.1.1”、“199.199.1.2”、および“199.199.1.3”)が割り振られており、ネットワーク上で一元的に識別される。
UDPとIPについては、一般に広く用いられている通信プロトコルであるため説明を省略し、以下RTPについて説明する。
The
The IP addresses (“199.199.1.1”, “199.199.1.2”, and “199.199.1.3”) are allocated to the
Since UDP and IP are communication protocols that are generally widely used, description thereof will be omitted, and RTP will be described below.
RTPとは、音声データや映像データをend-to-endでリアルタイムに送受信する通信サービスを提供するための通信プロトコルであり、その詳細はRFC1889に規定されている。RTPにおいては、RTPパケットを生成し送受信することにより通信端末同士でデータの授受が行われる。 RTP is a communication protocol for providing a communication service for transmitting and receiving audio data and video data in end-to-end in real time, and details thereof are defined in RFC1889. In RTP, data is exchanged between communication terminals by generating and transmitting / receiving RTP packets.
図2に示すように、RTPパケットは、IPにおけるデータ転送単位であるパケットやTCPにおけるデータ転送単位であるセグメントと同様に、ヘッダ部とペイロード部とで構成されている。ヘッダ部には、タイムスタンプ、送信元識別子および送信先識別子の3種類のデータが書き込まれる。ここで、タイムスタンプとは、時刻(音声通信の開始を指示されてから経過した時間)を示すデータである。ペイロード部には、所定時間(本実施形態では20ミリ秒)分の音声データが書き込まれている。 As shown in FIG. 2, the RTP packet is composed of a header part and a payload part, like a packet that is a data transfer unit in IP and a segment that is a data transfer unit in TCP. Three types of data including a time stamp, a transmission source identifier, and a transmission destination identifier are written in the header portion. Here, the time stamp is data indicating the time (the time elapsed since the start of voice communication was instructed). Audio data for a predetermined time (20 milliseconds in this embodiment) is written in the payload portion.
以下、音声会議用端末10のハードウェア構成について説明する。図3は、音声会議用端末10のハードウェア構成を示すブロック図である。
図に示す制御部101は、例えばCPU(Central Processing Unit)であり、後述するROM103aに格納されている各種プログラムを実行することにより、本発明に特徴的な動作を行ったり、音声会議用端末10の各部の動作を制御したりする。
通信IF部102は、例えばNIC(Network Interface Card)であり、ネットワーク30に有線接続されている。この通信IF部102は、制御部101から引渡されたRTPパケットを下位層の通信プロトコルにしたがって順次カプセル化することにより得られるIPパケットをネットワーク30へ送出する。なお、カプセル化とは、上記RTPパケットをペイロード部に書き込んだUDPセグメントを生成し、さらに、そのUDPセグメントをペイロード部に書き込んだIPパケットを生成することである。また、通信IF部102は、ネットワーク30を介してデータを受信し、IPパケットに対して上記カプセル化とは逆の処理を行うことにより、そのIPパケットにカプセル化されているRTPパケットを読み出して制御部101へ出力する。
Hereinafter, the hardware configuration of the
A
The
記憶部103は、ROM(Read Only Memory)103aおよびRAM(Random Access Memory)103bを有する。ROM103aは、本発明に特徴的な機能を制御部101に実行させるための制御プログラムを格納している。制御プログラムの一例として、データの圧縮・伸張を行うソフトウェアであるコーデック(登録商標)が挙げられる。コーデックは所定の圧縮率で音声データを圧縮し、所定のビットレートでデータを送受信する。RAM103bは、後述するマイクロホン106bから受取った音声データを記憶したり、各種プログラムにしたがって作動している制御部101によってワークエリアとして利用されたりする。
The
操作部104は、キーボードやマウス、および発言ボタン104aを有する。キーボードやマウスは、本会議の参加者が何らかの入力を行った場合に、その操作内容を表すデータを制御部101へと伝達する。発言ボタン104aは、参加者により押下されるとその旨を示すデータを制御部101へと伝達する。
表示部105は、例えばモニタであり、制御部101による制御下で音声会議用端末10が有する、またはネットワーク30を介して受取った各種のデータを画面に表示する。
The
The
音声入力部106は、アナログ/デジタル(以下、「A/D」と略記する)コンバータ106aとマイクロホン106bとを有する。マイクロホン106bは、参加者の音声を収音しその音声を表すアナログ信号(以下、音声信号)を生成し、A/Dコンバータ106aへ出力する。A/Dコンバータ106aは、マイクロホン106bから受取った音声信号にA/D変換を施し、その変換結果であるデジタルデータ(以下、音声データ)を制御部101へ出力する。
The
音声出力部107は、制御部101から受取った音声データに応じた音声の再生を行うものであり、D/Aコンバータ107aとスピーカ107bとを有する。D/Aコンバータ107aは、制御部101から受取った音声データに対して、D/A変換を施すことによってアナログ方式の音声信号へ変換し、スピーカ107bへ出力するものである。そして、スピーカ107bは、D/Aコンバータ107aから受取った音声信号の表す音声を放音する。以上が、音声会議用端末10のハードウェア構成である。
The
以上に説明したように、本実施形態に係る音声会議用端末10の構成は、一般的なコンピュータ装置のハードウェア構成と同一であり、本発明に係る音声会議用端末10に特徴的な機能は、以下に説明するソフトウェアモジュールにより実現されている。
As described above, the configuration of the
音声会議用端末10は、マイクロホン106bが収音した音声を表す音声データの音量レベルを検知して、そこから発言が含まれている部分のみを選択してネットワーク30に向けて出力する機能を有する。図4は、音声会議用端末10が行う音声データの生成・出力の流れを示したブロック図である。
The
音声入力部106は、会議中継続して音声を収音し音声データを生成する。生成された音声データは一旦RAM103bの音声データバッファ領域に書き込まれる。
なお、音声データは音声データバッファ領域に一旦書き込まれて後述する各種処理が行われるが、各種処理による信号の遅れはごくわずかであるために、通話のリアルタイム性には影響はない。
The
The voice data is once written in the voice data buffer area and subjected to various processes to be described later. However, since the signal delay due to the various processes is negligible, there is no effect on the real-time nature of the call.
音量レベル検知部110は、RAM103bに書き込まれた音声データを所定の大きさ(本実施形態においては20ミリ秒分)のフレーム単位で読み取り、フレームごとに音量レベル検知処理を行う。すなわち、音量レベルが所定の閾値を超える期間があるフレームを有音フレームとし、音量レベルが所定の閾値を一度も超える期間が無いフレームを無音フレームとする。また、それらのフレームに対応する期間を、以下ではそれぞれ有音期間および無音期間と呼ぶ。
The volume
有音フレームには、有音圧縮処理が施される。すなわち、フレーム選択部111は有音フレームをRAM103bから音声データ圧縮部112に受け渡し、音声データ圧縮部112は該フレームの音声データを、コーデックにより所定の圧縮率で圧縮する。圧縮が施された音声データには図2に示されるようにRTPヘッダを付与され、RTPパケットが生成され、通信IF部102に出力される。
The sound frame is subjected to sound compression processing. That is, the
一方、無音フレームには、無音圧縮処理が施される。すなわち、フレーム選択部111は、無音フレームを音声データ圧縮部112に受け渡さず、その結果無音期間にはRTPパケットは生成されない。
無音フレームには、会議室のざわめき(暗騒音)などが含まれ、音量レベルは非常に低いとしても、そのデータ量は小さくないことが一般に知られている。無音圧縮処理によれば、参加者が必要とする音声は含まれていない無音フレームを“間引く”ことにより、必要な情報を欠落させることなく送信データ量を減らすことができる。
On the other hand, a silence compression process is performed on the silence frame. That is, the
It is generally known that the silent frame includes the noise (background noise) of the conference room and the amount of data is not small even if the volume level is very low. According to the silence compression process, the amount of transmission data can be reduced without losing necessary information by “thinning out” silence frames that do not include the speech required by the participant.
通信IF部102は以上のように生成されたRTPパケットを受け取り、受取ったRTPパケットを下位層の通信プロトコルへ順次引渡すことによってIPパケットを生成し、該IPパケットをネットワーク30へ送出する。
The communication IF
また、音声会議用端末10がネットワーク30を介して他の音声会議用端末10から他の参加者の音声を表す音声データを受取ると、D/Aコンバータ107aは受取った音声データを音声信号に変換し、スピーカ107bは該音声信号の表す音声を放音する。
When the
次に、サーバ装置20の構成について説明する。図5は、サーバ装置20のハードウェア構成を示すブロック図である。制御部201、通信IF部202、記憶部203、操作部204、および表示部205は、各々音声会議用端末10における制御部101、通信IF部102、記憶部103、操作部104、および表示部105と同様の機能を持つため、説明を省略する。なお、ROM203aには後述する識別情報管理テーブル、複数の報知音声データ、およびサーバ装置20に特徴的な動作を行わせるプログラムが格納されている。
Next, the configuration of the
以下では、ROM203aに格納されている識別情報管理テーブルについて説明する。図6は識別情報管理テーブルの一例を示す図である。識別情報管理テーブルには、各音声会議用端末10に割り当てられたIPアドレスに対応付けて、該音声会議用端末10を利用する参加者の名前、報知音声挿入可否、報知音声挿入タイミング、および報知音声データが書き込まれている。
Hereinafter, the identification information management table stored in the
さて、サーバ装置20は、複数の音声会議用端末10から音声データを受取り、それらの音声データを合成して再び各音声会議用端末10へ送信する“ミキシング処理”を行う。またミキシング処理を行う際に、ミキシングした音声はどの音声会議用端末10から受取ったものであるのか、すなわちどの参加者の発言であるのかを表す報知音声を発言に対して付加する“発言者報知処理”を行う。上記識別情報管理テーブルは、発言者報知処理を施すか否か、また、施す場合にはどのように施すかを参加者ごとに規定したテーブルである。
Now, the
さて、上記識別情報管理テーブルにおいて、報知音声挿入可否の項目には、上記発言者報知処理を行うか否かが書き込まれている。本実施例においては、全ての参加者について“可”と書き込まれている。報知音声挿入タイミングの項目には、報知音声を付加するタイミングが書き込まれている。すなわち、“前”と書きこまれている参加者の場合、ミキシング処理された音声データが再生される前に報知音声がミキシング処理され、“後”と書き込まれている参加者の場合、ミキシング処理された音声データが再生された後に報知音声がミキシング処理される。報知音声データの項目には、報知音声として付加する音声を表す音声データのファイル名が書き込まれている。
なお、報知音声データ1、2、および3はそれぞれ、“参加者Aの発言でした。”、“参加者Bの発言です。”、および“参加者Cの発言です。”というナレーションを表す。
In the identification information management table, whether or not to perform the speaker notification process is written in the item of whether or not notification voice insertion is possible. In this embodiment, “Yes” is written for all participants. In the item of the notification voice insertion timing, a timing for adding the notification voice is written. That is, in the case of a participant in which “front” is written, the notification sound is mixed before the audio data subjected to the mixing processing is reproduced, and in the case of a participant in which “after” is written, the mixing processing is performed. After the sound data is reproduced, the notification sound is mixed. In the item of the notification sound data, a file name of sound data representing the sound added as the notification sound is written.
Note that the
(B、動作)
次に、音声会議システム1により行われる会議において各装置が行う動作について、説明する。なお、サーバ装置20のROM203aには、図6に示す内容の識別情報管理テーブル、および上述した報知音声データ1ないし3が格納されている。また、音声会議用端末10A、10B、および10Cを、それぞれ参加者A、B、およびCが利用しているものとする。
(B, operation)
Next, operations performed by each device in a conference held by the
なお、以下の説明において、各音声会議用端末10の構成が音声会議用端末10A、10B、および10Cのいずれに属するのか示す必要がある場合には、例えば音声会議用端末10Aの制御部を制御部101Aなどのように、符号に対応するアルファベットを付して示す。また、音声会議用端末10が出力する音声データについても、音声会議用端末10A、10B、および10Cが出力した音声データをそれぞれ音声データA、B、Cと表す。
In the following description, when it is necessary to indicate which of the
以下では、音声会議用端末10Aを利用する参加者Aが発言する場合について説明する。なお、複数の参加者が並行して発言する場合は以下の動作が並行して行われる。
参加者Aは、発言を行うにあたり発言ボタン104aAを押下する。押下された操作部104Aは、発言ボタン104aAが押下された旨を示す信号を制御部101Aに出力する。該信号を受取った制御部101Aは、自端末に割り振られたIPアドレスを含み、発言ボタン104aAが押下された旨を示す“発言者識別情報”をネットワーク30へ送出する。
Below, the case where the participant A using 10 A of audio | voice conference terminals speaks is demonstrated. When a plurality of participants speak in parallel, the following operations are performed in parallel.
Participant A presses the speaking button 104aA when speaking. The pressed operation unit 104A outputs a signal indicating that the speech button 104aA has been pressed to the control unit 101A. The control unit 101A that has received the signal sends “speaker identification information” including the IP address assigned to the terminal itself and indicating that the speaker button 104aA has been pressed to the
さて、図7はサーバ装置20が行う処理の流れを示したフローチャートである。また、図8は、サーバ装置20が各音声会議用端末10から受取った音声データをミキシング処理する過程を示した図である。サーバ装置20は、音声会議用端末10Aから発言者識別情報を受信すると(ステップSA100;“Yes”)、制御部201は該発言者識別情報に含まれる音声会議用端末10AのIPアドレスをRAM203bに書き込む。発言者識別部23は、RAM203bに書き込まれたIPアドレスを読み出し(ステップSA110)、ROM203aに書き込まれた識別情報管理テーブルにおいて該IPアドレスに対応付けられた各項目のデータを読み出し、報知音声付加部24に出力する。なお、ステップSA110の判定結果が“No”の場合は、ステップSA100をくり返す。
FIG. 7 is a flowchart showing the flow of processing performed by the
報知音声付加部24は、報知音声挿入可否の項目から、参加者Aの発言に対して報知音声を挿入するかどうか判定する(ステップSA120)。報知音声挿入可否の項目が“可”である場合(ステップSA120;“Yes”)には、報知音声付加部24は、ステップSA130以下の処理を行う。一方、ステップSA120の判定結果が“No”である場合には報知音声付加部24は処理を終了する。本実施例では報知音声の挿入の可否は“可”であるから、ステップSA120の判定は“Yes”となる。
The notification
報知音声付加部24は、続くステップSA130において報知音声挿入タイミングを判定する。報知音声挿入タイミングが、“前”である場合には、制御部101AはステップSA180以降の処理を行う。一方、報知音声挿入タイミングが、“後”である場合には、制御部101AはステップSA140以降の処理を行う。本動作例では、参加者Aの報知音声挿入タイミングの項目は“後”であるから、ステップSA140以降の処理が行われる。
The notification
さて、上述した識別情報管理テーブルにおいて、“報知音声挿入タイミング”の項に“後”と書き込まれている参加者には、発言の前に発言ボタン104aを押下してそのまま発言を始めるよう予め通知されている。従って、参加者Aは発言ボタン104aAを押下した後すぐに発言を行い、サーバ装置20は発言者識別情報に続き参加者Aの発言内容を表す音声データを音声会議用端末10Aから受信する。
In the identification information management table described above, participants who have written “after” in the “notification voice insertion timing” section are notified in advance to start speaking as is by pressing the
ステップSA140では、制御部201は音声会議用端末10Aから受取った音声データAのミキシング処理を行う。図8において音声データ合成部22A、22B、および22Cは同様の構成を有する。以下の説明においてそれらを区別する必要がない場合は、音声データ合成部22と総称する。
In step SA140, the
まず、通信IF部202は音声会議用端末10から出力された音声データを受取る。通信IF部202が受取った音声データは、RAM203bの音声データバッファ領域に一旦書き込まれる。
回路指定部21は、RAM203bに書き込まれた音声データを順次読み出し、以下のようにして音声データ合成部22に割り当てて出力する。すなわち、回路指定部21は、音声会議用端末10Aから受取った音声データAを音声データ合成部22Bおよび22Cに出力し、音声データBを音声データ合成部22Aおよび22Cに出力し、音声データCを音声データ合成部22Aおよび22Bに出力する。
First, the communication IF
The
音声データ合成部22Aは、受取った音声データBおよびCを合成し、生成された音声データを通信IF部202に出力する。同様にして音声データ合成部22B、および22Cは受取った音声データを合成し、それぞれ通信IF部202に出力する。音声データ合成部22A、22B、および22Cから音声データを受取った通信IF部202は、ネットワーク30を介して、それぞれ音声会議用端末10A、10B、および10Cに向けて送信する。
The voice
以上の処理により、例えば参加者Aの発言を表す音声データは、音声会議用端末10Bおよび10Cに出力され参加者BおよびCに対して再生される。従って、各参加者は自らの発言を他の参加者に聞かせることができると共に、他の参加者の発言を聞くことができる。
ステップSA150において、制御部201は、当該発言者の発言が継続しているかどうか判定する。発言が継続している間はステップSA150の判定結果は“No”となりステップSA150が繰り返されるが、発言が終わるとステップSA150の判定結果は“Yes”となり、制御部201はステップSA160以降の処理を行う。
Through the above processing, for example, audio data representing the speech of the participant A is output to the
In step SA150, the
ステップSA160において、報知音声付加部24は識別情報管理テーブルに規定された報知音声データ1をROM203aから読み出す。続くステップSA170において、報知音声付加部24は、報知音声データを音声データ合成部22A、22B、および22Cに割り当てて出力する。
音声データ合成部22は、報知音声付加部24から受取った音声データを通信IF部202へ出力する。通信IF部202は、音声データ合成部22A、22B、および22Cから受取った音声データを、それぞれ音声会議用端末10A、10B、および10Cへ出力する。
In step SA160, the notification
The voice data synthesis unit 22 outputs the voice data received from the notification
音声会議用端末10Bおよび10Cは、ネットワーク30を介して報知音声データおよび音声データを順次受取ると、D/Aコンバータ107aは受取った両音声データをアナログの音声信号に変換し、スピーカ107bは該音声信号の表す音声を放音する。
以上の処理の結果、音声会議用端末10Bおよび10Cにおいて、参加者Aの発言内容が再生された後に、報知音声“参加者Aの発言でした。”が再生される。また、音声会議用端末10Aにおいては、参加者Aが発言を終えた後に上記報知音声が再生される。その結果、他の参加者は、発言を聞いた後に誰が発言したのかを知ることができる。
When the
As a result of the above processing, after the content of the speech of the participant A is reproduced in the
次に、参加者Bが発言を行う場合について説明する。なお、ステップSA100およびステップSA110については、参加者Aにおける場合と同様であるため、ステップSA120以降の動作について説明する。
報知音声付加部24は、ステップSA130において報知音声挿入タイミングを判定する。この場合、報知音声挿入タイミングの項目は“前”であるから、ステップSA180以降の処理が行われる。
Next, a case where the participant B speaks will be described. Since Step SA100 and Step SA110 are the same as those in Participant A, the operation after Step SA120 will be described.
The notification
なお、上述した識別情報管理テーブルにおいて、“報知音声挿入タイミング”の項に“前”と書き込まれている参加者には、発言ボタン104aを押下し報知音声が再生され終わってから発言を始めるよう予め通知されている。従って、参加者Bは発言ボタン104aBを押下した後すぐには発言を行わず、報知音声の再生(すなわちステップSA180およびステップSA190)が終了するのを待つ。
In the above-described identification information management table, the participant whose “previous” is written in the “notification voice insertion timing” section starts the utterance after the
ステップSA180において、報知音声付加部24は識別情報管理テーブルに規定された報知音声データをROM203aから読み出す。続くステップSA190において、報知音声付加部24は、報知音声データを音声データ合成部22A、22B、および22Cに出力する。該報知音声データは、上述の音声データ同様通信IF部202を介して各音声会議用端末10に出力され、報知音声“参加者Bの発言です。”が参加者に向けて放音される。
In step SA180, the notification
参加者Bは、該報知音声を聞き終わると発言を始める。発言内容を表す音声データは、上述の参加者Aの音声データと同様にミキシング処理され、各音声会議用端末10で再生される。なお、サーバ装置20は、ステップSA180およびステップSA190の処理を行っている最中に音声会議用端末10から音声データを受取った場合は、該音声データを破棄し、ステップSA190を終えた時点以降に受取った音声データについてステップSA200のミキシング処理を行う。
Participant B starts speaking after listening to the notification voice. The audio data representing the content of the message is mixed and reproduced by each
以上の処理が行われることにより、音声会議用端末10Aおよび10Cにおいては、報知音声“参加者Bの発言です。”が再生された後に参加者Bの発言を聞くことができる。従って、各参加者は発言者を特定した上で発言を聞くことができる。また、たとえば会話がしばらく途切れた後に突然参加者が発言するような場合にも、報知音声により他の参加者の意識をこれから行われる発言に向けた上で発言することができる。
By performing the above processing, the
(C.変形例)
以上、本発明の一実施形態について説明したが、本発明は以下に述べる種々の態様で実施することができる。
(C. Modification)
As mentioned above, although one Embodiment of this invention was described, this invention can be implemented with the various aspect described below.
(1)上述した実施形態においては、ネットワーク30はインターネットである場合について説明したが、LAN(Local Area Network)などであっても良い。要は、所定の通信プロトコルに従って通信装置同士が行うデータ通信を仲介するものであれば良い。また、音声会議用端末10およびサーバ装置20は有線でネットワーク30に接続されている場合について説明したが、ネットワーク30が例えば無線LAN(Local Area Network)などの無線パケット通信網であり、音声会議用端末10およびサーバ装置20が、この無線パケット通信網に接続されていても勿論良い。
(1) In the above-described embodiment, the case where the
(2)上記実施形態においては、会議端末10およびサーバ装置20に特徴的な機能をソフトウェアモジュールで実現する場合について説明したが、上記各機能を担うハードウェアモジュールを組み合わせて本発明に係る通信装置を構成するようにしても良い。
(2) In the above embodiment, a case has been described in which the functions characteristic of the
(3)上述した実施形態では、音声データによって会議を行う場合について説明したが、データの種類は音声データのみに限られるものではなく、動画データなど他の種類のデータを併せて送信してもよい。 (3) In the above-described embodiment, the case where a conference is performed using audio data has been described. However, the type of data is not limited to audio data, and other types of data such as moving image data may be transmitted together. Good.
(4)上記実施形態においては、本発明に係る通信装置に特徴的な機能を実現するためのプログラムをROM103aまたは203aに予め書き込んでおく場合について説明したが、CD−ROMやDVDなどのコンピュータ装置読み取り可能な記録媒体に上記制御プログラムを記録して配布するとしても良く、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布するようにしても勿論良い。
(4) In the above embodiment, a case has been described in which a program for realizing the functions characteristic of the communication apparatus according to the present invention is written in the
(5)上述した実施形態では、音声データの送受信に係るアプリケーション層の通信プロトコルとしてRTPを用いる場合について説明したが、他の通信プロトコルを用いても良いことは勿論である。要は、所定のヘッダ部とペイロード部とを有するデータブロックのペイロード部に、音声データを所定時間分ずつ書き込んで送信する通信プロトコルであれば、どのような通信プロトコルであっても良い。 (5) In the above-described embodiment, the case where RTP is used as the communication protocol of the application layer related to transmission / reception of audio data has been described, but it is needless to say that other communication protocols may be used. In short, any communication protocol may be used as long as it is a communication protocol that writes and transmits audio data for a predetermined time in a payload portion of a data block having a predetermined header portion and a payload portion.
(6)上述した実施形態では、発言ボタンを押下することにより発言者報知を行う場合について説明したが、その手段は必ずしもボタンの押下でなくても良い。タッチパネルなど他の入力手段を用いても良い。 (6) In the above-described embodiment, the case where the speaker notification is performed by pressing the speech button has been described, but the means may not necessarily be the button pressing. Other input means such as a touch panel may be used.
(7)上述した実施形態では、音声によって発言者を報知する場合について説明した。しかし、報知手段は音声に限定されない。例えば、各発言者の肖像である肖像データを記憶部203に予め書き込んでおき、該肖像データを識別情報管理テーブルにおいてIPアドレスに対応させておき、報知音声を放音して発言者を報知する代わりに肖像データを表示部105に表示させて発言者を報知しても良い。
また、別の態様では、各音声会議用端末10にLEDなどの表示体を予め設けておき、上述した報知音声を放音するタイミングと同様のタイミングで該表示体を駆動(LEDを発光)させても良い。また、報知音声とそのような表示体の駆動を並行して制御しても良い。
なお、上記肖像やLEDの表示は、上記実施例のように発言の前後のみのタイミングで表示しても良いし、参加者が発言をしている間継続して表示しても良い。
(7) In the above-described embodiment, the case where the speaker is notified by voice has been described. However, the notification means is not limited to voice. For example, portrait data, which is the portrait of each speaker, is written in the
In another aspect, each
In addition, the display of the said portrait and LED may be displayed only at the timing before and behind a speech like the said Example, and may be continuously displayed while a participant is speaking.
(8)上述した実施形態では、報知音声挿入可否、および報知音声挿入タイミングを参加者ごとに設定する場合について説明したが、全ての参加者の条件を統一しても良い。 (8) In the above-described embodiment, the case where the notification voice insertion availability and the notification voice insertion timing are set for each participant has been described. However, the conditions of all the participants may be unified.
(9)上述した実施形態では、報知音声として例示したような音声内容を利用する場合について説明した。しかし、報知音声内容は例示したような音声に限られるものではない。例えば、ビープ音や特定の音楽など、各参加者に割り当てられており発言者を特定できるような音声内容であれば、どのような音声を用いても良い。 (9) In the above-described embodiment, the case where the audio content exemplified as the notification audio is used has been described. However, the notification voice content is not limited to the voice as illustrated. For example, any audio may be used as long as the audio content is assigned to each participant and can identify the speaker, such as a beep sound or specific music.
(10)上述した実施形態では、報知音声を発言の前か後いずれか一方に付加する場合について説明した。しかし、付加するタイミングは発言の前後両方でも良い。 (10) In the above-described embodiment, the case where the notification voice is added either before or after the speech has been described. However, the timing to add may be both before and after the statement.
(11)上述した実施形態では、各参加者に対して報知音声を対応付ける場合について説明したが、報知音声は例えば参加者が属するグループ毎に共通の報知音声を対応付けても良い。 (11) In the above-described embodiment, the case where the notification sound is associated with each participant has been described. However, the notification sound may be associated with a common notification sound for each group to which the participant belongs, for example.
(12)上述した実施形態では、発言ボタン104aを押下することにより生成された発言者識別情報に基づいてサーバ装置20が報知音声の付加を行う場合について説明した。しかし、各参加者が発言したことを自動的に検出して、検出結果を契機として報知音声を付加する態様(以下、自動モードと呼ぶ)にしても良い。その場合のサーバ装置20の動作を以下に説明する。なお、その場合、図7におけるステップSA100のみが上記実施形態と異なるため、以下ではステップSA100についてのみ説明する。なお、各参加者は予め自動モードが選択されている旨を通知されているものとする。
自動モードにおいては、参加者は発言ボタン104aを押すことなく発言を始める。参加者Aが発言すると、音声会議用端末10Aは該発言内容を表す音声データをサーバ装置20に送信する。サーバ装置20は該音声データを受信し、制御部201はパケットに書き込まれた音声データをRAM203bに書き込む。上述のように音声会議用端末10では音声データに無音圧縮を施しているため、サーバ装置20は参加者が発言を開始する直前までパケットを受取っていない。制御部201は、ある音声会議用端末10から所定の時間を超えてパケットを受取らず、その後該音声会議用端末10から音声データを受取った場合には、その音声データのパケットに書き込まれた送信元IPアドレスをRAM203bに書き込む。制御部201は、RAM203bに書き込まれたIPアドレスを上記発言者識別情報と同様に用い、該発言に対して報知音声を付加する。
以上の処理により、発言者にボタンを押すなどのわずらわしい操作を行わせること無くサーバ装置20は発言者の報知を行うことができる。
(12) In the above-described embodiment, the case has been described in which the
In the automatic mode, the participant starts speaking without pressing the
Through the above processing, the
(13)上述した実施形態では、報知音声を発言者も含めた全ての参加者に対して付加する場合について説明した。しかし、報知音声を発言の後に付加する場合については、発言するに際して報知音の発音終了を待つ必要がないので、発言者の端末に出力されるミキシング信号に対しては報知音声を付加しないようにしてもよい。 (13) In the above-described embodiment, the case has been described in which the notification voice is added to all participants including the speaker. However, in the case of adding a notification sound after speaking, there is no need to wait for the notification sound to end when speaking, so that the notification sound is not added to the mixing signal output to the speaker's terminal. May be.
(14)上述した実施形態では、報知音声を発言の前に付加する場合、発言者が報知音声の再生中に発言すると、報知音声の再生中に発言した部分についてはミキシング処理を施されず、報知音声再生終了した時点以降の発言についてミキシング処理が施される場合について説明した。しかし、報知音声の再生中に発言者が発言をした場合には、報知音声と発言内容をミキシングして両者を同時に再生するようにしても良い。 (14) In the above-described embodiment, when adding a notification sound before speaking, if a speaker speaks during the reproduction of the notification sound, a mixing process is not performed on a portion that is spoken during the reproduction of the notification sound. The case where the mixing process is performed on the utterances after the time point when the notification voice reproduction is finished has been described. However, when the speaker speaks during the reproduction of the notification voice, the notification voice and the content of the statement may be mixed and played back simultaneously.
(15)上述した実施形態では、発言者の発言内容を表す音声データは発言者自身に対しては再生されないようにミキシング処理する場合について説明した。しかし、発言者の発言内容を表す音声データを発言者自身に再生しても良い。 (15) In the above-described embodiment, the description has been given of the case where the mixing processing is performed so that the voice data representing the content of the speech of the speaker is not reproduced for the speaker himself. However, audio data representing the content of the speaker's speech may be reproduced by the speaker himself.
(16)上述した実施形態では、音声入力部106で音声データが生成されてからRAM103bの音声データバッファ領域で各種音声処理を施された結果生じる遅延時間は無視できるほど小さい場合について説明した。この遅延時間を利用して、遅延の間に短い報知音声を付加するようにしても良い。例えば、すべての発言のミキシング処理に対して所定の期間の遅延(例えば0.2秒)の間に、そのような処理を施せば、報知音声を発言の前に付加する場合にも発言者は報知音声の終了を意識することなく発言することができる。この場合の報知音は、話者が識別出来る程度の短い電子音などが適切である。
(16) In the above-described embodiment, the case has been described in which the delay time generated as a result of performing various audio processing in the audio data buffer area of the
(17)上述した実施形態では、ミキシング処理が施されたオーディオ信号に対して報知音声の付加を行う場合について説明した。しかし、ミキシング処理が行われる前のオーディオ信号に対し報知音声の付加を行っても良い。そのような場合、各音声会議用端末10に報知音の付加を行う装置を設けても良いし、サーバ装置20において音声データ合成部22よりも上流において報知音の付加を行う装置を設けても良い。要するに、最終的に音声会議用端末10に対して出力されるオーディオ信号に対して報知音声が含まれていれば良い。
(17) In the above-described embodiment, a case has been described in which notification sound is added to an audio signal that has been subjected to mixing processing. However, the notification sound may be added to the audio signal before the mixing process is performed. In such a case, a device for adding a notification sound may be provided in each
1…音声会議システム、10、10A、10B、10C…音声会議用端末、20…サーバ装置、21…回路指定部、22、22A、22B、22C…音声データ合成部、23…発言者識別部、24…報知音声付加部、30…ネットワーク、101、201…制御部、102、202…通信IF部、103、203…記憶部、103a、203a…ROM、103b、203b…RAM、104、204…操作部、104a…発言ボタン、105、205…表示部、106…音声入力部、106a…A/Dコンバータ、106b…マイクロホン、107…音声出力部、107a…D/Aコンバータ、107b…スピーカ、108、206…バス、110…音量レベル検知部、111…フレーム選択部、112…音声データ圧縮部
DESCRIPTION OF
Claims (8)
報知信号を前記識別情報と対応付けて記憶する記憶手段と、
前記各通信端末からのオーディオ信号をミキシングして前記各通信端末に出力するとともに、前記ミキシングにおいては前記各通信端末を出力先とする複数系統のミキシングを行い、かつ、各系統においては出力元である通信端末から出力されたオーディオ信号はミキシングから除外する処理を行うミキシング出力手段と、
前記受信手段が受信した識別情報に対応付けられた報知信号を前記記憶手段から読み出し、読み出した報知信号が前記ミキシング出力手段によるミキシング後の信号に含まれるように付加する報知信号付加手段と
を有することを特徴とする通信装置。 Receiving means for receiving from each of a plurality of communication terminals connected via a communication network an audio signal and identification information that makes it possible to uniquely identify the communication terminal;
Storage means for storing a notification signal in association with the identification information;
The audio signal from each communication terminal is mixed and output to each communication terminal, and in the mixing, a plurality of systems with each communication terminal as an output destination are mixed, and each system has an output source. An audio signal output from a certain communication terminal, a mixing output means for performing processing to exclude the audio signal from mixing;
A notification signal adding unit that reads out a notification signal associated with the identification information received by the reception unit from the storage unit and adds the read notification signal so as to be included in the signal after mixing by the mixing output unit; A communication device.
前記報知信号付加手段は、前記受信手段が前記報知信号付加指示を受信したときに限り、前記報知音声を前記オーディオ信号に付加することを特徴とする請求項1に記載の通信装置。 The receiving means further receives a notification signal addition instruction from the communication terminal,
The communication apparatus according to claim 1, wherein the notification signal adding unit adds the notification sound to the audio signal only when the receiving unit receives the notification signal addition instruction.
前記報知信号付加手段は、前記付加位置記憶手段に記憶されている付加位置指定情報を前記識別情報に応じて読み出し、読み出した付加位置指定情報に応じて前記通信端末ごとに報知信号を付加すべき位置を制御することを特徴とする請求項4に記載の通信装置。 Additional position storage means for storing additional position designation information for designating whether to add the notification signal before the start of output or after the end of output, corresponding to each identification information;
The notification signal adding means should read the additional position designation information stored in the additional position storage means according to the identification information, and add a notification signal for each communication terminal according to the read additional position designation information. The communication apparatus according to claim 4, wherein the position is controlled.
前記報知信号付加手段は、前記受信手段が受信した識別情報に対応付けられた前記フラグを参照して報知信号を付加するか否かを決定することを特徴とする請求項1ないし5いずれかに記載の通信装置。 The storage means further stores a flag indicating whether or not to add the notification signal in association with the identification information,
6. The notification signal adding means determines whether or not to add a notification signal with reference to the flag associated with the identification information received by the receiving means. The communication device described.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006323926A JP2008141348A (en) | 2006-11-30 | 2006-11-30 | Communication apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006323926A JP2008141348A (en) | 2006-11-30 | 2006-11-30 | Communication apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008141348A true JP2008141348A (en) | 2008-06-19 |
Family
ID=39602396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006323926A Pending JP2008141348A (en) | 2006-11-30 | 2006-11-30 | Communication apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008141348A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012089000A (en) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | Teleconference method, teleconference system and teleconference program |
WO2012063415A1 (en) * | 2010-11-09 | 2012-05-18 | パナソニック株式会社 | Voice control device and voice control method |
JP2014520423A (en) * | 2011-05-16 | 2014-08-21 | アルカテル−ルーセント | Method and apparatus for providing bi-directional communication between segments of a home network |
JP2018067920A (en) * | 2011-12-14 | 2018-04-26 | エイディシーテクノロジー株式会社 | Communication system and terminal device |
-
2006
- 2006-11-30 JP JP2006323926A patent/JP2008141348A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012089000A (en) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | Teleconference method, teleconference system and teleconference program |
WO2012063415A1 (en) * | 2010-11-09 | 2012-05-18 | パナソニック株式会社 | Voice control device and voice control method |
JP2014520423A (en) * | 2011-05-16 | 2014-08-21 | アルカテル−ルーセント | Method and apparatus for providing bi-directional communication between segments of a home network |
JP2018067920A (en) * | 2011-12-14 | 2018-04-26 | エイディシーテクノロジー株式会社 | Communication system and terminal device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100048235A1 (en) | Method and Device for Data Capture for Push Over Cellular | |
US11782674B2 (en) | Centrally controlling communication at a venue | |
JP2007201916A (en) | PoC DATA TRANSMISSION METHOD AND PoC CALL SYSTEM AND DEVICE | |
JP2006203548A (en) | Voice signal processor for processing voice signals of a plurality of speakers, and program | |
JP2008141348A (en) | Communication apparatus | |
JP2009118316A (en) | Voice communication device | |
CN109802968B (en) | Conference speaking system | |
JPH10215331A (en) | Voice conference system and its information terminal equipment | |
JP2008219462A (en) | Communication equipment | |
JP2007274020A (en) | Communication terminal device, and communication control device | |
JP2007259293A (en) | Conference call system, terminal with call function, conference call method, and program and recording medium | |
JP2007201906A (en) | Mobile terminal device and image display method | |
JP2009053342A (en) | Minutes preparation apparatus | |
JP3031320B2 (en) | Video conferencing equipment | |
CN116057928A (en) | Information processing device, information processing terminal, information processing method, and program | |
US11764984B2 (en) | Teleconference method and teleconference system | |
JP4531013B2 (en) | Audiovisual conference system and terminal device | |
JPH11308591A (en) | Information communication system | |
JP2003339034A (en) | Network conference system, network conference method, and network conference program | |
JP6390607B2 (en) | Program and remote conference method | |
JP2009302824A (en) | Voice communication system | |
JP2008042798A (en) | Ip phone multi-party call system | |
JP2008118235A (en) | Video conference system and control method for video conference system | |
JP2009267623A (en) | Communication device and voice communication system | |
JP2007288255A (en) | Communication system, information management apparatus, information processing apparatus, information processing method, and program |