JPWO2005122575A1 - Communication device - Google Patents
Communication device Download PDFInfo
- Publication number
- JPWO2005122575A1 JPWO2005122575A1 JP2006514390A JP2006514390A JPWO2005122575A1 JP WO2005122575 A1 JPWO2005122575 A1 JP WO2005122575A1 JP 2006514390 A JP2006514390 A JP 2006514390A JP 2006514390 A JP2006514390 A JP 2006514390A JP WO2005122575 A1 JPWO2005122575 A1 JP WO2005122575A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- encoded
- unit
- media data
- reception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims description 79
- 230000005540 biological transmission Effects 0.000 claims abstract description 120
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 230000003111 delayed effect Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000001934 delay Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
送信音声データは音声符号化部2で符号化され、送信部3によって送信される。受信された符号化音声データは音声復号部5によって復号される。蓄積部7は、音声符号化部2で符号化される前の送信音声データと、受信部4で受信された符号化受信音声データを蓄積する。送受音声データを再生する場合、蓄積部7に蓄積された符号化受信音声データを音声復号部5で復号する。合成部8は、音声復号部5から出力された受信音声データと、蓄積部7に蓄積されている送信音声データとを合成し、再生データとして出力する。The transmission voice data is encoded by the voice encoding unit 2 and transmitted by the transmission unit 3. The received encoded audio data is decoded by the audio decoding unit 5. The accumulating unit 7 accumulates the transmission audio data before being encoded by the audio encoding unit 2 and the encoded reception audio data received by the receiving unit 4. When the transmission / reception voice data is reproduced, the encoded reception voice data stored in the storage unit 7 is decoded by the voice decoding unit 5. The synthesizing unit 8 synthesizes the received audio data output from the audio decoding unit 5 and the transmission audio data stored in the storage unit 7 and outputs it as reproduction data.
Description
本発明は、例えば音声データ等の送受信メディアデータを蓄積する通信装置に関する。 The present invention relates to a communication apparatus that stores transmission / reception media data such as audio data.
従来、無線電話機といった通信装置では、たとえば特開平10−271061号公報等に示されるように、符号化前の送信データと復号後の受信データをミキシングすることによって、非符号化データの形式で送受の音声を合成音声として蓄積していた。
また、従来の通信装置として、符号化したデータを蓄積するようにしたものがあるが、これは受信した符号化データのみを蓄積するだけであった。
従来の通信装置は以上のように構成されているため、送受信の音声を符号化データとして蓄積し、これらの送受信音声を再生しようとした場合、例えば、送信データ用の符号化器と蓄積用の符号化器の二つが必要になる等、装置構成が大きくなるという問題点があった。
この発明は上記のような課題を解決するためになされたもので、送受信データを再生する場合でも、最小限の装置構成で実現することのできる通信装置を得ることを目的とする。Conventionally, in a communication apparatus such as a radio telephone, transmission / reception in the form of unencoded data is performed by mixing transmission data before encoding and reception data after decoding as disclosed in, for example, Japanese Patent Laid-Open No. 10-271061. Was stored as synthesized speech.
In addition, there is a conventional communication apparatus that stores encoded data, but this only stores received encoded data.
Since the conventional communication apparatus is configured as described above, transmission / reception voices are stored as encoded data, and when these transmission / reception voices are to be reproduced, for example, a transmission data encoder and a storage unit are stored. There is a problem that the apparatus configuration becomes large, such as requiring two encoders.
The present invention has been made to solve the above-described problems, and an object of the present invention is to obtain a communication apparatus that can be realized with a minimum apparatus configuration even when transmitting / receiving data is reproduced.
この発明に係る通信装置は、符号化前の送信メディアデータと、受信した符号化受信メディアデータとを蓄積部で蓄積し、この蓄積された符号化受信メディアデータを復号したデータと、蓄積部で蓄積された送信メディアデータを合成し、再生データとして出力するようにしたものである。
このことによって、送受信データを再生する場合でも、符号化部や復号部およびデータ蓄積部といった装置構成を最小限の薮で実現することができる効果がある。The communication apparatus according to the present invention stores transmission media data before encoding and received encoded reception media data in a storage unit, decodes the stored encoded reception media data, and stores in the storage unit The accumulated transmission media data is synthesized and output as reproduction data.
Thus, even when transmission / reception data is reproduced, it is possible to realize apparatus configurations such as an encoding unit, a decoding unit, and a data storage unit with a minimum number of hooks.
第1図はこの発明の実施の形態1による通信装置を示す構成図である。
第2図はこの発明の実施の形態2における通信装置を示す構成図である。
第3図はこの発明の実施の形態3における通信装置を示す構成図である。
第4図はこの発明の実施の形態4における通信装置を示す構成図である。
第5図は、この発明の実施の形態4における通信装置の無音データの最初のタイミングで次のデータを出力するようにした場合の動作説明図である。FIG. 1 is a block diagram showing a communication apparatus according to Embodiment 1 of the present invention.
FIG. 2 is a block diagram showing a communication apparatus according to
FIG. 3 is a block diagram showing a communication apparatus according to
FIG. 4 is a block diagram showing a communication apparatus according to Embodiment 4 of the present invention.
FIG. 5 is an operation explanatory diagram when the next data is output at the first timing of the silence data of the communication apparatus according to the fourth embodiment of the present invention.
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
第1図は、この発明の実施の形態1による通信装置を示す構成図である。
通信装置101aは網200を介して通信装置101bと接続されている。通信装置101a,101bは、いわゆるテレビ電話といった画像と音声を送受信する端末である。また、図中、通信装置101bの構成は、通信装置101aと同様であるため、通信装置101aの内部構成のみを示している。尚、通信装置101bは、通信装置101aの通信相手装置であるとする。
通信装置101aは、ビデオ符号化部1、音声符号化部2、送信部3、受信部4、音声復号部5、ビデオ復号部6、蓄積部7、合成部8を備えている。
ビデオ符号化部1は、カメラ111などの映像入力装置からのビデオ信号の符号化を行う機能部である。音声符号化部2は、マイク112などの音声入力装置からの音声信号の符号化を行う機能部である。また、これらビデオ符号化部1および音声符号化部2により、符号化部が実現されている。送信部3は、ビデオ符号化部1および音声符号化部2からの符号化データを通信プロトコルに則り、網200に出力するための機能部である。
受信部4は、網200を介して通信装置101a宛のデータを受信する機能部であり、ビデオデータと音声データに分離する機能を有している。音声復号部5は、受信部4から出力された符号化受信音声データを復号し、スピーカ113などの音声出力装置に出力するための機能部である。ビデオ復号部6は、受信部4からの符号化ビデオデータを復号し、モニタ114などの映像出力装置に出力する機能部である。また、これら音声復号部5およびビデオ復号部6は、蓄積部7に蓄積された符号化受信音声データや符号化受信ビデオデータを復号するよう構成されている。そして、これら音声復号部5およびビデオ復号部6により、復号部が実現されている。
蓄積部7は、受信部4からの符号化受信データやマイク112からの符号化前の送信音声データを蓄積する機能部であり、必要に応じて蓄積データを出力するよう構成されている。合成部8は、音声復号部5からの復号音声データと蓄積部7からの送信音声データとを合成し、スピーカ113等の音声出力装置に出力する機能を有している。
尚、上記のビデオ符号化部1〜合成部8の各構成は、専用のハードウェアあるいはそれぞれの機能に対応したソフトウェアとこれを実行するCPUやメモリ等のハードウェアによって実現されている。
次に、このように構成された通信装置の動作について説明する。
先ず、通信装置101a,101bの通信中の動作について説明する。
今、通信装置101aと通信装置101bとは網200を介して音声やビデオなどのメディアデータを用いた通信を行っているとする。
カメラ111からのビデオ信号は、ビデオ符号化部1で符号化され送信部3に送られる。マイク112からの音声信号は音声符号化部2で符号化され送信部3に送られると同時に蓄積部7に送られ、符号化されない音声信号のまま蓄積される。
送信部3では、ビデオと音声の符号化データを通信プロトコルに則り送信する。
一方、通信装置101bから網200を介して送信されたビデオと音声の符号化データは、通信プロトコルに則り受信部4で受信され、ビデオデータと音声データに分けられ、それぞれビデオ復号部6および音声復号部5に渡される。このとき、符号化されたビデオ、音声データは同時に蓄積部7に渡され、蓄積部7で符号化データとして蓄積される。
ビデオ復号部6では受信部4からの符号化ビデオデータを復号し、ビデオ信号としてモニタ114に出力する。同様に、音声復号部5では受信部4からの符号化音声データを復号し、合成部8を通過して音声信号としてスピーカ113に出力される。
以上は、通信中の動作であるが、次に通信中に蓄積したデータを非通信中に再生する場合の動作について説明する。
蓄積部7において、受信部4からの出力を蓄積した符号化データは、その符号化音声データが音声復号部5へ、符号化ビデオデータがビデオ復号部6へ出力される。ビデオ復号部6では符号化ビデオデータを復号し、モニタ114にビデオ信号として出力し、モニタ114において受信したビデオが再生される。一方、音声復号部5でも符号化音声データを復号し、音声信号として合成部8に出力する。
蓄積部7では、通信中に受信データと共に送信データも蓄積していたので、その送信データである音声信号を同時に合成部に出力する。合成部8では、音声復号部5からの音声信号と蓄積部7からの音声信号のミキシングを行い、合成音声信号としてスピーカ113に出力し、スピーカ113において送受信音声が再生される。
以上のように、実施の形態1によれば、送信メディアデータを符号化して符号化送信メディアデータとする符号化部と、受信した符号化受信メディアデータを復号する復号部と、符号化受信メディアデータと送信メディアデータを蓄積する蓄積部と、蓄積部で蓄積された符号化受信メディアデータを復号部で復号したデータと、蓄積部で蓄積された送信メディアデータを合成し、再生データとして出力する合成部とを備えたので、最小限の装置構成で送受信データを再生することのできる通信装置を得ることができる。即ち、送受音声データを非符号化データとして蓄積する場合より、符号化の効果により蓄積データサイズを小さくすることができる。また、一つの復号部で送受信データの再生が可能であるため、別途に復号部を必要とせず、最小限の装置構成でこのような再生を実現することができる。
また、実施の形態1では、蓄積部は、蓄積した符号化受信メディアデータまたは送信メディアデータのうち、いずれか一方または両方を出力するようにしたので、再生時にどちらか片方のみを再生することが可能となる。即ち、従来のようにミキシングを行った後に蓄積する場合に比べて、所望のデータのみを再生することができるため、利便性を向上させることができる。これにより、利用者は、送信データのみ、または受信データのみ、あるいは送受信データを同時といったように、様々な再生方法を選択することができる。
実施の形態2.
実施の形態1は、送受別々の蓄積データを同時に再生するようにしたものであるが、実施の形態2では、一つの合成したデータを再生するようにした場合の実施形態である。
第2図は、実施の形態2の通信装置の構成図である。
通信装置102aは網200を介して通信装置102bと接続されており、これらの接続関係は、実施の形態1と同様である。また、実施の形態2においても、通信装置102aと通信装置102bは同様の構成であるため、その内部構成は通信装置102aのみ示している。
通信装置102aは、ビデオ符号化部1、音声符号化部2、送信部3、受信部4、音声復号部5、ビデオ復号部6、蓄積部7、編集部9を備えている。ここで編集部9以外の構成は、実施の形態1と同様であるため、対応する部分に同一符号を付してその説明は省略する。
編集部9は、蓄積部7で蓄積された符号化受信音声データを復号した受信音声データと、送信音声データとを合成し、この合成したデータを符号化して、再度、蓄積部7に蓄積させるよう処理を行う機能を有している。
尚、上記のビデオ符号化部1〜編集部9の各構成は、専用のハードウェアあるいはそれぞれの機能に対応したソフトウェアとこれを実行するCPUやメモリ等のハードウェアによって実現されている。
次に、実施の形態2の動作について説明する。
通信中の動作については、実施の形態1と同様であり、ビデオと音声のデータの送受信を行いながら、符号化前の送信音声データと復号前のビデオと音声の符号化データを蓄積部7で蓄積する。
通信終了後、蓄積部7は通信中に蓄積した符号化前の送信音声データと復号前の符号化受信音声データを編集部9に転送する。
編集部9では、復号前の符号化受信音声データの復号を行う。尚、この復号処理は音声復号部5を用いて行うよう構成してもよい。次に、編集部9は、復号された受信音声データと蓄積部7に蓄積されている符号化前の送信音声データを合成して、送受合成音声データを生成する。更に、編集部9は、生成した送受合成音声データを符号化し、符号化送受合成音声データを得る。尚、この符号化処理は音声符号化部2を用いて編集部9が指示するよう構成してもよい。
編集部9は、このようにして得た符号化送受合成音声データを蓄積部7に転送する。蓄積部7では、編集部9から送られてきた符号化送受合成音声データとビデオの受信符号化データを合わせて蓄積する。再生時は、蓄積部7から音声とビデオの符号化データをそれぞれ音声復号部5とビデオ復号部6に送出し、これら復号部によって受信ビデオの復号と送受信音声の復号が行われる。
また、蓄積部7では、編集部9から送られてきた符号化送受合成音声データとビデオの受信符号化データとを合わせて蓄積する際に、合成前の受信音声データおよび送信音声データを削除することで、所望の蓄積データのみを残すことができる。または、受信した符号化音声・ビデオデータを残したまま、受信ビデオデータをコピーし、それに編集部9から送られてきた符号化送受合成音声データを合わせて蓄積することで、受信のみの音声・ビデオデータと、合成音声・ビデオデータの2種類が生成でき、用途に応じて再生することも可能となる。
以上のように、実施の形態2によれば、送信メディアデータを符号化して符号化送信メディアデータとする符号化部と、受信した符号化受信メディアデータを復号する復号部と、符号化受信メディアデータを復号した受信メディアデータと、送信メディアデータとを合成し、合成したデータを符号化した符号化合成データを生成する編集部と、編集部から出力された符号化合成データを蓄積する蓄積部とを備え、蓄積した符号化合成データを復号し再生データとして出力するようにしたので、最小限の装置構成で送受信データを再生することができる。
また、実施の形態2では、通信後に仮に蓄積したデータを編集して、送受合成データを生成しているので、通信中には合成処理のための負荷がかかることがない。このため、符号化部や復号部は通信時に必要な数量でこのような送受信データの再生を実現することができる。
実施の形態3.
実施の形態3は、符号化部から出力された符号化送信音声データを蓄積するようにしたものである。
第3図は、実施の形態3の通信装置の構成図である。
通信装置103aは網200を介して通信装置103bと接続されており、これらの接続関係は、実施の形態1、2と同様である。また、実施の形態3においても、通信装置103aと通信装置103bは同様の構成であるため、その内部構成は通信装置103aのみ示している。
通信装置103aは、ビデオ符号化部1、音声符号化部2、送信部3、受信部4、音声復号部5、ビデオ復号部6、蓄積部7、編集部10を備えている。ここで、蓄積部7に入力されるのが、ビデオ符号化部1および音声符号化部2の出力データである点と、編集部10以外の構成は実施の形態1と同様であるため、これら以外の構成に対する説明は省略する。
蓄積部7には、ビデオ符号化部1の出力データである符号化送信ビデオデータと、音声符号化部2の出力データである符号化送信音声データとが入力されるよう構成されており、蓄積部7は、これらの符号化データを蓄積する。また、編集部10は、蓄積部7に蓄積されている符号化送信音声データと符号化受信音声データとを取り出し、これら音声データを復号した音声データをミキシングして合成音声データを生成し、この合成音声データを蓄積部7に出力する機能を有している。
尚、上記のビデオ符号化部1〜編集部10の各構成は、専用のハードウェアあるいはそれぞれの機能に対応したソフトウェアとこれを実行するCPUやメモリ等のハードウェアによって実現されている。
次に、実施の形態3の動作について説明する。
通信中の動作については、ビデオと音声のデータの送受信を行いながら、音声符号化部2の出力である符号化送信音声データと、受信部4の出力である復号前のビデオと音声の符号化データを蓄積部7で蓄積する。
通信終了後、蓄積部7は通信中に蓄積した符号化送信音声データと復号前の符号化受信音声データを編集部10に転送する。
編集部10では、これら符号化音声データの復号を行い、復号された受信音声データを得る。尚、この復号処理は音声復号部5を用いて行うよう構成してもよい。次に、編集部10は、復号された受信音声データと送信音声データとを合成して、送受合成音声データを生成する。更に、編集部10は、生成した送受合成音声データを符号化し、符号化送受合成音声データを得る。尚、この符号化処理は音声符号化部2を用いて行うよう構成してもよい。
編集部10は、このようにして得た符号化送受合成音声データを蓄積部7に転送する。蓄積部7では、編集部10から送られてきた符号化送受合成音声データを蓄積する。
また、蓄積部7に蓄積されている符号化送信ビデオデータと受信された符号化受信ビデオデータについても、編集部10によって音声と同様の処理が行われ、例えば送信画像と受信画像とを同時に表示するような合成ビデオデータが生成される。そして、この合成ビデオデータを符号化した符号化送受合成ビデオデータが生成され、これが蓄積部7で蓄積される。但し、特に合成ビデオを必要としない場合は、この機能を省くことができる。
尚、編集部10で行うこれら一連の処理はリアルタイムで行う必要がないため、例えば、符号化送信音声データの復号を行った後に符号化受信音声データの復号を行う、といったように復号処理を順番に行うことで、装置としての必要な機能数を最小限に抑えることができる。
また、本実施の形態では、音声とビデオデータのみを扱っているが、他の様々なメディアデータに関しても合成等の処理を行う必要があれば、編集部10によって行うことができる。
尚、蓄積部7が蓄積する編集部10からの符号化合成データが音声データのみであれば、符号化受信ビデオデータをコピーしそれと合わせて蓄積することも可能である。このようにして、送受信用の符号化データと同様のフォーマットの符号化合成データを蓄積部7で保存することとする。
また、蓄積データの再生時、蓄積部7では送信、受信、合成のいずれかの符号化データを音声復号部5およびビデオ復号部6に対して出力し、それぞれ音声信号、ビデオ信号が出力される。
以上のように実施の形態3によれば、送信メディアデータを符号化して符号化送信メディアデータとする符号化部と、受信した符号化受信メディアデータを復号する復号部と、符号化受信メディアデータと、符号化送信メディアデータとを復号した受信メディアデータと送信メディアデータとを合成し、合成したデータを符号化した符号化合成データを生成する編集部と、編集部から出力された符号化合成データを蓄積する蓄積部とを備え、蓄積した符号化合成データを復号し再生データとして出力するようにしたので、最小限の装置構成で送受信データを再生することができる。
また、実施の形態3では、符号化送信データ、符号化受信データを蓄積し、それらを通信後に編集を行い、送受合成データを生成しているので、通信中に合成処理のための負荷がかからず、送信、受信、合成の符号化データを生成することができる。
実施の形態4.
実施の形態4は、時分割に送信音声データと受信音声データとを蓄積するようにしたものである。
第4図は、実施の形態4の通信装置の構成図である。
通信装置104aは網200を介して通信装置104bと接続されており、これらの接続関係は、実施の形態1〜3と同様である。また、実施の形態4においても、通信装置104aと通信装置104bは同様の構成であるため、その内部構成は通信装置104aのみ示している。
通信装置104aは、ビデオ符号化部1、音声符号化部2、送信部3、受信部4、音声復号部5、ビデオ復号部6、蓄積部7、選択部11を備えている。ここで、選択部11以外の構成は、実施の形態1と同様であるため、対応する部分に同一符号を付してその説明は省略する。選択部11は、音声符号化部2からの出力である符号化送信音声データと、受信部4からの出力である符号化受信音声データとをその有音/無音状態に基づいて選択し、その選択データを蓄積部7に出力する機能部である。
尚、上記のビデオ符号化部1〜選択部11の各構成は、専用のハードウェアあるいはそれぞれの機能に対応したソフトウェアとこれを実行するCPUやメモリ等のハードウェアによって実現されている。
次に、実施の形態4の動作について説明する。
通信中では、選択部11は音声符号化部2の出力(符号化送信音声データ)、および受信部4からの音声出力(符号化受信音声データ)を入力データとして、それらデータの有音/無音検出を行う。そして、受信音声データの無音部分を送信音声データの有音部分と入れ替えて、一つ分の音声データを生成し、これを蓄積部7に出力する。
一般に通話中でも音声の無音区間はかなりあるため、送信と受信の有音部分の符号化データを集めて切り貼りし、片方向分の音声符号化データよりデータ量を小さくすることは可能である。但し、通常蓄積するような一方向分のデータ量と同じにするために、選択部11では、基本的に符号化受信データを選択し、符号化送信データが有音になった場合にのみ無音部分の符号化受信データに代えて符号化送信データを蓄積部7に転送する。
蓄積部7では、選択部11で選択された符号化音声データと受信部4からの符号化ビデオデータとを蓄積する。尚、必要に応じて受信部4からの符号化音声データを直接蓄積する機能を設けても良い。他の動作は実施の形態3と同様であるためその説明は省略する。
蓄積したデータを再生するときは蓄積部7から符号化音声データを音声復号部5へ、符号化ビデオデータをビデオ復号部6へそれぞれ出力し、音声の送受データの再生と受信ビデオデータの再生を行う。
以上のように、実施の形態4では、送信メディアデータを符号化して符号化送信メディアデータとする符号化部と、受信した符号化受信メディアデータを復号する復号部と、符号化受信メディアデータと、符号化送信メディアデータを、これらメディアデータが有効データか否かによっていずれか一方を選択する選択部と、選択部の出力データを蓄積する蓄積部とを備え、蓄積したデータを復号部で復号し再生データとして出力するようにしたので、最小限の装置構成で送受信データを再生することができると共に、片方向分のデータ量で両方の音声データの有効な部分のみを蓄積できる効果がある。
また、選択部11において、符号化送信音声データと符号化受信音声データが共に有音部分であった場合、どちらかを選択するだけでなく、選択されなかった方の符号化音声データを一時的に遅延させ、選択された方の符号化音声データが無音になった時に、その遅延させた符号化音声データを後続の蓄積部7に転送するようにしても良い。
このように構成すれば、本来のタイミングより遅延して蓄積部7へ送られた符号化音声データは、蓄積部7に送られたタイミングで蓄積される。そのため、再生時、実際よりわずかに遅延して音声が出力されることになるが、送受音声データの有音部分がかけることなく全て出力可能となる。
以上のように、実施の形態4では、符号化送信音声データと符号化受信音声データが同時に有音となった場合にどちらかを遅延させて蓄積するようにしているので、送受データの有音部分全てを蓄積することができる。
更に、選択部11において、符号化送信音声データと符号化受信音声データを切り替える際に、被切替対象の符号化データに無音区間が一定期間以上存在したら切り替えるようにしてもよい。こうすることで、例えば音声データに含まれる会話の途中で切り替わることを防ぐことができる。
以上のように、実施の形態4では、送信音声符号化データと受信音声符号化データを切り替える際に、切り替える前の音声データに一定期間以上の無音区間が存在した時に切り替えるようにしたので、符号化音声データ中の会話が途中で途切れないようにすることができる。
ところで、切替の判定のために一定期間以上の無音が存在した後に切替を行うと、必ず切替ポイントで一定期間以上の無音が存在する。もし、送受データ共に有音の場合、どちらか一方の音声データは遅延させられており、更に切替判定のための一定期間以上の無音データ分だけ更に遅延することになる。つまり、送受音声間での相対遅延は無音データ分だけ更に大きくなる。
そこで、一定期間以上の無音データを検出したら、その無音データの最初のタイミングで切り替えられるようにすれば、切替後のデータの遅延が減少する。そのために、選択部11では蓄積部7に出力するデータに一定期間以上の遅延をかけて出力する。そして一定期間以上の無音データを検出した時、つまり切替タイミングで、次に出力すべきデータが既に一定期間以上待たされている場合、そのデータを即座に出力すれば、切替検出のための無音データは蓄積部7に出力されずにすむ。
第5図は、無音データの最初のタイミングで次のデータを出力するようにした場合の動作説明図である。
選択部11は、基本的に受信部4からの受信データを選択しており、この受信データを一定期間T1より大きい遅延時間T2だけ遅延させて蓄積部7に出力する。今、時刻t1で音声符号化部2から送信データが有音となったとすると、時刻t1では受信データが有音であるため、選択部11は送信データを一時的に蓄積する。そして、受信データは遅延時間T2だけ遅延して出力されるため、その終端(時刻t2)は、時刻t3(=t2+T2)に出力される。ここで、遅延した受信データ(選択部11の出力データ)は時刻t3以降は無音部分となるため、時刻t3において即座に送信データを出力する。即ち、このような処理を行わない場合は、受信データと送信データとの間には一定期間T1の無音時間が存在することになるが、有音データの最初のタイミングで即座に送信データを出力することによって、切替後の送信データの遅延を減少させることができる。
以上のように、実施の形態4によれば、選択部は、切り替え判定を行うための一定期間以上の時間分、選択するデータに遅延をかけて出力し、選択するデータを切り替える際に、次に選択すべきデータが既に一定期間以上遅延している場合に、そのデータを即座に出力するようにしたので、切替ポイントにおける無音部分をなくすことができ、従って、送受音声の相対的な遅延を小さくすることができる。
尚、上記実施の形態4において、メディアデータが有効か否かの判定を音声データの有音か無音かで行うようにしたが、これに限定されるものではなく、メディアデータの種類等によって、任意に選択してもよい。
また、上記各実施の形態では、再生する送受信メディアデータとして、音声データやビデオデータであるとしたが、これらのデータに限定されるものではなく、種々のデータに適用可能である。Hereinafter, in order to describe the present invention in more detail, the best mode for carrying out the present invention will be described with reference to the accompanying drawings.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a communication apparatus according to Embodiment 1 of the present invention.
The communication device 101a is connected to the
The communication apparatus 101a includes a video encoding unit 1, an
The video encoding unit 1 is a functional unit that encodes a video signal from a video input device such as the
The receiving unit 4 is a functional unit that receives data addressed to the communication apparatus 101a via the
The accumulating
Each configuration of the video encoding unit 1 to the synthesizing unit 8 is realized by dedicated hardware or software corresponding to each function and hardware such as a CPU or a memory that executes the software.
Next, the operation of the communication apparatus configured as described above will be described.
First, an operation during communication of the
Now, it is assumed that the communication device 101a and the
A video signal from the
The
On the other hand, encoded video and audio data transmitted from the
The
The above is the operation during communication. Next, the operation when data accumulated during communication is reproduced during non-communication will be described.
In the
Since the
As described above, according to the first embodiment, the encoding unit that encodes transmission media data to obtain encoded transmission media data, the decoding unit that decodes the received encoded reception media data, and the encoded reception media The storage unit for storing data and transmission media data, the data obtained by decoding the encoded reception media data stored in the storage unit by the decoding unit, and the transmission media data stored in the storage unit are combined and output as reproduction data Since the synthesizer is provided, it is possible to obtain a communication device capable of reproducing transmission / reception data with a minimum device configuration. That is, the stored data size can be reduced by the effect of encoding, compared with the case where transmission / reception voice data is stored as non-encoded data. Further, since transmission / reception data can be reproduced by one decoding unit, such reproduction can be realized with a minimum apparatus configuration without requiring a separate decoding unit.
In the first embodiment, since the storage unit outputs either one or both of the stored encoded reception media data and transmission media data, only one of them can be played back during playback. It becomes possible. That is, as compared with the conventional case of storing after mixing, it is possible to reproduce only desired data, so that convenience can be improved. Thus, the user can select various reproduction methods such as transmission data only, reception data only, or transmission / reception data simultaneously.
In the first embodiment, the accumulated data separately transmitted and received are reproduced at the same time. In the second embodiment, one synthesized data is reproduced.
FIG. 2 is a configuration diagram of the communication apparatus according to the second embodiment.
The communication device 102a is connected to the
The communication device 102 a includes a video encoding unit 1, an
The editing unit 9 synthesizes the reception voice data obtained by decoding the encoded reception voice data stored in the
Each configuration of the video encoding unit 1 to the editing unit 9 is realized by dedicated hardware or software corresponding to each function and hardware such as a CPU or a memory that executes the software.
Next, the operation of the second embodiment will be described.
The operation during communication is the same as in the first embodiment, and the
After the end of communication, the
The editing unit 9 decodes the encoded reception voice data before decoding. This decoding process may be performed using the audio decoding unit 5. Next, the editing unit 9 synthesizes the decoded received voice data and the transmission voice data before encoding stored in the
The editing unit 9 transfers the encoded transmission / reception synthesized speech data thus obtained to the
Further, the
As described above, according to the second embodiment, the encoding unit that encodes transmission media data to obtain encoded transmission media data, the decoding unit that decodes the received encoded reception media data, and the encoded reception media An editing unit that synthesizes reception media data obtained by decoding data and transmission media data, generates encoded combined data obtained by encoding the combined data, and an accumulation unit that stores encoded combined data output from the editing unit Since the accumulated encoded combined data is decoded and output as reproduction data, the transmission / reception data can be reproduced with a minimum apparatus configuration.
Further, in the second embodiment, data temporarily stored after communication is edited to generate transmission / reception combined data, so that a load for combining processing is not applied during communication. For this reason, the encoding unit and the decoding unit can realize reproduction of such transmission / reception data with a quantity necessary for communication.
In the third embodiment, the encoded transmission voice data output from the encoding unit is accumulated.
FIG. 3 is a configuration diagram of the communication apparatus according to the third embodiment.
The
The
The
Each configuration of the video encoding unit 1 to the
Next, the operation of the third embodiment will be described.
Regarding the operation during communication, while transmitting and receiving video and audio data, the encoded transmission audio data that is the output of the
After the communication is completed, the
The
The
Also, the encoded transmission video data stored in the
Since the series of processes performed by the
In this embodiment, only audio and video data are handled. However, if it is necessary to perform processing such as composition on other various media data, the
If the encoded synthesized data from the
In addition, when reproducing the stored data, the
As described above, according to the third embodiment, an encoding unit that encodes transmission media data to obtain encoded transmission media data, a decoding unit that decodes received encoded reception media data, and encoded reception media data And the received media data obtained by decoding the encoded transmission media data and the transmission media data, and the editing unit that generates the encoded synthesized data obtained by encoding the synthesized data, and the encoded synthesis output from the editing unit Since the storage unit for storing data is provided, and the stored encoded combined data is decoded and output as reproduction data, transmission / reception data can be reproduced with a minimum apparatus configuration.
In the third embodiment, encoded transmission data and encoded reception data are accumulated, edited after communication, and transmission / reception combined data is generated. Therefore, there is a load for combining processing during communication. Therefore, it is possible to generate encoded data for transmission, reception, and synthesis.
Embodiment 4 FIG.
In the fourth embodiment, transmission audio data and reception audio data are accumulated in a time division manner.
FIG. 4 is a configuration diagram of a communication apparatus according to the fourth embodiment.
The
The
Each configuration of the video encoding unit 1 to the
Next, the operation of the fourth embodiment will be described.
During communication, the
In general, since there are quite a few silent sections of speech even during a call, it is possible to collect and paste the encoded data of the voiced portions of transmission and reception and make the data amount smaller than the voice encoded data for one direction. However, in order to make it the same as the data amount for one direction that normally accumulates, the
The
When reproducing the stored data, the encoded audio data is output from the
As described above, in the fourth embodiment, an encoding unit that encodes transmission media data to obtain encoded transmission media data, a decoding unit that decodes received encoded reception media data, encoded reception media data, A selection unit that selects one of the encoded transmission media data depending on whether the media data is valid data, and a storage unit that stores output data of the selection unit, and the stored data is decoded by the decoding unit Since the data is output as reproduction data, the transmission / reception data can be reproduced with a minimum apparatus configuration, and only the effective portion of both audio data can be stored with the data amount in one direction.
In addition, in the
If comprised in this way, the encoding audio | voice data sent to the
As described above, in the fourth embodiment, when the encoded transmission voice data and the encoded reception voice data are simultaneously voiced, either one is delayed and stored. All parts can be stored.
Furthermore, when the
As described above, in the fourth embodiment, when the transmission speech encoded data and the reception speech encoded data are switched, the switching is performed when there is a silent period of a certain period or more in the speech data before switching. It is possible to prevent the conversation in the voice data from being interrupted.
By the way, when switching is performed after silence for a certain period or more exists for switching determination, there is always silence for a certain period or more at the switching point. If both transmission and reception data are sounded, either one of the audio data is delayed, and further delayed by the amount of silent data for a certain period or more for switching determination. That is, the relative delay between transmitted and received voices is further increased by the amount of silence data.
Therefore, if silence data for a certain period or longer is detected, if the switching is performed at the first timing of the silence data, the data delay after switching is reduced. For this purpose, the
FIG. 5 is a diagram for explaining the operation when the next data is output at the first timing of the silent data.
The
As described above, according to the fourth embodiment, the selection unit outputs the data to be selected with a delay for a time equal to or longer than a certain period for performing the switching determination, and when the data to be selected is switched, When the data to be selected is already delayed for a certain period or longer, the data is output immediately, so that the silent part at the switching point can be eliminated, and therefore the relative delay of the transmitted and received voices is reduced. Can be small.
In the fourth embodiment, the determination as to whether the media data is valid is made based on whether the audio data is voiced or silent. However, the present invention is not limited to this, and depending on the type of the media data, etc. You may choose arbitrarily.
In each of the above embodiments, the transmission / reception media data to be reproduced is audio data or video data, but is not limited to these data, and can be applied to various data.
以上のように、この発明に係る通信装置は、例えばテレビ電話に適用され、通信後のビデオデータや音声データを再生するのに適している。 As described above, the communication device according to the present invention is applied to, for example, a videophone and is suitable for reproducing video data and audio data after communication.
Claims (8)
受信した符号化受信メディアデータを復号する復号部と、
前記符号化受信メディアデータと前記送信メディアデータを蓄積する蓄積部と、
前記蓄積部で蓄積された符号化受信メディアデータを前記復号部で復号したデータと、前記蓄積部で蓄積された送信メディアデータを合成し、再生データとして出力する合成部とを備えた通信装置。An encoding unit that encodes transmission media data to obtain encoded transmission media data;
A decoding unit for decoding the received encoded received media data;
A storage section for storing the encoded reception media data and the transmission media data;
A communication apparatus comprising: data obtained by decoding the encoded reception media data accumulated in the accumulation unit by the decoding unit; and a synthesis unit that synthesizes transmission media data accumulated in the accumulation unit and outputs the synthesized data.
受信した符号化受信メディアデータを復号する復号部と、
前記符号化受信メディアデータを復号した受信メディアデータと、前記送信メディアデータとを合成し、当該合成したデータを符号化した符号化合成データを生成する編集部と、
前記編集部から出力された符号化合成データを蓄積する蓄積部とを備え、当該蓄積した符号化合成データを前記復号部で復号し再生データとして出力するようにした通信装置。An encoding unit that encodes transmission media data to obtain encoded transmission media data;
A decoding unit for decoding the received encoded received media data;
An editing unit that synthesizes the reception media data obtained by decoding the encoded reception media data and the transmission media data, and generates encoded composite data obtained by encoding the combined data;
And a storage unit that stores the encoded combined data output from the editing unit, and the decoded encoded combined data is decoded by the decoding unit and output as reproduction data.
受信した符号化受信メディアデータを復号する復号部と、
前記符号化受信メディアデータと、前記符号化送信メディアデータとを復号した受信メディアデータと送信メディアデータとを合成し、当該合成したデータを符号化した符号化合成データを生成する編集部と、
前記編集部から出力された符号化合成データを蓄積する蓄積部とを備え、当該蓄積した符号化合成データを前記復号部で復号し再生データとして出力するようにした通信装置。An encoding unit that encodes transmission media data to obtain encoded transmission media data;
A decoding unit for decoding the received encoded received media data;
An editing unit that synthesizes the reception media data and the transmission media data obtained by decoding the encoded reception media data and the encoded transmission media data, and generates encoded composite data obtained by encoding the combined data;
And a storage unit that stores the encoded combined data output from the editing unit, and the decoded encoded combined data is decoded by the decoding unit and output as reproduction data.
受信した符号化受信メディアデータを復号する復号部と、
前記符号化受信メディアデータと、前記符号化送信メディアデータを、これらメディアデータが有効データか否かによっていずれか一方を選択する選択部と、
前記選択部の出力データを蓄積する蓄積部とを備え、当該蓄積したデータを前記復号部で復号し再生データとして出力するようにした通信装置。An encoding unit that encodes transmission media data to obtain encoded transmission media data;
A decoding unit for decoding the received encoded received media data;
A selector that selects one of the encoded reception media data and the encoded transmission media data depending on whether the media data is valid data;
And a storage unit that stores the output data of the selection unit, wherein the stored data is decoded by the decoding unit and output as reproduction data.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2004/008305 WO2005122575A1 (en) | 2004-06-08 | 2004-06-08 | Communication device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2005122575A1 true JPWO2005122575A1 (en) | 2008-04-10 |
Family
ID=35503512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006514390A Pending JPWO2005122575A1 (en) | 2004-06-08 | 2004-06-08 | Communication device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2005122575A1 (en) |
WO (1) | WO2005122575A1 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63250251A (en) * | 1987-04-06 | 1988-10-18 | Matsushita Electric Ind Co Ltd | Digital sound recording and reproducing device for telephone |
JPS6481460A (en) * | 1987-09-22 | 1989-03-27 | Nec Corp | Telephone set |
JPH04132482A (en) * | 1990-09-25 | 1992-05-06 | Sharp Corp | Television telephone set |
JPH10271061A (en) * | 1997-03-25 | 1998-10-09 | Mitsubishi Electric Corp | Digital radio telephone set |
JP2003348222A (en) * | 2002-05-24 | 2003-12-05 | Mitsubishi Electric Corp | Portable telephone set with video telephone function |
-
2004
- 2004-06-08 JP JP2006514390A patent/JPWO2005122575A1/en active Pending
- 2004-06-08 WO PCT/JP2004/008305 patent/WO2005122575A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2005122575A1 (en) | 2005-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5026167B2 (en) | Stream transmission server and stream transmission system | |
JP5026785B2 (en) | Mixing media streams | |
JP2007527128A5 (en) | ||
JP4473260B2 (en) | Telephone communication device | |
TW200917764A (en) | System and method for providing AMR-WB DTX synchronization | |
JP2012151555A (en) | Television conference system, television conference relay device, television conference relay method and relay program | |
KR20070103176A (en) | Wireless terminal and a method for performing video communication service using that | |
JP3014366B2 (en) | Internet telephone communication method and apparatus, and recording medium storing the program | |
JP5086366B2 (en) | Conference terminal device, relay device, and conference system | |
JPWO2005122575A1 (en) | Communication device | |
JP2005157045A (en) | Voice transmission method | |
JP3977784B2 (en) | Real-time packet processing apparatus and method | |
KR20090010385A (en) | Method and apparatus for recording image communication in image communication terminal | |
JP3604817B2 (en) | Voice transmission system and receiving terminal | |
JP3231722B2 (en) | Call recording system, call recording method, and recording medium | |
US20080266381A1 (en) | Selectively privatizing data transmissions in a video conference | |
JP6289178B2 (en) | Call conferencing system | |
JP3300471B2 (en) | Communication control device | |
JP2005057362A (en) | Transmitting/receiving and recording system for voice and picture | |
JP2004343566A (en) | Mobile telephone terminal and program | |
JP3425410B2 (en) | Transmission / reception system | |
WO2005057818A1 (en) | Receiving apparatus and method | |
JP3222226B2 (en) | Decryption device | |
JP3683210B2 (en) | Video / audio transmission system | |
JPH07170505A (en) | Image communication equipment |