JP2005136675A - Video/voice transmitting device and video/voice receiving device - Google Patents
Video/voice transmitting device and video/voice receiving device Download PDFInfo
- Publication number
- JP2005136675A JP2005136675A JP2003370179A JP2003370179A JP2005136675A JP 2005136675 A JP2005136675 A JP 2005136675A JP 2003370179 A JP2003370179 A JP 2003370179A JP 2003370179 A JP2003370179 A JP 2003370179A JP 2005136675 A JP2005136675 A JP 2005136675A
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- header
- encoded data
- time stamp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Receiver Circuits (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
この発明は、映像と音声とをネットワークにて送受信する映像音声送信装置及び映像音声受信装置に関するものである。 The present invention relates to a video / audio transmission device and a video / audio reception device that transmit and receive video and audio over a network.
従来の映像音声送信装置及び映像音声受信装置においては、映像と音声を同時にリアルタイムに送受信する方法として、映像と音声をシステム多重する手段が一般的である。例えば特許文献1によれば、非同期にて別々に入力された映像と音声とシステム多重する場合に、符号化装置にてMPEG2規格であるTS(トランスポートストリーム)フォーマットにて多重して、復号化装置でリアルタイム再生するための時刻情報として、PCR(プログラムカウントリファレンス)と呼ばれるタイムスタンプをTSストリームに重畳して送信していた。通常このPCRは映像と音声のリップシンク(AV同期)を合わせる目的で用いられる。
In conventional video / audio transmission devices and video / audio reception devices, as a method of simultaneously transmitting and receiving video and audio in real time, a means for system-multiplexing video and audio is common. For example, according to
さらに、このTSデータをIPなどによるネットワークにて送受信する場合、例えば非特許文献1によれば、上記タイムスタンプを付加したTSストリームを、別のタイムスタンプを含むRTPヘッダを付加して送受信していた。通常、このタイムスタンプはネットワークジッタを計測したり、データ送信のリアルタイム性を保持する目的で使用される。
従来の映像音声送信装置及び映像音声受信装置は、ネットワーク上で映像と音声をリアルタイムかつAV同期を図りながら送受信するために、TSによるタイムスタンプとRFC2250によるタイムスタンプとの別々の目的で用いられる2種類のタイムスタンプが必要となる。つまり、上記2種類のタイムスタンプを付加するためには、機器構成が複雑となり、また高価になるという課題があった。 The conventional video / audio transmission device and video / audio reception device are used for different purposes of a time stamp by TS and a time stamp by RFC2250 in order to transmit and receive video and audio on a network in real time and with AV synchronization. A type of timestamp is required. That is, in order to add the two types of time stamps, there is a problem that the device configuration is complicated and expensive.
この発明は上記のような課題を解消するためになされたもので、TSによるタイムスタンプを用いなくても、簡単な方法でネットワーク上を送受信させる映像と音声とのAV同期を図ることができる映像音声送信装置及び映像音声受信装置を提供することを目的とする。 The present invention has been made to solve the above-described problems, and can perform AV synchronization between video and audio transmitted / received on a network by a simple method without using a time stamp by TS. An object of the present invention is to provide an audio transmission device and a video / audio reception device.
この発明に係わる映像音声送信装置は、映像信号を符号化して映像符号化データを出力する映像符号化手段と、音声信号を符号化して音声符号化データを出力する音声符号化手段と、上記映像符号化データにネットワーク用の映像ヘッダを付加する映像ヘッダ付加手段と、上記音声符号化データにネットワーク用の音声ヘッダを付加する音声ヘッダ付加手段と、上記映像ヘッダ付加手段及び音声ヘッダ付加手段の各々から映像ヘッダ及び音声ヘッダを付加した映像符号化データ及び/又は音声符号化データを入力してネットワーク上に出力するネットワーク伝送手段と、上記映像ヘッダ及び音声ヘッダに挿入するタイムスタンプ値を提供する共通カウンタとを備えたものである。 The video / audio transmission device according to the present invention includes a video encoding unit that encodes a video signal and outputs video encoded data, an audio encoding unit that encodes an audio signal and outputs audio encoded data, and the video Video header adding means for adding a network video header to the encoded data, audio header adding means for adding a network audio header to the audio encoded data, and each of the video header adding means and the audio header adding means Commonly providing network transmission means for inputting video encoded data and / or audio encoded data with video header and audio header added thereto and outputting them on a network, and a time stamp value to be inserted into the video header and audio header And a counter.
この発明によれば、映像音声送信装置は、共通カウンタが映像ヘッダ及び音声ヘッダに挿入するタイムスタンプ値を提供するので、RTPのタイムスタンプ値を用いて映像信号と音声信号とのAV同期を図ることが可能となる効果がある。 According to the present invention, the video / audio transmission device provides the time stamp value inserted into the video header and the audio header by the common counter, so that the AV synchronization between the video signal and the audio signal is achieved using the RTP time stamp value. There is an effect that becomes possible.
実施の形態1.
以下、この発明の実施の形態を図について説明する。図1はこの発明の実施の形態1に示す映像音声送信装置の構成図、図2は図1に示す映像音声送信装置を用いた映像伝送システムの構成図である。図において、1、3は映像信号、2、4は音声信号、5はネットワーク伝送データ、10は映像側のA/D変換器(以下、映像A/Dと称す)、20は音声側のA/D変換器(以下、音声A/Dと称す)、11は映像符号化部、21は音声符号化部、12、22はイーサネット(R)/IP/UDPヘッダ付加部、13、23はRTP/ヘッダ付加部、14は27MHz発振器、15は300分周期、16、26は32ビットカウンタである。また、27は切り替え部、30はネットワーク伝送部、40はCPU、100及び100−1〜100−3は映像音声送信装置、200はネットワーク伝送路、300−1〜300−3は映像音声受信装置、310はモニタ、320はスピーカである。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a video / audio transmission apparatus according to
また、図3は図1に示すネットワーク伝送データ5の構成図である。先頭にイーサネット(R)ヘッダ、2番目にIPヘッダ、3番目にUDPヘッダ、4番目にRTPヘッダ、最後にペイロードである映像符号化データ又は音声符号化データで構成される。映像符号化部11又は音声符号化部21から出力する映像符号化データ又は音声符号化データは適当なデータ量、例えば2048バイト単位に分割される。また、イーサネット(R)ヘッダ、IPヘッダ、UDPヘッダはイーサネット(R)/IP/UDPヘッダ付加部12又は22が付加し、RTPヘッダはRTP/ヘッダ付加部13又は23が付加する。また、ネットワーク伝送部30は、RTP/ヘッダ付加部13、23から入力したヘッダが付加された映像符号化データ又は音声符号化データに送信先を指定してネットワーク伝送データ5としてパケット単位でネットワーク伝送路200に送信する。
FIG. 3 is a block diagram of the
次に動作について説明するが、最初に映像信号のみを送信する場合について説明する。図2において、カメラ110から出力された映像信号1は、映像音声送信装置100−1に入力される。映像音声送信装置100−1では特に音声を入力せず、映像のみを送信するものとする。この場合、切り替え部27は使用しないため、どちら側になっていても構わない。
Next, the operation will be described. First, a case where only the video signal is transmitted will be described. In FIG. 2, the
映像信号1は、映像A/D10にてデジタル化される。デジタル化された映像信号は、映像符号化部11によってMPEGなどの映像符号化データに圧縮される。この場合、音声とのシステム多重がないためTSによるタイムスタンプは付加しない。圧縮された映像符号化データはIP送信するために、イーサネット(R)/IP/UDPヘッダ付加部12にてイーサネット(R)ヘッダ、IPヘッダ、及びUDPヘッダが付加される。その後RTPヘッダ付加部13にてRTPヘッダを付加し、ネットワーク伝送部30にて送信先を映像音声受信装置300−1とし、ネットワーク伝送データ5としてネットワーク伝送路200に送信する。
また、映像A/D10及び映像符号化部11の動作周波数は27MHz発振器14より供給される27MHzのクロックである。このクロックは、映像A/D10のサンプリング周波数として用いられ、さらに映像符号化部11の動作クロックになる。 The operating frequency of the video A / D 10 and the video encoding unit 11 is a 27 MHz clock supplied from the 27 MHz oscillator 14. This clock is used as a sampling frequency of the video A / D 10 and further becomes an operation clock of the video encoding unit 11.
さらに、この27MHzのクロックは、300分周器15によって90KHzのクロックに分周される。分周されたクロックは32ビットカウンタ16に供給され、32ビットカウンタ16は後述するタイムスタンプ値として供給するカウンタ値のカウント動作を行う。
Further, the 27 MHz clock is divided by the 300 frequency divider 15 into a 90 KHz clock. The divided clock is supplied to the 32-
また、図3に示すようにRTPヘッダの内部には32ビットのタイムスタンプ(Time Stamp)の領域がある。このタイムスタンプの値は、32ビットカウンタ16からのカウンタ値が付加される。すなわち、映像符号化の基準周波数である27MHzから分周された90KHzのカウント値が、RTP/ヘッダ付加部13で挿入するタイムスタンプ値に使用される。
As shown in FIG. 3, the RTP header has a 32-bit time stamp (Time Stamp) area. The counter value from the 32-
ネットワーク伝送データ5として送信された映像符号化データは、ネットワーク伝送路200を通じて映像音声受信装置300−1が受信する。尚、映像音声受信装置300−1〜300−3は、ネットワーク伝送データ5の周波数を検知し、検知した周波数に合わせてパケットを抽出し、RTPヘッダのペイロードタイプ(図3のPT)にて映像符号化データ又は音声符号化データ毎に分離復号を行う装置である。つまり、映像音声受信装置300−1では、入力したネットワーク伝送データ5の周波数を90KHzと検知し、90Khzにてネットワーク伝送データ5を入力し、ペイロードデータである映像符号化データを分離復号して映像信号1を出力し、その映像信号1をモニタ310に出力する。
The encoded video data transmitted as the
次に、音声信号のみを送信する場合について説明する。マイク120から出力された音声信号2は、映像音声送信装置100−2に入力される。映像音声送信装置100−2では特に映像を入力せず、音声のみを送信するものとする。この場合、CPU40は切り替え部27を32ビットカウンタ26側に切り替える。
Next, a case where only an audio signal is transmitted will be described. The
音声信号2は、音声A/D20にてデジタル化される。デジタル化された音声信号は、音声符号化部21によってMPEGやμ―LAWなどの音声符号化データに圧縮される。この場合、映像とのシステム多重がないためTSによるタイムスタンプは付加しない。圧縮された音声符号化データはIP送信するために、イーサネット(R)/IP/UDPヘッダ付加部22にてイーサネット(R)ヘッダ、IPヘッダ、及びUDPヘッダが付加される。その後RTPヘッダ付加部23にてRTPヘッダを付加し、ネットワーク伝送部30にて送信先を映像音声受信装置300−2とし、ネットワーク伝送データ5としてネットワーク伝送路200に送信する。
The
また、音声A/D20と音声符号化部21の動作周波数は8KHz発振器24より供給される8KHzのクロックである。このクロックは、音声A/D20のサンプリング周波数として用いられ、さらに音声符号化部21の動作クロックにもなる。 The operating frequency of the audio A / D 20 and the audio encoding unit 21 is an 8 KHz clock supplied from the 8 KHz oscillator 24. This clock is used as a sampling frequency of the audio A / D 20 and also becomes an operation clock of the audio encoding unit 21.
さらに、この8KHzのクロックは、32ビットカウンタ26に供給され、32ビットカウンタ26はタイムスタンプ値として供給するカウンタ値のカウント動作を行う。
Further, this 8 KHz clock is supplied to the 32-
また、音声の場合もRTPヘッダの内部には32ビットのタイムスタンプの領域がある。このタイムスタンプの値には、32ビットカウンタ26のカウンタ値が付加される。すなわち、音声符号化の基準周波数である8KHzでのカウント値が、RTP/ヘッダ付加部23で挿入するタイムスタンプ値に使用され、ネットワーク伝送データ5として送信される。
Also in the case of voice, there is a 32-bit time stamp area inside the RTP header. The counter value of the 32-
ネットワーク伝送データ5として送信された音声符号化データは、ネットワーク伝送路200を通じて映像音声受信装置300−2が受信する。映像音声受信装置300−2では、入力したネットワーク伝送データ5の周波数を8KHzと検知し、8KHzにてネットワーク伝送データ5を入力し、ペイロードデータである音声符号化データを分離復号して音声信号2を出力し、その音声信号2をスピーカ320に出力する。
The encoded audio data transmitted as the
次に、映像と音声を同時に送信する場合について説明する。図2に示すように、映像音声送信装置100−3にはカメラ110とマイク120とが接続されている。カメラ110から出力された映像信号3とマイク120から出力された音声信号4は、映像音声送信装置100−3に入力される。この場合、CPU40は32ビットカウンタ16側に切り替える。
Next, a case where video and audio are transmitted simultaneously will be described. As shown in FIG. 2, a
映像信号3は、映像A/D10にてデジタル化される。デジタル化された映像信号は、映像符号化部11によってMPEGなどの映像符号化データに圧縮される。圧縮された映像符号化データはIP送信するために、イーサネット(R)/IP/UDPヘッダ付加部12にてイーサネット(R)ヘッダ、IPヘッダ、及びUDPヘッダが付加される。その後RTPヘッダ付加部13にてRTPヘッダが付加される。
The
音声信号4は、音声A/D20にてデジタル化される。デジタル化された音声信号は、音声符号化部21によってMPEGやμ―LAWなどの音声符号化データに圧縮される。圧縮された符号化データはIP送信するために、イーサネット(R)/IP/UDPヘッダ付加部22にてイーサネット(R)ヘッダ、IPヘッダ、及びUDPヘッダが付加される。その後RTPヘッダ付加部23にてRTPヘッダが付加される。
The
また、切り替え部27はCPU40によって32ビットカウンタ16側に切り替えられている。すなわち、映像と音声とを同時に送信する場合、RTP/ヘッダ付加部13、23にて付加するタイムスタンプ値は、映像符号化の基準クロックから分周された90KHzでカウントする32ビットカウンタ16でのカウント値を使用する。これにより、RTPヘッダ付加部13によってRTPヘッダを付加した映像符号化データ、RTPヘッダ付加部23によってRTPヘッダを付加した音声符号化データはネットワーク伝送部30にて送信先を映像音声受信装置300−3とし、ネットワーク伝送データ5としてネットワーク伝送路200に送信する。
The switching unit 27 is switched to the 32-
ネットワーク伝送データ5として送信された映像符号化データ及び音声符号化データは、ネットワーク伝送路200を通じて映像音声受信装置300−3が受信する。映像音声受信装置300−3では、入力したネットワーク伝送データ5の周波数を90KHzと検知し、90KHzにてネットワーク伝送データ5を入力し、ペイロードデータである映像符号化データ及び音声符号化データを各々に分離復号して映像信号3と音声信号4とを出力し、映像信号3をモニタ310に出力し、音声信号4をスピーカ320に出力する。
The video and audio encoded data and audio encoded data transmitted as the
これにより、映像符号化データと音声符号化データのRTPヘッダに挿入されるタイムスタンプ値は、90KHzの同一周波数によるカウント値になるので、映像音声受信装置300−3は、このRTPヘッダのタイムスタンプ値を用いて映像信号3と音声信号4とのAV同期を図ることが可能となる。従来は、RTPのタイムスタンプ以外に特許文献1のような符号化時の映像音声多重のためのTSによるタイムスタンプ値の2種類のタイムスタンプを必要としていた。しかし、本発明では32ビットカウンタ16でのカウント値を使用してRTP/ヘッダ付加部13、23内のタイムスタンプを挿入するため、RTPのタイムスタンプにてネットワーク上のRTPネットワークのジッタ計測やリアルタイム性の保持のみでなく、AV同期の調整も可能になる。
As a result, the time stamp value inserted into the RTP header of the video encoded data and the audio encoded data becomes a count value with the same frequency of 90 KHz, so that the video / audio receiving apparatus 300-3 uses the time stamp of this RTP header. It is possible to achieve AV synchronization between the
つまり、ネットワーク上で映像と音声とをリアルタイムに送受信するために、従来はTS及びRTPの2種類のタイムスタンプを生成する映像音声送信装置及び映像音声受信装置が必要となり、装置構成を複雑にしなければならなかった。しかし、上述の本発明の構成により、RTPのタイムスタンプ値を用いて映像信号3と音声信号4とのAV同期を図ることが可能となり、TSのタイムスタンプを不要とできるので、装置構成を簡単かつ安価にできる効果がある。
In other words, in order to transmit and receive video and audio on a network in real time, conventionally, a video / audio transmission device and a video / audio reception device that generate two types of time stamps of TS and RTP are required, and the device configuration must be complicated. I had to. However, with the above-described configuration of the present invention, it is possible to achieve AV synchronization between the
また、90KHzで動作する32ビットカウンタ16を用いることで映像符号化データと音声符号化データの両方を同時に送信することが可能となる。
Further, by using the 32-
この発明の活用例として、ネットワークを用いた遠隔監視装置に用いることができる。 As an application example of the present invention, it can be used for a remote monitoring device using a network.
11 映像符号化部
12 イーサネット(R)/IP/UDPヘッダ付加部
13 RTP/ヘッダ付加部
14 27MHz発振器
15 300分周器
16 32ビットカウンタ
21 音声符号化部
22 イーサネット(R)/IP/UDPヘッダ付加部
23 RTP/ヘッダ付加部
24 8KHz発振器
26 32ビットカウンタ
27 切り替え部
30 ネットワーク伝送部
100、100−1〜100−3 映像音声送信装置
300−1〜300−3 映像音声受信装置
DESCRIPTION OF SYMBOLS 11 Video encoding part 12 Ethernet (R) / IP / UDP header addition part 13 RTP / header addition part 14 27 MHz oscillator 15 300
24 8
Claims (3)
上記映像符号化データにネットワーク用の映像ヘッダを付加する映像ヘッダ付加手段と、
上記音声符号化データにネットワーク用の音声ヘッダを付加する音声ヘッダ付加手段と、
上記映像ヘッダ付加手段及び音声ヘッダ付加手段の各々から映像ヘッダ及び音声ヘッダを付加した映像符号化データ及び/又は音声符号化データを入力してネットワーク上に出力するネットワーク伝送手段と、
上記映像ヘッダ及び音声ヘッダに挿入するタイムスタンプ値を提供する共通カウンタとを備えたことを特徴とする映像音声送信装置。 Video encoding means for encoding a video signal and outputting video encoded data; audio encoding means for encoding an audio signal and outputting audio encoded data;
Video header adding means for adding a video header for the network to the video encoded data;
Voice header adding means for adding a network voice header to the voice encoded data;
Network transmission means for inputting the video encoded data and / or audio encoded data to which the video header and the audio header are added from each of the video header adding means and the audio header adding means and outputting them on the network;
A video / audio transmission apparatus comprising: a common counter that provides a time stamp value to be inserted into the video header and the audio header.
上記復号した映像信号及び/又は音声信号を出力する場合、映像ヘッダ及び音声ヘッダのタイムスタンプ値によりAV同期を図りながら出力することを特徴とする映像音声受信装置。 The network transmission data is input from the video / audio transmission device according to claim 1, and the video encoded data and / or the audio encoded data is separated and decoded.
A video / audio receiving apparatus, wherein when the decoded video signal and / or audio signal is output, the decoded video signal and / or audio signal is output while performing AV synchronization based on a time stamp value of the video header and the audio header.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003370179A JP2005136675A (en) | 2003-10-30 | 2003-10-30 | Video/voice transmitting device and video/voice receiving device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003370179A JP2005136675A (en) | 2003-10-30 | 2003-10-30 | Video/voice transmitting device and video/voice receiving device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005136675A true JP2005136675A (en) | 2005-05-26 |
Family
ID=34647271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003370179A Pending JP2005136675A (en) | 2003-10-30 | 2003-10-30 | Video/voice transmitting device and video/voice receiving device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005136675A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012010311A (en) * | 2010-05-26 | 2012-01-12 | Sony Corp | Transmitter, transmission method, receiver, reception method and transmission/reception system |
-
2003
- 2003-10-30 JP JP2003370179A patent/JP2005136675A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012010311A (en) * | 2010-05-26 | 2012-01-12 | Sony Corp | Transmitter, transmission method, receiver, reception method and transmission/reception system |
US9787968B2 (en) | 2010-05-26 | 2017-10-10 | Saturn Licensing Llc | Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception system using audio compression data stream as a container of other information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7843974B2 (en) | Audio and video synchronization | |
JP4645856B2 (en) | Protocol conversion system for media communication between packet switching network and circuit switching network | |
US7869420B2 (en) | Method and system for in-band signaling of multiple media streams | |
EP2077669A2 (en) | Transcoder and receiver | |
KR20190029551A (en) | Media data transmission apparatus and method, and media data reception apparatus and method in mmt system | |
KR101151390B1 (en) | Method for transmitting packets in a transmission system | |
JP2002135777A (en) | Decoding-reproducing module of moving picture, control program of reproducing time an receiver of multimedia information | |
US20160029052A1 (en) | Method And Apparatus For Converting Audio, Video And Control Signals | |
JP2014112826A (en) | Method and system for synchronizing audio and video streams in media relay conference | |
JP5419124B2 (en) | Gateway device, communication method and program | |
JP5074834B2 (en) | Audio / video synchronization method, audio / video synchronization system, and audio / video receiving terminal | |
CN101123611B (en) | A transmission method for stream media data | |
JP2010531087A (en) | System and method for transmission of constant bit rate streams | |
JP2007243646A (en) | Redundant voip gateway system | |
JP2007096673A (en) | Ts packet transmitting method | |
JP2005136675A (en) | Video/voice transmitting device and video/voice receiving device | |
EP1998510B1 (en) | Encoded stream sending device | |
WO2013145225A1 (en) | Method, device, and program for encoding and multiplexing, or decoding elementary streams | |
JP2008131591A (en) | Lip-sync control device and lip-sync control method | |
KR101924183B1 (en) | Multimedia transmission apparatus having genlock function | |
JP2010028642A (en) | Image transmission system | |
JP4491448B2 (en) | Call transfer method and call transfer system | |
JP6126676B1 (en) | Private section packet structure, null packet structure and receiving modem | |
CN117221294A (en) | Audio stream transmission method and system | |
JP2009231920A (en) | Content encoding device and content encoding/multiplexing device |